Wednesday 30 December 2015

Pengenalan vokal bahasa indonesia dengan jaringan syaraf tiruan melalui transformasi wavelet diskret

PENGENALAN VOKAL BAHASA INDONESIA DENGAN JARINGAN SYARAF TIRUAN MELALUI TRANSFORMASI WAVELET DISKRET. Transformasi dikenakan pada sinyal untuk memperoleh informasi lebih lanjut yang tidak terdapat pada data mentah (data pada kawasan waktu). Transformasi Wavelet adalah salah satu alat dalam pemrosesan/analisa sinyal. Transformasi Wavelet mampu memberikan informasi waktu dan frekuensi secara bersamaan yang artinya memberikan representasi waktu-frekuensi sebuah sinyal. Jaringan Syaraf Tiruan (JST) banyak diaplikasikan di berbagai bidang seperti pemrosesan sinyal, pengenalan pola, kecerdasan buatan dan lain sebagainya. Fitur kunci JST adalah kemampuan untuk generalisasi dari data pelatihan ke data “baru” yang lain. Pada aplikasi pengenalan vokal bahasa Indonesia (a, i, u, e, dan o) rekaman suara manusia yang melafalkan hanya satu jenis suara vokal ( a saja, i saja dst) dalam format wav ditransformasikan ke kawasan waktu-frekuensi menggunakan Transformasi Wavelet Diskret untuk mendapatkan fitur sinyal. Sinyal tertransformasi tersebut dilatihkan ke JST. Algoritma Learning Vector Quantization (LVQ) diaplikasikan ke jaringan untuk memperbaharui bobot. Hasil pelatihan adalah jaringan dengan nilai bobot yang berbeda dengan nilai bobot awal. Jaringan dievaluasi dengan mensimulasikannya jika masukan berupa data latihan dan data baru (blind data). Hasilnya menunjukkan bahwa persentase pengenalan terhadap data baru lebih rendah dibanding terhadap data latihan. Jaringan dengan persentase pengenalan tertinggi terhadap data latihan didapat dengan kombinasi variabel wavelet Sym2, level dekomposisi 10, dan epoch 500 sebesar 75,4%. Sementara itu jaringan dengan kombinasi variabel wavelet db4, level dekomposisi 10, dan epoch 2000 memberikan tingkat pengenalan tertinggi untuk masukan berupa data baru sebesar 51,9%.
Kata Kunci : Transformasi Wavelet Diskret, Jaringan Syaraf Tiruan, Algoritma LVQ, Wavelet Induk, Epoch

I. PENDAHULUAN
Bidang pengenalan pola (pattern recognition) semakin maju seiring dengan berkembangnya ilmu tentang Jaringan Syaraf Tiruan. Fitur utama yang menjadi alasan digunakannya JST adalah kemampuan untuk belajar dari data pelatihan dan generalisasi ke situasi/kondisi yang baru. Kemampuan belajar bisa dianalogikan
dengan proses manusia belajar mengenali sesuatu. JST memang diilhami oleh cara otak manusia bekerja sehingga bisa menggolongkan/ mengklasifikasikan sesuatu.
Pengenalan vokal adalah sub topik yang mendasar dalam bidang pengenalan pola. Secara umum ada lima macam bunyi vokal yaitu /a/, /i/, /u/, /e/, dan /o/ dimana pengucapan untuk tiap bahasa berbeda-beda.
Agar bisa dikenali tiap vokal terlebih dahulu didapatkan ciri/sifat khasnya dengan menggunakan transformasi, dalam hal ini Transformasi Wavelet Diskret. Hasil transformasi yang merepresentasikan ciri sinyal dilatihkan ke JST.
Untuk memperoleh hasil yang diinginkan, JST dilatih dengan algoritma pelatihan tertentu. Learning Vector Quantization (LVQ) adalah salah satu algoritma pelatihan yang banyak digunakan dalam aplikasi pengklasifikasian/pengenalan.
Dalam makalah ini sistem pengenalan vokal yang dibuat memiliki batasan permasalahan sebagai berikut:
1. Vokal diucapkan dalam bahasa Indonesia
2. Transformasi yang dipakai adalah Transfor- masi Wavelet Diskret dengan wavelet induk haar, db4, dan Sym2
3. Level dekomposisi wavelet adalah 4,6, dan 10
4. Algoritma pelatihan adalah LVQ dengan iterasi sebanyak 500, 1000, dan 2000 kali

II. TEORI DASAR
2.1 Vokal Bahasa Indonesia
Vokal adalah bunyi bahasa yang arus udaranya tidak mengalami rintangan dan kualitasnya ditentukan oleh tiga faktor: tinggi-rendahnya posisi lidah, bagian lidah yang dinaikkan, dan bentuk bibir pada pembentukan vokal tersebut. Saat vokal diucapkan, lidah dapat dinaikkan atau diturunkan bersama rahang. Bagian lidah yang dinaikkan atau diturunkan itu dapat di bagian depan, tengah, atau belakangnya. Dalam bahasa Indonesia terdapat lima vokal yaitu /a/ , /i/ , /u/ , /e/ , dan /o/. Tabel 1 memperlihatkan vokal bahasa Indonesia.
Tabel 1 Vokal bahasa Indonesia

Kualitas vokal juga dipengaruhi bentuk bibir. Untuk vokal tertentu, seperti /a/, bentuk bibir adalah normal, sedangkan untuk vokal /u/ bibir dimajukan sedikit dan bentuknya agak bundar. Untuk vokal /i/ bibir direntangkan ke kiri dan ke kanan sehingga bentuknya melebar. Dengan tiga faktor itu bunyi vokal dapat berciri tinggi, depan, dan bibir terentang, misalnya bunyi /i/, atau tinggi, belakang, dan bibir bundar, misalnya bunyi /u/.

2.2 Transformasi Wavelet Diskret
Transformasi adalah proses merepresentasikan suatu sinyal ke dalam domain/kawasan lain. Tujuan dari transformasi adalah untuk lebih menonjolkan sifat atau karakteristik sinyal tersebut.
Definisi wavelet adalah himpunan fungsi dalam ruang vektor L2I yang mempunyai sifat-sifat (i) berenergi terbatas, (ii) merupakan fungsi band-pass pada domain frekuensi, (iii) merupakan hasil translasi dan dilasi dari sebuah fungsi tunggal, yaitu
Transformasi wavelet dapat dinyatakan sebagai proses merepresentasikan sinyal masukan f(x) kedalam himpunan fungsi-fungsi yang memenuhi syarat-syarat tersebut (wavelet).
Wavelet dapat membentuk keluarga wavelet yaitu wavelet induk (Mother Wavelet) bersama versi tergeser dan teregang/termampatnya. Jika Transformasi Fourier memecah sinyal menjadi sekumpulan sinyal sinus berbagai frekuensi, maka analisa wavelet memecah sinyal menjadi versi tergeser dan versi terskala dari wavelet induk.
Pada Analisa wavelet dikenal faktor skala a yang secara sederhana berarti pemampatan dan peregangan wavelet.
Gambar 1 penskalaan pada fungsi wavelet
Dalam analisa wavelet penskalaan berhubungan dengan frekuensi sinyal dengan hubungan
1. Skala rendah a → Wavelet termampat → perubahan secara cepat → frekuensi tinggi ω
2. Skala tinggi a → Wavelet teregang → perubahan secara lambat → frekuensi rendah ω

Pada kasus Transformasi Wavelet Diskret nilai skala dan posisi didasarkan pada bilangan pangkat dua (skala dan posisi dyadic). Representasi waktu-skala didapat dengan penapisan digital. Sinyal dilewatkan pada tapis lolos atas (high pass filter) untuk menganalisa frekuensi tinggi dan melewatkan pada tapis lolos bawah (low pass filter) untuk menganalisa frekuensi rendah. Hasil penapisan adalah koefisien aproksimasi (komponen frekuensi rendah dan skala tinggi) dan koefisien detil (komponen frekuensi tinggi dan skala rendah).
Gambar 2 Pemfilteran level dasar pada DWT
Gambar 2 merupakan proses mendapatkan koefisien aproksimasi dan detil yang disebut juga dekomposisi. Proses dekomposisi bisa berulang (multiple level decomposition).
Gambar 3 Pohon dekomposisi wavelet
Untuk Gambar 3 bisa dituliskan
S = cA3 + cD3 + cD2 + cD1
atau
cA1 = cA2 + cD2 = cA3 + cD3 + cD2
Hubungan skala a dengan level j dinyatakan a = 2j. Jika resolusi didefinisikan sebagai 1/a , maka resolusi akan naik jika faktor skala berkurang. Hubungan skala dan resolusi ditunjukkan pada Tabel 2
Tabel 2 Hubungan skala dan resolusi

2.3 Jaringan Syaraf Tiruan
JST didefinisikan sebagai sistem komputasi yang didasarkan pada pemodelan saraf biologis (neuron) melalui pendekatan dari sifat-sifat komputasi biologis (biological computation). JST bisa dibayangkan berupa jaringan dengan elemen pemroses sederhana yang saling terhubung. Elemen pemroses berinteraksi melalui sambungan yang variabel, disebut bobot, dan bila diatur secara tepat dapat menghasilkan sifat yang diinginkan.
Model neuron sederhana ditunjukkan gambar berikut:
Gambar 4 Pemodelan neuron

Ide dasar JST adalah konsep belajar. Jaringan belajar melakukan generalisasi karakteristik tingkah laku obyek. Jika dilihat dari sudut pandang manusia, hal ini sama seperti bagaimana manusia belajar sesuatu. Manusia mengenal obyek dengan mengatur otak untuk menggolongkan atau melakukan generalisasi terhadap obyek tersebut.
Manusia menyimpan ilmu pengetahuannya ke dalam otak yang berisikan synapsis, neuron, dan komponen lainnya. JST menyimpan ilmu pengetahuannya dalam nilai bobot sambungan (seperti synapsis dalam otak manusia) dan elemen-elemen (neuron) yang menghasilkan keluaran
Untuk menyelesaikan permasalahan, JST memerlukan algoritma untuk belajar, yaitu bagaimana konfigurasi JST dapat dilatih untuk mempelajari data historis yang ada. Dengan pelatihan ini, pengetahuan yang terdapat pada data bisa diketahui dan direpresentasikan dalam bobot sambungannya.
Jenis algoritma belajar yang ada diantaranya:
a.       Supervised Learning
Algoritma ini diberikan target yang akan dicapai. Contoh: Backprogation Algorithm dan Learning Vector Quantization (LVQ)
b.      Unsupervised Learning
Pada algoritma ini sama sekali tidak disediakan target. Contoh: Carpenter-Grossberg Adaptive Resonance Theory (ART), dan Competitive Learning Algorithm
c.       Reinforcement Learning
Bentuk khusus supervised learning, Contoh: Genetic Algorithm (GA).

Jaringan LVQ merupakan versi supervised dari Algoritma Pembelajaran Kompetitif. Arsitektur jaringan LVQ ditunjukkan gambar berikut:
Gambar 5 Arsitektur jaringan LVQ
Jaringan LVQ terdiri atas dua lapis, lapis kompetitif dan lapis linear. Neuron-neuron pada lapis kompetitif berkompetisi dan menghasilkan neuron pemenang (winning neuron).
Dalam memperbaharui bobot neuron pada lapis kompetitif, jaringan LVQ menggunakan Algoritma Pembelajaran LVQ1 atau LVQ2.1. Algoritma Pembelajaran LVQ1 mempunyai urutan berikut:
1. Menghitung jarak Euclidean antara vektor masukan dan semua bobot neuron pada lapis kompetitif.
2. Neuron dengan jarak yang paling kecil/negatif akan memenangkan kompetisi

Sedangkan Algoritma Pembelajaran LVQ2.1 akan mem- perharui dua vektor bobot lapis kompetitif yang jarak Euclidean-nya paling dekat dengan vektor masukan. Syarat lain agar terjadi pembaharuan adalah:

III. PERANCANGAN DAN IMPLEMENTASI SISTEM
Program pengenalan vokal dibuat dengan alur program berikut
Gambar 6 Bagan alir pembuatan program
Perekaman suara vokal mengambil 20 responden dan mengucapkan kelima vokal dalam bahasa Indonesia. Tiap vokal diambil 5 suara jadi satu responden memiliki 25 data suara rekaman. Data dari 20 responden dibagi dua macam, data 10 responden digunakan untuk pelatihan jaringan dan sisanya untuk pengujian jaringan. Spesifikasi file perekaman adalah format mono, frekuensi cuplikan 8 KHz, dan dikodekan dalam 8 bit.
Data latihan ditransformasiwaveletkan dengan variasi parameter wavelet induk haar, db4, atau Sym2 serta level dekomposisi 4,6, atau 10.
Hasil transformasi dimasukkan ke jaringan LVQ. Sistem pengenalan menggunakan skema Pembagian Pasangan Biner (Binary Pair Partitioned scheme) yaitu satu jaringan digunakan untuk mengklasifikasikan dua vokal yang berbeda. Jika ada 5 buah vokal a, i, u, e, dan o maka diperlukan 10 jaringan dengan kombinasi masukan ai, au, ae, ao, iu, ie, io, ue, uo, dan eo. Pelatihan jaringan memerlukan iterasi (epoch) yang bisa dipilih yaitu 500, 1000, dan 2000.
Hasil pelatihan jaringan diujikan dengan masukan sistem berupa data latihan dan data baru (data selain data latihan). Hasil pengenalan dinyatakan dalam bentuk persentase keseluruhan dari 10 jaringan.
IV. HASIL SIMULASI
Program dibuat dengan bahasa MATLAB versi 5.3. Tampilan program diperlihatkan gambar berikut:
Gambar 7 Tampilan program
Proses pembacaan file wav dilakukan dengan menekan tombol “Read !”. Proses transformasi dilakukan dengan sebelumnya memilih wavelet induk dan level dekomposisi.
Setelah memilih jumlah iterasi maka proses pelatihan jaringan akan dilaksanakan dengan total iterasi sebanyak N x 10, dengan N adalah pilihan iterasi dan 10 menunjukkan jumlah jaringan.
Hasil pengenalan jaringan diketahui dengan menekan tombol “data baru” atau “data latihan” yang menunjukkan jenis data masukan untuk evaluasi jaringan.
Setelah kesemua kombinasi parameter diujikan didapatkan hasil pengenalan sebagai berikut:
Tabel 3 Rata-rata pengenalan jaringan terhadap masukan berupa data latihan
Untuk masukan berupa data latihan, jaringan yang didapat dengan kombinasi parameter Sym2, level 4, dan epoch 500 menghasilkan tingkat pengenalan tertinggi sebesar 75,4%.
Dari Tabel 3, penambahan level dekomposisi akan menurunkan tingkat pengenalan jaringan. Sedangkan jumlah epoch tidak terlalu berpengaruh terhadap tingkat pengenalan jaringan.
Tabel 4 Rata-rata pengenalan jaringan terhadap masukan berupa data baru
Dari Tabel 4, tingkat pengenalan tertinggi dicapai oleh jaringan dengan kombinasi variabel db4, level dekomposisi 10, dan epoch 2000 sebesar 51,9%. Jika dibandingkan dengan Tabel 3, Pengenalan jaringan terhadap data baru selalu lebih rendah dibandingkan dengan data latihan.

V. KESIMPULAN
1. Transformasi Wavelet Diskret dapat digunakan dalam proses pengenalan suara pada bagian pemrosesan awal sinyal untuk mendapatkan informasi/ciri sinyal tersebut.
2. Tingkat dekomposisi pada transformasi wavelet mempengaruhi tingkat pengenalan jaringan yaitu makin tinggi tingkat dekomposisi maka tingkat pengenalan jaringan makin menurun.
3. Jaringan Syaraf LVQ lebih baik jika digunakan untuk klasifikasi dua kelas.
4. Tingkat pengenalan terhadap data latihan lebih tinggi dibanding data baru.
5. Dari hasil pengujian jaringan dengan tingkat pengenalan terbaik untuk data latihan sebesar 75,4% didapatkan dengan kombinasi parameter wavelet Symlets 2, level dekomposisi 4, dan 500 epoch. Sedangkan untuk data baru sebesar 51,9% dengan kombinasi parameter wavelet db4, level dekomposisi 10, dan 2000 epoch. 

No comments:

Post a Comment