PENGENALAN VOKAL BAHASA INDONESIA DENGAN JARINGAN SYARAF TIRUAN
MELALUI TRANSFORMASI WAVELET DISKRET. Transformasi dikenakan pada sinyal untuk memperoleh informasi
lebih lanjut yang tidak terdapat pada data mentah (data pada kawasan waktu).
Transformasi Wavelet adalah salah satu alat dalam pemrosesan/analisa sinyal.
Transformasi Wavelet mampu memberikan informasi waktu dan frekuensi secara
bersamaan yang artinya memberikan representasi waktu-frekuensi sebuah sinyal.
Jaringan Syaraf Tiruan (JST) banyak diaplikasikan di berbagai bidang seperti
pemrosesan sinyal, pengenalan pola, kecerdasan buatan dan lain sebagainya.
Fitur kunci JST adalah kemampuan untuk generalisasi dari data pelatihan ke data
“baru” yang lain. Pada aplikasi pengenalan vokal bahasa Indonesia (a, i, u, e,
dan o) rekaman suara manusia yang melafalkan hanya satu jenis suara vokal ( a
saja, i saja dst) dalam format wav ditransformasikan ke kawasan waktu-frekuensi
menggunakan Transformasi Wavelet Diskret untuk mendapatkan fitur sinyal. Sinyal
tertransformasi tersebut dilatihkan ke JST. Algoritma Learning Vector
Quantization (LVQ) diaplikasikan ke jaringan untuk memperbaharui bobot. Hasil
pelatihan adalah jaringan dengan nilai bobot yang berbeda dengan nilai bobot
awal. Jaringan dievaluasi dengan mensimulasikannya jika masukan berupa data
latihan dan data baru (blind data). Hasilnya menunjukkan bahwa persentase
pengenalan terhadap data baru lebih rendah dibanding terhadap data latihan.
Jaringan dengan persentase pengenalan tertinggi terhadap data latihan didapat
dengan kombinasi variabel wavelet Sym2, level dekomposisi 10, dan epoch 500
sebesar 75,4%. Sementara itu jaringan dengan kombinasi variabel wavelet db4,
level dekomposisi 10, dan epoch 2000 memberikan tingkat pengenalan tertinggi
untuk masukan berupa data baru sebesar 51,9%.
Kata
Kunci : Transformasi Wavelet Diskret, Jaringan Syaraf Tiruan, Algoritma LVQ,
Wavelet Induk, Epoch
I.
PENDAHULUAN
Bidang
pengenalan pola (pattern recognition) semakin maju seiring dengan
berkembangnya ilmu tentang Jaringan Syaraf Tiruan. Fitur utama yang menjadi
alasan digunakannya JST adalah kemampuan untuk belajar dari data pelatihan dan
generalisasi ke situasi/kondisi yang baru. Kemampuan belajar bisa dianalogikan
dengan proses manusia belajar mengenali sesuatu. JST memang diilhami oleh cara otak manusia bekerja sehingga bisa menggolongkan/ mengklasifikasikan sesuatu.
dengan proses manusia belajar mengenali sesuatu. JST memang diilhami oleh cara otak manusia bekerja sehingga bisa menggolongkan/ mengklasifikasikan sesuatu.
Pengenalan
vokal adalah sub topik yang mendasar dalam bidang pengenalan pola. Secara umum
ada lima macam bunyi vokal yaitu /a/, /i/, /u/, /e/, dan /o/ dimana pengucapan
untuk tiap bahasa berbeda-beda.
Agar
bisa dikenali tiap vokal terlebih dahulu didapatkan ciri/sifat khasnya dengan
menggunakan transformasi, dalam hal ini Transformasi Wavelet Diskret. Hasil
transformasi yang merepresentasikan ciri sinyal dilatihkan ke JST.
Untuk
memperoleh hasil yang diinginkan, JST dilatih dengan algoritma pelatihan
tertentu. Learning Vector Quantization (LVQ) adalah salah satu algoritma
pelatihan yang banyak digunakan dalam aplikasi pengklasifikasian/pengenalan.
Dalam makalah
ini sistem pengenalan vokal yang dibuat memiliki batasan permasalahan sebagai
berikut:
1. Vokal
diucapkan dalam bahasa Indonesia
2. Transformasi
yang dipakai adalah Transfor- masi Wavelet Diskret dengan wavelet induk haar,
db4, dan Sym2
3. Level
dekomposisi wavelet adalah 4,6, dan 10
4. Algoritma
pelatihan adalah LVQ dengan iterasi sebanyak 500, 1000, dan 2000 kali
II. TEORI DASAR
2.1 Vokal Bahasa Indonesia
Vokal adalah
bunyi bahasa yang arus udaranya tidak mengalami rintangan dan kualitasnya
ditentukan oleh tiga faktor: tinggi-rendahnya posisi lidah, bagian lidah yang
dinaikkan, dan bentuk bibir pada pembentukan vokal tersebut. Saat vokal
diucapkan, lidah dapat dinaikkan atau diturunkan bersama rahang. Bagian lidah
yang dinaikkan atau diturunkan itu dapat di bagian depan, tengah, atau
belakangnya. Dalam bahasa Indonesia terdapat lima vokal yaitu /a/ , /i/ , /u/ ,
/e/ , dan /o/. Tabel 1 memperlihatkan vokal bahasa Indonesia.
Tabel 1 Vokal bahasa
Indonesia
Kualitas vokal juga dipengaruhi bentuk bibir. Untuk vokal
tertentu, seperti /a/, bentuk bibir adalah normal, sedangkan untuk vokal /u/
bibir dimajukan sedikit dan bentuknya agak bundar. Untuk vokal /i/ bibir
direntangkan ke kiri dan ke kanan sehingga bentuknya melebar. Dengan tiga
faktor itu bunyi vokal dapat berciri tinggi, depan, dan bibir
terentang, misalnya bunyi /i/, atau tinggi, belakang, dan bibir
bundar, misalnya bunyi /u/.
2.2
Transformasi Wavelet Diskret
Transformasi adalah proses merepresentasikan suatu sinyal ke dalam
domain/kawasan lain. Tujuan dari transformasi adalah untuk lebih menonjolkan
sifat atau karakteristik sinyal tersebut.
Definisi wavelet adalah himpunan fungsi dalam ruang vektor L2I yang
mempunyai sifat-sifat (i) berenergi terbatas, (ii) merupakan fungsi band-pass
pada domain frekuensi, (iii) merupakan hasil translasi dan dilasi dari
sebuah fungsi tunggal, yaitu
Transformasi wavelet dapat dinyatakan sebagai proses
merepresentasikan sinyal masukan f(x) kedalam himpunan fungsi-fungsi
yang memenuhi syarat-syarat tersebut (wavelet).
Wavelet dapat membentuk keluarga wavelet yaitu wavelet induk (Mother
Wavelet) bersama versi tergeser dan teregang/termampatnya. Jika
Transformasi Fourier memecah sinyal menjadi sekumpulan sinyal sinus berbagai
frekuensi, maka analisa wavelet memecah sinyal menjadi versi tergeser dan versi
terskala dari wavelet induk.
Pada Analisa wavelet dikenal faktor skala a yang secara
sederhana berarti pemampatan dan peregangan wavelet.
Gambar
1 penskalaan pada fungsi wavelet
Dalam analisa wavelet penskalaan berhubungan dengan frekuensi
sinyal dengan hubungan
1. Skala rendah a → Wavelet termampat → perubahan secara
cepat → frekuensi tinggi ω
2. Skala tinggi a → Wavelet teregang → perubahan secara
lambat → frekuensi rendah ω
Pada kasus Transformasi Wavelet Diskret nilai skala dan posisi
didasarkan pada bilangan pangkat dua (skala dan posisi dyadic).
Representasi waktu-skala didapat dengan penapisan digital. Sinyal dilewatkan
pada tapis lolos atas (high pass filter) untuk menganalisa frekuensi
tinggi dan melewatkan pada tapis lolos bawah (low pass filter) untuk
menganalisa frekuensi rendah. Hasil penapisan adalah koefisien aproksimasi
(komponen frekuensi rendah dan skala tinggi) dan koefisien detil (komponen
frekuensi tinggi dan skala rendah).
Gambar
2 Pemfilteran level dasar pada DWT
Gambar 2 merupakan proses mendapatkan koefisien aproksimasi dan
detil yang disebut juga dekomposisi. Proses dekomposisi bisa berulang (multiple
level decomposition).
Gambar
3 Pohon dekomposisi wavelet
Untuk
Gambar 3 bisa dituliskan
S = cA3 + cD3 + cD2 + cD1
atau
cA1 = cA2 + cD2 = cA3 + cD3 + cD2
Hubungan skala a dengan level j dinyatakan a = 2j.
Jika resolusi didefinisikan sebagai 1/a , maka resolusi akan naik jika
faktor skala berkurang. Hubungan skala dan resolusi ditunjukkan pada Tabel 2
Tabel
2 Hubungan skala dan resolusi
2.3
Jaringan Syaraf Tiruan
JST didefinisikan sebagai sistem komputasi yang didasarkan pada
pemodelan saraf biologis (neuron) melalui pendekatan dari sifat-sifat
komputasi biologis (biological computation). JST bisa dibayangkan berupa
jaringan dengan elemen pemroses sederhana yang saling terhubung. Elemen
pemroses berinteraksi melalui sambungan yang variabel, disebut bobot, dan bila
diatur secara tepat dapat menghasilkan sifat yang diinginkan.
Model neuron sederhana ditunjukkan gambar berikut:
Gambar
4 Pemodelan neuron
Ide dasar JST adalah konsep belajar. Jaringan belajar melakukan
generalisasi karakteristik tingkah laku obyek. Jika dilihat dari sudut pandang
manusia, hal ini sama seperti bagaimana manusia belajar sesuatu. Manusia
mengenal obyek dengan mengatur otak untuk menggolongkan atau melakukan
generalisasi terhadap obyek tersebut.
Manusia menyimpan ilmu pengetahuannya ke dalam otak yang berisikan
synapsis, neuron, dan komponen lainnya. JST menyimpan ilmu
pengetahuannya dalam nilai bobot sambungan (seperti synapsis dalam otak
manusia) dan elemen-elemen (neuron) yang menghasilkan keluaran
Untuk menyelesaikan permasalahan, JST memerlukan algoritma untuk
belajar, yaitu bagaimana konfigurasi JST dapat dilatih untuk mempelajari data
historis yang ada. Dengan pelatihan ini, pengetahuan yang terdapat pada data
bisa diketahui dan direpresentasikan dalam bobot sambungannya.
Jenis
algoritma belajar yang ada diantaranya:
a.
Supervised Learning
Algoritma
ini diberikan target yang akan dicapai. Contoh: Backprogation Algorithm dan
Learning Vector Quantization (LVQ)
b. Unsupervised
Learning
Pada algoritma ini sama sekali tidak disediakan target. Contoh: Carpenter-Grossberg
Adaptive Resonance Theory (ART), dan Competitive Learning Algorithm
c. Reinforcement
Learning
Bentuk khusus supervised learning, Contoh: Genetic
Algorithm (GA).
Jaringan LVQ merupakan versi supervised dari Algoritma
Pembelajaran Kompetitif. Arsitektur jaringan LVQ ditunjukkan gambar berikut:
Gambar
5 Arsitektur jaringan LVQ
Jaringan
LVQ terdiri atas dua lapis, lapis kompetitif dan lapis linear. Neuron-neuron
pada lapis kompetitif berkompetisi dan menghasilkan neuron pemenang (winning
neuron).
Dalam memperbaharui bobot neuron pada lapis kompetitif, jaringan
LVQ menggunakan Algoritma Pembelajaran LVQ1 atau LVQ2.1. Algoritma Pembelajaran
LVQ1 mempunyai urutan berikut:
1.
Menghitung jarak Euclidean antara vektor masukan dan semua bobot neuron pada
lapis kompetitif.
2.
Neuron dengan jarak yang paling kecil/negatif akan memenangkan kompetisi
Sedangkan
Algoritma Pembelajaran LVQ2.1 akan mem- perharui dua vektor bobot lapis
kompetitif yang jarak Euclidean-nya paling dekat dengan vektor masukan. Syarat
lain agar terjadi pembaharuan adalah:
III. PERANCANGAN DAN
IMPLEMENTASI SISTEM
Program
pengenalan vokal dibuat dengan alur program berikut
Gambar 6 Bagan alir
pembuatan program
Perekaman suara vokal mengambil 20 responden dan mengucapkan
kelima vokal dalam bahasa Indonesia. Tiap vokal diambil 5 suara jadi satu
responden memiliki 25 data suara rekaman. Data dari 20 responden dibagi dua
macam, data 10 responden digunakan untuk pelatihan jaringan dan sisanya untuk
pengujian jaringan. Spesifikasi file perekaman adalah format mono, frekuensi
cuplikan 8 KHz, dan dikodekan dalam 8 bit.
Data latihan ditransformasiwaveletkan dengan variasi parameter
wavelet induk haar, db4, atau Sym2 serta level dekomposisi 4,6, atau 10.
Hasil transformasi dimasukkan ke jaringan LVQ. Sistem pengenalan
menggunakan skema Pembagian Pasangan Biner (Binary Pair Partitioned scheme)
yaitu satu jaringan digunakan untuk mengklasifikasikan dua vokal yang berbeda.
Jika ada 5 buah vokal a, i, u, e, dan o maka diperlukan 10 jaringan dengan
kombinasi masukan ai, au, ae, ao, iu, ie, io, ue, uo, dan eo. Pelatihan
jaringan memerlukan iterasi (epoch) yang bisa dipilih yaitu 500, 1000, dan
2000.
Hasil
pelatihan jaringan diujikan dengan masukan sistem berupa data latihan dan data
baru (data selain data latihan). Hasil pengenalan dinyatakan dalam bentuk
persentase keseluruhan dari 10 jaringan.
IV. HASIL SIMULASI
Program
dibuat dengan bahasa MATLAB versi 5.3. Tampilan program diperlihatkan gambar
berikut:
Gambar
7 Tampilan program
Proses pembacaan file wav dilakukan dengan menekan tombol “Read
!”. Proses transformasi dilakukan dengan sebelumnya memilih wavelet induk
dan level dekomposisi.
Setelah memilih jumlah iterasi maka proses pelatihan jaringan akan
dilaksanakan dengan total iterasi sebanyak N x 10, dengan N adalah pilihan
iterasi dan 10 menunjukkan jumlah jaringan.
Hasil pengenalan jaringan diketahui dengan menekan tombol “data
baru” atau “data latihan” yang menunjukkan jenis data masukan untuk evaluasi
jaringan.
Setelah kesemua kombinasi parameter diujikan didapatkan hasil
pengenalan sebagai berikut:
Tabel
3 Rata-rata pengenalan jaringan terhadap masukan berupa data latihan
Untuk masukan berupa data latihan, jaringan yang didapat dengan
kombinasi parameter Sym2, level 4, dan epoch 500 menghasilkan tingkat
pengenalan tertinggi sebesar 75,4%.
Dari Tabel 3, penambahan level dekomposisi akan menurunkan tingkat
pengenalan jaringan. Sedangkan jumlah epoch tidak terlalu berpengaruh terhadap
tingkat pengenalan jaringan.
Tabel
4 Rata-rata pengenalan jaringan terhadap masukan berupa data baru
Dari Tabel 4, tingkat pengenalan tertinggi dicapai oleh jaringan
dengan kombinasi variabel db4, level dekomposisi 10, dan epoch 2000 sebesar
51,9%. Jika dibandingkan dengan Tabel 3, Pengenalan jaringan terhadap data baru
selalu lebih rendah dibandingkan dengan data latihan.
V.
KESIMPULAN
1. Transformasi Wavelet Diskret dapat digunakan dalam proses
pengenalan suara pada bagian pemrosesan awal sinyal untuk mendapatkan
informasi/ciri sinyal tersebut.
2. Tingkat dekomposisi pada transformasi wavelet mempengaruhi
tingkat pengenalan jaringan yaitu makin tinggi tingkat dekomposisi maka tingkat
pengenalan jaringan makin menurun.
3. Jaringan Syaraf LVQ lebih baik jika digunakan untuk klasifikasi
dua kelas.
4. Tingkat pengenalan terhadap data latihan lebih tinggi dibanding
data baru.
5. Dari hasil pengujian jaringan dengan tingkat pengenalan terbaik
untuk data latihan sebesar 75,4% didapatkan dengan kombinasi parameter wavelet
Symlets 2, level dekomposisi 4, dan 500 epoch. Sedangkan untuk data baru
sebesar 51,9% dengan kombinasi parameter wavelet db4, level dekomposisi 10, dan
2000 epoch.
No comments:
Post a Comment