PENGARUH TINGKAT OKTAF TRANSFORMASI WAVELET PADA PENGENALAN SUARA VOKAL BAHASA INDONESIA. Transformasi
wavelet merupakan sarana yang baru dan populer untuk pemrosesan sinyal, seperti
citra dan suara, tetapi transformasi ini belum banyak diaplikasikan untuk
pengenalan suara. Dalam praktek, transformasi wavelet digunakan untuk ekstraksi
ciri pada pengolah ujung-depan dalam sistem pengenalan suara. Transformasi
wavelet sinyal suara menghasilkan resolusi waktu yang baik pada frekuensi
tinggi, dan resolusi frekuensi yang bagus pada frekuensi rendah.
Tulisan ini
mengungkapkan hasil penelitian terhadap transformasi wavelet ortogonal
bentang-terbatas: daubechies, symlets, coiflets dan meyer diskret yang
digunakan untuk mengenali vokal bahasa Indonesia (a, e, i, o, dan u). Analisis
dilakukan untuk mengetahui pengaruh tingkat oktaf transformasi wavelet untuk
pengenalan vokal bahasa Indonesia. Selain itu juga untuk mengetahui wavelet
yang memberikan hasil pengenalan vokal yang baik.
Penelitian
menunjukkan bahwa tingkat oktaf transformasi wavelet tidak memberikan perbedaan
yang berarti pada hasil pengenalan vokal. Wavelet yang memberikan hasil
pengenalan vokal baik adalah wavelet berorde rendah.
Kata kunci:
wavelet – panjang segmen – pengenalan suara
A. PENGANTAR
Perkembangan
teknologi memungkinkan dilakukan pemrosesan suara menggunakan komputer, baik untuk
analisis suara (speech analysis) maupun sintesis suara (speech synthesis).
Untuk keperluan analisis, sinyal suara analog mula-mula diubah menjadi sinyal
digital, sehingga dapat diproses menggunakan komputer. Pengubahan dilakukan
dengan cara mencuplik dan menguantisasi contoh (sample) sinyal suara dengan
panjang segmen tertentu menggunakan ADC (analog-to-digital converter). Sesuai
dengan aturan Nyquist, pencuplikan dapat dilakukan dengan
kecepatan 8 kHz, karena sebagian besar komponen frekuensi sinyal suara yang berarti terkonsentrasi di bawah 4 kHz. Selanjutnya untuk sintesis, sinyal digital hasil pemrosesan diubah kembali menjadi sinyal analog menggunakan DAC (digital-to-analog converter).
kecepatan 8 kHz, karena sebagian besar komponen frekuensi sinyal suara yang berarti terkonsentrasi di bawah 4 kHz. Selanjutnya untuk sintesis, sinyal digital hasil pemrosesan diubah kembali menjadi sinyal analog menggunakan DAC (digital-to-analog converter).
Analisis
suara memainkan peranan yang penting dalam pengenalan suara (speech
recognition) atau pemahaman suara (speech understanding) dan pemeriksaan
pembicara (speaker verification) atau identifikasi pembicara (speaker
identification).
Pengenalan
suara merupakan bagian pengenalan pola (pattern recognition). Jika diberikan
ciri yang menggambarkan sifat suatu objek, sistem pengenalan pola dimaksudkan
untuk mengenali objek berdasarkan pada pengetahuan yang ada sebelumnya tentang
objek. Sistem pengenalan pola biasanya terdiri atas 3 tingkat, yaitu pelatihan
(training), pengetesan (testing), dan penerapan (implementation).
Pada
tahap pelatihan, sejumlah parameter model diperkirakan, sehingga model dapat
belajar menghubungkan ciri dengan label objek. Salah satu kriteria pelatihan
adalah memperkecil seluruh perkiraan kesalahan. Pada tahap pengetesan,
parameter model disetel menggunakan sejumlah data sah-silang (cross-validation)
untuk memperoleh performansi sistem yang baik. Data sah-silang biasanya terdiri
atas sejumlah ciri dan label yang berbeda dari data pelatihan. Pengenalan
dilakukan dengan menjalankan tahap penerapan, dengan cara melewatkan ciri
dengan label yang tidak diketahui ke dalam sistem, dan memberikan hasil label
pada keluarannya.
Sebagaimana
sistem pengenalan pola pada umumnya, sistem pengenalan suara terdiri atas 2
modul yang terpisah, yaitu pengolah ujung-depan (front-end) atau pengekstraksi
ciri (feature extractor) dan pengklasifikasi (classifier) seperti diperlihatkan
pada Gambar 1.
Gambar 1 Susunan
sistem pengenalan suara
Pengolah
ujung-depan bertanggung jawab mengekstraksi ciri data digital suara yang
dimasukkan. Bagian ini menghasilkan aliran vektor yang mewakili sifat spektral
suara. Pengklasifikasi mengambil ciri yang telah diolah oleh peng-ekstraksi
ciri. Ciri tersebut kemudian dicocokkan dengan modelnya atau dihitung
kemungkinan statistisnya, tergantung pada algoritma yang dibuat. Sebelum
digunakan, pengklasifikasi harus dilatih, sehingga dapat memetakan ciri suatu
kelas tertentu ke labelnya.
Dalam
penelitian ini, ekstraksi ciri dilakukan dengan mentransformasikan sinyal suara
menggunakan wavelet. Transformasi wavelet ini mempunyai karakteristik khusus
yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi wavelet
sinyal suara menghasilkan resolusi waktu yang baik pada frekuensi tinggi untuk
penentuan lokasi awal ucapan dan parameterisasi ciri suara durasi pendek.
Selain itu juga resolusi frekuensi yang bagus pada frekuensi rendah untuk
meningkatkan resolusi 3 formant terendah, dan memungkinkan untuk pendeteksian
pitch (Favero dan King, 1994).. Kemudian dipilih beberapa koefisien untuk
mewakili ciri sinyal suara tersebut.
Klasifikasi
dilakukan dengan pembelajaran vektor kuantisasi (learning vector quantization/
LVQ), tetapi detil teknisnya tidak dibahas dalam tulisan ini.
B. DASAR TEORI
1.
Wavelet
Keluarga
wavelet dinyatakan sebagai :
Jadi
teori wavelet didasari oleh pembangkitan sejumlah tapis dengan cara menggeser
dan menyekala suatu wavelet induk (mother wavelet) berupa tapis pelewat-tengah
(band-pass filter). Dengan demikian hanya diperlukan pembangkitan sebuah tapis.
Tapis lain mengikuti aturan penyekalaan, baik pada kawasan waktu maupun kawasan
frekuensi. Penambahan skala wavelet akan meningkatkan durasi waktu, mengurangi
lebar bidang (bandwidth) dan menggeser frekuensi pusat ke nilai frekuensi yang
lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah
lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi.
Perapatan
(0 < a < 1) dan perenggangan (a > 1) akan menyekala tanggapan
frekuensi wavelet yang dibangkitkan, sehingga menghasilkan sejumlah wavelet
yang mencakup rentang frekuensi yang diinginkan. Kumpulan wavelet ini dapat
dianggap sebagai suatu bank tapis (filter bank) untuk tujuan analisis sinyal.
Keuntungan
transformasi wavelet adalah bahwa jendelanya bervariasi. Dalam hal untuk mengisolasi
ketidakkontinuan sinyal, dapat digunakan fungsi basis yang sangat pendek. Pada
saat yang sama, dalam hal untuk analisis frekuensi secara terperinci, dapat
digunakan fungsi basis yang sangat panjang.
Secara
garis besar, transformasi wavelet dibedakan menjadi 2, yaitu : transformasi
wavelet kontinu (continuous wavelet transform/CWT atau integrated wavelet
transform/IWT) dan transformasi wavelet versi diskret. Versi diskret ada yang
bersifat semi-diskret yang dikenal dengan runtun wavelet (wavelet series), dan
ada yang diskret penuh yang dikenal dengan transformasi wavelet diskret
(discrete wavelet transform/ DWT).
Transformasi
wavelet kontinu mula-mula diperkenalkan oleh Goupillaud, Grossman dan Morlet
(Rioul dan Duhamel, 1992). Waktu t serta parameter penyekala a dan penggeser b
berubah secara kontinu (dengan a ≠ 0). Transformasi Wavelet Kontinu (TWK)
fungsi f(t) didefinisikan dengan:
Sebuah teknik yang efisien untuk
mengimplementasikan TWD adalah teknik analisis resolusi-jamak (multi resolution
analysis) yang dikembangkan Mallat tahun 1988. Analisis ini membawa kepada
transformasi wavelet cepat/TWC (fast wavelet transform/FWT), dan
diimplementasikan menggunakan bank tapis.
Sinyal
masukan S dilewatkan melalui 2 tapis komplementer (lolos-rendah G dan
lolos-tinggi H), dan dicuplik-jarang (downsampling) dengan membuang setiap data
kedua, sehingga diperoleh
koefisien
pendekatan cA (komponen frekuensi rendah) dan koefisien detil cD (komponen
frekuensi tinggi). Proses ini dapat diiterasi dengan cara melanjutkan
dekomposisi terhadap koefisien cA. Dengan demikian suatu sinyal dapat dipecah
(didekomposisi) menjadi komponen-komponen dengan resolusi yang lebih rendah.
Proses
sintesis sebagai kebalikan dari analisis bertujuan merekonstruksi sinyal
masukan S koefisien-koefisien cA dan cD dengan cuplik-rapat (upsampling) dan
penapisan (dengan tapis H' dan G'). Cuplik-rapat merupakan proses penyisipan
nilai nol antar 2 data. Teknik rekonstruksi ini dapat diperluas untuk
komponen-komponen analisis resolusi-jamak sampai pada tingkat tertentu.
Proses
dekomposisi yang merupakan bagian analisis sinyal dengan transformasi wavelet
diskret (TWD), dan rekonstruksi yang merupakan bagian sintesis sinyal dengan
transformasi wavelet diskret balik (TWDB) bertingkat sampai oktaf tertentu
secara lengkap diperlihatkan pada Gambar 2.
Gambar 2
Dekomposisi-Rekonstruksi sinyal bertingkat
2.
Pengolahan Sinyal Suara
Bicara
merupakan bentuk komunikasi manusia yang utama dalam kehidupan sehari-hari.
Ketika seseorang berbicara, udara dari paru-paru didorong melalui bidang suara
dan keluar dari bibir berupa sebuah gelombang. Gelombang akustik ini sampai ke
telinga dan dikenali sebagai suara (speech) dengan perbedaan warna bunyi
(timbre), periode (pitch), frekuensi resonansi fundamental (formant), dan
kekerasan (loudness). Gelombang ini mengandung banyak informasi yang
memungkinkan telinga dan otak membedakan ciri dan karakternya, sehingga dapat
dikenali dan dipahami. Dengan teknik pemrosesan suara (speech processing), ciri
dan karakter gelombang akustik suara dapat dideteksi.
Proses
bicara (menghasilkan suara), dibagi menjadi 2 bagian, yaitu pembangkitan dan
modulasi, seperti diperlihatkan pada Gambar 3 (Parsons). Pembangkitan terjadi
pada celah suara (glotis), sedangkan modulasi dilakukan oleh seperangkat organ
dalam bidang suara.
Gambar 3 Model
penghasilan suara
Pembangkitan
suara dilakukan dengan berbagai cara, yaitu ucapan (phonation), bisikan
(whispering), desahan (frication), getaran (vibration), dan mampatan
(compression).
Modulasi
secara fisiologis adalah bagaimana organ bicara diposisikan untuk menghasilkan
suara, sedangkan secara akustis adalah apa yang dilakukan oleh organ bicara
terhadap sinyal yang keluar dari celah suara. Prinsip modulasi secara akustis
adalah operasi penapisan (filtering). Gelombang celah suara sarat dengan
harmonis, sedangkan bidang suara mempunyai frekuensi alami sesuai dengan
bentuknya. Frekuensi alami ini disebut formant yang merupakan bagian penting
dalam modulasi suara.
C. CARA
PENELITIAN
Secara
keseluruhan jalan penelitian ditunjukkan pada bagan Gambar 4.
Gambar 4 Bagan
penelitian wavelet untuk pengenalan suara
Penelitian
ini diawali dengan kegiatan penyiapan bahan dan penyusunan perngkat-keras
berupa seperangkat komputer multimedia dengan perangkat-lunak pendukungnya.
Selanjutnya dilakukan kegiatan sebagai berikut.
1.
Pengambilan data dengan cara merekam suara dari 10 orang pembicara laki-laki
yang masing-masing mengucapkan vokal bahasa Indonesia (a, e, i, o, dan u) 10
kali dengan frekuensi cuplik 8 kHz dalam format PCM 8 bit, dan hasilnya berupa
berkas (file) dengan ekstensi WAV.
2.
Memilih wavelet yang akan digunakan. Wavelet yang digunakan adalah jenis
ortogonal dengan bentang terbatas, yaitu daubechies (db1/haar, db2, db4, db8,
db12, db20, dan db45), symlets (sym1, sym4, sym8, dan sym12), coiflets (coif1,
coif3, dan coif5) dan meyer diskret (dmey).
3.
Menentukan teknik ekstraksi ciri. Pemilihan ciri menggunakan wavelet perlu
memperhatikan lokalisasi frekuensi-waktu. Frekuensi berkaitan dengan tingkat
oktaf, sedangkan waktu berkaitan dengan panjang segmen oktaf. Dalam hal ini
tingkat oktaf divariasi dari 1 sampai 9 untuk mengetahui pengaruh tingkat oktaf
terhadap pengenalan vokal. Sedangkan panjang segmen dipilih di sekitar periode
pitch, yaitu 32 titik.
4.
Menentukan teknik klasifikasi menggunakan jaringan syaraf tiruan kuantisasi
vektor adaptif dengan sistem pembelajaran kompetitif.
5.
Membuat program. Program dibuat dengan Matlab lengkap dengan toolbox-nya yang
berbasis sistem operasi Windows. Dalam hal ini dibuat 2 program dan 2
sub-program, yaitu program untuk pelatihan dan pengujian, serta sub-program untuk
ekstraksi ciri dan klasifikasi.
6.
Melakukan pelatihan dengan cara menjalankan program pelatihan untuk 5 data
suara setiap vokal yang dipilih secara acak dari 100 data dengan 2000 epoch.
7.
Melakukan pengujian dengan cara menjalankan program pengujian untuk seluruh
data suara yang telah direkam (100 data setiap vokal).
D. HASIL
PENELITIAN DAN PEMBAHASAN
Tabel
1 memperlihatkan pengaruh tingkat oktaf transformasi wavelet untuk pengenalan
vokal bahasa Indonesia.
Pada
Tabel 1 tampak bahwa tingkat oktaf tidak memiliki pengaruh yang berarti pada
hasil pengenalan. Hal tersebut dapat dijelaskan dengan cacah koefisien wavelet
yang digunakan sebagai vektor ciri. Karena transformasi wavelet yang digunakan
adalah dyadic yang membagi rentang frekuensi menjadi 2 bagian (komponen
frekuensi rendah dan tinggi), maka sejak tingkat pertama telah diperoleh cacah
koefisien detil tingkat pertama sekitar separuhnya. Koefisien selanjutnya
diperoleh dari dekomposisi koefisien pendekatan pada tingkat berikutnya. Dengan
demikian jelaslah mengapa variasi tingkat oktaf tidak memiliki pengaruh yang
berarti pada hasil pengenalan, karena separuh cacah koefisien pada detil
tingkat pertama sudah cukup berarti sebagai vektor ciri.
Wavelet
yang memberikan hasil pengenalan baik adalah wavelet berorde rendah. Hal ini
karena karena wavelet berorde rendah mempunyai vanishing moment rendah yang
baik untuk pengalokasian frekuensi, sehingga cocok untuk mengenali ciri sinyal
pada tingkat oktaf tertentu.
Tabel 1 Pengaruh
Tingkat Oktaf Untuk Pengenalan Vokal Bahasa Indonesia
Keterangan:
db: daubechies, coif: coiflets dan sym: symlets;
angka
di belakang wavelet menunjukkan orde, di belakang – tingkat oktaf.
E. KESIMPULAN
Dari
hasil penelitian dan pembahasan dapat diambil kesimpulan sebagai berikut.
1.
Tingkat oktaf tidak memberi pengaruh yang berarti pada hasil pengenalan.
2.
Wavelet yang cocok dipakai adalah orde rendah.
No comments:
Post a Comment