ELEctronic HArdware: Pengaruh tingkat oktaf transformasi wavelet pada pengenalan suara vokal Bahasa Indonesia

PENGARUH TINGKAT OKTAF TRANSFORMASI WAVELET PADA PENGENALAN SUARA VOKAL BAHASA INDONESIA. Transformasi wavelet merupakan sarana yang baru dan populer untuk pemrosesan sinyal, seperti citra dan suara, tetapi transformasi ini belum banyak diaplikasikan untuk pengenalan suara. Dalam praktek, transformasi wavelet digunakan untuk ekstraksi ciri pada pengolah ujung-depan dalam sistem pengenalan suara. Transformasi wavelet sinyal suara menghasilkan resolusi waktu yang baik pada frekuensi tinggi, dan resolusi frekuensi yang bagus pada frekuensi rendah.

Tulisan ini mengungkapkan hasil penelitian terhadap transformasi wavelet ortogonal bentang-terbatas: daubechies, symlets, coiflets dan meyer diskret yang digunakan untuk mengenali vokal bahasa Indonesia (a, e, i, o, dan u). Analisis dilakukan untuk mengetahui pengaruh tingkat oktaf transformasi wavelet untuk pengenalan vokal bahasa Indonesia. Selain itu juga untuk mengetahui wavelet yang memberikan hasil pengenalan vokal yang baik.

Penelitian menunjukkan bahwa tingkat oktaf transformasi wavelet tidak memberikan perbedaan yang berarti pada hasil pengenalan vokal. Wavelet yang memberikan hasil pengenalan vokal baik adalah wavelet berorde rendah.

Kata kunci: wavelet – panjang segmen – pengenalan suara

A. PENGANTAR

Perkembangan teknologi memungkinkan dilakukan pemrosesan suara menggunakan komputer, baik untuk analisis suara (speech analysis) maupun sintesis suara (speech synthesis). Untuk keperluan analisis, sinyal suara analog mula-mula diubah menjadi sinyal digital, sehingga dapat diproses menggunakan komputer. Pengubahan dilakukan dengan cara mencuplik dan menguantisasi contoh (sample) sinyal suara dengan panjang segmen tertentu menggunakan ADC (analog-to-digital converter). Sesuai dengan aturan Nyquist, pencuplikan dapat dilakukan dengan
kecepatan 8 kHz, karena sebagian besar komponen frekuensi sinyal suara yang berarti terkonsentrasi di bawah 4 kHz. Selanjutnya untuk sintesis, sinyal digital hasil pemrosesan diubah kembali menjadi sinyal analog menggunakan DAC (digital-to-analog converter).

Analisis suara memainkan peranan yang penting dalam pengenalan suara (speech recognition) atau pemahaman suara (speech understanding) dan pemeriksaan pembicara (speaker verification) atau identifikasi pembicara (speaker identification).

Pengenalan suara merupakan bagian pengenalan pola (pattern recognition). Jika diberikan ciri yang menggambarkan sifat suatu objek, sistem pengenalan pola dimaksudkan untuk mengenali objek berdasarkan pada pengetahuan yang ada sebelumnya tentang objek. Sistem pengenalan pola biasanya terdiri atas 3 tingkat, yaitu pelatihan (training), pengetesan (testing), dan penerapan (implementation).

Pada tahap pelatihan, sejumlah parameter model diperkirakan, sehingga model dapat belajar menghubungkan ciri dengan label objek. Salah satu kriteria pelatihan adalah memperkecil seluruh perkiraan kesalahan. Pada tahap pengetesan, parameter model disetel menggunakan sejumlah data sah-silang (cross-validation) untuk memperoleh performansi sistem yang baik. Data sah-silang biasanya terdiri atas sejumlah ciri dan label yang berbeda dari data pelatihan. Pengenalan dilakukan dengan menjalankan tahap penerapan, dengan cara melewatkan ciri dengan label yang tidak diketahui ke dalam sistem, dan memberikan hasil label pada keluarannya.

Sebagaimana sistem pengenalan pola pada umumnya, sistem pengenalan suara terdiri atas 2 modul yang terpisah, yaitu pengolah ujung-depan (front-end) atau pengekstraksi ciri (feature extractor) dan pengklasifikasi (classifier) seperti diperlihatkan pada Gambar 1.

Gambar 1 Susunan sistem pengenalan suara

Pengolah ujung-depan bertanggung jawab mengekstraksi ciri data digital suara yang dimasukkan. Bagian ini menghasilkan aliran vektor yang mewakili sifat spektral suara. Pengklasifikasi mengambil ciri yang telah diolah oleh peng-ekstraksi ciri. Ciri tersebut kemudian dicocokkan dengan modelnya atau dihitung kemungkinan statistisnya, tergantung pada algoritma yang dibuat. Sebelum digunakan, pengklasifikasi harus dilatih, sehingga dapat memetakan ciri suatu kelas tertentu ke labelnya.

Dalam penelitian ini, ekstraksi ciri dilakukan dengan mentransformasikan sinyal suara menggunakan wavelet. Transformasi wavelet ini mempunyai karakteristik khusus yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi wavelet sinyal suara menghasilkan resolusi waktu yang baik pada frekuensi tinggi untuk penentuan lokasi awal ucapan dan parameterisasi ciri suara durasi pendek. Selain itu juga resolusi frekuensi yang bagus pada frekuensi rendah untuk meningkatkan resolusi 3 formant terendah, dan memungkinkan untuk pendeteksian pitch (Favero dan King, 1994).. Kemudian dipilih beberapa koefisien untuk mewakili ciri sinyal suara tersebut.

Klasifikasi dilakukan dengan pembelajaran vektor kuantisasi (learning vector quantization/ LVQ), tetapi detil teknisnya tidak dibahas dalam tulisan ini.

B. DASAR TEORI

1. Wavelet

Keluarga wavelet dinyatakan sebagai :

Jadi teori wavelet didasari oleh pembangkitan sejumlah tapis dengan cara menggeser dan menyekala suatu wavelet induk (mother wavelet) berupa tapis pelewat-tengah (band-pass filter). Dengan demikian hanya diperlukan pembangkitan sebuah tapis. Tapis lain mengikuti aturan penyekalaan, baik pada kawasan waktu maupun kawasan frekuensi. Penambahan skala wavelet akan meningkatkan durasi waktu, mengurangi lebar bidang (bandwidth) dan menggeser frekuensi pusat ke nilai frekuensi yang lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi.

Perapatan (0 < a < 1) dan perenggangan (a > 1) akan menyekala tanggapan frekuensi wavelet yang dibangkitkan, sehingga menghasilkan sejumlah wavelet yang mencakup rentang frekuensi yang diinginkan. Kumpulan wavelet ini dapat dianggap sebagai suatu bank tapis (filter bank) untuk tujuan analisis sinyal.

Keuntungan transformasi wavelet adalah bahwa jendelanya bervariasi. Dalam hal untuk mengisolasi ketidakkontinuan sinyal, dapat digunakan fungsi basis yang sangat pendek. Pada saat yang sama, dalam hal untuk analisis frekuensi secara terperinci, dapat digunakan fungsi basis yang sangat panjang.

Secara garis besar, transformasi wavelet dibedakan menjadi 2, yaitu : transformasi wavelet kontinu (continuous wavelet transform/CWT atau integrated wavelet transform/IWT) dan transformasi wavelet versi diskret. Versi diskret ada yang bersifat semi-diskret yang dikenal dengan runtun wavelet (wavelet series), dan ada yang diskret penuh yang dikenal dengan transformasi wavelet diskret (discrete wavelet transform/ DWT).

Transformasi wavelet kontinu mula-mula diperkenalkan oleh Goupillaud, Grossman dan Morlet (Rioul dan Duhamel, 1992). Waktu t serta parameter penyekala a dan penggeser b berubah secara kontinu (dengan a ≠ 0). Transformasi Wavelet Kontinu (TWK) fungsi f(t) didefinisikan dengan:

Sebuah teknik yang efisien untuk mengimplementasikan TWD adalah teknik analisis resolusi-jamak (multi resolution analysis) yang dikembangkan Mallat tahun 1988. Analisis ini membawa kepada transformasi wavelet cepat/TWC (fast wavelet transform/FWT), dan diimplementasikan menggunakan bank tapis.

Sinyal masukan S dilewatkan melalui 2 tapis komplementer (lolos-rendah G dan lolos-tinggi H), dan dicuplik-jarang (downsampling) dengan membuang setiap data kedua, sehingga diperoleh

koefisien pendekatan cA (komponen frekuensi rendah) dan koefisien detil cD (komponen frekuensi tinggi). Proses ini dapat diiterasi dengan cara melanjutkan dekomposisi terhadap koefisien cA. Dengan demikian suatu sinyal dapat dipecah (didekomposisi) menjadi komponen-komponen dengan resolusi yang lebih rendah.

Proses sintesis sebagai kebalikan dari analisis bertujuan merekonstruksi sinyal masukan S koefisien-koefisien cA dan cD dengan cuplik-rapat (upsampling) dan penapisan (dengan tapis H' dan G'). Cuplik-rapat merupakan proses penyisipan nilai nol antar 2 data. Teknik rekonstruksi ini dapat diperluas untuk komponen-komponen analisis resolusi-jamak sampai pada tingkat tertentu.

Proses dekomposisi yang merupakan bagian analisis sinyal dengan transformasi wavelet diskret (TWD), dan rekonstruksi yang merupakan bagian sintesis sinyal dengan transformasi wavelet diskret balik (TWDB) bertingkat sampai oktaf tertentu secara lengkap diperlihatkan pada Gambar 2.

Gambar 2 Dekomposisi-Rekonstruksi sinyal bertingkat

2. Pengolahan Sinyal Suara

Bicara merupakan bentuk komunikasi manusia yang utama dalam kehidupan sehari-hari. Ketika seseorang berbicara, udara dari paru-paru didorong melalui bidang suara dan keluar dari bibir berupa sebuah gelombang. Gelombang akustik ini sampai ke telinga dan dikenali sebagai suara (speech) dengan perbedaan warna bunyi (timbre), periode (pitch), frekuensi resonansi fundamental (formant), dan kekerasan (loudness). Gelombang ini mengandung banyak informasi yang memungkinkan telinga dan otak membedakan ciri dan karakternya, sehingga dapat dikenali dan dipahami. Dengan teknik pemrosesan suara (speech processing), ciri dan karakter gelombang akustik suara dapat dideteksi.

Proses bicara (menghasilkan suara), dibagi menjadi 2 bagian, yaitu pembangkitan dan modulasi, seperti diperlihatkan pada Gambar 3 (Parsons). Pembangkitan terjadi pada celah suara (glotis), sedangkan modulasi dilakukan oleh seperangkat organ dalam bidang suara.

Gambar 3 Model penghasilan suara

Pembangkitan suara dilakukan dengan berbagai cara, yaitu ucapan (phonation), bisikan (whispering), desahan (frication), getaran (vibration), dan mampatan (compression).

Modulasi secara fisiologis adalah bagaimana organ bicara diposisikan untuk menghasilkan suara, sedangkan secara akustis adalah apa yang dilakukan oleh organ bicara terhadap sinyal yang keluar dari celah suara. Prinsip modulasi secara akustis adalah operasi penapisan (filtering). Gelombang celah suara sarat dengan harmonis, sedangkan bidang suara mempunyai frekuensi alami sesuai dengan bentuknya. Frekuensi alami ini disebut formant yang merupakan bagian penting dalam modulasi suara.

C. CARA PENELITIAN

Secara keseluruhan jalan penelitian ditunjukkan pada bagan Gambar 4.

masukan proses pengenalan keluaran

Gambar 4 Bagan penelitian wavelet untuk pengenalan suara

Penelitian ini diawali dengan kegiatan penyiapan bahan dan penyusunan perngkat-keras berupa seperangkat komputer multimedia dengan perangkat-lunak pendukungnya. Selanjutnya dilakukan kegiatan sebagai berikut.

1. Pengambilan data dengan cara merekam suara dari 10 orang pembicara laki-laki yang masing-masing mengucapkan vokal bahasa Indonesia (a, e, i, o, dan u) 10 kali dengan frekuensi cuplik 8 kHz dalam format PCM 8 bit, dan hasilnya berupa berkas (file) dengan ekstensi WAV.

2. Memilih wavelet yang akan digunakan. Wavelet yang digunakan adalah jenis ortogonal dengan bentang terbatas, yaitu daubechies (db1/haar, db2, db4, db8, db12, db20, dan db45), symlets (sym1, sym4, sym8, dan sym12), coiflets (coif1, coif3, dan coif5) dan meyer diskret (dmey).

3. Menentukan teknik ekstraksi ciri. Pemilihan ciri menggunakan wavelet perlu memperhatikan lokalisasi frekuensi-waktu. Frekuensi berkaitan dengan tingkat oktaf, sedangkan waktu berkaitan dengan panjang segmen oktaf. Dalam hal ini tingkat oktaf divariasi dari 1 sampai 9 untuk mengetahui pengaruh tingkat oktaf terhadap pengenalan vokal. Sedangkan panjang segmen dipilih di sekitar periode pitch, yaitu 32 titik.

4. Menentukan teknik klasifikasi menggunakan jaringan syaraf tiruan kuantisasi vektor adaptif dengan sistem pembelajaran kompetitif.

5. Membuat program. Program dibuat dengan Matlab lengkap dengan toolbox-nya yang berbasis sistem operasi Windows. Dalam hal ini dibuat 2 program dan 2 sub-program, yaitu program untuk pelatihan dan pengujian, serta sub-program untuk ekstraksi ciri dan klasifikasi.

6. Melakukan pelatihan dengan cara menjalankan program pelatihan untuk 5 data suara setiap vokal yang dipilih secara acak dari 100 data dengan 2000 epoch.

7. Melakukan pengujian dengan cara menjalankan program pengujian untuk seluruh data suara yang telah direkam (100 data setiap vokal).

D. HASIL PENELITIAN DAN PEMBAHASAN

Tabel 1 memperlihatkan pengaruh tingkat oktaf transformasi wavelet untuk pengenalan vokal bahasa Indonesia.

Pada Tabel 1 tampak bahwa tingkat oktaf tidak memiliki pengaruh yang berarti pada hasil pengenalan. Hal tersebut dapat dijelaskan dengan cacah koefisien wavelet yang digunakan sebagai vektor ciri. Karena transformasi wavelet yang digunakan adalah dyadic yang membagi rentang frekuensi menjadi 2 bagian (komponen frekuensi rendah dan tinggi), maka sejak tingkat pertama telah diperoleh cacah koefisien detil tingkat pertama sekitar separuhnya. Koefisien selanjutnya diperoleh dari dekomposisi koefisien pendekatan pada tingkat berikutnya. Dengan demikian jelaslah mengapa variasi tingkat oktaf tidak memiliki pengaruh yang berarti pada hasil pengenalan, karena separuh cacah koefisien pada detil tingkat pertama sudah cukup berarti sebagai vektor ciri.

Wavelet yang memberikan hasil pengenalan baik adalah wavelet berorde rendah. Hal ini karena karena wavelet berorde rendah mempunyai vanishing moment rendah yang baik untuk pengalokasian frekuensi, sehingga cocok untuk mengenali ciri sinyal pada tingkat oktaf tertentu.

Tabel 1 Pengaruh Tingkat Oktaf Untuk Pengenalan Vokal Bahasa Indonesia

Keterangan: db: daubechies, coif: coiflets dan sym: symlets;

angka di belakang wavelet menunjukkan orde, di belakang – tingkat oktaf.

E. KESIMPULAN

Dari hasil penelitian dan pembahasan dapat diambil kesimpulan sebagai berikut.

1. Tingkat oktaf tidak memberi pengaruh yang berarti pada hasil pengenalan.

2. Wavelet yang cocok dipakai adalah orde rendah.

ELEctronic HArdware

Pages

Wednesday, 30 December 2015

Pengaruh tingkat oktaf transformasi wavelet pada pengenalan suara vokal Bahasa Indonesia

No comments:

Post a Comment