ELEctronic HArdware: Pengenalan tutur kata terisolasi menggunakan model Markov tersembunyi

PENGENALAN TUTUR KATA TERISOLASI MENGGUNAKAN MODEL MARKOV TERSEMBUNYI. Sistem pengenalan tutur mempunyai peluang aplikasi yang banyak, seperti pada dialing telepon selular, pengoperasian komputer, pengoperasian mesin-mesin perkakas, sistem keamanan gedung, dan sistem basis data. Penelitian ini bertujuan untuk membuat sistem pengenalan tutur kata-terisolasi bahasa Indonesia menggunakan model Markov tersembunyi (Hidden Markov Model, HMM). Ada 14 kata yang akan dikenali yang masing-masing dimodelkan dengan HMM kiri-kanan. Penelitian dimulai dengan perekaman 200 isyarat tutur dari banyak orang laki-laki maupun perempuan dengan berbagai kelompok umur. Kemudian dilakukan memprosesan ujung depan atau ekstraksi ciri menggunakan analisis penyandian prediksi linear (Linear Prediction Coding, LPC), sehingga diperoleh runtun vektor observasi yang merupakan ciri-ciri isyarat tutur. Dilakukan pelatihan HMM untuk setiap kata, menggunakan runtun observasi masing-masing kata dari 100 tutur pelatihan yang telah direkam. Selanjutnya dilakukan pengujian HMM yang terbentuk, terhadap runtun observasi yang diperoleh dari operasi ekstraksi ciri pada 100 tutur pelatihan, dan 100 tutur pengujian yang telah direkam sebelumnya. Hasil penelitian memperlihatkan bahwa sistem pengenalan tutur menggunakan HMM mampu mengenali isyarat tutur, dengan tingkat keberhasilan yang cukup tinggi. Pengujian terhadap runtun vektor observasi pelatihan untuk HMM dengan cacah keadaan 6 dan 7 memberikan hasil pengenalan yang paling tinggi, yaitu 100%. Pengujian terhadap tutur pengujian memberikan hasil tertinggi untuk HMM dengan cacah keadaan 8, yaitu rata-rata untuk seluruh kata 99,2%.

Kata kunci: pengenalan tutur, kata-terisolasi, HMM, LPC.

PENDAHULUAN

Dengan semakin majunya teknologi, keinginan manusia untuk mendapatkan kemudahan-kemudahan dalam aspek kehidupan semakin meningkat. Salah satu kemudahan yang diinginkan adalah pengoperasian atau pengendalian piranti melalui perintah dengan tutur (lisan) yang memanfaatkan sistem pengenalan tutur. Teknik pemberian perintah melalui tutur ini sudah diaplikasikan dalam dialing telepon selular. Manfaat yang sangat nyata teknik dialing melalui suara ini adalah waktu yang dibutuhkan lebih singkat dan terbebas dari kerja tangan.

Peluang aplikasi lain sistem pengenalan tutur adalah untuk pengoperasian komputer, khususnya untuk operasi-operasi yang sederhana seperti mencari, membuka, menyimpan, menyalin, mengganti, dan menghapus berkas (file). Aplikasi semacam ini
memberikan manfaat yang besar, karena hubungan antara operator dan komputer lebih interaktif dan mengurangi peluang terjadinya kesalahan pengetikan dengan tangan melalui keyboard. Teknik ini akan semakin besar manfaatnya apabila digunakan oleh orang-orang yang cacat tangannya untuk mengoperasikan komputer.

Masih banyak lagi peluang aplikasi pengenalan tutur, seperti pada pengoperasian mesin-mesin perkakas, yaitu mesin bor dan mesin bubut, pada sistem keamanan bangunan misalkan untuk membuka atau menutup pintu, pada sistem basis data untuk memasukkan atau menghapus data, dan untuk memasukkan atau mencocokkan nomor identitas personal pada kartu ATM atau kartu kredit. Pada seluruh kemungkinan aplikasi tersebut diharapkan akan dapat dikurangi kerja tangan atau mata, serta semakin mempercepat dan memudahkan operasi.

Pengenalan isyarat tutur telah menjadi obyek penelitian sejak beberapa dekade tahun yang lalu. (Lea, 1980) telah menulis makalah tentang kecenderungan atau arah dalam pengenalan isyarat tutur. (Mokbel dan Choffet, 1995) telah melakukan penelitian tentang pengenalan kata secara otomatis dalam mobil yang bergerak.

Beberapa penelitian pengenalan isyarat tutur bahasa Indonesia yang telah dilakukan adalah "Pengenalan Bunyi Vokal Berbasis Analisis Peramalan Linear dengan Klasifikasi Menggunakan Jaringan Syaraf Tiruan" oleh (Tjambolang, 1995), "Pengenalan Isyarat Tutur dengan Metode Fungsi Potensial" oleh (Hanto,1995), "Analisis Isyarat Tutur Bunyi Vokal menggunakan Penyandian Prediktif Linear untuk Menentukan Frekuensi Formant" oleh (Prastowo, 1996), dan "Pengenalan Konsonan Frikatif dalam Isyarat Tutur" oleh (Siu, 1997).

Penelitian tentang pengenalan isyarat tutur bahasa Indonesia berupa kata-kata telah dilakukan oleh (Susilowati, 2001) yang menggunakan jaringan syaraf tiruan. Pada penelitian tersebut diperoleh rata-rata tingkat keberhasilan maksimum 84 %. Karena itu dalam penelitian ini akan diteliti proses pengenalan isyarat tutur berupa kata-kata tertentu dalam bahasa Indonesia yang menggunakan model Markov tersembunyi.

Sistem Pengenalan Tutur

Implementasi sistem pengenalan tutur otomatis dengan mesin, dewasa ini dapat dibagi menjadi dua bagian yang utama seperti ditunjukkan dalam Gambar 1 (Mashao,1996). Bagian pertama, yaitu pemodelan isyarat berhubungan dengan metode fungsional yang efisien untuk mengkonversi isyarat tutur menjadi ciri-ciri (features) yang mengandung informasi semantik. Bagian kedua adalah pemodelan statistis berusaha melakukan pengenalan berdasarkan ciri-ciri yang dihasilkan pada pemodelan isyarat. Bagian pemodelan isyarat disebut juga sebagai pemrosesan ujung depan (front-end), dan bagian pemodelan statistis disebut pemrosesan ujung belakang (back-end).

Gambar 1 Diagram kotak sistem pengenalan tutur

Isyarat tutur analog yang akan dikenali, diubah menjadi isyarat digital untuk diproses oleh prosesor digital. Adakalanya sebelum dilakukan pencuplikan dilakukan penapisan dahulu untuk menghilangkan komponen frekuensi tinggi, sehingga tidak terjadi aliasing pada proses pencuplikan. Tapis pelewat rendah ini sering disebut sebagai tapis antialiasing.

Data isyarat tutur digital yang masih sangat besar ini, pada bagian pemodelan isyarat diproses untuk dihasilkan himpunan data ciri-ciri isyarat tutur yang relatif lebih kecil. Ada beberapa metode yang dapat digunakan untuk menghasilkan himpunan ciri-ciri ini, diantaranya adalah analisis spektral dengan bank tapis, analisis spektral dengan penyandian prediksi linear (LPC), analisis dengan alih-ragam Fourier digital (DFT), analisis dengan gelombang-singkat (wavelet), analisis cepstral, dan sebagainya. Karena pada tahap ini dihasilkan runtun ciri-ciri, pemprosesan ini juga biasa disebut sebagai ekstraksi ciri.

Himpunan atau runtun ciri-ciri yang dihasilkan, pada pemrosesan ujung belakang digunakan untuk tahap pelatihan dan pengujian (pengenalan). Pada tahap pelatihan, himpunan ciri-ciri digunakan untuk melatih model statistik, yaitu untuk mereestimasi parameter model, sehingga diperoleh parameter yang paling optimal (menurut kriteria optimisasi tertentu) dapat memodelkan himpunan ciri-ciri pelatihan. Pada tahap pengujian, runtun ciri-ciri pengujian digunakan untuk menghitung probabilitas model yang paling mungkin menghasilkan runtun ciri-ciri tersebut. Model dengan probabilitas paling besar akan diasosiasikan dengan runtun ciri tersebut. Ada beberapa metode dalam pemodelan statistis, diantaranya adalah model Markov tersembunyi, jaringan syaraf tiruan, metode pencocokan template, dan sebagainya.

Sistem HMM untuk pengenalan kata terisolasi

Diasumsikan suatu kosa-kata terdiri atas V kata yang akan dikenali. Setiap kata dimodelkan dengan HMM yang berbeda. Masing-masing kata dalam kosa-kata mempunyai himpunan pelatihan K isyarat tutur kata tersebut (diucapkan oleh satu atau lebih penutur) dengan setiap tutur membentuk sebuah runtun vektor observasi. Untuk melakukan pengenalan tutur kata terisolasi, harus dilakukan hal-hal berikut ini.

Langkah penghitungan probabilitas dilakukan dengan menggunakan algoritma Viterbi. Diagram kotak proses pengenalan ini ditunjukkan pada Gambar 2. Untuk masing-masing kata digunakan model HMM jenis kiri-kanan (left-right HMM) yaitu model yang transisi keadaannya dimulai dari keadaan 1 dan bergerak seiring dengan bertambahnya waktu menuju pada keadaan yang indeksnya lebih besar seperti ditunjukkan pada Gambar 3. Model HMM jenis kiri-kanan ini cocok untuk memodelkan karakteristik isyarat tutur yang berubah terhadap waktu dengan cara yang berurutan (Rabiner, 1989).

Gambar 2. Diagram kotak pengenal kata terisolasi menggunakan HMM

Parameter-parameter yang digunakan untuk mengkarakteristikkan HMM dengan cacah keadaan N yang digunakan dalam penelitian ini adalah sebagai berikut.

Setiap model HMM dapat dinyatakan dalam notasi λ = (A, π, μ, U) dengan A adalah matriks N x N yang elemennya adalah probabilitas transisi keadaan aij, π adalah vektor 1x N dengan elemen adalah probabilitas awal keadaan πi, μ adalah matriks N x 26 dengan setiap baris merupakan vektor rerata pada setiap keadaan, U adalah matriks (26*N) x 26 yang elemen-elemennya adalah kovarians pada setiap keadaan.

Gambar 3. Model HMM jenis kiri-kanan dengan N keadaan

METODE PENELITIAN

Jalannya penelitian dapat dijelaskan melalui tahap-tahap penelitian sebagai berikut.

1. Tahap pertama adalah pengumpulan sampel data dengan melakukan perekaman isyarat tutur dari banyak orang. Setiap isyarat tutur direkam dengan durasi 0,8 detik dengan frekuensi pencuplikan fs = 8000 Hz, sehingga setiap tutur akan terdiri atas 6400 cuplikan. Dilakukan pembuangan komponen DC, dan normalisasi sehingga cuplikan maksimum bernilai mutlak 1. Untuk setiap penutur mengucapkan 14 ucapan sesuai dengan kosa-kata sistem pengenal tutur yang akan dibangun, dan masing-masing tutur disimpan sebagai suatu peubah.

2. Tahap kedua adalah pemprosesan ujung depan terhadap isyarat-isyarat tutur untuk mendapatkan ciri-cirinya. Poses ekstraksi ciri ini dilakukan dengan analisis LPC. Hasil pemprosesan ini berupa runtun vektor ciri atau runtun observasi yang akan diproses pada tahap berikutnya.

3. Tahap ketiga adalah pelatihan model-model HMM untuk 14 kata yang akan dikenali. Model HMM yang akan digunakan untuk memodelkan setiap kata dari 14 kata yang ada, adalah HMM jenis kiri-kanan, yaitu HMM yang transisi keadaannya hanya satu arah dari kiri ke kanan. Untuk ini digunakan rapat observasi keluaran yang kontinyu dengan model rapat observasi gaussian multivariate.

4. Tahap keempat adalah pengujian sistem pengenal tutur yang sudah dibangun. Pada pengujian ini digunakan model HMM yang diperoleh dari hasil pelatihan. Pengujian sistem pengenal tutur dilakukan terhadap isyarat-isyarat tutur yang digunakan dalam pelatihan, dan isyarat tutur yang lain yang tidak digunakan dalam pelatihan.

Seluruh tahapan penelitian ini dilakukan menggunakan program Matlab yang dilengkapi dengan DAQ toolbox (kumpulan fungsi matlab untuk akuisisi data), H2M toolbox (kumpulan fungsi matlab untuk penanganan HMM), dan signal processing toolbox (kumpulan fungsi matlab untuk pengolahan isyarat).

HASIL DAN PEMBAHASAN

Sampel data isyarat tutur yang sudah direkam terdiri atas 200 rekaman yang masing-masing berisi 14 isyarat tutur untuk setiap kata dalam kosa-kata. Ke-200 rekaman tersebut dibagi dalam 2 kelompok masing-masing 100 rekaman yang akan digunakan untuk tahap pelatihan, dan tahap pengujian. Dilakukan ekstraksi ciri terhadap isyarat yang sudah direkam dengan analisis LPC sehingga dihasilkan runtun vektor ciri yang masing-masing mempunyai 26 elemen.

Himpunan vektor-vektor ciri yang dihasilkan pada proses ekstraksi ciri digunakan untuk melatih sistem pengenal tutur yang menggunakan model HMM. Pelatihan model HMM dilakukan secara terbimbing, yaitu digunakan himpunan vektor ciri yang berbeda untuk setiap HMM. Himpunan vektor ciri untuk pelatihan suatu HMM tertentu dihasilkan pada ekstraksi ciri isyarat tutur kata yang sama. Hasil pelatihan untuk setiap model HMM adalah parameter-parameter HMM yang paling optimum memodelkan sifat statistis himpunan vektor ciri pelatihan.

Sistem pengenal tutur kata terisolasi menggunakan HMM yang telah dihasilkan pada tahap pelatihan, diuji dengan dua himpunan isyarat tutur, yaitu himpunan isyarat tutur yang digunakan untuk pelatihan, dan himpunan isyarat tutur yang berbeda dengan isyarat tutur pelatihan. Pengujian ini dilakukan untuk model HMM yang cacah keadaannya divariasi antara 2 sampai 8.

Hasil pengujian terhadap himpunan isyarat tutur pelatihan ditunjukkan pada Tabel 1. Pada hasil tersebut terlihat bahwa secara umum sistem pengenalan tutur telah mampu mengenali himpunan isyarat tutur pelatihan dengan tingkat keberhasilan yang relatif tinggi. Bahkan pada model HMM dengan cacah keadaan 6 dan 7 sistem mampu mengenali 100%. Sedangkan pada model dengan cacah keadaan yang lain tingkat keberhasilan pengenalan sudah lebih dari 98%, kecuali untuk cacah keadaan 2. Jika dilihat masing-masing kata, kata ‘keluar’ tidak pernah salah dikenali, untuk model HMM dengan cacah keadaan 2 sampai 8, diikuti dengan kata ‘turun’ yang hanya 2 kali dikenali salah masing-masing pada model HMM dengan cacah keadaan 2 dan 4. Hasil ini menunjukkan bahwa HMM cukup baik untuk memodelkan sifat-sifat statistis himpunan vektor ciri pelatihan.

Tabel 1. Hasil pengujian terhadap himpunan isyarat tutur pelatihan

Hasil pengujian terhadap himpunan isyarat tutur lain yang tidak digunakan dalam pelatihan ditunjukkan dalam Tabel 2. Hasil pengujian ini juga menunjukkan bahwa sistem pengenal tutur mampu mengenali dengan tingkat pengenalan yang cukup tinggi terhadap isyarat-isyarat yang tidak digunakan dalam pelatihan. Rata-rata tingkat pengenalan tertinggi adalah 99,21% pada model HMM dengan cacah keadaan 8. Secara umum terlihat bahwa tingkat keberhasilan pengenalan isyarat tutur yang tidak digunakan dalam pelatihan hanya sedikit berkurang jika dibandingkan dengan pengenalan terhadap isyarat tutur pelatihan, yaitu tidak lebih dari 2%. Jika dilihat masing-masing kata, kata ‘turun’ dan ‘keluar’ selalu dikenali benar untuk model HMM dengan cacah keadaan 2 sampai 8, diikuti kata ‘salin’ yang hanya 3 kali dikenali salah.

Dari hasil pengujian terhadap dua himpunan isyarat tutur tersebut terlihat sistem pengenal tutur menggunakan HMM ini mampu mengenali dengan cukup baik. Hasil ini menunjukkan bahwa dengan HMM diperoleh hasil yang lebih baik daripada menggunakan jaringan syaraf tiruan seperti yang dilakukan oleh (Susilowati 2001) dengan peningkatan yang cukup berarti.

Tabel 2. Hasil pengujian terhadap himpunan isyarat tutur pengujian

KESIMPULAN

Dari hasil penelitian ini dapat disimpulkan hal-hal sebagai berikut.

1. Telah dapat dibuat sistem pengenalan tutur kata bahasa Indonesia terisolasi menggunakan model Markov tersembunyi jenis kiri-kanan dengan rapat observasi keluaran kontinyu.

2. Hasil pengujian terhadap isyarat tutur pelatihan menunjukkan bahwa tingkat keberhasilan rata-rata tertinggi adalah 100% untuk model HMM dengan cacah keadaan 6 dan 7. Kata ‘keluar’ selalu dikenali dengan benar untuk seluruh model HMM dengan cacah keadaan 2 sampai 8.

3. Hasil pengujian terhadap isyarat tutur yang lain yang tidak digunakan untuk pelatihan menunjukkan bahwa tingkat keberhasilan rata-rata tertinggi adalah 99,21% untuk model HMM dengan cacah keadaan 8. Kata ‘turun’, dan ‘keluar’ selalu dikenali benar pada model HMM dengan cacah keadaan 2 sampai 8.

ELEctronic HArdware

Pages

Wednesday, 30 December 2015

Pengenalan tutur kata terisolasi menggunakan model Markov tersembunyi

No comments:

Post a Comment