PENGENALAN TUTUR
KATA TERISOLASI MENGGUNAKAN
MODEL MARKOV TERSEMBUNYI. Sistem
pengenalan tutur mempunyai peluang aplikasi yang banyak, seperti pada dialing
telepon selular, pengoperasian komputer, pengoperasian mesin-mesin perkakas,
sistem keamanan gedung, dan sistem basis data. Penelitian ini bertujuan untuk
membuat sistem pengenalan tutur kata-terisolasi bahasa Indonesia menggunakan
model Markov tersembunyi (Hidden Markov Model, HMM). Ada 14 kata yang akan
dikenali yang masing-masing dimodelkan dengan HMM kiri-kanan. Penelitian
dimulai dengan perekaman 200 isyarat tutur dari banyak orang laki-laki maupun
perempuan dengan berbagai kelompok umur. Kemudian dilakukan memprosesan ujung
depan atau ekstraksi ciri menggunakan analisis penyandian prediksi linear
(Linear Prediction Coding, LPC), sehingga diperoleh runtun vektor observasi
yang merupakan ciri-ciri isyarat tutur. Dilakukan pelatihan HMM untuk setiap
kata, menggunakan runtun observasi masing-masing kata dari 100 tutur pelatihan
yang telah direkam. Selanjutnya dilakukan pengujian HMM yang terbentuk,
terhadap runtun observasi yang diperoleh dari operasi ekstraksi ciri pada 100
tutur pelatihan, dan 100 tutur pengujian yang telah direkam sebelumnya. Hasil
penelitian memperlihatkan bahwa sistem pengenalan tutur menggunakan HMM mampu
mengenali isyarat tutur, dengan tingkat keberhasilan yang cukup tinggi.
Pengujian terhadap runtun vektor observasi pelatihan untuk HMM dengan cacah
keadaan 6 dan 7 memberikan hasil pengenalan yang paling tinggi, yaitu 100%.
Pengujian terhadap tutur pengujian memberikan hasil tertinggi untuk HMM dengan cacah
keadaan 8, yaitu rata-rata untuk seluruh kata 99,2%.
Kata kunci: pengenalan tutur, kata-terisolasi, HMM,
LPC.
PENDAHULUAN
Dengan
semakin majunya teknologi, keinginan manusia untuk mendapatkan
kemudahan-kemudahan dalam aspek kehidupan semakin meningkat. Salah satu
kemudahan yang diinginkan adalah pengoperasian atau pengendalian piranti
melalui perintah dengan tutur (lisan) yang memanfaatkan sistem pengenalan
tutur. Teknik pemberian perintah melalui tutur ini sudah diaplikasikan dalam
dialing telepon selular. Manfaat yang sangat nyata teknik dialing melalui suara
ini adalah waktu yang dibutuhkan lebih singkat dan terbebas dari kerja tangan.
Peluang
aplikasi lain sistem pengenalan tutur adalah untuk pengoperasian komputer,
khususnya untuk operasi-operasi yang sederhana seperti mencari, membuka,
menyimpan, menyalin, mengganti, dan menghapus berkas (file). Aplikasi semacam
ini
memberikan manfaat yang besar, karena hubungan antara operator dan komputer lebih interaktif dan mengurangi peluang terjadinya kesalahan pengetikan dengan tangan melalui keyboard. Teknik ini akan semakin besar manfaatnya apabila digunakan oleh orang-orang yang cacat tangannya untuk mengoperasikan komputer.
memberikan manfaat yang besar, karena hubungan antara operator dan komputer lebih interaktif dan mengurangi peluang terjadinya kesalahan pengetikan dengan tangan melalui keyboard. Teknik ini akan semakin besar manfaatnya apabila digunakan oleh orang-orang yang cacat tangannya untuk mengoperasikan komputer.
Masih
banyak lagi peluang aplikasi pengenalan tutur, seperti pada pengoperasian
mesin-mesin perkakas, yaitu mesin bor dan mesin bubut, pada sistem keamanan
bangunan misalkan untuk membuka atau menutup pintu, pada sistem basis data
untuk memasukkan atau menghapus data, dan untuk memasukkan atau mencocokkan
nomor identitas personal pada kartu ATM atau kartu kredit. Pada seluruh
kemungkinan aplikasi tersebut diharapkan akan dapat dikurangi kerja tangan atau
mata, serta semakin mempercepat dan memudahkan operasi.
Pengenalan
isyarat tutur telah menjadi obyek penelitian sejak beberapa dekade tahun yang
lalu. (Lea, 1980) telah menulis makalah tentang kecenderungan atau arah dalam
pengenalan isyarat tutur. (Mokbel dan Choffet, 1995) telah melakukan penelitian
tentang pengenalan kata secara otomatis dalam mobil yang bergerak.
Beberapa
penelitian pengenalan isyarat tutur bahasa Indonesia yang telah dilakukan
adalah "Pengenalan Bunyi Vokal Berbasis Analisis Peramalan Linear dengan
Klasifikasi Menggunakan Jaringan Syaraf Tiruan" oleh (Tjambolang, 1995),
"Pengenalan Isyarat Tutur dengan Metode Fungsi Potensial" oleh
(Hanto,1995), "Analisis Isyarat Tutur Bunyi Vokal menggunakan Penyandian
Prediktif Linear untuk Menentukan Frekuensi Formant" oleh (Prastowo,
1996), dan "Pengenalan Konsonan Frikatif dalam Isyarat Tutur" oleh
(Siu, 1997).
Penelitian
tentang pengenalan isyarat tutur bahasa Indonesia berupa kata-kata telah
dilakukan oleh (Susilowati, 2001) yang menggunakan jaringan syaraf tiruan. Pada
penelitian tersebut diperoleh rata-rata tingkat keberhasilan maksimum 84 %.
Karena itu dalam penelitian ini akan diteliti proses pengenalan isyarat tutur
berupa kata-kata tertentu dalam bahasa Indonesia yang menggunakan model Markov
tersembunyi.
Sistem
Pengenalan Tutur
Implementasi
sistem pengenalan tutur otomatis dengan mesin, dewasa ini dapat dibagi menjadi
dua bagian yang utama seperti ditunjukkan dalam Gambar 1 (Mashao,1996). Bagian
pertama, yaitu pemodelan isyarat berhubungan dengan metode fungsional yang
efisien untuk mengkonversi isyarat tutur menjadi ciri-ciri (features) yang
mengandung informasi semantik. Bagian kedua adalah pemodelan statistis berusaha
melakukan pengenalan berdasarkan ciri-ciri yang dihasilkan pada pemodelan
isyarat. Bagian pemodelan isyarat disebut juga sebagai pemrosesan ujung depan
(front-end), dan bagian pemodelan statistis disebut pemrosesan ujung belakang
(back-end).
Gambar 1 Diagram
kotak sistem pengenalan tutur
Isyarat
tutur analog yang akan dikenali, diubah menjadi isyarat digital untuk diproses
oleh prosesor digital. Adakalanya sebelum dilakukan pencuplikan dilakukan
penapisan dahulu untuk menghilangkan komponen frekuensi tinggi, sehingga tidak
terjadi aliasing pada proses pencuplikan. Tapis pelewat rendah ini sering
disebut sebagai tapis antialiasing.
Data
isyarat tutur digital yang masih sangat besar ini, pada bagian pemodelan
isyarat diproses untuk dihasilkan himpunan data ciri-ciri isyarat tutur yang
relatif lebih kecil. Ada beberapa metode yang dapat digunakan untuk
menghasilkan himpunan ciri-ciri ini, diantaranya adalah analisis spektral
dengan bank tapis, analisis spektral dengan penyandian prediksi linear (LPC),
analisis dengan alih-ragam Fourier digital (DFT), analisis dengan
gelombang-singkat (wavelet), analisis cepstral, dan sebagainya. Karena pada
tahap ini dihasilkan runtun ciri-ciri, pemprosesan ini juga biasa disebut
sebagai ekstraksi ciri.
Himpunan
atau runtun ciri-ciri yang dihasilkan, pada pemrosesan ujung belakang digunakan
untuk tahap pelatihan dan pengujian (pengenalan). Pada tahap pelatihan,
himpunan ciri-ciri digunakan untuk melatih model statistik, yaitu untuk
mereestimasi parameter model, sehingga diperoleh parameter yang paling optimal
(menurut kriteria optimisasi tertentu) dapat memodelkan himpunan ciri-ciri
pelatihan. Pada tahap pengujian, runtun ciri-ciri pengujian digunakan untuk
menghitung probabilitas model yang paling mungkin menghasilkan runtun ciri-ciri
tersebut. Model dengan probabilitas paling besar akan diasosiasikan dengan
runtun ciri tersebut. Ada beberapa metode dalam pemodelan statistis,
diantaranya adalah model Markov tersembunyi, jaringan syaraf tiruan, metode
pencocokan template, dan sebagainya.
Sistem HMM untuk
pengenalan kata terisolasi
Diasumsikan
suatu kosa-kata terdiri atas V kata yang akan dikenali. Setiap kata dimodelkan
dengan HMM yang berbeda. Masing-masing kata dalam kosa-kata mempunyai himpunan
pelatihan K isyarat tutur kata tersebut (diucapkan oleh satu atau lebih
penutur) dengan setiap tutur membentuk sebuah runtun vektor observasi. Untuk
melakukan pengenalan tutur kata terisolasi, harus dilakukan hal-hal berikut
ini.
Langkah
penghitungan probabilitas dilakukan dengan menggunakan algoritma Viterbi.
Diagram kotak proses pengenalan ini ditunjukkan pada Gambar 2. Untuk
masing-masing kata digunakan model HMM jenis kiri-kanan (left-right HMM) yaitu
model yang transisi keadaannya dimulai dari keadaan 1 dan bergerak seiring
dengan bertambahnya waktu menuju pada keadaan yang indeksnya lebih besar
seperti ditunjukkan pada Gambar 3. Model HMM jenis kiri-kanan ini cocok untuk
memodelkan karakteristik isyarat tutur yang berubah terhadap waktu dengan cara
yang berurutan (Rabiner, 1989).
Gambar 2.
Diagram kotak pengenal kata terisolasi menggunakan HMM
Parameter-parameter
yang digunakan untuk mengkarakteristikkan HMM dengan cacah keadaan N yang
digunakan dalam penelitian ini adalah sebagai berikut.
Setiap
model HMM dapat dinyatakan dalam notasi λ = (A, π, μ, U) dengan A adalah
matriks N x N yang elemennya adalah probabilitas transisi keadaan aij, π adalah
vektor 1x N dengan elemen adalah probabilitas awal keadaan πi, μ adalah matriks
N x 26 dengan setiap baris merupakan vektor rerata pada setiap keadaan, U
adalah matriks (26*N) x 26 yang elemen-elemennya adalah kovarians pada setiap keadaan.
Gambar 3. Model
HMM jenis kiri-kanan dengan N keadaan
METODE
PENELITIAN
Jalannya
penelitian dapat dijelaskan melalui tahap-tahap penelitian sebagai berikut.
1.
Tahap pertama adalah pengumpulan sampel data dengan melakukan perekaman isyarat
tutur dari banyak orang. Setiap isyarat tutur direkam dengan durasi 0,8 detik
dengan frekuensi pencuplikan fs = 8000 Hz, sehingga setiap tutur akan terdiri
atas 6400 cuplikan. Dilakukan pembuangan komponen DC, dan normalisasi sehingga
cuplikan maksimum bernilai mutlak 1. Untuk setiap penutur mengucapkan 14 ucapan
sesuai dengan kosa-kata sistem pengenal tutur yang akan dibangun, dan
masing-masing tutur disimpan sebagai suatu peubah.
2.
Tahap kedua adalah pemprosesan ujung depan terhadap isyarat-isyarat tutur untuk
mendapatkan ciri-cirinya. Poses ekstraksi ciri ini dilakukan dengan analisis
LPC. Hasil pemprosesan ini berupa runtun vektor ciri atau runtun observasi yang
akan diproses pada tahap berikutnya.
3.
Tahap ketiga adalah pelatihan model-model HMM untuk 14 kata yang akan dikenali.
Model HMM yang akan digunakan untuk memodelkan setiap kata dari 14 kata yang
ada, adalah HMM jenis kiri-kanan, yaitu HMM yang transisi keadaannya hanya satu
arah dari kiri ke kanan. Untuk ini digunakan rapat observasi keluaran yang
kontinyu dengan model rapat observasi gaussian multivariate.
4.
Tahap keempat adalah pengujian sistem pengenal tutur yang sudah dibangun. Pada
pengujian ini digunakan model HMM yang diperoleh dari hasil pelatihan.
Pengujian sistem pengenal tutur dilakukan terhadap isyarat-isyarat tutur yang
digunakan dalam pelatihan, dan isyarat tutur yang lain yang tidak digunakan
dalam pelatihan.
Seluruh
tahapan penelitian ini dilakukan menggunakan program Matlab yang dilengkapi
dengan DAQ toolbox (kumpulan fungsi matlab untuk akuisisi data), H2M toolbox
(kumpulan fungsi matlab untuk penanganan HMM), dan signal processing toolbox
(kumpulan fungsi matlab untuk pengolahan isyarat).
HASIL DAN
PEMBAHASAN
Sampel
data isyarat tutur yang sudah direkam terdiri atas 200 rekaman yang
masing-masing berisi 14 isyarat tutur untuk setiap kata dalam kosa-kata. Ke-200
rekaman tersebut dibagi dalam 2 kelompok masing-masing 100 rekaman yang akan
digunakan untuk tahap pelatihan, dan tahap pengujian. Dilakukan ekstraksi ciri
terhadap isyarat yang sudah direkam dengan analisis LPC sehingga dihasilkan
runtun vektor ciri yang masing-masing mempunyai 26 elemen.
Himpunan
vektor-vektor ciri yang dihasilkan pada proses ekstraksi ciri digunakan untuk
melatih sistem pengenal tutur yang menggunakan model HMM. Pelatihan model HMM
dilakukan secara terbimbing, yaitu digunakan himpunan vektor ciri yang berbeda
untuk setiap HMM. Himpunan vektor ciri untuk pelatihan suatu HMM tertentu
dihasilkan pada ekstraksi ciri isyarat tutur kata yang sama. Hasil pelatihan
untuk setiap model HMM adalah parameter-parameter HMM yang paling optimum
memodelkan sifat statistis himpunan vektor ciri pelatihan.
Sistem
pengenal tutur kata terisolasi menggunakan HMM yang telah dihasilkan pada tahap
pelatihan, diuji dengan dua himpunan isyarat tutur, yaitu himpunan isyarat
tutur yang digunakan untuk pelatihan, dan himpunan isyarat tutur yang berbeda
dengan isyarat tutur pelatihan. Pengujian ini dilakukan untuk model HMM yang
cacah keadaannya divariasi antara 2 sampai 8.
Hasil
pengujian terhadap himpunan isyarat tutur pelatihan ditunjukkan pada Tabel 1.
Pada hasil tersebut terlihat bahwa secara umum sistem pengenalan tutur telah
mampu mengenali himpunan isyarat tutur pelatihan dengan tingkat keberhasilan
yang relatif tinggi. Bahkan pada model HMM dengan cacah keadaan 6 dan 7 sistem
mampu mengenali 100%. Sedangkan pada model dengan cacah keadaan yang lain tingkat
keberhasilan pengenalan sudah lebih dari 98%, kecuali untuk cacah keadaan 2.
Jika dilihat masing-masing kata, kata ‘keluar’ tidak pernah salah dikenali,
untuk model HMM dengan cacah keadaan 2 sampai 8, diikuti dengan kata ‘turun’
yang hanya 2 kali dikenali salah masing-masing pada model HMM dengan cacah
keadaan 2 dan 4. Hasil ini menunjukkan bahwa HMM cukup baik untuk memodelkan
sifat-sifat statistis himpunan vektor ciri pelatihan.
Tabel 1. Hasil
pengujian terhadap himpunan isyarat tutur pelatihan
Hasil
pengujian terhadap himpunan isyarat tutur lain yang tidak digunakan dalam
pelatihan ditunjukkan dalam Tabel 2. Hasil pengujian ini juga menunjukkan bahwa
sistem pengenal tutur mampu mengenali dengan tingkat pengenalan yang cukup
tinggi terhadap isyarat-isyarat yang tidak digunakan dalam pelatihan. Rata-rata
tingkat pengenalan tertinggi adalah 99,21% pada model HMM dengan cacah keadaan
8. Secara umum terlihat bahwa tingkat keberhasilan pengenalan isyarat tutur
yang tidak digunakan dalam pelatihan hanya sedikit berkurang jika dibandingkan
dengan pengenalan terhadap isyarat tutur pelatihan, yaitu tidak lebih dari 2%.
Jika dilihat masing-masing kata, kata ‘turun’ dan ‘keluar’ selalu dikenali
benar untuk model HMM dengan cacah keadaan 2 sampai 8, diikuti kata ‘salin’
yang hanya 3 kali dikenali salah.
Dari
hasil pengujian terhadap dua himpunan isyarat tutur tersebut terlihat sistem
pengenal tutur menggunakan HMM ini mampu mengenali dengan cukup baik. Hasil ini
menunjukkan bahwa dengan HMM diperoleh hasil yang lebih baik daripada
menggunakan jaringan syaraf tiruan seperti yang dilakukan oleh (Susilowati
2001) dengan peningkatan yang cukup berarti.
Tabel 2. Hasil
pengujian terhadap himpunan isyarat tutur pengujian
KESIMPULAN
Dari
hasil penelitian ini dapat disimpulkan hal-hal sebagai berikut.
1.
Telah dapat dibuat sistem pengenalan tutur kata bahasa Indonesia terisolasi
menggunakan model Markov tersembunyi jenis kiri-kanan dengan rapat observasi
keluaran kontinyu.
2.
Hasil pengujian terhadap isyarat tutur pelatihan menunjukkan bahwa tingkat
keberhasilan rata-rata tertinggi adalah 100% untuk model HMM dengan cacah
keadaan 6 dan 7. Kata ‘keluar’ selalu dikenali dengan benar untuk seluruh model
HMM dengan cacah keadaan 2 sampai 8.
3.
Hasil pengujian terhadap isyarat tutur yang lain yang tidak digunakan untuk
pelatihan menunjukkan bahwa tingkat keberhasilan rata-rata tertinggi adalah
99,21% untuk model HMM dengan cacah keadaan 8. Kata ‘turun’, dan ‘keluar’
selalu dikenali benar pada model HMM dengan cacah keadaan 2 sampai 8.
No comments:
Post a Comment