Nearest Neighbour-Based Indonesian G2P Conversion


Nearest Neighbour-Based Indonesian G2P Conversion

 

Author		: SUYANTO; Agus Harjoko
Published on	: Telkomnika (Universitas Ahmad Dahlan - Yogyakarta Indonesia)

 

Abstract

Grapheme-to-phoneme conversion (G2P), yang juga dikenal sebagai letter-to-sound conversion, adalah sebuah modul penting dalam speech synthesis dan speech recognition. Metode-metode G2P memberikan akurasi bervariasi untuk bahasa-bahasa berbeda walaupun mereka dirancang untuk bebas bahasa. Makalah ini mendiskusikan sebuah model berbasis pseudo nearest neighbour rule (PNNR) yang baru untuk G2P bahasa Indonesia. Pada model ini, diusulkan penggunaan partial orthogonal binary code untuk grafem, pembobotan konteks, dan pembobotan ketetanggaan. Pengujian terhadap 9.604 kata yang belum pernah dilatihkan menunjukkan bahwa parameter-parameter model tersebut mudah ditentukan untuk mencapai akurasi tinggi. Pengujian terhadap 123 kalimat yang berisi homograf-homograf menunjukkan bahwa model tersebut mampu mengatasi ambiguitas homograf-homograf jika model tersebut menggunakan konteks grafemis yang lebar. Dibandingkan dengan information gain tree, PNNR memberikan phoneme error rate yang sedikit lebih tinggi, tetapi PNNR dapat menangani homograf.

Leave a Reply

Your email address will not be published. Required fields are marked *