Wednesday 23 July 2014

Arsitektur Mesin Penerjemah Statistik Moses

Moses is a statistical machine translation system that allows you to automatically train translation models for any language pair. All you need is a collection of translated texts (parallel corpus). Once you have a trained model, an efficient search algorithm quickly finds the highest probability translation among the exponential number of choices.(http://www.statmt.org/moses/)


Secara umum, arsitektur mesin penerjemah statistik Moses seperti pada gambar berikut : 


Sumber data utama yang dipergunakan adalah parallel corpus dan monolingual corpus. Proses training terhadap parallel corpus menggunakan GIZA++ menghasilkan translation model (TM). Proses training terhadap bahasa target pada parallel corpus ditambah dengan monolingual monolingual corpus bahasa target menggunakan SRILM menghasilkan language model (LM), sedangkan PoS model (PoS-M) dihasilkan dari bahasa target pada parallel corpus yang setiap katanya sudah ditandai dengan PoS. TM, LM dan PoS-M hasil proses di atas digunakan untuk menghasilkan decoder Moses. Selanjutnya Moses digunakan sebagai mesin penerjemah untuk menghasilkan bahasa target dari input kalimat dalam bahasa sumber.

catatan : PoS Model merupakan salah satu fitur linguistik yang dapat digunakan pada moses, fitur lain yang dapat digunakan seperti lemma, gender, proses pembentukan kata (morfem) dan lain-lain.