Korpus
paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam
suatu bahasa dan terjemahannya. Korpus paralel merupakan bahan penting untuk melakukan eksperimen-eksperimen dalam bidang pemrosesan bahasa alami.
Korpus paralel banyak tersimpan dalam "hard disk" para peneliti, tapi sangat sedikit yang di-share. Korpus paralel Indonesia-Inggris yang dipublikasikan diantaranya :
- Korpus paralel yang yang terpublikasi,
- PAN Localization Project www.panl10n.net
- Korpus paralel Indonesia – Inggris (surface)
- domain ekonomi = 6.544 kalimat
- domain internasional = 6.642 kalimat
- domain sains = 6.355 kalimat
- domain olahraga = 4.483 kalimat
-
- Korpus paralel Indonesia – Inggris (surface+PoS+Lemma+morph) = 27.326 kalimat(Korpus Identic sudah menggabungkan isi dari korpus LPP)
Jika dirasakan kurang, silahkan menambahnya dengan mengumpulkan sendiri dari berbagai sumber di internet.
- Dokumen-dokumen yang tersedia di internet dalam dua bahasa (Indonesia dan Inggris),
- Situs yang menyediakan hasil terjemahan (dokomen asli dicari di situs lain), seperti http://pusaka.or.id/dokumen
- Situs resmi yang menyediakan dua bahasa seperti : http://www.indonesia.go.id, http://www.itb.ac.id
- Situs berita yang menyediakan berita dalam dua bahasa seperti : http://www.bbc.co.uk/indonesia/
- Dokumen yang tersedia dalam dua bahasa seperti pada : http://www.unmit.org/legal/UNTAET-Law/index-i.htm
- Teks film (movie subtitles) yang tersedia dalam dua bahasa (Indonesia dan Inggris).