RANCANG BANGUN APLIKASI INFORMATION RETRIEVAL UNTUK MENGKOLEKSI DATA PARALEL KORPUS TEKS BAHASA INGGRIS – BAHASA INDONESIA
Abstrak: Paralel korpus
merupakan dua dokumen teks yang saling berhubungan dimana dokumen teks pertama
berisi kumpulan kalimat sumber dan dokumen teks kedua berisi kumpulan kalimat
terjemahannya. Paralel korpus berfungsi sebagai sumber utama dalam
mengembangkan sebuah Mesin Penerjemah Statistik. Hasil terjemahan dari sebuah
Mesin Penerjemah Statistik tergantung pada jumlah dari paralel korpus yang
tersedia. Pembuatan paralel korpus secara manual tidaklah mudah, karena akan
memakan waktu yang lama, memerlukan biaya yang tidak sedikit dan jumlah dokumen
yang terbatas. Sistem temu balik informasi atau information retrieval dapat
membantu dalam hal mengelola dan menemukan kembali dokumen secara cepat dan
efektif. Sistem ini dibuat untuk mengkoleksi data parlel korpus khususnya
bahasa Indonesia dan Inggris, dimana output dari aplikasi ini akan menambah
perbendaharaan paralel korpus bahasa Indonesia-Inggris. Sistem ini mampu untuk
mengumpulkan dokumen secara otomatis dari sebuah website yang telah ditentukan,
dan sasarannya hanya dokumen yang berbahasa Indonesia dan Inggris. Dokumen yang
telah terkumpul akan dibersihkan dari semua tanda baca yang tidak diperlukan
dengan metode tokenization, setelah itu dokumen tersebut akan diproses kembali
untuk memisahkan antara kalimat sumber dan kalimat terjemahannya dengan metode
parse. Setelah semua proses selesai maka akan menghasilkan sebuah paralel
korpus. Aplikasi information retrieval ini akan mempermudah dalam pembuatan
sebuah paralel korpus dan akan memperkaya perbendaharaan paralel korpus bahasa
Indonesia-Inggris.
Kata kunci: paralel korpus,
mesin penerjemah statistik, sistem temu balik informasi, tokenization, parse
Penulis: Edy Septiandri
Kode Jurnal: jptinformatikadd150158