Rancang Bangun Aplikasi Web Scraping Untuk Korpus Paralel Indonesia - Inggris Dengan Metode HTML DOM

Abstract: Korpus paralel merupakan dua dokumen text yangsaling berhubungan dimana dokumen text pertama berisikumpulan kalimat sumber dan dokumen kedua berisi kumpulankalimat terjemahan. Korpus paralel berfungsi sebagai sumberutama dalam mengembangkan mesin penerjemah statistik.Pengumpulan korpus paralel secara manual memerlukan waktuyang lama dan biaya yang tidak sedikit. Web scraping adalahsuatu teknik penggalian informasi dari situs web. Pembuatanaplikasi web scraping dapat dikombinasikan dengan berbagaimetode, dalam penelitian ini metode yang digunakan adalahHTML DOM. Sistem ini dibangun untuk mengumpulkan korpusparalel Bahasa Indonesia dan Inggris. Pengujian dari aplikasi iniadalah menggunakan metode blackbox, serta beberaparangkaian pengujian secara manual untuk mengetahui tingkatkeberhasilan aplikasi ini dalam mengumpulkan data korpusparalel dan kecepatan sistem dalam mengumpulkan korpusparalel. Hasil implementasi dan pengujian akhir dari aplikasiweb scraping dengan metode HTML DOM adalah proses yangberjalan dalam aplikasi web scraping dengan metode HTMLDOM adalah proses scraping, tokenisasi, cleaning, danlowercased, semua proses tersebut berjalan secara otomatissehingga sangat menghemat waktu dan biaya dan menghasilkankorpus paralel Bahasa Indonesia dan Inggris.
Kata kunci: Web Scraping, HTML DOM, Korpus Paralel,Tokenisasi, Mesin Penerjemah Statistik
Penulis: Vivensius Mitra
Kode Jurnal: jptinformatikadd170060

Artikel Terkait :