Ekstraksi Kata Dasar Secara Berjenjang (Incremental Stemming) Berbasis Aturan Morfologi untuk Teks Berbahasa Indonesia
Abstract: Ekstraksi kata dasar
atau stemming pada Bahasa Indonesia adalah proses yang kompleks di mana
beberapa partikel awalan dan beberapa partikel akhiran dari 13 awalan, 3
sisipan dan 19 akhiran yang dikenal dapat digunakan secara sekaligus pada
sebuah kata. Selain itu, proses stemming tidak selalu menghasilkan 1 kata dasar
(non-deterministik), karena terdapat beberapa kata dalam bahasa Indonesia yang
memiliki 2 kemungkinan yaitu sebagai kata dasar maupun kata berimbuhan,
misalnya pada kata “beruangâ€. Penelitian yang telah ada sebelumnya
menggunakan kombinasi awalan dan akhiran yang tidak mungkin dan menerapkan
heuristik untuk memilih kata dasar. Dalam penelitian ini diusulkan sebuah
metode stemming secara berjenjang di mana berdasarkan urutan tertentu, secara
bergantian partikel akhiran dan awalan dilepaskan dari sebuah kata sehingga
dihasilkan sebuah kata dasar. Jika ditemukan beberapa kandidat kata dasar maka
salah satu kata dasar akan dipilih. Metode ini diuji pada 6464 dokumen Al-Quran
Terjemahan Indonesia dengan menggunakan kamus berukuran 5000 kata yang disampling
secara acak dari Kamus Besar Bahasa Indonesia.. Dari 3432 kata unik yang
diproses 94,7% kata dasar dapat diekstrak secara langsung dan hanya 5,3% yang
perlu diproses lebih lanjut karena kandidat kata dasar yang ditemukan lebih
dari satu. Dibandingkan dengan melakukan pemilihan kata dasar secara manual,
metode ini dapat memilih kata dasar yang
tepat hingga 79.12%.
Penulis: Wahyu Hidayat
Kode Jurnal: jptlisetrodd170461
