Ekstraksi Kata Dasar Secara Berjenjang (Incremental Stemming) Berbasis Aturan Morfologi untuk Teks Berbahasa Indonesia

Abstract: Ekstraksi kata dasar atau stemming pada Bahasa Indonesia adalah proses yang kompleks di mana beberapa partikel awalan dan beberapa partikel akhiran dari 13 awalan, 3 sisipan dan 19 akhiran yang dikenal dapat digunakan secara sekaligus pada sebuah kata. Selain itu, proses stemming tidak selalu menghasilkan 1 kata dasar (non-deterministik), karena terdapat beberapa kata dalam bahasa Indonesia yang memiliki 2 kemungkinan yaitu sebagai kata dasar maupun kata berimbuhan, misalnya pada kata “beruangâ€. Penelitian yang telah ada sebelumnya menggunakan kombinasi awalan dan akhiran yang tidak mungkin dan menerapkan heuristik untuk memilih kata dasar. Dalam penelitian ini diusulkan sebuah metode stemming secara berjenjang di mana berdasarkan urutan tertentu, secara bergantian partikel akhiran dan awalan dilepaskan dari sebuah kata sehingga dihasilkan sebuah kata dasar. Jika ditemukan beberapa kandidat kata dasar maka salah satu kata dasar akan dipilih. Metode ini diuji pada 6464 dokumen Al-Quran Terjemahan Indonesia dengan menggunakan kamus berukuran 5000 kata yang disampling secara acak dari Kamus Besar Bahasa Indonesia.. Dari 3432 kata unik yang diproses 94,7% kata dasar dapat diekstrak secara langsung dan hanya 5,3% yang perlu diproses lebih lanjut karena kandidat kata dasar yang ditemukan lebih dari satu. Dibandingkan dengan melakukan pemilihan kata dasar secara manual, metode ini dapat  memilih kata dasar yang tepat hingga 79.12%.
Kata kunci: ekstraksi kata dasar, morfologi, non-deterministik, akurasi
Penulis: Wahyu Hidayat
Kode Jurnal: jptlisetrodd170461

Artikel Terkait :