Perhitungan Kemiripan Term Co-occurence Berdasarkan Cluster Dokumen Untuk Pengembangan Thesaurus Bahasa Arab
Abstract: Salah satu cara
dalam pembentukan thesaurus adalah dengan cara menghitung nilai kemiripan term.
Untuk mendapatkan nilai kemiripan tersebut dapat dilakukan dengan pendekatan
co-occurence yaitu melihat frekuensi kemunculan bersama term-term tersebut.
Frekuensi tersebut dilihat dari seberapa banyak term tersebut muncul bersama
pada dokumen-dokumen corpus. Setiap dokumen-dokumen yang terdapat pada corpus
memiliki konten atau topik yang berbeda-beda. Sehingga term-term yang berada
pada dokumen suatu topik akan memiliki konteks yang berbeda dengan term-term
pada dokumen dengan topik lainnya. Oleh sebab itu, paper ini mengusulkan metode
baru dalam perhitungan kemiripan term dengan co-occurence yang memperhatikan
cluster dari dokumen pada pengembangan thesaurus Bahasa Arab. Dokumen-dokumen
corpus akan di clustering untuk mengelompokkan berdasarkan kedekatan konten
dari dokumen tersebut. Untuk mendapatkan nilai kemiripan term dilakukan
perhitungan clusterweight dengan memanfaatkan nilai dari inverse class
frequency setiap term terhadap cluster yang ada. Thesaurus dibentuk dengan
melihat nilai hasil perhitungan kemiripan term tersebut. Thesaurus yang
dibentuk dengan metode usulan berhasil meningkatkan relevansi antar term
dibuktikan dengan hasil percobaan memiliki nilai precision tertinngi sebesar
63,3%, recall sebesar 78,6% dan f-measure sebesar 50%.
Penulis: Dika Rizky Yunianto
Kode Jurnal: jptlisetrodd170452
