Pengembangan Engine Integrasi Tabel HTML pada Halaman Web

Abstract: Terdapat dua persoalan dalam mengintegrasikan sejumlah tabel HTML dari beberapa halaman web, yaitu: konflik struktural dan konflik semantik. Untuk mengatasi kedua masalah tersebut, makalah ini mengombinasikan beberapa metode yang telah ada dan terbukti menyelesaikan persoalan dalam proses integrasi. Terdapat empat tahapan proses dalam integrasi tabel, yaitu: (1) menentukan lokasi tabel pada halaman web, (2) memisahkan bagian atribut dan data values, (3) mengintegrasikan skema tabel, dan (4) migrasi data values ke skema terintegrasi. Lokasi tabel pada suatu halaman web ditentukan dengan pendekatan heuristic. Pendekatan ini juga dapat memisahkan atribut dan data values dari tabel. Konflik semantik yang muncul saat mengintegrasikan skema table diatasi dengan memanfaatkan ontologi untuk suatu domain spesifik. Data values hasil integrasi kemudian dimigrasikan ke skema tabel bersamaan dengan pemeriksaan duplikasi data pada tabel dengan menggunakan vector space model. Hasil integrasi kemudian ditampilkan dalam sebuah tabel tunggal dalam bentuk HTML. Pendekatan ini diimplementasikan menjadi sebuah engine yang dibuat menggunakan Python. Hasil pengujian menunjukkan bahwa pendekatan ini dapat digunakan untuk mengintegrasikan sejumlah tabel dari beberapa halaman web menjadi sebuah tabel terintegrasi.
Kata Kunci: integrasi data, tabel HTML, ontologi, integrasi tabel, halaman web
Penulis: Memen Akbar, Fazat Nur Azizah, G. A. Putri Saptawati
Kode Jurnal: jptlisetrodd160161

Artikel Terkait :