LAPORAN TUGAS UTS INFROMATION RETRIEVAL

Laporan Tugas Ujian Tengah Semester

 

Universitas Stikubank Semarang

 

KELOMPOK:

1.ANJAR SAPUTRA 15.01.55.0010

2.VICKY APRIKA PUTRA 15.01.55.0019

3.FIKRI ANGGIT 15.01.55.0020

 

Latar belakang

          Kemajuan Teknologi Informasi dan Informatika berjalan begitu cepat dan dapat diterima oleh masyarakat karena memberikan efesiensi dan efektifitas yang signifikan yang mendukung peningkatan sumber daya manusia. Misalnya, penggunaan teknologi informasi memberi indikasi bahwa peradaban manusia mengalami perubahan dan transisi yang cepat dengan ditandai pola pikir yang dinamis dan maju ke depan. Oleh karena itu manusia saat ini, dituntut untuk dapat memiliki potensi, kreatifitas yang mendukung perkembangan dan perubahan dunia.

Sekarang ini penggunaan suatu aplikasi menjadi pilihan utama dalam mempermudah serta mengefisiensikan kinerja manusia dalam hal apapun. Sehingga perkembangan dan kemajuan aplikasi sebagai pendukung kinerja manusia akan terus meningkat seiring dengan perkembangan zaman.

 

 

 

Deskripsi information retrieval

Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data

Information Retrieval merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam IRS.

Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Model yang terdapat dalam Information Retrieval terbagi dalam 3 model besar, yaitu: 

  1. Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model.
  2. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI).
  3. Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik. 

 

Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents yang ada melalui pencarian query yang diinputkan user. 

 

 

Tahap-tahap yang terjadi pada proses indexing ialah:

  1. Word Token,yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.
  2. Stopword Removal. Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.
  3. Stemming. Proses mengubah suatu kata bentukan menjadi kata dasar.
  4. Term Weighting. Proses pembobotan setiap term di dalam dokumen.

 

Model IR ada tiga jenis, yaitu :

  • Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean
  • Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional
  • Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik

Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini adalah dokumen terangking yang dianggap paling relevan terhadap query.

Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query.

Deskripsi sistem kelompok kami

            Pengertian Mesin pencari atau search engine adalah suatu program komputer yang dirancang untuk membantu, mempermudah, mempercepat seseorang menemukan informasi atau data yang diinginkan. Mesin pencari (search engine) semacam “penunjuk jalan” untuk mencari sesuatu yang dibutuhkan.

 

Mesin pencari akan berfungsi setelah mempunyai kriteria database yang dibuat sebelumnya dan akan menampilkan hasil sesuai dengan kriteria mesin pencari. Cara kerja mesin pencari adalah dengan memasukkan kata kunci pada kolom pencarian kemudian mesin pencari akan bekerja melakukan pencarian di database serta menampilkan hasil akurat yang memuat kata kunci tersebut dari database yang ada. Jika pada database tidak ada kecocokan dengan kata kunci maka hasil tidak ditampilkan.

 

Umumnya orang menyangka bahwa mesin pencari hanya digunakan pada internet, padahal mesin pencari (search engine) juga digunakan untuk dunia komputer lainnya termasuk pada software, operasi sistem, dan lain-lain. Sebagai contoh: Anda ingin mencari sebuah file yang tersimpan di hard disk komputer, maka jalan tercepat adalah membuka search pada operasi sistem yang dipakai lantas memasukkan kata atau frase yang diinginkan.

            Didalam sistem kami juga disediakan tempat upload file yang bersangkutan dengan Undang-undang Dasar untuk memdudahkan meng-upload UUD yang anda punya begitu juga dengan hitung bobot dan hitung vektor. Di web yang kami buat juga menyediakan link untuk melihat data yang sudah masuk di web

Berikut adalah erd dan dfd tentang sistem yang kami miliki

ER-Diagram

 

 

  DFD Level 0

Pada level 0, user atau pengguna mengunggah file dalam bentuk pdf ke system. Kemudian system akan menampilkan dokumen

DFD Level l

 

Pada DFD level 1, dipecah  menjadi  proses­ proses kecil yang berguna untuk menjelaskan fungsi-fungsi dan arus data yang mengalir pada system.  Berikut ini adalah  fungsi-fungsi  yang terdapat pada aplikasi ini:

  1. Tambah dokumen, yaitu proses menambahkan sebuah dokumen kemudian sistem akan menyimpan dalam database dokumen.
  2. Pengindeksan query,yaitu proses pengolahan query masukan dengan menggunakan tiga tahapan tokenizing, stopword removal, stemming untuk mendapatkan term query setelah mendapat masukkan dari pengguna yang berupa query masukan.
  3. Pengindeksan dokumen, yaitu proses pengolahan dokumen masukan dengan menggunakan tiga tahapan tokenisasi, stopword removal, stemming untuk mendapatkan term koleksi dokumen setelah mendapat masukkan dari pengguna yang berupa koleksi dokumen.
  4. Pembobotan dokumen, yaitu proses penghitungan bobot masing-masing dokumen dengan menggunakan metode pembobotan TF-IDF untuk mendapatkan bobot nilai dari masing-masing dokumen sesuai dengan query masukan dari pengguna.
  5. Perangkingan, yaitu proses penentuan urutan dari dokumen-dokumen relevan yang akan diberikan kepada para pengguna, perangkingan ini berdasarkan pada besamya nilai bobot setiap dokumen sebagai ukuran tingkat relevansi dokumen tersebut terhadap

DFD Level 2

DFD Level 2 terjadi hanya pada proses pengindeksan query dan proses pengindeksan dokumen.

Proses Pengindeksan Query

Pada proses pengindeksaan query terdapat tiga tahapan proses, yaitu:

  1. Tokenizing  Query, yaitu  tahap  pemotongan string  inputan  dari query berdasarkan   kata yang    menyusunnya.  Eleman    teks    (string input) dipisahkan   dengan   teknik   token menggunakan fungsi split dimana pemisahan string dilakukan  berdasarkan white space (space dan tab) untuk kemudian diletakkan pada array.
  2. Stopword   Removal  Query, yaitu tahap penghilangan kata-kata yang tidak digunakan dalam proses pencarian dengan mencocokan hasil dari tahap tokenizing dengan daftar stoplist, sehingga kata yang dibuang tidak akan dimasukan dalam proses selanjutnya.
  3. Stemming Query, yaitu tahap pengbilangan imbuhan sehingga didapatkan kata dasar dari query inputan

Proses Pengindeksan Dokumen

Pada proses pengindeksan dokumen terdapat tiga tahapan proses, yaitu:

  1. Tokenizing dokumen, yaitu tahap pemotongan string inputan dari koleksi dokumen berdasarkan kata yang menyusunnya. Eleman teks (string  input) dipisahkan dengan teknik token menggunakan fungsi split dimana pemisahan string dilakukan berdasarkan white space (space dan tab) untuk kemudian diletakkan pada array.
  2. Stopword removal dokumen, yaitu tahap penghilangan kata-kata yang tidak digunakan dalam proses pencarian dengan mencocokan basil dari tahap tokenisai dengan daftar stoplist, sehingga kata yang dibuang tidak akan dimasukan dalam proses selanjutnya.
  3. Stemming dokumen, yaitu tahap penghilangan imbuhan sehingga didapatkan kata dasar dari term-term dokumen inputan.

PENGUJIAN SISTEM

Tujuannya untuk mempermudah dalam mengolah kata, pencarian kata. Pengujian yang kami lakukan meliputi :

o   Mengunggah file undang-undang dengan format pdf

o   Proses unggah berhasil

o   Proses tokenisasi dan stemming file undang-undang yang di upload

o   File undang-undang diproses kedalam query kata

o   Masukan kata yang berimbuhan, proses berhasil menemukan kata dasar

o   Proses query Boolean juga behasil mencari file pdf dari kata yang di masukan

o   Data dokumen juga berhasil menampilkan file-file pdf yang dimasukan dari proses unggah

Sistem berjalan dengan baik sesuai dengan yang diharapkan meskipun pada beberapa proses terdapat kendala. Kami mohon maaf atas kekurangan system yang kami buat. Semoga kedepannya kami dapat membuat sistem yang lebih baik.

Desain Antar Muka

 

NB : Hitung bobot error dengan keterangan BAD GATEWAY karena terlalu banyak query dan sebagaitampilan pengganti kami membuatkan query bobot di SQL dari PHPMYADMIN

 

Laporan Video Presentasi : Klik 

Laporan Sistem : Klik 

Laporan Source Code : Klik