INFROMATION RETRIEVAL-STEMMING

Nama mata kuliah : Information Retrieval

NIM                       : ANJAR SAPUTRA

Nama                    : 15.01.55.0010

 

Deskripsi masalah :

Bab ini akan mengantarkan mahasiswa untuk mengkaji konsep stemming. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”. Proses stemming pada teks berBahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan.

Simpan hasil tokenisasi dari file PDF dimasukkan ke dalam tabel MySQL.

Istilah penting   :

Stemming : suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu

 

Perintah program yang baru :

strtolower(): Merubah huruf ke kecil

substr() : fungsi PHP untuk memotong string, atau untuk mengambil sebagian nilai dari sebuah string. Fitur ini cukup sering digunakan dalam proses pembuatan program PHP, terutama yang membutuhkan manipulasi string

strlen() : untuk mengetahui panjang suatu karakter

class IDNStemmer { } : sebuah class untuk mentransformasi kata-kata yang telah di upload dengan melalui tokenisasi sehingga kata asli akan terlihat karena melalui stemming.

Alur program :Start -> Unggah Pdf (upload)-> Simpan Ke Tabel Upload -> Baca File Pdf (di database) -> Tokenisasi ->Stemming->Simpan -> Keluar

 

Pengujian Program :

pengujian program yang dilakukan melalui unggahan terlebih dahulu file dengan format pdf dan kemudian proses tokenisasi berhasil, tidak terjadi error dan file tokenisasi masuk di database dbsti di tabel dokumen dan proses stemming berjalan dengan baik karena di tabel dokumen di data tokenstem terisi dari hasil file tokenisasi. kemudian pengujian di stemmingidn.php dengan mengetikan sebuah kata yang memiliki imbuhan dan proses stemming berjalan dengan baik dengan memunculkan teks asli nya.

Tujuan pengujian :

  1. Menguji apakah proses stemming berjalan sesuai dengan flowchart.
  2. Hasil stemming sesuai dengan kaidah Bahasa Indonesia

Input :

  1. tumbuhan
  2. menyampaikan
  3. diubah
  4. urusan
  5. kebutuhan

Luaran diharapkan  :

Yang diharapkan dari program ini adalah

1. pemahaman konsep tokenisasi, cara upload file pdf dan bisa dijadikan ke text.

2. pemahaman kemudahan dalam pencarian uud

3. pemahaman pemisahan atau filter kata dari tiap kalimat maupun paragraf.

4. mencari kata asli dari sebuah kata berimbuhan

5. pemahaman konsep stemming pdari hasil tokenisasi 

Luaran actual :

  1. bisa dijadikan kumpulan database suatu perusahaan dalam pengelolaan sebuah bentuk dokumen
  2. pemisahan kata atau penyaringan yang mudah digunakan dalam pencarian.
  3. kemudahan dalam mencari kata asli dalam kata yang berimbuhan

Status :

No.1 gagal upload

No.2 sukses upload

No.3 Tokenisasi

No.4 Stemming

Analisa

No.1 gagal upload

keterangan : karena ada beberapa script program yang belum di nonaktifkan sehingga menimbulkan error pada file php hasil_upload.php

yang menyebabkan error adalah script seperti IDNstemmer.php masih ada tanda komen dan di query belum ditambahkan variabel baru yaitu tokenstem dan values nya adalah $hasil.

No.2 sukses upload

Proses upload berjalan dengan lancar dan di hasil_upload.php berjalan dengan lancar dan di database semua file yang telah di upload mulai dari file pdf masuk di tabel dokumen dan proses tokenisasi berjalan dengan baik kemudian diikuti proses stemming. stemming berjalan dengan baik dan data berhasil masuk di variabel tokenstem. kemudian dilanjutkan pengujian program di stemmingidn.php dan berhasil memunculkan kata asli atau teks asli

No.3 Tokenisasi

tokenisasi berhasil, tidak terjadi error dan file tokenisasi masuk di database dbsti di tabel dokumen

No.4 Stemming

stemming di uji dengan masuk di stemmingidn.php dengan mengetikkan kata yang memiliki imbuhan dan sebelumnya juga memastikan apakah file yang di upload sudah melalui proses tokenisasi dan sudah melalui proses stemming dan bisa dilihat di database di tabel dokumen.