INFORMATION RETRIEVAL-TOKENISASI

INFORMATION RETRIEVAL-TOKENISASI

Forrmat laporan Praktikum

Nama mata kuliah : Information Retrieval

Anggota 1:

NIM                           : 15.01.55.0010

Nama                        : Anjar Saputra

Anggota 2:

NIM                           : 15.01.55.0019

Nama                        : Vicky Aprika P.

Deskripsi masalah :

Pemecahan suatu kata maupun kalimat memang menjadi perkara yang sulit. Namun, bisa dikatakan menjadi mudah. pemrogaman saat ini memang sudah berkembang pesat dalam kurun waktu yang dekat. pemecahan suatu kata dalam kalimat jika dilakukan dengan cara pemilahan satu per satu akan membuat pekerjaan menjadi lama dan memakan banyak waktu.

Teknologi itu sangat dibutuhkan untuk memudahkan manusia dalam menganalisa suatu topik atau isu apa yang menjadi trend  bahkan bisa di penggal kata apa yang sering muncul dan yang sering digunakan. oleh karena itu, file yang mempunyai paragraf banyak juga harus dipecah per kata agar bisa dilakukan proses pencarian per kata dalam paragraf tersebut.

Istilah penting   :

Tokenisasi : proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token – token / bagian – bagian tertentu. Sebagai contoh, tokenisasi dari kalimat “Aku baru saja makan bakso pedas” menghasilkan enam token, yakni: “Aku”, “baru”, “saja”, “makan”, “bakso”, “pedas”.

Stopword : kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”. 

Stopword remova l : Sebuah proses pemfilteran kata – kata yang umum.

Perintah program yang baru :

move_uploaded_file($lokasi_file,”$folder”) : memindakan file dari lokasi awal ke tempat penyimpanan files upload.

mysqli_connect(“localhost”,”root”,””,”dbsti”) : untuk menghubungkan file php dengan database dbstbi.

include(‘class.pdf2text.php’) : untuk menyertakan file format pdf secara eksternal kedalam file upload.php .

strtolower(trim($teks)): mengubah teks menjadi huruf kecil.

explode(” “, $teks): untuk memisahkan teks

array_diff($myArray, $astoplist) : file yang terfilter atau di pecah dari paragraf menjadi bagian-bagian kecil atau per kata dari masing-masing kalimat .

Alur program :

Start -> Unggah Pdf (upload)-> Simpan Ke Tabel Upload -> Baca File Pdf (di database) -> Tokenisasi ->Simpan -> Keluar

Pengujian Program :

pengujian program yang dilakukan melalui unggahan terlebih dahulu file dengan format pdf dan kemudian proses tokenisasi berhasil, tidak terjadi error dan file tokenisasi masuk di database dbsti di tabel dokumen,

Tujuan pengujian :

  1. Mengunggah file pdf
  2. Melakukan tokenisasi
  3. Melakukan stopword removal

Input :

  1. “Perpres No.4 Tahun 2015 Perubahan Perpres 54-2010 Pengadaan Barang Jasa.pdf”;”perpres no.4″;
  2. “Permentan No. 16 Tahun 2017-RIPH.pdf”;”permentan no.16 2017″;
  3. “Permentan 18-2017 Klasifikasi Keamanan & Akses Arsip Dinamis.pdf”;”permentan 18-2017 klasifikasi keamanan & akses arsip dinamis”;
  4. “Permentan 17-2017 Dokumen Karantina Hewan(1).pdf”;”permentan 17-2017 dokumen karantina hewan”;
  5. “Permentan 13-2017 Kemitraan Peternakan.pdf”;
  6. “Permentan 13-2017 Kemitraan Peternakan.pdf”;”permentan 13-2017 kemitraan peternakan”;
  7. “Permentan 12-2017 Operasi Pasar – edit.pdf”;”permentan 12-2017 operasi pasar”;
  8. “Permentan 11-2017 Standar Pendidikan Tinggi Vokasi.pdf”;”permentan 11-2017 standar pendidikan tinggi vokasi”;
  9. “Peraturan Presiden No.1 Tahun 2007 (penyebarluasan peraturan).pdf”;”peraturan presiden no.1 2017″;

Luaran diharapkan  :

Yang diharapkan dari program ini adalah

1. pemahaman konsep tokenisasi, cara upload file pdf dan bisa dijadikan ke text.

2. pemahaman kemudahan dalam pencarian uud

3. pemahaman pemisahan atau filter kata dari tiap kalimat maupun paragraf.

Luaran actual :

  1. bisa dijadikan kumpulan database suatu perusahaan dalam pengelolaan sebuah bentuk dokumen
  2. pemisahan kata atau penyaringan yang mudah digunakan dalam pencarian.

Status :

No.1 gagal upload

No.2 sukses upload

No.3 Tokenisasi

Analisa:

No.1 gagal upload

keterangan : karena ada beberapa script program yang belum di nonaktifkan sehingga menimbulkan error pada file php hasil_upload.php

yang menyebabkan error adalah script seperti IDNstemmer.php,Enhanced_CS.php dan tidak ada file php yaitu file untuk membaca file pdf yang diunggah dari luar dengan adalah class.pdf2text.php

No.2 sukses upload

keterangan : dari masalah no.1 bisa dilihat kenapa gagal upload ? karena ada beberapa script yang masih aktif yang tidak masuk dalam kebutuhan program saat ini. dengan memberikan perintah comment pada beberapa script seperti Enhanced_CS.php,IDNstemmer.php dan lainnya dan menambahkan file php class.pdf2text.php di folder htdocs program ini, pada uji coba kali ini berhasil di upload dan file upload berhasil masuk di tabel upload.

No.3 Tokenisasi

tokenisasi berhasil, tidak terjadi error dan file tokenisasi masuk di database dbsti di tabel dokumen.

KLIK untuk melihat souce code