INFORMATION RETRIEVAL-TOKENISASI
Forrmat laporan Praktikum
Nama mata kuliah : Information Retrieval
Anggota 1:
NIM : 15.01.55.0010
Nama : Anjar Saputra
Anggota 2:
NIM : 15.01.55.0019
Nama : Vicky Aprika P.
Deskripsi masalah :
Pemecahan suatu kata maupun kalimat memang menjadi perkara yang sulit. Namun, bisa dikatakan menjadi mudah. pemrogaman saat ini memang sudah berkembang pesat dalam kurun waktu yang dekat. pemecahan suatu kata dalam kalimat jika dilakukan dengan cara pemilahan satu per satu akan membuat pekerjaan menjadi lama dan memakan banyak waktu.
Teknologi itu sangat dibutuhkan untuk memudahkan manusia dalam menganalisa suatu topik atau isu apa yang menjadi trend bahkan bisa di penggal kata apa yang sering muncul dan yang sering digunakan. oleh karena itu, file yang mempunyai paragraf banyak juga harus dipecah per kata agar bisa dilakukan proses pencarian per kata dalam paragraf tersebut.
Istilah penting :
Tokenisasi : proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token – token / bagian – bagian tertentu. Sebagai contoh, tokenisasi dari kalimat “Aku baru saja makan bakso pedas” menghasilkan enam token, yakni: “Aku”, “baru”, “saja”, “makan”, “bakso”, “pedas”.
Stopword : kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
Stopword remova l : Sebuah proses pemfilteran kata – kata yang umum.
Perintah program yang baru :
move_uploaded_file($lokasi_file,”$folder”) : memindakan file dari lokasi awal ke tempat penyimpanan files upload.
mysqli_connect(“localhost”,”root”,””,”dbsti”) : untuk menghubungkan file php dengan database dbstbi.
include(‘class.pdf2text.php’) : untuk menyertakan file format pdf secara eksternal kedalam file upload.php .
strtolower(trim($teks)): mengubah teks menjadi huruf kecil.
explode(” “, $teks): untuk memisahkan teks
array_diff($myArray, $astoplist) : file yang terfilter atau di pecah dari paragraf menjadi bagian-bagian kecil atau per kata dari masing-masing kalimat .
Alur program :
Start -> Unggah Pdf (upload)-> Simpan Ke Tabel Upload -> Baca File Pdf (di database) -> Tokenisasi ->Simpan -> Keluar
Pengujian Program :
pengujian program yang dilakukan melalui unggahan terlebih dahulu file dengan format pdf dan kemudian proses tokenisasi berhasil, tidak terjadi error dan file tokenisasi masuk di database dbsti di tabel dokumen,
Tujuan pengujian :
- Mengunggah file pdf
- Melakukan tokenisasi
- Melakukan stopword removal
Input :
- “Perpres No.4 Tahun 2015 Perubahan Perpres 54-2010 Pengadaan Barang Jasa.pdf”;”perpres no.4″;
- “Permentan No. 16 Tahun 2017-RIPH.pdf”;”permentan no.16 2017″;
- “Permentan 18-2017 Klasifikasi Keamanan & Akses Arsip Dinamis.pdf”;”permentan 18-2017 klasifikasi keamanan & akses arsip dinamis”;
- “Permentan 17-2017 Dokumen Karantina Hewan(1).pdf”;”permentan 17-2017 dokumen karantina hewan”;
- “Permentan 13-2017 Kemitraan Peternakan.pdf”;
- “Permentan 13-2017 Kemitraan Peternakan.pdf”;”permentan 13-2017 kemitraan peternakan”;
- “Permentan 12-2017 Operasi Pasar – edit.pdf”;”permentan 12-2017 operasi pasar”;
- “Permentan 11-2017 Standar Pendidikan Tinggi Vokasi.pdf”;”permentan 11-2017 standar pendidikan tinggi vokasi”;
- “Peraturan Presiden No.1 Tahun 2007 (penyebarluasan peraturan).pdf”;”peraturan presiden no.1 2017″;
Luaran diharapkan :
Yang diharapkan dari program ini adalah
1. pemahaman konsep tokenisasi, cara upload file pdf dan bisa dijadikan ke text.
2. pemahaman kemudahan dalam pencarian uud
3. pemahaman pemisahan atau filter kata dari tiap kalimat maupun paragraf.
Luaran actual :
- bisa dijadikan kumpulan database suatu perusahaan dalam pengelolaan sebuah bentuk dokumen
- pemisahan kata atau penyaringan yang mudah digunakan dalam pencarian.
Status :
No.1 gagal upload
No.2 sukses upload
No.3 Tokenisasi
Analisa:
No.1 gagal upload
keterangan : karena ada beberapa script program yang belum di nonaktifkan sehingga menimbulkan error pada file php hasil_upload.php
yang menyebabkan error adalah script seperti IDNstemmer.php,Enhanced_CS.php dan tidak ada file php yaitu file untuk membaca file pdf yang diunggah dari luar dengan adalah class.pdf2text.php
No.2 sukses upload
keterangan : dari masalah no.1 bisa dilihat kenapa gagal upload ? karena ada beberapa script yang masih aktif yang tidak masuk dalam kebutuhan program saat ini. dengan memberikan perintah comment pada beberapa script seperti Enhanced_CS.php,IDNstemmer.php dan lainnya dan menambahkan file php class.pdf2text.php di folder htdocs program ini, pada uji coba kali ini berhasil di upload dan file upload berhasil masuk di tabel upload.
No.3 Tokenisasi
tokenisasi berhasil, tidak terjadi error dan file tokenisasi masuk di database dbsti di tabel dokumen.