Dalam sistem temu
kembali informasi (Search engine, pencarian, Information retrieval),
dokumen yang diretreive akan melalui proses indexing sebelum
dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya adalah Tokenisasi,
Pembuangan stopwords, dan pemotongan imbuhan (stemming).
Berikut ini merupakan sedikit
penjelasan dari Tokenisasi, Pembuangan stopwords, dan pemotongan imbuhan
(stemming).
Pertama Tokenisasi adalah
proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen,
menjadi token - token / bagian - bagian tertentu. Sebagai contoh, tokenisasi
dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam
token, yakni: "Aku", "baru", "saja", "makan",
"bakso", "pedas". Biasanya, yang menjadi acuan pemisah
antar token adalah spasi dan tanda baca. Tokenisasi seringkali dipakai dalam
ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut.
Contoh program tokenisasi yang dapat diakses
via online adalah MorphAdorner dan NLTK Tokenizer.
1.1 ilustrasi
hasil tokenisasi
Kedua Stop words adalah kata
umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak
memiliki makna. Stop words umumnya dimanfaatkan dalam task information
retrieval. Contoh stop words untuk bahasa Inggris diantaranya “of”,
“the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
1.2 ilustrasi
hasil stop word
Ketiga Stemmming merupakan salah
satu proses dari pembuatan sistem temu kembali, dimana proses stemming akan
dilakukan setelah proses filtering. Proses stemming ini membuat term yang ada
pada tabel filtering menjadi kata dasar, dengan menghilankan semua imbuhan yang
ada pada kata tersebut ( imbuhan meng-, me-, kan-, di- , i, pe, peng-, a-,
dll.).
Pentingnya stemming dalam proses
pembuatan sistem temu kembali yakni dimana saat menghilangkan imbuhan pada
sebuah kata menjadi hal yang perlu diperhatikan. Karena dalam proses stemming
yang penting yakni terlebih untuk menghilangkan imbuhan pada awalan setelah itu
akhiran. Apabila yang dilakukan adalah sebaliknya maka tidak akan ditemukan
kata dasar yang tepat dan sesuai dengan kamus bahasa. Dimana dari hasil proses
tersebut akan didapatkan sebuah informasi mengenai banyaknya term yang muncul
dalam sebuah dokumen setelah dilakukan perhitungan term frequency.
1.3 ilustrasi
stemming
Sekian yang saya dapat sampaikan
apabila ada kesalahan dalam penulisan blog ini saya selaku penulis meminta maaf
yang sebesar – besarnya karena kami saya hanyalah manusia biasa yang tidak
luput dari yang namanya dosa serta saya juga dalam proses belajar.
Nama keleompok :
Listiani Praptining Putri - 15.01.53.0013
Dhika Bagas Whisnu Aji - 15.01.53.0044
Miftachul Anwar - 15.01.53.0075
Listiani Praptining Putri - 15.01.53.0013
Dhika Bagas Whisnu Aji - 15.01.53.0044
Miftachul Anwar - 15.01.53.0075
widged panda itu menganggu membacaku!!
BalasHapusthanks gan sudah share
BalasHapussolder temperatur