;

Senin, 02 September 2013

preprocessing (tokenization, stopword removal, stemming) Pembobotan TFIDF

Tugas :

D1 Human machine interface for computer applications
D2 A survey of user opinion of computer system response time
D3 The EPS user interface management system
D4 System and human system engineering testing of EPS
D5 The generation of random, binary and ordered trees
D6 The intersection graph of paths in trees
D7 Graph minors: A survey

1. Lakukan preprocessing (tokenization, stopword removal, stemming) untuk kumpulan dokumen diatas.
Gunakan http://smile-stemmer.appspot.com/ untuk melakukan proses stemmming.
2. Hitung TFIDF matrix dari kumpulan dokumen tersebut.
3. Lakukan percobaan algoritma K-Means dengan D2 dan D4 sebagai centroid awal. (untuk 1 iterasi saja)

Penyelesaian :
Langkah Pertama buka http://smile-stemmer.appspot.com/ , setelah terbuka proses Dokumen1(D1) s/d (D7)
Langkah Selanjutnya Hitung TF (Kata Disetiap Dokumen), Jumlah df dan frekuency idf
 Selanjutnya menentukan TFIDF


Jawaban Soal Ketiga Silahkan dianalisis sendiri

Contoh Soal diatas tidak dijamin kebenarannya, untuk referensi silahkan kunjungi http://temukembaliinformasi.wordpress.com/2009/08/26/pembobotan-tf-idf/

1 komentar:

  1. kak kok file excel nya ga bs di download ya. boleh mnt ga ?

    BalasHapus