Revisi per 9 Maret 2018 12.24 sunting Guspan Tanadi (bicara \| kontrib) 519 suntingan k Sintaksis istilah umum ← Revisi sebelumnya		Revisi per 9 Maret 2018 12.39 sunting balikkan Guspan Tanadi (bicara \| kontrib) 519 suntingan k Kaidah Revisi selanjutnya →
Baris 1: {{DISPLAYTITLE:Model tas-kata-kata}} Model tas-kata-kata ({{lang-en\|Bag-of-words model}}) ialah sebuah gambaran sederhana digunakan dalam <nowiki/>[[Pemrosesan bahasa alami\|pengolahan bahasa alami]] dan [[Sistem temu balik informasi\|pencarian informasi]]<ref name="s1">Soumya George K, Shibily Joseph. ''Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature''. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref>. Dikenal sebagai model ruang vektor<ref name="s2">McTear, Michael (''et al''.) (2016). ''The Conversational Interface - Talking to Smart Devices''. hlm. 166.</ref>. Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai ''[[Tokenisasi\|token]]'', mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen<ref>Saxena, D., Saritha, S. K., & Prasad, V. (2017). ''Survey Paper on Feature Extraction Methods in Text Categorization''. International Journal of Computer Applications, 166(11).</ref><ref name="s2"/>. == Contoh Implementasi == Baris 11: Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun: <syntaxhighlight lang="text"> { "The":1 Baris 21 ⟶ 22: "satellite":8 } </syntaxhighlight> Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus.

Model tas-kata-kata: Perbedaan antara revisi