Model tas-kata-kata: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Guspan Tanadi (bicara | kontrib)
k Guspan Tanadi memindahkan halaman Model bag of words ke Model Bag-of-words: Penamaan selaras secara umum
Cendy00 (bicara | kontrib)
Fitur saranan suntingan: 3 pranala ditambahkan.
(19 revisi perantara oleh 5 pengguna tidak ditampilkan)
Baris 1:
{{DISPLAYTITLE:Model bag of wordstas-kata-kata}}
'''Model bagtas-kata-kata''' ({{lang-en|Bag-of-words model}}) ialah sebuah gambaran sederhana digunakan dalam <nowiki/>[[Pemrosesan bahasa alami|pengolahan bahasa alami]] dan [[Sistem temu balik informasi|pencarian informasi]].<ref name="s1">Soumya George K, Shibily Joseph. ''Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature''. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref> Dikenal sebagai model [[ruang vektor]].<ref name="s2">McTear, Michael (''et al''.) (2016). ''The Conversational Interface - Talking to Smart Devices''. phlm. 166.</ref>. Pada model ini, teks (sebuahtiap kalimat ataudalam dokumen) digambarkan sebagai ''bag[[Tokenisasi|token]]'' dari kata-kata, mengabaikan [[tata bahasa]] dan bahkan [[urutan kata]] namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.<ref name="s2"/><ref>AliSaxena, NawafD., "TextSaritha, stylometryS. forK., chat& botPrasad, identificationV. and(2017). intelligence''Survey estimationPaper on Feature Extraction Methods in Text Categorization''." International Journal of Computer Applications, 166(201411).</ref>.
 
== Contoh Implementasi ==
Terdapat dua dokumen teks sederhana D1 dan D2:<ref name="s1"/>
Terdapat dua dokumen teks sederhana D1 dan D2<ref>Soumya George K, Shibily Joseph. (2014). Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref>:
 
D1: "''The Sun is a star. Sun is beautiful''."
Baris 11:
Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun:
 
<syntaxhighlight lang="text">
{
"The":1
Baris 21 ⟶ 22:
"satellite":8
}
</syntaxhighlight>
 
Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus.
 
== Catatan kaki ==
{{reflist}}
 
[[Kategori:Pemrosesan bahasa alami]]
[[Kategori:Pemelajaran mesin]]