Model tas-kata-kata: Perbedaan antara revisi

Jelajahi riwayat secara interaktif

← Revisi sebelumnya Revisi selanjutnya →

Konten dihapus Konten ditambahkan

VisualTeks wiki

Revisi per 16 Februari 2018 14.35 sunting Guspan Tanadi (bicara \| kontrib) 519 suntingan k Guspan Tanadi memindahkan halaman Model bag of words ke Model Bag-of-words: Penamaan selaras secara umum ← Revisi sebelumnya		Revisi per 7 Desember 2023 09.56 sunting balikkan Cendy00 (bicara \| kontrib) 141 suntingan Fitur saranan suntingan: 3 pranala ditambahkan. Tag: VisualEditor Tugas pengguna baru Disarankan: tambahkan pranala Revisi selanjutnya →
(19 revisi perantara oleh 5 pengguna tidak ditampilkan)
Baris 1: {{DISPLAYTITLE:Model ~~bag of words~~tas-kata-kata}} '''Model ~~bag~~tas-kata-kata''' ({{lang-en\|Bag-of-words model}}) ialah sebuah gambaran sederhana digunakan dalam ~~<nowiki/>~~[[Pemrosesan bahasa alami\|pengolahan bahasa alami]] dan [[Sistem temu balik informasi\|pencarian informasi]].<ref name="s1">Soumya George K, Shibily Joseph. ''Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature''. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref> Dikenal sebagai model [[ruang vektor]].<ref name="s2">McTear, Michael (''et al''.) (2016). ''The Conversational Interface - Talking to Smart Devices''. phlm. 166.</ref>. Pada model ini, ~~teks (sebuah~~tiap kalimat ~~atau~~dalam dokumen) digambarkan sebagai ''~~bag~~[[Tokenisasi\|token]]'' ~~dari kata-kata~~, mengabaikan [[tata bahasa]] dan bahkan [[urutan kata]] namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.<ref name="s2"/><ref>~~Ali~~Saxena, ~~Nawaf~~D., ~~"Text~~Saritha, ~~stylometry~~S. ~~for~~K., ~~chat~~& ~~bot~~Prasad, ~~identification~~V. ~~and~~(2017). ~~intelligence~~''Survey ~~estimation~~Paper on Feature Extraction Methods in Text Categorization''." International Journal of Computer Applications, 166(~~2014~~11).</ref>. == Contoh Implementasi == Terdapat dua dokumen teks sederhana D1 dan D2:<ref name="s1"/> Terdapat dua dokumen teks sederhana D1 dan D2<ref>Soumya George K, Shibily Joseph. (2014). Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref>: D1: "''The Sun is a star. Sun is beautiful''." Baris 11: Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun: <syntaxhighlight lang="text"> { "The":1 Baris 21 ⟶ 22: "satellite":8 } </syntaxhighlight> Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus. == Catatan kaki == {{reflist}} [[Kategori:Pemrosesan bahasa alami]] [[Kategori:Pemelajaran mesin]]