Revisi per 20 Maret 2020 14.53 sunting AABot (bicara \| kontrib) Bot, Pengecualian blokir IP 913.941 suntingan k Bot: Perubahan kosmetika Tag: PAWS [1.2] ← Revisi sebelumnya		Revisi per 27 Maret 2021 14.56 sunting balikkan Renamed user 8uhv7ygc (bicara \| kontrib) 63 suntingan + pranala dalam, referensi Tag: VisualEditor Tugas pengguna baru Revisi selanjutnya →
Baris 1: '''Tokenisasi''' adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu.<ref>~~[http~~{{Cite web\|title=Tokenization\|url=https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html ~~Tokenization]~~\|website=nlp.stanford.edu\|access-date=2021-03-27}}</ref><ref>[{{Cite web\|title=Sentiment Symposium Tutorial: Tokenizing\|url=http://sentiment.christopherpotts.net/tokenizing.html ~~Tokenizing]~~\|website=sentiment.christopherpotts.net\|access-date=2021-03-27}}</ref>. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah [[spasi]] dan [[tanda baca]].<ref>Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). ''Model natural language processing untuk perumusan keluhan pasien''. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14</ref>. Tokenisasi sering kali dipakai dalam ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses via ''online'' adalah [http://morphadorner.northwestern.edu/morphadorner/wordtokenizer/example/ MorphAdorner] dan [http://text-processing.com/demo/tokenize/ NLTK Tokenizer].▼ ~~{{wikify\|date=Maret 2013}}~~ ~~{{tanpa_referensi\|date=Maret 2013}}~~ Tokenisasi sering kali dipakai dalam [[linguistik]] dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer.<ref>{{Cite web\|title=Python NLTK Word Tokenization Demo for Tokenizing Text\|url=http://text-processing.com/demo/tokenize/\|website=text-processing.com\|access-date=2021-03-27}}</ref><ref>{{Cite web\|last=Burns\|first=Philip R.\|date=2013-08-01\|title=MorphAdorner Word Tokenizer Example\|url=http://morphadorner.northwestern.edu/morphadorner/wordtokenizer/example/\|website=morphadorner.northwestern.edu\|access-date=2021-03-27}}</ref> ▲'''Tokenisasi''' adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu<ref>[http://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html Tokenization]</ref><ref>[http://sentiment.christopherpotts.net/tokenizing.html Tokenizing]</ref>. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca<ref>Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). ''Model natural language processing untuk perumusan keluhan pasien''. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14</ref>. Tokenisasi sering kali dipakai dalam ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses via ''online'' adalah [http://morphadorner.northwestern.edu/morphadorner/wordtokenizer/example/ MorphAdorner] dan [http://text-processing.com/demo/tokenize/ NLTK Tokenizer]. == Rujukan ==

Tokenisasi: Perbedaan antara revisi