Tokenisasi: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
k Bot: Perubahan kosmetika |
+ pranala dalam, referensi |
||
Baris 1:
'''Tokenisasi''' adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu.<ref>
Tokenisasi sering kali dipakai dalam [[linguistik]] dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer.<ref>{{Cite web|title=Python NLTK Word Tokenization Demo for Tokenizing Text|url=http://text-processing.com/demo/tokenize/|website=text-processing.com|access-date=2021-03-27}}</ref><ref>{{Cite web|last=Burns|first=Philip R.|date=2013-08-01|title=MorphAdorner Word Tokenizer Example|url=http://morphadorner.northwestern.edu/morphadorner/wordtokenizer/example/|website=morphadorner.northwestern.edu|access-date=2021-03-27}}</ref>
▲'''Tokenisasi''' adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu<ref>[http://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html Tokenization]</ref><ref>[http://sentiment.christopherpotts.net/tokenizing.html Tokenizing]</ref>. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca<ref>Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). ''Model natural language processing untuk perumusan keluhan pasien''. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14</ref>. Tokenisasi sering kali dipakai dalam ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses via ''online'' adalah [http://morphadorner.northwestern.edu/morphadorner/wordtokenizer/example/ MorphAdorner] dan [http://text-processing.com/demo/tokenize/ NLTK Tokenizer].
== Rujukan ==
|