Korpus teks: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
BangYeVoice (bicara | kontrib)
k Merevisi beberapa bagian pada daftar referensi dan memperbaiki kalimat dalam artikel
Tag: kemungkinan spam pranala VisualEditor
BangYeVoice (bicara | kontrib)
k Penambahan referensi, edit artikel
Baris 3:
Korpus teks adalah sumber daya [[bahasa]] yang terdiri dari kumpulan teks yang besar. Pada [[linguistik]], korpus teks juga dikenal dengan sebutan jamak korpora yang saat ini biasanya disimpan dan diproses secara elektronik. Korpus teks digunakan untuk melakukan analisis statistik serta pengujian hipotesis, memeriksa kejadian atau memvalidasi aturan lingustik dalam wilayah bahasa tertentu.
 
Definisi lainnya dari korpus teks adalah kumpulan teks alami, baik bahasa lisan maupun bahasa tulis, yang disusun secara sistematis.<ref>{{Cite web|last=Budiwiyanto|first=Adi|date=2022-01-22|title=Korpus Dalam Penyusunan Kamus|url=https://badanbahasa.kemdikbud.go.id/artikel-detail/822/korpus-dalam-penyusunan-kamus|website=Badan Pengembangan dan Pembinaan Bahasa|access-date=2022-10-14 Oktober 2022}}</ref>
 
== Sejarah Korpus ==
Linguistik korpus yang merupakan pembahasan ilmiah muncul sekitar tahun 1960-an yang pada era tersebut, dua buku dari [[Noam Chomsky]] berjudul ''Syntactic Structures'' terbit pada tahun 1957 dan ''Aspects of Theory of Syntax'' terbit pada tahun 1965 memberikan dampak besar bahkan memicu revisi standar paradigma dalam [[linguistik teoretis]].<ref>{{Cite book|last=Verfasser|first=Chomsky, Noam|date=1957|url=http://worldcat.org/oclc/1156931389|title=Syntactic Structures|publisher=Mouton|isbn=978-3-11-231600-9|pages=11|oclc=1156931389|url-status=live}}</ref>
 
Setelah itu, muncul proyek-proyek mengenai korpus. Proyek korpus pertama, dimulai di akhir tahun 1950-an, [[Randolph Quirk]] melakukan pengumpulan data bahasa untuk penelitian [[tata bahasa]] secara [[empiris]]. Saat itu, data yang dikumpulkannya belum terkomputerisasi dan baru pada pertengahan tahun 1980-an proses komputerisasi tersebut dilakukan oleh Randolph Quirk bersama [[Sydney Greenbaum]]. Itulah proyek korpus pertama yang dikenal dengan International ''Corpus of English'' yang didalam data tersebut terdiri atas 1 juta kata yang meliputi 500 ribu kata data lisan dan 500 ribu kata data tulis<ref>{{Cite web|date=2021-11-18 November 2021|title=The International Corpus of English|url=https://www.ucl.ac.uk/english-usage/projects/ice.htm|website=University College London|access-date=2022-10-15 Oktober 2022}}</ref>.
 
Proyek korpus kedua bernama [[Brown Corpus]] disusun oleh [[Nelson Francis]] pada tahun 1960-an yang terdiri dari 1 juta kata.<ref>{{Cite web|title=Brown Corpus Manual|url=http://icame.uib.no/brown/bcm.html|website=icame.uib.no|access-date=19 Oktober 2022}}</ref>
 
Proyek ketiga dari korpus bernama ''English Lexical Studies'' dimulai pada tahun 1963 di [[Edinburgh]] dan diselesaikan di [[Birmingham]] dipimpin oleh [[John Sinclair]]. Proyek ini berbasis sampel teks elektronik bahasa lisan dan tulis yang sangat kecil<ref>{{Cite book|last=McHardy.|first=Sinclair, John|date=1970|url=http://worldcat.org/oclc/1120811855|title=English lexical studies : report to OSTI on project C/LP/08.|publisher=Department of English, University of Birmingham|oclc=1120811855}}</ref>.
 
Pada proyek korpus berikutnya, yaitu ''Collins Cobuild English Language Dictionary'' yang disusun pertengahan 1970-an dan kamus tersebut diterbitkan pada tahun 1987 dibawah panduan John Sinclair. Pada kamus itu, korpus tersebut terdiri atas 18,3 juta kata<ref>{{Cite journal|last=Standop|first=Ewald|date=1988-01|title=Collins COBUILD English language dictionary|url=http://dx.doi.org/10.1016/0346-251x(88)90082-6|journal=System|volume=16|issue=3|pages=384–388|doi=10.1016/0346-251x(88)90082-6|issn=0346-251X}}</ref>.
 
== Aplikasi Korpus Teks ==