Korpus teks: Perbedaan antara revisi

Jelajahi riwayat secara interaktif

← Revisi sebelumnya

Konten dihapus Konten ditambahkan

VisualTeks wiki

Revisi per 15 Oktober 2022 15.57 sunting BangYeVoice (bicara \| kontrib) 75 suntingan Selesai menambahkan referensi dan pranala. Templat inuse dihapus Tag: VisualEditor-alih ← Revisi sebelumnya		Revisi terkini sejak 26 Desember 2022 23.47 sunting balikkan Ariyanto (bicara \| kontrib) Pengurus 67.086 suntingan →Lihat pula: (QuickEdit)
(9 revisi perantara oleh 5 pengguna tidak ditampilkan)
Baris 1: {{Yatim\|Oktober 2022}} '''Korpus teks''' adalah sumber daya [[bahasa]] yang terdiri dari kumpulan teks yang besar. Pada [[linguistik]], korpus teks juga dikenal dengan sebutan jamak korpora yang saat ini biasanya disimpan dan diproses secara elektronik. Korpus teks digunakan untuk melakukan analisis statistik serta pengujian ~~hipotesa~~hipotesis, memeriksa kejadian atau memvalidasi aturan ~~[[Linguistik\|~~lingustik]] dalam wilayah bahasa tertentu. ▼ Definisi lainnya dari korpus teks adalah kumpulan teks alami, baik bahasa lisan maupun bahasa tulis, yang disusun secara sistematis.<ref>{{Cite web\|last=Budiwiyanto\|first=Adi\|date=2022-01-22\|title=Korpus Dalam Penyusunan Kamus\|url=https://badanbahasa.kemdikbud.go.id/artikel-detail/822/korpus-dalam-penyusunan-kamus\|website=Badan Pengembangan dan Pembinaan Bahasa\|access-date=~~2022-10-~~14 Oktober 2022}}</ref>▼ ▲Korpus teks adalah sumber daya [[bahasa]] yang terdiri dari kumpulan teks yang besar. Pada linguistik korpus teks juga dikenal dengan sebutan jamak korpora yang saat ini biasanya disimpan dan diproses secara elektronik. Korpus teks digunakan untuk melakukan analisis statistik serta pengujian hipotesa, memeriksa kejadian atau memvalidasi aturan [[Linguistik\|lingustik]] dalam wilayah bahasa tertentu. == Sejarah ~~Korpus~~korpus ==▼ ▲Definisi lainnya dari korpus teks adalah kumpulan teks alami, baik bahasa lisan maupun bahasa tulis, yang disusun secara sistematis.<ref>{{Cite web\|last=Budiwiyanto\|first=Adi\|date=2022-01-22\|title=Korpus Dalam Penyusunan Kamus\|url=https://badanbahasa.kemdikbud.go.id/artikel-detail/822/korpus-dalam-penyusunan-kamus\|website=Badan Pengembangan dan Pembinaan Bahasa\|access-date=2022-10-14}}</ref> Linguistik korpus yang merupakan pembahasan ilmiah muncul sekitar tahun 1960-an ~~dimana~~yang pada era tersebut, dua buku dari [[Noam Chomsky]] ~~yang~~ berjudul ''Syntactic Structures'' terbit pada tahun 1957 dan ''Aspects of Theory of Syntax'' terbit pada tahun 1965 memberikan dampak besar bahkan memicu revisi standar paradigma dalam [[linguistik teoretis]].<ref>{{Cite book\|last=~~Kushartanti~~Verfasser\|first=~~Untung Yuwono~~Chomsky, ~~dan Multamia RMT Lauder~~Noam\|date=~~2007~~1957\|~~title~~url=~~Pesona Bahasa~~http: ~~Langkah Awal Memahami Linguistik~~//worldcat.org/oclc/1156931389\|~~location~~title=~~Jakarta~~Syntactic Structures\|publisher=~~Gramedia Pustaka Utama~~Mouton\|isbn=978-3-11-231600-9\|pages=11\|oclc=1156931389\|url-status=live}}</ref> ▼ Setelah itu, muncul proyek-proyek mengenai korpus. Proyek korpus pertama, dimulai di akhir tahun 1950-an, [[Randolph Quirk]] melakukan pengumpulan data bahasa untuk penelitian [[tata bahasa]] secara [[empiris]]. Saat itu, data yang dikumpulkannya belum terkomputerisasi dan baru pada pertengahan tahun 1980-an proses komputerisasi tersebut dilakukan oleh Randolph Quirk bersama [[Sydney Greenbaum]]. Itulah proyek korpus pertama yang dikenal dengan International ''Corpus of English'' ~~dimana~~yang ~~dalam~~didalam data tersebut terdiri atas 1 ~~juga~~juta kata yang meliputi 500 ribu kata data lisan dan 500 ribu kata data tulis<ref>{{Cite web\|date=~~2021-11-~~18 November 2021\|title=The International Corpus of English\|url=https://www.ucl.ac.uk/english-usage/projects/ice.htm\|website=University College London\|access-date=~~2022-10-~~15 Oktober 2022}}</ref>. ▼ ▲== Sejarah Korpus == ▲Linguistik korpus muncul sekitar tahun 1960-an dimana pada era tersebut, dua buku dari [[Noam Chomsky]] yang berjudul Syntactic Structures terbit pada tahun 1957 dan Aspects of Theory of Syntax terbit pada tahun 1965 memberikan dampak besar bahkan memicu revisi standar paradigma dalam linguistik teoretis.<ref>{{Cite book\|last=Kushartanti\|first=Untung Yuwono, dan Multamia RMT Lauder\|date=2007\|title=Pesona Bahasa: Langkah Awal Memahami Linguistik\|location=Jakarta\|publisher=Gramedia Pustaka Utama\|url-status=live}}</ref> Proyek korpus kedua bernama [[Brown Corpus]] disusun oleh [[Nelson Francis]] pada tahun 1960-an yang terdiri dari 1 juta kata.<ref>{{Cite web\|title=Brown Corpus Manual\|url=http://icame.uib.no/brown/bcm.html\|website=icame.uib.no\|access-date=19 Oktober 2022}}</ref> ▼ ▲Setelah itu, muncul proyek-proyek mengenai korpus. Proyek korpus pertama, di akhir tahun 1950-an, Randolph Quirk melakukan pengumpulan data bahasa untuk penelitian tata bahasa secara empiris. Saat itu, data yang dikumpulkannya belum terkomputerisasi dan baru pada pertengahan tahun 1980-an proses komputerisasi tersebut dilakukan oleh Quirk bersama Greenbaum. Itulah proyek korpus pertama yang dikenal dengan International Corpus of English dimana dalam data tersebut terdiri atas 1 juga kata yang meliputi 500 ribu kata data lisan dan 500 ribu kata data tulis<ref>{{Cite web\|date=2021-11-18\|title=The International Corpus of English\|url=https://www.ucl.ac.uk/english-usage/projects/ice.htm\|website=University College London\|access-date=2022-10-15}}</ref>. Proyek ketiga dari korpus bernama ''English Lexical Studies ~~yang~~'' dimulai pada tahun 1963 di [[Edinburgh]] dan diselesaikan di [[Birmingham]] dipimpin oleh [[John Sinclair]]. Proyek ini berbasis sampel teks elektronik bahasa lisan dan tulis yang sangat kecil<ref>{{Cite book\|last=McHardy.\|first=Sinclair, John\|date=1970\|url=http://worldcat.org/oclc/1120811855\|title=English lexical studies : report to OSTI on project C/LP/08.\|publisher=Department of English, University of Birmingham\|oclc=1120811855}}</ref>. ▼ ▲Proyek korpus kedua bernama Brown Corpus disusun oleh Nelson Francis pada tahun 1960-an yang terdiri dari 1 juta kata. Pada proyek korpus berikutnya, yaitu ''Collins Cobuild English Language Dictionary'' yang disusun pertengahan 1970-an dan kamus tersebut diterbitkan pada tahun 1987 dibawah panduan John Sinclair. ~~Didalamnya~~Pada kamus itu, korpus tersebut terdiri atas 18,3 juta kata<ref>{{Cite journal\|last=Standop\|first=Ewald\|date=1988-01\|title=Collins COBUILD English language dictionary\|url=http://dx.doi.org/10.1016/0346-251x(88)90082-6\|journal=System\|volume=16\|issue=3\|pages=384–388\|doi=10.1016/0346-251x(88)90082-6\|issn=0346-251X}}</ref>.▼ ▲Proyek ketiga dari korpus bernama English Lexical Studies yang dimulai pada tahun 1963 di Edinburgh dan diselesaikan di Birmingham dipimpin oleh John Sinclair. Proyek ini berbasis sampel teks elektronik bahasa lisan dan tulis yang sangat kecil<ref>{{Cite book\|last=McHardy.\|first=Sinclair, John\|date=1970\|url=http://worldcat.org/oclc/1120811855\|title=English lexical studies : report to OSTI on project C/LP/08.\|publisher=Department of English, University of Birmingham\|oclc=1120811855}}</ref>. == Aplikasi ~~Korpus~~korpus ~~Teks~~teks ==▼ ▲Pada proyek korpus berikutnya, yaitu Collins Cobuild English Language Dictionary yang disusun pertengahan 1970-an dan kamus tersebut diterbitkan pada tahun 1987 dibawah panduan John Sinclair. Didalamnya korpus tersebut terdiri atas 18,3 juta kata<ref>{{Cite journal\|last=Standop\|first=Ewald\|date=1988-01\|title=Collins COBUILD English language dictionary\|url=http://dx.doi.org/10.1016/0346-251x(88)90082-6\|journal=System\|volume=16\|issue=3\|pages=384–388\|doi=10.1016/0346-251x(88)90082-6\|issn=0346-251X}}</ref>. Pengaplikasian dari ~~Korpus~~korpus ~~Teks~~teks ini terdapat pada beberapa area meliputi : ▼ ▲== Aplikasi Korpus Teks == ▲Pengaplikasian dari Korpus Teks ini terdapat pada beberapa area meliputi : * Aplikasi korpus teks dalam dalam teknologi bahasa, [[Pengolahan bahasa alami\|pemrosesan bahasa alami]] dan [[Linguistik komputasi\|linguistik komputansi]] Analisis dan pemrosesan berbagai jenis korpora merupakan subjek beragam pekerjaan dalam linguistik komputasi, pengenalan suara, dan terjemahan mesin, ~~yang mana~~ hal tersebut sering digunakan untuk membuat [[model Markov tersembunyi]] yang digunakan untuk penandaan bagian ucapan dan tujuan lainnya. Turunan dari daftar korpora serta frekuensi, berguna dalam pengajaran bahasa. Korpora ~~dapat~~bisa dianggap sebagai bentuk dari jenis bantuan menulis dan memahami bahasa asing, karena ~~pemahaman~~ dari tata bahasa kontekstualnya ~~diperoleh~~, pengguna mampu memperoleh bahasa non asli melalui paparan teks yang otentik di korpora sehingga memungkinkan ~~pelajar~~pengguna yang mempelajarinya mampu untuk memahami cara dari pembentukan kalimat dalam bahasa tujuan dan memungkinkan penulisan yang efektif<ref>{{Cite journal\|last=Yoon\|first=Hyunsook\|last2=Hirvela\|first2=Alan\|date=2004-12\|title=ESL student attitudes toward corpus use in L2 writing\|url=http://dx.doi.org/10.1016/j.jslw.2004.06.002\|journal=Journal of Second Language Writing\|volume=13\|issue=4\|pages=257–283\|doi=10.1016/j.jslw.2004.06.002\|issn=1060-3743}}</ref>. * Mesin penerjemah Baris 29: Dalam mesin penerjemah, [[algoritma]] terjemahan mesin untuk menerjemahkan antara dua bahasa, sering dilatih menggunakan fragmen paralel yang terdiri atas korpus bahasa pertama serta korpus bahasa kedua, yang merupakan hasil terjemahan dari elemen per elemen dari bahasa pertama. Dalam korpus terjemahan, teks-teks dalam satu bahasa merupakan terjemahan dari teks-teks dalam bahasa lain. Dalam korpus yang sebanding, teks-~~teksnya~~teks tersebut memiliki jenis yang sama ~~dan~~serta mencakup konten yang sama, tetapi mereka bukan merupakan terjemahan satu sama lain<ref>{{Cite book\|last=Wołk\|first=Krzysztof\|last2=Marasek\|first2=Krzysztof\|date=2014\|url=http://link.springer.com/10.1007/978-3-319-05951-8_11\|title=Real-Time Statistical Speech Translation\|location=Cham\|publisher=Springer International Publishing\|isbn=978-3-319-05950-1\|editor-last=Rocha\|editor-first=Álvaro\|volume=275\|pages=107–113\|language=en\|doi=10.1007/978-3-319-05951-8_11\|editor-last2=Correia\|editor-first2=Ana Maria\|editor-last3=Tan\|editor-first3=Felix . B\|editor-last4=Stroetmann\|editor-first4=Karl . A}}</ref>. Untuk mengeksploitasi teks paralel, beberapa jenis perataan teks yang mengidentifikasi segmen teks yang setara ([[frasa]] atau kalimat) merupakan bagian prasyarat untuk analisis bahasa. * [[Filologi]] Korpora teks juga digunakan dalam studi dokumen sejarah, seperti dalam upaya untuk ~~menguraikan~~menerjemahkan naskah-naskah kuno, atau digunakan dalam studi pada [[Alkitab]]. Beberapa korpora [[arkeologi]] dapat memiliki durasi yang begitu singkat sehingga mereka memberikan gambaran pada waktunya. Salah satu korpora terpendek dalam waktu ~~mungkin~~terdapat ~~adalah~~pada teks surat [[Amarna]] 15–30 tahun (1350 SM). == Referensi == Baris 40: [[Kategori:Linguistik]] [[Kategori:Linguistik komputasional]] {{Reflist}} ==Lihat pula== *[[Linguistik korpus]]