Linguistik korpus

Linguistik korpus (bahasa Inggris: corpus linguistics) adalah sebuah bidang yang fokus pada prosedur atau metode untuk mempelajari atau meneliti bahasa.^[1] Metode linguistik ini menggunakan data dari bahan-bahan bahasa yang terkumpul dalam suatu sumber yang disebut korpus (jamak: korpora) yang berasal dari penggunaan bahasa dalam berbagai genre, ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang seluas-luasnya dan menghindari penggunaan bahasa yang sangat sempit seperti idiolek. Data-data tersebut disusun secara sistematis dan mudah diakses secara elektronis melalui komputer.

Metode ini digunakan dalam linguistik deskriptif maupun linguistik terapan, seperti penyusunan kamus, untuk menjamin bahwa data yang digunakan benar-benar berasal dari penggunaan yang luas dan terhindar dari penggunaan subjektif. Selain itu, korpus dapat membantu menyediakan, mengumpulkan, dan mengatur data linguistik untuk tujuan penelitian dan akademis lainnya, termasuk pedagogi.^[2]

Sejarah dan perkembangan

Dalam sejarah kajian linguistik, istilah korpus sudah ada sebelum tahun 1950-an. Pada awal kemunculannya, korpus digunakan oleh beberapa ahli bahasa dalam metodologi penelitian linguistik dengan mengumpulkan data bahasa sebanyak-banyaknya untuk mendukung teori-teori mereka. Para leksikografer atau penyusun kamus telah mengoleksi sampel-sampel penggunaan bahasa untuk mendefinisikan sebuah kata secara akurat setidaknya sejak akhir abad ke-19. Sebelum adanya komputer, sampel-sampel ini dikumpulkan pada secarik kertas kecil dan disusun dalam sangkar merpati.^[3] Meski dalam perkembangannya, korpus kembali memiliki daya tarik setelah penggunaan komputer modern dalam pengelolaannya sejak tahun 1980-an.^[1]

Istilah korpus dalam linguistik korpus modern selalu dikaitkan dengan korpus berbasis komputer yang memberikan keleluasaan pada peneliti untuk mencari kata atau ekspresi kebahasaan tertentu, menyusun korpus berdasarkan urutan tertentu, menemukan kata dalam konteks tertentu, dan menghitung frekuensi kemunculan kata tertentu dalam korpus secara cepat, akurat, dan dalam skala besar. Oleh karena itu, korpus di era modern lebih ditekankan pada bentuknya yang elektronis dan unsur keterbacaannya pada mesin.^[4]

Selain itu, penggunaan komputer modern juga meningkatkan jumlah dan memperluas jangkauan korpus. Jika sebelumnya jumlah korpus terbatas oleh keterbatasan manusia dalam mengoleksi dan mengelola korpus, maka dengan adanya komputer memungkinkan korpus tersedia dalam jumlah yang sangat besar dan dapat diakses dengan mudah.^[4]

Saat ini di Indonesia sudah muncul beberapa aplikasi yang dapat membantu analisis korpus, seperti Korpus Indonesia dan Korpus Nusantara yang dikembangkan oleh Fakultas Bahasa dan Seni Universitas Negeri Padang. Korpus Indonesia (KOIN) adalah bagian dari program pengembangan korpus dari Badan Pengembangan dan Pembinaan Bahasa, Kementerian Pendidikan, Kebudayaan, Riset, dan Teknologi. Sementara, Korpus Nusantara (Kortara) dikembangkan oleh Prof. Dr. Ermanto, S.Pd., M.Hum., dkk.

Metode

Tognini (2001) menyatakan dua pendekatan linguistik korpus, yaitu berbasis korpus (corpus-based) dan dikendalikan korpus (corpus-driven). Keduanya memiliki perbedaan dalam memandang korpus sebagai bukti yang dapat mendukung teori. Pendekatan yang berbasis korpus bersifat deduktif, sedangkan pendekatan yang dikendalikan korpus bersifat induktif, yakni menganggap korpus sebagai bukti yang harus menjadi acuan teori.

Cara menganalisis data korpus dapat dimulai dari metadata, penanda teks, dan anotasi.

Metadata, yaitu memberi informasi tentang siapa yang memproduksi teks, kapan, dan penggunaan bahasa dalam teks.
Penanda teks atau textual markup, meliputi tanda yang digunakan dalam penulisan teks, seperti tipologi (misalnya cetak miring).
Anotasi, yaitu memberi informasi mengenai fitur linguistik data bahasa tersebut, seperti penambahan kelas kata. Misalnya verba, nomina, adjektiva, atau adverbia.

Hal penting lain dalam linguistik korpus adalah tersedianya alat yang memungkinkan untuk mencari korpus dalam format baris secara vertikal atau biasa disebut konkordansi. Alat berupa perangkat lunak komputer yang digunakan untuk melakukan korkodansi berkembang dari generasi ke generasi hingga generasi keempat yang kini berbasis web.

Perhitungan statistik yang dapat digunakan untuk mengolah data linguistik korpus meliputi statistik deskriptif dan tes signifikansi untuk menguji seberapa mungkin hasil tertentu merupakan sebuah kebetulan, misalnya dalam menghitung kata kunci dan kolokasi.^[5]

Pendekatan

Pendekatan korpus terdiri dari 4 (empat) karakteristik utama:^[3]

Empiris, yaitu analisis berdasarkan pola-pola penggunaan yang aktual; Korpora terdiri atas segala tindak komunikasi, seperti kumpulan teks buku, fiksi, nonfiksi, majalah, paper, karya sastra, koran, percakapan di telepon, percakapan di ponsel, rapat, kuliah, siaran radio, dan tayangan televisi. Dengan kata lain, situasi apapun dalam konteks linguistik dapat berbentuk korpus.
Menggunakan koleksi teks yang besar dan terstruktur sebagai dasar analisis; Karakteristik ini mengacu pada korpus itu sendiri yang dapat berbentuk korpus tulis, korpus lisan, dan lain-lain.
Memanfaatkan penggunaan teknologi dalam analisis; Penggunaan teknologi dalam konteks ini tidak hanya berperan untuk menyimpan korpora saja, tetapi juga membantu menganalisis bahasa dalam sebuah korpus. Korpus diakses dan dianalisis oleh program korkodansi yang ada dalam komputer.
Menggunakan teknik analisis kuantitatif dan kualitatif; Hasil kuantitatif yang dihasilkan dari korpus nantinya akan dianalisis secara kualitatif untuk menemukan simpulan penelitian.

Referensi

^ ^a ^b McEnery, Tony; Wilson, Andrew (1996). Corpus Linguistics (dalam bahasa Inggris). Edinburgh University Press. ISBN 978-0-7486-0482-1.
^ Sari, Faizah (2013). "Bagaimana Teknologi dapat Membantu Metodologi" (PDF). Masyarakat Linguistik Indonesia. 31 (1): 107–110.
^ ^a ^b Bennett, Gena R. (2010). Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers (PDF). Michigan: Michigan ELT.
^ ^a ^b Suhardijanto, Totok dan Arawinda Dinakaramani (2018). "Korpus Beranotasi: ke Arah Pengembangan Korpus Bahasa-bahasa di Indonesia" (PDF). Kongres Bahasa Indonesia.
^ Waskita, Dana (2017). "Resensi Corpus Linguistics: Method, Theory and Practice" (PDF). Sosioteknologi. 16 (1): 145–147.

Artikel bertopik linguistika ini adalah sebuah rintisan. Anda dapat membantu Wikipedia dengan mengembangkannya.

[:0-1] McEnery, Tony; Wilson, Andrew (1996). Corpus Linguistics (dalam bahasa Inggris). Edinburgh University Press. ISBN 978-0-7486-0482-1.

[2] Sari, Faizah (2013). "Bagaimana Teknologi dapat Membantu Metodologi" (PDF). Masyarakat Linguistik Indonesia. 31 (1): 107–110.

[:2-3] Bennett, Gena R. (2010). Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers (PDF). Michigan: Michigan ELT.

[:1-4] Suhardijanto, Totok dan Arawinda Dinakaramani (2018). "Korpus Beranotasi: ke Arah Pengembangan Korpus Bahasa-bahasa di Indonesia" (PDF). Kongres Bahasa Indonesia.

[5] Waskita, Dana (2017). "Resensi Corpus Linguistics: Method, Theory and Practice" (PDF). Sosioteknologi. 16 (1): 145–147.

[1]

[2]

[3]

[4]

[5]