Pengenalan karakter optis: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
k Perubahan kosmetik tanda baca |
k fix |
||
(7 revisi perantara oleh 5 pengguna tidak ditampilkan) | |||
Baris 1:
'''Pengenalan Karakter Optik''' ([[bahasa Inggris]]: '''O''ptical Character Recognition''''', yang biasa disingkat '''OCR''') adalah sebuah perangkat lunak yang mengubah teks dalam format berkas citra atau gambar ke dalam format teks yang bisa dibaca dan disunting oleh aplikasi komputer
Sebagai perangkat lunak yang kompleks, OCR diterapkan di berbagai bidang seperti untuk membaca data secara otomatis dan langsung memasukkannya ke dalam basis data -- contohnya seperti dalam pemindaian passport, nota transfer bank, kertas berharga – untuk pengenalan pelat kendaraan bermotor dari video atau gambar yang tertangkap kamera, dan yang paling marak adalah untuk preservasi konten buku-buku sumber referensi utama dan manuskrip bersejarah. Dalam beberapa kasus, OCR berkontribusi sangat besar dalam proses pembangunan perpustakaan digital.
== Sejarah Singkat OCR ==
Sejarah OCR bisa dirunut sejak tahun 1809 saat
Melompat ke dekade 1990an, OCR banyak dimanfaatkan oleh perpustakaan-perpustakaan untuk mendigitalkan surat kabar bersejarah.<ref name=":0" />
== Tahapan Proses OCR ==
Baris 17:
=== Tahap Praproses ===
Tahap prapemrosesan in bertujuan untuk mendapatkan karakter tunggal dari sebuah teks terpindai dalam kondisi yang bagus dan bersih sehingga memudahkan proses pengenalannya. Menurut Bieniecki dkk,<ref>Bieniecki, W., Grabowski, S.,
Dalam dokumen citra teks yang terpindai, derau dikelompokkan menjadi dua yakni derau yang berasal dari proses pemindaian dan derau bawaan teks asli yang dipindai.<ref name=":1">Mahastama, A. W. & Krisnawati, L.D. 2017. Histogram Peak Ratio-based Binarization for Historical Document Image. 2017 International Conference on Smart Cities, Automation & Intelligent Computing Systems (ICON-SONICS) . IEEEXplore Digital Library. Url: https://ieeexplore.ieee.org/document/8267828</ref>
Derau yang ditimbulkan oleh proses pemindaian atau pemotretan bisa berupa citra teks yang miring, teks yang melengkung di tengah karena ketebalan buku, serta kerangka teks yang berbentuk trapezium. Beberapa metode yang digunakan untuk mendeteksi bentuk geometri atau perspektif citra teks<ref name=":2">Cherriet, M., Kharma, N., Liu, C.L. & Suen, C.Y. 2007. Character Recognition System: A Guide for Students and Practioners. Hoboken, new Jersey: A John Wiley & Sons, INC.</ref> adalah:
Baris 34:
=== Tahap Ekstraksi Fitur ===
Tujuan dari ekstraksi fitur adalah untuk menemukan atribut pola-pola karakter yang terpenting dan berbeda dari karakter lainnya agar bisa diklasifikasikan. Peran manusia adalah menentukan dan menyeleksi fitur yang memungkinkan proses pengenalan yang efisien dan efeektif. Pertanyaannya adalah lalu apa saja yang bisa dijadikan fitur bagi himpunan aksara atau alfabet dalam sistem penulisan bahasa tertentu? Maka berikut ini adalah yang bisa digunakan sebagai fitur penentu sebuah aksara, alfabet atau abjad:<ref name=":2" />
* fitur garis: garis lurus, lengkung dan jumlah garis
Baris 72:
* Model grafis:
** Model regresi polinomial
** Model Gaussian linear
=== Paska-Proses Pengenalan ===
Setiap sistem OCR yang dibangun dengan algoritma tercanggihpun selalu membuat kesalahan, dalam arti tidak semua karakter yang dibaca dikonversikan ke karakter padanannya. Untuk itulah tahap paska-proses pencocokan karakter dilakukan untuk meningkatkan akurasi pengenalan karakter. Sistem paska-proses ini dikenal juga sebagai proses koreksi karena modul ini bertugas untuk mengoreksi kesalahan yang sering dilakukan di tataran kata.
Teknik yang digunakan dalam paska-koreksi adalah dengan menggunakan leksikon atau kamus. Alex dkk<ref name=":3">Alex, B., Glover, C., Klein, E., Tobin, R. 2012. Digitised Historical Text: Does it have to be mediOCRe? Proceedings of KONVENS 2012 (LThist 2012 workshop), Vienna, September 21, 2012</ref> membangun leksikonya dari buku-buku proyek Gutenberg (cari link di bhs Inggris) karena banyak mengandung varian penggunaan kata serta cara penulisan huruf dari
Menurut Fink dkk,<ref>Fink, F., Schulz, K.U., & Springmann, U. 2017. Profiling of OCR’ed Historical Texts Revisited. DATeCH 2017, Göttingen: ACM.</ref>
== Perangkat lunak OCR ==
Baris 100:
== Pranala luar ==
* {{en}} [http://www.icdar2007.org ICDAR], sebuah konferensi internasional yang membahas secara komprehensif segala aspek yang berhubungan dengan rekognisi dokumen
* {{en}} [http://groundstate.ca/ocr Linux OCR: Sebuah tinjauan mengenai perangkat lunak bebas OCR] {{Webarchive|url=https://web.archive.org/web/20071219024601/http://groundstate.ca/ocr |date=2007-12-19 }}
<references />
{{Natural language processing}}
{{Uncategorized|date=Februari 2023}}
|