Pengenalan karakter optis

Pengenalan Karakter Optik (bahasa Inggris: Optical Character Recognition, yang biasa disingkat OCR) adalah sebuah perangkat lunak yang mengubah teks dalam format berkas citra atau gambar ke dalam format teks yang bisa dibaca dan disunting oleh aplikasi komputer [1]. Berkas teks berformat citra tersebut didapatkan dengan cara memindai atau memfoto sebuah buku, manuskrip, tulisan di papan pengumuman, ataupun materi kuliah di papan tulis dsb. Sedangkan alat yang diunakan untuk memindai adalah pemindai (scanner dalam bahasa Inggrisnya) atau kamera baik kamera DSLR ataupun kamera di ponsel pintar.

Sebagai perangkat lunak yang kompleks, OCR diterapkan di berbagai bidang seperti untuk membaca data secara otomatis dan langsung memasukkannya ke dalam basis data -- contohnya seperti dalam pemindaian passport, nota transfer bank, kertas berharga – untuk pengenalan pelat kendaraan bermotor dari video atau gambar yang tertangkap kamera, dan yang paling marak adalah untuk preservasi konten buku-buku sumber referensi utama dan manuskrip bersejarah. Dalam beberapa kasus, OCR berkontribusi sangat besar dalam proses pembangunan perpustakaan digital.

Sejarah Singkat OCR

Sejarah OCR bisa dirunut sejak tahun 1809 saat piranti membaca untuk aplikasi orang buta dan pembacaan telegraf dikembangkan [2]. Kemudian berlanjut pada penemuan mesin yang mampu mengubah karakter tercetak ke dalam  kode standard telegraf buatan Emanuel Goldberg di tahun 1914 [3]. Mesin ciaptaan Goldberg ini diklaim sebagai asal muasal teknologi OCR. Di waktu yang bersamaan, Edmund Fourier mengembangkan Optophone yang merupakan mesin  pemindai jinjing yang mampu menghasilkan bunyi sesuai dengan karakter khusus yang tercetak di dokumen[2]. Kembali ke penemuan Goldberg, di akhir tahun 1920an tepatnya di tahun 1927, ciptaannya yang dinamai Mesin statistik (statistical machine)[4] merupakan sistem pengenalan kode optik yang digunakan untuk pencarian arsip mikrofilm.

Melompat ke dekade 1990an, OCR banyak dimanfaatkan oleh perpustakaan-perpustakaan untuk mendigitalkan surat kabar bersejarah[2]. Proyek digitalisasi buku-buku bersejarah dan sumber referensi primer ini mulai menjamur memasuki abad 21 karena didukung oleh perkembangan pesat di bidang perangkat keras, perangkat lunak dan Internet. Ini memungkinkan WebOCR – sebuah perangkat lunak daring yang diluncurkan oleh  Expervision[5] -- beroperasi di lingkungan komputasi Awan dan aplikasi perangkat bergerak (mobil applications).

Tahapan Proses OCR

Sebagai aplikasi yang kompleks, OCR memiliki beberapa tahapan utama yang terdiri dari :

  • Pra-pemrosesan
  • Tahap ekstraksi fitur
  • Proses pengenalan
  • Paska-proses

Tahap Praproses

Tahap prapemrosesan in bertujuan untuk mendapatkan karakter tunggal dari sebuah teks terpindai dalam kondisi yang bagus dan bersih sehingga memudahkan proses pengenalannya. Menurut Bieniecki dkk[6], prapemrosesan diawali dengan normalisasi kondisi teks dengan cara menghilangkan derau seperti noktah dan koreksi orientasi citra teks, tahap binerisasi, serta segmentasi. Tahap ini jika dilakukan dengan benar akan meningkatan rasio akurasi pengenalan Karakter.

Dalam dokumen citra teks yang terpindai, derau dikelompokkan menjadi dua yakni derau yang berasal dari proses pemindaian dan derau bawaan teks asli yang dipindai[7]. Derau bawaan teks asli bisa berbentuk sebagai noktah tinta, jamur yang tumbuh di kertas karena kelembaban udara, perubahan warna kertas karena usia dokumen, lubang karena ngengat, tulisan menjadi kabur karena air atau kelembaban, serta tinta tembus[7]. Ada beberapa metode dan teknik yang bisa digunakan untuk menghilangkan derau dalam kelompok ini. Sebagai contohnya, model probabilistik seperti penutupan biner (Bahasa Inggris binary mask) untuk mengurangi intensitas piksel atau distribusi Gaussian untuk memuluskan noktah atau derau lain yang cukup tebal[8]. Selain itu, informasi tentang kepadatan piksel dalam citra keabuan yang ditunjukkan oleh grafik Histogram bisa juga digunakan untuk mengurangi derau tipe ini. Teknik yang digunakan di Mahastama dan Krisnawati[7] adalah  dengan menghitung jarak 2 puncak tertinggi histogram menggunakan ukuran jarak Eucledian. Nilai ambang (Bahasa Inggris threshold) optimal didapatkan dengan mengukur rasio jarak kaki-kaki puncak yang diproyeksikan ke sumbu x. Nilai ambang difungsikan sebagai cara untuk menghilangkan derau sekaligus menjadi ambang pemisahan piksel teks dari piksel latar-belakangnya.

Perangkat lunak OCR

Pranala luar

  1. ^ "Optical Character Recognition (OCR) - How it works" (dalam bahasa Inggris). Diakses tanggal 2019-05-19. 
  2. ^ a b c Dhavale, S.V.  2017.  Advanced Image-Based Span Detection and Filtering Techniques. Hershey: IGI Global.
  3. ^ Buckland, M.K. 2006. Emanuel Goldberg and His Knowledge Machine: Information, Invention and Political Forces. Westport, Connecticut: Libraries Unlimited
  4. ^ "History of Computers and Computing, Internet, Dreamers, Emanuel Goldberg". history-computer.com. Diakses tanggal 2019-05-21. 
  5. ^ "WebOCR & OnlineOCR | OCR Software, OCR SDK & Toolkit, OCR Service – ExperVision OCR". www.expervision.com. Diakses tanggal 2019-05-21. 
  6. ^ Bieniecki, W., Grabowski, S.,  & Rozenberg, W. 2007.  Image Preprocessing for Improving OCR  Accuracy. In MEMSTEC’07, Lviv-Polyana, Ukraine, pp. 75-80.
  7. ^ a b c Mahastama, A. W. & Krisnawati, L.D. 2017. Histogram Peak Ratio-based Binarization for Historical Document Image. 2017 International Conference on Smart Cities, Automation & Intelligent Computing Systems (ICON-SONICS) . IEEEXplore Digital Library. Url: https://ieeexplore.ieee.org/document/8267828
  8. ^ Agam, G., Bal, G., Frieder, G., & Frieder, O. ”Degraded document image enhancement", Proc. SPIE 6500, Document Recognition and Retrieval XIV, 65000C (January 29, 2007); doi:10.1117/12.706484