Monday, November 25, 2019

Optical Character Recognition dengan Tesseract


Ada banyak aplikasi OCR Optical Character Recognition yang beredar saat ini, seperti Omnipage yang sangat powerfull sekali ref: https://www.kofax.com/Products/omnipage?source=nuance

Tapi postingan kali ini, saya tidak bahas produk diatas, tapi lebih menggunakan aplikasi yang bisa kamu pakai untuk menunjang project-project mu bila perlu yaitu  tesseract yang kini sudah mencapai versi 4.0.0; Jangan bingung tesseract seperti di film transformer!

Penulis sering menggunakan tesseract juga koq seperti link dibawah ini untuk mempermudah pengembangan project berbasis OCR; seperti di lansir dari ref: https://en.wikipedia.org/wiki/Tesseract_(software) Tesseract adalah mesin pengenalan karakter untuk berbagai sistem operasi yang bersifat gratis, dirilis di bawah Lisensi Apache dan pengembangan telah disponsori oleh Google sejak tahun 2006. Tesseract dianggap sebagai salah satu mesin OCR open-source paling akurat yang tersedia saat itu

Nah tesseract menggunakan Leptonica Engine ref:  http://www.leptonica.org/. Leptonica yang fokus terhadap pemrosesan gambar dan aplikasi analisis gambar

Kamu pun sangat diuntungkan bila menggunakan Python karena ada wrapper nya juga ref: https://pypi.org/project/pyleptonica/

Lebih lanjut dokumentasi (menggunakan bahasa C) ref: https://tpgit.github.io/UnOfficialLeptDocs/leptonica/index.html
 Beberapa pembahasan sebelumnya di blog ini:
  1. http://www.softscients.web.id/2018/06/optical-character-recognition-for.html
  2. http://www.softscients.web.id/2014/09/pustaka-optical-character-recognition.html
  3. http://www.softscients.web.id/2013/12/engine-optical-character-recognition.html
Tesseract bisa download di https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe; jangan lupa pada saat install, download sekalian database indonesianya.

 

Jangan lupa buat setup di path nya seperti berikut


 
Nah sekarang, kamu bisa menggunakan CMD atau subprosess menggunakan bahasa pemrograman yang lainnya untuk bisa digunakan.
 
 
Hasilnya yaitu

No comments: