Project Sederhana Python : Membuat Optical Character Recognition (OCR) Menggunakan Tesseract




Saat mengumpulkan data untuk proses text mining atau mencari referensi lain, kita sering menemukan sumber dalam bentuk gambar. Misalnya, jika kita akan menganalisis sebuah kata dalam format pdf, file tersebut malah berisi gambar teks. Ini tentu menyulitkan pemrosesan data. Salah satu solusi untuk masalah ini adalah kita dapat menggunakan Optical Character Recognition (OCR).


Pengertian Optical Character Recognition (OCR)


OCR adalah teknologi untuk mengenali teks dalam gambar, seperti dokumen dan foto. Salah satu tool OCR yang sering digunakan adalah Tesseract. Tesseract adalah OCR engine untuk berbagai sistem operasi. Awalnya dikembangkan oleh Hewlett-Packard, kemudian pengembangannya diambil alih oleh Google.

OCR adalah teknologi untuk mengenali teks dalam gambar, seperti dokumen dan foto. Salah satu tool OCR yang sering digunakan adalah Tesseract. Tesseract adalah OCR engine untuk berbagai sistem operasi. Awalnya dikembangkan oleh Hewlett-Packard, kemudian pengembangannya diambil alih oleh Google.

Baca Juga : Apa itu Anaconda & Cara Mudah Install di Windows dan Linux

Saat ini Tesseract bisa digunakan pada platform Windows, macOS, dan Linux. Tesseract mendukung Unicode (UTF-8) dan mendukung lebih dari 100 bahasa. Pada artikel ini kita akan mulai dengan proses instalasi Tesseract OCR, dan menguji ekstraksi teks dalam gambar.


Langkah - langkah Membuat OCR Dengan Tesseract Python


Langkah pertama adalah menginstal Tesseract. Untuk menggunakan library Tesseract, pertama-tama kita harus menginstalnya di sistem kita (jika belum ada). Jika Anda menggunakan Linux, Anda cukup menggunakan apt-get untuk menginstal Tesseract OCR:

sudo apt-get install tesseract-ocr

Untuk pengguna macOS, anda bisa menggunakan Homebrew untuk menginstall Tesseract.

brew install tesseract

Untuk pengguna Windows, bisa dilihat dokumentasi Tesseract disini.

Setelah itu kita buka Terminal / Command Prompt (CMD) lalu jalankan perintah berikut untuk menginstall pytesseract.

$ pip install pytesseract

Untuk lebih jelasnya perhatikkan gambar berikut ini.

Install pytesseract

Jika sudah selesai install pytesseract, mari kita lanjutkan dengan menggunakan Tesseract pada python. Pertama kita mengimpor library yang diperlukan.

from PIL import Image
import pytesseract

Disini saya akan menggunakan gambar sederhana untuk menguji penggunaan tesseract. Saya akan menggunakan gambar di bawah ini.

Sample Gambar

Kembali ke project kita, tambahkan kode dibawah ini untuk mencoba mengekstrak teks pada sample gambar.

filename = 'sample.png'
img1 = Image.open(filename)
text = pytesseract.image_to_string(img1)
print(text)

Untuk pengguna Windows jika ada error silahkan coba kode dibawah ini.

from PIL import Image
import pytesseract
filename = 'sample.png'
img1 = Image.open(filename)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(img1)
print(text)

Disini untuk melihat hasilnya kita gunakan perintah print(). Berikut ini merupakan hasil pengujiannya.

Hasil Pengujian

Cukup sekian Artikel mengenai Project Sederhana Python : Membuat Optical Character Recognition (OCR) Menggunakan Tesseract. Semoga bermanfaat dan jangan lupa Share Artikel ini ke teman-teman yang lainnya. Terimakasih.

Aji Fauzi Pangestu Saya hanya seorang Mahasiswa biasa yang rendah hati, rajin menabung, dan tidak sombong :)

Belum ada Komentar untuk "Project Sederhana Python : Membuat Optical Character Recognition (OCR) Menggunakan Tesseract"

Posting Komentar

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel