Project Sederhana Python : Membuat Optical Character Recognition (OCR) Menggunakan Tesseract
Saat mengumpulkan data untuk proses text mining atau mencari referensi lain, kita sering menemukan sumber dalam bentuk gambar. Misalnya, jika kita akan menganalisis sebuah kata dalam format pdf, file tersebut malah berisi gambar teks. Ini tentu menyulitkan pemrosesan data. Salah satu solusi untuk masalah ini adalah kita dapat menggunakan Optical Character Recognition (OCR).
Pengertian Optical Character Recognition (OCR)
OCR adalah teknologi untuk mengenali teks dalam gambar, seperti dokumen dan foto. Salah satu tool OCR yang sering digunakan adalah Tesseract. Tesseract adalah OCR engine untuk berbagai sistem operasi. Awalnya dikembangkan oleh Hewlett-Packard, kemudian pengembangannya diambil alih oleh Google.
OCR adalah teknologi untuk mengenali teks dalam gambar, seperti dokumen dan foto. Salah satu tool OCR yang sering digunakan adalah Tesseract. Tesseract adalah OCR engine untuk berbagai sistem operasi. Awalnya dikembangkan oleh Hewlett-Packard, kemudian pengembangannya diambil alih oleh Google.
Baca Juga : Apa itu Anaconda & Cara Mudah Install di Windows dan Linux
Saat ini Tesseract bisa digunakan pada platform Windows, macOS, dan Linux. Tesseract mendukung Unicode (UTF-8) dan mendukung lebih dari 100 bahasa. Pada artikel ini kita akan mulai dengan proses instalasi Tesseract OCR, dan menguji ekstraksi teks dalam gambar.
Langkah - langkah Membuat OCR Dengan Tesseract Python
Langkah pertama adalah menginstal Tesseract. Untuk menggunakan library Tesseract, pertama-tama kita harus menginstalnya di sistem kita (jika belum ada). Jika Anda menggunakan Linux, Anda cukup menggunakan apt-get untuk menginstal Tesseract OCR:
sudo apt-get install tesseract-ocr
Untuk pengguna macOS, anda bisa menggunakan Homebrew untuk menginstall Tesseract.
brew install tesseract
Untuk pengguna Windows, bisa dilihat dokumentasi Tesseract disini.
Setelah itu kita buka Terminal / Command Prompt (CMD) lalu jalankan perintah berikut untuk menginstall pytesseract.
$ pip install pytesseract
Untuk lebih jelasnya perhatikkan gambar berikut ini.
Install pytesseract |
Jika sudah selesai install pytesseract, mari kita lanjutkan dengan menggunakan Tesseract pada python. Pertama kita mengimpor library yang diperlukan.
from PIL import Image import pytesseract
Disini saya akan menggunakan gambar sederhana untuk menguji penggunaan tesseract. Saya akan menggunakan gambar di bawah ini.
Sample Gambar |
Kembali ke project kita, tambahkan kode dibawah ini untuk mencoba mengekstrak teks pada sample gambar.
filename = 'sample.png' img1 = Image.open(filename) text = pytesseract.image_to_string(img1) print(text)
Untuk pengguna Windows jika ada error silahkan coba kode dibawah ini.
from PIL import Image import pytesseract filename = 'sample.png' img1 = Image.open(filename) pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' text = pytesseract.image_to_string(img1) print(text)
Disini untuk melihat hasilnya kita gunakan perintah print(). Berikut ini merupakan hasil pengujiannya.
Hasil Pengujian |
Cukup sekian Artikel mengenai Project Sederhana Python : Membuat Optical Character Recognition (OCR) Menggunakan Tesseract. Semoga bermanfaat dan jangan lupa Share Artikel ini ke teman-teman yang lainnya. Terimakasih.
Belum ada Komentar untuk "Project Sederhana Python : Membuat Optical Character Recognition (OCR) Menggunakan Tesseract"
Posting Komentar