Trang chủ » Diễn Đàn » Hỏi đáp Tin học » Thuật ngữ Tin học và tiếng Việt trong CNTT » Recognize Vietnamese text using Tesseract OCR
Chủ đề đã bị khóa, bạn không thể xóa, sửa hay trả lời trong chủ đề này!
|
|
|---|
|
1
|
|
|
|
0
jtOCR, một Java GUI frontend cho Tesseract OCR engine, hỗ trợ nhận dạng ký tự Unicode cho các dạng ảnh TIFF, JPEG, GIF, PNG, BMP, và ảnh chứa nhiều trang. Chương trình có phần hậu xử lý Tiếng Việt giúp sửa chữa các lỗi thường gặp trong quy trình OCR, tăng độ chính xác trên kết quả.
jtOCR là PMNM (open-source program), đòi hỏi Java Runtime Environment 6.0 và JAI Image I/O 1.1. Bạn có thể tham khảo thêm chi tiết tại: http://vietunicode.sour...oad/jtocr/readme_vi.html |
|
|
|
0
jtOCR được gói kèm với Tesseract OCR engine (Windows executable) v2.01, cùng với Vietnamese và English language data. Ngoài ra, jtOCR cũng được tích hợp với bộ gõ Tiếng Việt và thư viện JAI Image I/O 1.1. Nhờ vậy, jtOCR có thể chạy ngay liền (run right out of the box) trên máy Windows có gắn JRE 6.0.
Trên các HĐH khác - như Ubuntu, RedHat, Fedora, OS X, BSD, Solaris - bạn cần download mã nguồn của Tesseract và build nó. jtOCR là chương trình Java cho nên sẽ vẫn chạy tốt; bạn chỉ cần chỉnh set Tesseract path. Lưu ý: Vietnamese language data v2.01 chỉ chạy tốt với Tesseract engine v2.01. Data file cho v2.03 sẽ được tái tạo sắp tới. |
|
|
|
0
Mới ra lò VietOCR.NET, với tính năng tương tự như phiên bản Java. Các bạn có thể download tại:
http://vietocr.sourceforge.net |
|
|
|
0
Hiện Vietnamese language data cho Tesseract chỉ gồm hỗ trợ cho các font tiêu chuẩn: Times New Roman, Arial, Verdana, và Courier New. Trên hình ảnh tốt với bốn fonts nêu trên, kết quả OCR chính xác trên 97% cho Tiếng Việt; tuy nhiên, OCR cho hình ảnh có font chữ khác với bốn font hỗ trợ sẽ cho kết quả chính xác suy giảm rõ rệt. Số lượng và kiểu dáng font chữ Việt lại phong phú và đa dạng, cho nên bộ data tiêu chuẩn không thể nào đáp ứng nhu cầu thực tế.
Việc tạo language data tuy không khó khăn lắm và không cần phải lập trình nhưng đòi hỏi nhiều công sức, cần sự đóng góp của nhiều người. Cách thức tạo language data được tóm lược tại Train Tesseract - Tập huấn Tesseract. Mong các bạn hưởng ứng tham gia. |
|
|
|
0
Mới xuất bản VietOCR v0.9.4 và VietOCR.NET v0.5 gồm bản địa hóa giao diện của Swing và Winform frontend.
http://vietocr.sf.net |
|
|
|
0
VietOCR v0.9.5 & VietOCR.NET v0.6 Releases
* Tích hợp hỗ trợ quét văn bản qua WIA Automation Library v2.0 http://vietocr.sf.net |
|
|
|
0
VietOCR v0.9.10 & VietOCR.NET v0.9.1 Releases
* Added watch folder monitor for Batch Processing Batch processing nay được hỗ trợ. Chương trình theo dõi watch folder để phát hiện các tập tin ảnh mới, tự động gửi chúng tới OCR engine để xử lý, và xuất kết quả nhận dạng ra output folder. http://vietocr.sf.net |
|
|
|
0
VietOCR v0.9.13 & VietOCR.NET v0.9.4 Release
Release này gồm nhiều cải tiến nhỏ và nâng cấp Tesseract OCR engine lên 2.04RC. Việc nâng cấp này sẽ giúp phần nhận dạng chạy ổn định và nhanh hơn. http://vietocr.sf.net |
|
|
|
0
VietOCR v1.0 Release
- Nâng cấp lên Tesseract OCR 2.04 engine (Windows executable) http://vietocr.sf.net |
