VNIT

Too lazy to think of a slogan

Trang chủ » Diễn Đàn » Hỏi đáp Tin học » Thuật ngữ Tin học và tiếng Việt trong CNTT » Recognize Vietnamese text using Tesseract OCR

Chủ đề đã bị khóa, bạn không thể xóa, sửa hay trả lời trong chủ đề này!

First Page Previous Page  1   2   3  Next Page Last Page
Locked Recognize Vietnamese text using Tesseract OCR
1
information Gởi bởi quan (20:32 26-11-2007)
Bài: 390 / Điểm VCS: 376 /

http://vietunicode.sour...howto/tesseract-ocr.html
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
information Gởi bởi quan (12:33 16-12-2007)
Bài: 390 / Điểm VCS: 376 /

jtOCR, một Java GUI frontend cho Tesseract OCR engine, hỗ trợ nhận dạng ký tự Unicode cho các dạng ảnh TIFF, JPEG, GIF, PNG, BMP, và ảnh chứa nhiều trang. Chương trình có phần hậu xử lý Tiếng Việt giúp sửa chữa các lỗi thường gặp trong quy trình OCR, tăng độ chính xác trên kết quả.

jtOCR là PMNM (open-source program), đòi hỏi Java Runtime Environment 6.0 và JAI Image I/O 1.1. Bạn có thể tham khảo thêm chi tiết tại:

http://vietunicode.sour...oad/jtocr/readme_vi.html
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (22:19 30-04-2008)
Bài: 390 / Điểm VCS: 376 /

jtOCR được gói kèm với Tesseract OCR engine (Windows executable) v2.01, cùng với Vietnamese và English language data. Ngoài ra, jtOCR cũng được tích hợp với bộ gõ Tiếng Việt và thư viện JAI Image I/O 1.1. Nhờ vậy, jtOCR có thể chạy ngay liền (run right out of the box) trên máy Windows có gắn JRE 6.0.

Trên các HĐH khác - như Ubuntu, RedHat, Fedora, OS X, BSD, Solaris - bạn cần download mã nguồn của Tesseract và build nó. jtOCR là chương trình Java cho nên sẽ vẫn chạy tốt; bạn chỉ cần chỉnh set Tesseract path.

Lưu ý: Vietnamese language data v2.01 chỉ chạy tốt với Tesseract engine v2.01. Data file cho v2.03 sẽ được tái tạo sắp tới.
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (23:22 07-06-2008)
Bài: 390 / Điểm VCS: 376 /

Mới ra lò VietOCR.NET, với tính năng tương tự như phiên bản Java. Các bạn có thể download tại:

http://vietocr.sourceforge.net
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (14:44 02-08-2008)
Bài: 390 / Điểm VCS: 376 /

Hiện Vietnamese language data cho Tesseract chỉ gồm hỗ trợ cho các font tiêu chuẩn: Times New Roman, Arial, Verdana, và Courier New. Trên hình ảnh tốt với bốn fonts nêu trên, kết quả OCR chính xác trên 97% cho Tiếng Việt; tuy nhiên, OCR cho hình ảnh có font chữ khác với bốn font hỗ trợ sẽ cho kết quả chính xác suy giảm rõ rệt. Số lượng và kiểu dáng font chữ Việt lại phong phú và đa dạng, cho nên bộ data tiêu chuẩn không thể nào đáp ứng nhu cầu thực tế.

Việc tạo language data tuy không khó khăn lắm và không cần phải lập trình nhưng đòi hỏi nhiều công sức, cần sự đóng góp của nhiều người. Cách thức tạo language data được tóm lược tại Train Tesseract - Tập huấn Tesseract. Mong các bạn hưởng ứng tham gia.
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (6:23 24-10-2008)
Bài: 390 / Điểm VCS: 376 /

Mới xuất bản VietOCR v0.9.4 và VietOCR.NET v0.5 gồm bản địa hóa giao diện của Swing và Winform frontend.

http://vietocr.sf.net
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (22:40 28-10-2008)
Bài: 390 / Điểm VCS: 376 /

VietOCR v0.9.5 & VietOCR.NET v0.6 Releases

    * Tích hợp hỗ trợ quét văn bản qua WIA Automation Library v2.0

http://vietocr.sf.net
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (23:16 18-01-2009)
Bài: 390 / Điểm VCS: 376 /

VietOCR v0.9.10 & VietOCR.NET v0.9.1 Releases

* Added watch folder monitor for Batch Processing

Batch processing nay được hỗ trợ. Chương trình theo dõi watch folder để phát hiện các tập tin ảnh mới, tự động gửi chúng tới OCR engine để xử lý, và xuất kết quả nhận dạng ra output folder.

http://vietocr.sf.net
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (20:11 21-06-2009)
Bài: 390 / Điểm VCS: 376 /

VietOCR v0.9.13 & VietOCR.NET v0.9.4 Release

Release này gồm nhiều cải tiến nhỏ và nâng cấp Tesseract OCR engine lên 2.04RC. Việc nâng cấp này sẽ giúp phần nhận dạng chạy ổn định và nhanh hơn.

http://vietocr.sf.net
Locked Re: Recognize Vietnamese text using Tesseract OCR
0
answer Gởi bởi quan (17:14 18-07-2009)
Bài: 390 / Điểm VCS: 376 /

VietOCR v1.0 Release

- Nâng cấp lên Tesseract OCR 2.04 engine (Windows executable)

http://vietocr.sf.net
First Page Previous Page  1   2   3  Next Page Last Page

Thống kê

Hiện tại web site có 85,801 thành viên. Xin chào đón thành viên mới nhất meocon_th_90.

Các thành viên đã tạo 62,791 chủ đề và 241,917 bài viết trong 30 box.

Hiện có 0 thành viên và 1 khách đang trực tuyến.

Template by styleshout / Icons by Tango Icon Library and FamFamFam.