download Tesseract OCR 3.02.02

Tesseract OCR

 3.02.02

Download Tesseract OCR - Nhận dạng ký tự trên hình ảnh

Lê Thị Thuỷ  cập nhật: 02/04/2018

Tesseract-OCR là giải pháp nhận dạng ký tự quang học được HP Labs sáng tạo và giờ đây đang được phát triển bởi hãng Google, nhằm trợ giúp người dùng thu thập các ký tự trên hình ảnh. Đặc biệt, Tesseract-OCR còn có khả năng hỗ trợ thực thi nhanh qua dấu nhắc lệnh và tạo tập tin văn bản định dạng TXT để lưu các nội dung được trích xuất.


Việc chuyển các ký tự vào các hình ảnh đồ họa không phải là nhiệm vụ quá khó khăn nhưng để trích xuất các từ hay ký tự từ một tập tin hình ảnh lại khá rắc rối. Để thực hiện công việc này, người dùng cần sử dụng một công cụ đặc biệt sở hữu rất nhiều tính năng hữu ích có tên là Tesseract-OCR.

tesseract ocr

Nhiều lựa chọn cài đặt

Trước khi bắt đầu sử dụng công cụ, người dùng cần tải Tesseract-OCR và chú ý đến quy trình cài đặt ứng dụng bởi Tesseract-OCR cung cấp rất nhiều yếu tố phụ hữu ích cần thiết khi xử lý các tài liệu bằng nhiều ngoại ngữ khác nhau.

Trong số đó, mục "Language data" (dữ liệu ngôn ngữ) cho phép người dùng chọn các ngôn ngữ muốn sử dụng và bổ sung các mô-đun phát hiện phương trình và thuật toán trong trường hợp người dùng muốn trích xuất dạng dữ liệu này.

Để chuyển đổi ảnh, PDF và tài liệu được scan sang định dạng khác, bạn có thể sử dụng phần mềm Image to OCR Converter hoạt động dựa trên công nghệ nhận diện ký tự quang học, ưu điểm của Image to OCR Converter còn cung cấp các chức năng bảo mật tài liệu thông dụng bao gồm bảo vệ bằng mật khẩu và nhúng watermark.

Không có giao diện GUI và thực thi nhanh qua Command Prompt

Ngay sau khi Tesseract-OCR được cài đặt vào hệ thống, người dùng dễ dàng khai thác các tính năng của ứng dụng qua dòng lệnh và bắt đầu sử dụng ứng dụng ngay lập tức. Khi xử lý các tập tin đích, người dùng sẽ phải áp dụng một số thông số cần thiết để thực hiện các thao tác này.

Các giá trị quan trọng nhất là các giá trị của thông số 'pagesegmode' và chủ yếu liên quan đến việc phân trang và xử lý hình ảnh.

PDF OCR cũng là phần mềm đọc file PDF hiệu quả được nhiều người sử dụng, bên cạnh đó PDF OCR còn có nhiều công cụ thay đổi font chữ, tùy chọn liên kết, tìm kiếm đoạn văn và lựa chọn thay thế... cho tài liệu của bạn.

Khả năng hoạt động nhanh và hỗ trợ đầu ra

Một trong những ưu điểm chính của Tesseract-OCR là ứng dụng có khả năng nhận diện và xử lý nhiều loại tập tin hình ảnh đồ họa. Một đặc điểm khác nữa là tốc độ xử lý của Tesseract-OCR cực kỳ nhanh chóng, đảm bảo đáp ứng nhu cầu sử dụng người dùng.

Để lưu các nội dung được trích xuất, chương trình Tesseract-OCR tạo ra các tập tin văn bản có định dạng TXT theo tên được đặt trước khi người dùng bắt đầu sử dụng tác vụ.

Tóm lại, Tesseract-OCR là công cụ dòng lệnh không mấy khó hiểu, kể cả với người dùng ít kinh nghiệm bởi Tesseract-OCR sử dụng cú pháp cực kỳ đơn giản với khả năng xử lý nhanh và chính xác hơn rất nhiều các ứng dụng có tính năng tương tự.

Các tính năng chính của Tesseract-OCR:

- Cho phép chọn ngôn ngữ muốn sử dụng.

- Bổ sung mô-đun phát hiện phương trình và thuật toán.

- Không có giao diện GUI.

- Hỗ trợ thực thi nhanh qua dấu nhắc lệnh Command Prompt.

- Tốc độ xử lý nhanh.

- Tạo tập tin văn bản định dạng TXT.


Liên kết tải về - [12.8 MB]

Bấm vào [Link File] để tải về phần mềm, hoặc tải phiên bản phù hợp phía dưới

Liên kết dự phòng:
Các phiên bản khác



Bài viết liên quan

 Thông tin giới thiệu, hướng dẫn sử dụng phần mềm Tesseract OCR được biên soạn nhằm giúp bạn có thêm thông tin tham khảo, việc daoloat tesseract ocr là hoàn toàn miễn phí, bạn có thể chi tiết nội dung tại mục "Điều khoản".

Các phiên bảnHướng dẫn

   Tải về

Tesseract OCR 3.02.02


Phần mềm Liên quan & Tương tự
  • OmniFormat 3/5 Chuyển đổi hình ảnh, tài liệu
  • PhotoInfoEx 3/5 Xử lý, chuyển đổi hình ảnh
Bấm vào file dưới
Để cài phần mềm