Làm sao để chuyển đổi chữ viết trong hình ảnh sang định dạng văn bản?

16:44 - 15/02/2022

Bài viết này nhằm tìm ra phương án tốt nhất giúp chuyển đổi chữ viết trong hình ảnh (ảnh chụp, file scan, ...) sang định dạng văn bản (file word, text).

CÔNG NGHỆ AI DỊCH NGÔN NGỮ KÝ HIỆU THÀNH VĂN BẢN
SIÊU VẬT LIỆU CÓ TIỀM NĂNG ỨNG DỤNG TRONG CÔNG NGHỆ CẢM BIẾN
CHIP MICROCOMB MỞ ĐƯỜNG CHO HỆ THỐNG GPS CHÍNH XÁC HƠN GẤP NGHÌN LẦN
SỬ DỤNG SÓNG TERAHERTZ CHO MẠNG 6G AN TOÀN VÀ ỔN ĐỊNH
MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI

Bạn sẽ làm gì khi có một file scan chứa đầy thông tin chữ viết cần chuyển sang định dạng văn bản? Cách quen thuộc thường được sử dụng là tìm kiếm cách làm trên google, thấy hàng tá kết quả được phân chia theo 2 nhóm phương pháp sau:

- Cài đặt phần mềm giúp chuyển đổi;

- Các trang web hỗ trợ chuyển đổi online.

Nhìn chung, các phương pháp trên đều rất tiện lợi và các dạng file hỗ trợ chuyển đổi thường là scanned pdf và file ảnh (.jpg, .png, ...) sang định dạng văn bản (.doc, .txt).

Phương pháp thì có rất nhiều và đa số đều miễn phí. Câu hỏi đặt ra là phương pháp nào tốt nhất và an toàn nhất? Rất nhiều phương pháp có độ chính xác không cao (liên quan đến văn bản, sẽ vấn đề đau đầu khi kết quả chuyển đổi sang định dạng văn bản có chỗ đúng, chỗ sai) và tiềm ẩn rủi ro bảo mật rất cao (do từ nhiều nguồn chia sẻ không đáng tin cậy). Vậy làm sao để tìm ra phương pháp chính xác nhất và an toàn nhất?

Như trong câu nói nổi tiếng “nói có sách, mách có chứng”, phương pháp nào chính xác nhất đòi hỏi phải có các nghiên cứu, so sánh chi tiết và kết quả sẽ đáng tin cậy hơn khi đó là các công bố khoa học.

Sau khi khảo sát các nghiên cứu, kết quả cho thấy có 5 nền tảng ưu việt nhất trong giải quyết bài toán chúng ta đang nói đến gồm:

ABBYY FineReader 15;
Amazon Textract;
Google Cloud Platform Vision API;
Micrsoft Azure Computer Vision API;
Tesseract OCR Engine.

Việc so sánh được thực hiện trên các loại hình ảnh chụp khác nhau gồm:

Loại 1: Ảnh chụp màn hình trang web có băn bản trong đó;
Loại 2: Ảnh chữ viết tay;
Loại 3: Ảnh biên lai, hóa đơn và hợp đồng dạng scan.

Kết quả các nghiên cứu, so sánh cho thấy, Google Cloud Platform Vision API về tổng thể đạt độ chính xác cao nhất (khoảng 98%), đứng thứ hai là Amazon Textract. Riêng về nhận dạng ảnh loại 3 (ảnh chụp biên lai, hóa đơn và hợp đồng dạng scan), Amazon Textract dẫn đầu với độ chính xác gần như tuyệt đối (99,3%).

Hình 1. Kết quả so sánh được công bố trên trang AI Multiple

Không những có độ chính xác cao, các nền tảng này còn tương đối an toàn đối với người sử dụng. Google Cloud Platform Vision API nghe có vẻ xa lạ nhưng thực ra rất gần gũi, dễ sử dụng và hoàn toàn miễn phí.

Tất cả những gì chúng ta cần làm là tải tệp ảnh cần chuyển đổi sang định dạng văn bản lên Google Drive, nhấn chuột phải vào file đó, chọn mở bằng “Google tài liệu”, sau ít giây tệp đã được mở ra với 2 định dạng trong cùng một file: trên cùng là file ảnh được đưa vào trong văn bản, ngay phía dưới chính là định dạng văn bản chúng ta cần. Chỉ cần copy lại hoặc lưu tệp với định dạng “.doc” là chúng ta đã có được kết quả vừa chính xác nhất, vừa tiện lợi, an toàn và miễn phí.

Hình 2. Tất cả những gì cần làm gồm 3 bước: 1 - tải file ảnh lên Google Drive; 2 – Nhấn chuột phải vào file đó và 3 – chọn mở bằng Google Tài liệu

(Sưu tầm)
VIỆN IMC
Tòa nhà IMC Tower, Số 176 Trường Chinh, Phường Khương
Thượng, Quận Đống Đa, Thành phố Hà Nội, Việt Nam
Tel/Fax : (+84) 24 3566 6232 / 24 3566 6234
Email: contact@imc.org.vn Website: https://imc.org.vn

Làm sao để chuyển đổi chữ viết trong hình ảnh sang định dạng văn bản?

Làm sao để chuyển đổi chữ viết trong hình ảnh sang định dạng văn bản?

Khám phá kỹ thuật và công nghệ