CÔNG NGHỆ AI DỊCH NGÔN NGỮ KÝ HIỆU THÀNH VĂN BẢN
15:14 - 11/04/2025
Các kỹ sư đưa ngôn ngữ ký hiệu vào “cuộc sống” bằng cách sử dụng AI để dịch theo thời gian thực. Công nghệ đột phá dịch Ngôn ngữ ký hiệu Hoa Kỳ thành văn bản.
Chủ tịch Phan Xuân Dũng chúc mừng Tổng hội Y học, Hội Dược học nhân ngày Thầy thuốc Việt Nam
CHIP MICROCOMB MỞ ĐƯỜNG CHO HỆ THỐNG GPS CHÍNH XÁC HƠN GẤP NGHÌN LẦN
SỬ DỤNG SÓNG TERAHERTZ CHO MẠNG 6G AN TOÀN VÀ ỔN ĐỊNH
MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI
Hệ thống nhận dạng Ngôn ngữ ký hiệu Hoa Kỳ (ASL) thường gặp khó khăn về độ chính xác do các cử chỉ tương tự nhau, chất lượng hình ảnh kém và ánh sáng không nhất quán. Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một hệ thống dịch cử chỉ thành văn bản với độ chính xác 98,2%, hoạt động theo thời gian thực trong các điều kiện khác nhau. Sử dụng webcam tiêu chuẩn và theo dõi nâng cao, hệ thống này cung cấp giải pháp có thể mở rộng để sử dụng trong thế giới thực, với MediaPipe theo dõi 21 điểm chính trên mỗi bàn tay và YOLOv11 phân loại chính xác các chữ cái ASL.
Đối với hàng triệu người khiếm thính và nặng tai trên toàn thế giới, rào cản giao tiếp có thể khiến những tương tác hàng ngày trở nên khó khăn. Các giải pháp truyền thống (như thông dịch viên ngôn ngữ ký hiệu) thường khan hiếm, đắt đỏ và phụ thuộc vào khả năng tiếp cận của con người. Trong một thế giới ngày càng số hóa, nhu cầu về công nghệ hỗ trợ thông minh cung cấp các giải pháp giao tiếp theo thời gian thực, chính xác và dễ tiếp cận đang tăng lên, nhằm thu hẹp khoảng cách quan trọng này.
Ngôn ngữ ký hiệu Hoa Kỳ (ASL) là một trong những ngôn ngữ ký hiệu được sử dụng rộng rãi nhất, bao gồm những cử chỉ tay riêng biệt đại diện cho các chữ cái, từ và cụm từ. Các hệ thống nhận dạng ASL hiện tại thường gặp khó khăn về hiệu suất, độ chính xác và độ mạnh mẽ theo thời gian thực trên nhiều môi trường khác nhau.
Một thách thức lớn trong hệ thống ASL nằm ở việc phân biệt các cử chỉ tương tự về mặt thị giác như “A” và “T” hoặc “M” và “N”, điều này thường dẫn đến phân loại sai. Ngoài ra, chất lượng tập dữ liệu còn gây ra những trở ngại đáng kể, bao gồm độ phân giải hình ảnh kém, chuyển động mờ, ánh sáng không nhất quán và sự khác biệt về kích thước bàn tay, tông màu da và nền. Những yếu tố này tạo ra sự thiên vị và làm giảm khả năng khái quát hóa của mô hình trên nhiều người dùng và môi trường khác nhau.
Để giải quyết những thách thức này, các nhà nghiên cứu từ Khoa Kỹ thuật và Khoa học Máy tính tại Đại học Florida Atlantic đã phát triển một hệ thống diễn giải ASL thời gian thực sáng tạo. Kết hợp sức mạnh phát hiện đối tượng của YOLOv11 với khả năng theo dõi bàn tay chính xác của MediaPipe, hệ thống có thể nhận dạng chính xác các chữ cái bảng chữ cái ASL theo thời gian thực. Sử dụng công nghệ học sâu tiên tiến và theo dõi điểm chính của bàn tay, hệ thống này dịch các cử chỉ ASL thành văn bản, cho phép người dùng tương tác đánh vần tên, địa điểm và nhiều thứ khác với độ chính xác đáng kinh ngạc.
Về cơ bản, một webcam tích hợp đóng vai trò như một cảm biến không tiếp xúc, thu thập dữ liệu hình ảnh trực tiếp được chuyển đổi thành các khung hình kỹ thuật số để phân tích cử chỉ. MediaPipe xác định 21 điểm chính trên mỗi bàn tay để tạo bản đồ xương, trong khi YOLOv11 sử dụng các điểm này để phát hiện và phân loại các chữ cái ASL với độ chính xác cao.
Điều khiến hệ thống này đặc biệt đáng chú ý là toàn bộ quy trình nhận dạng, từ việc ghi lại cử chỉ đến phân loại cử chỉ, hoạt động liền mạch theo thời gian thực, bất kể điều kiện ánh sáng hoặc bối cảnh thay đổi như thế nào. Tất cả những điều này đều đạt được bằng cách sử dụng phần cứng tiêu chuẩn, có sẵn, nhấn mạnh tiềm năng thực tế của hệ thống như một công nghệ hỗ trợ có khả năng mở rộng và dễ tiếp cận, biến nó thành một giải pháp khả thi cho các ứng dụng trong thế giới thực.
Kết quả nghiên cứu, được công bố trên tạp chí Sensors, xác nhận hiệu quả của hệ thống, đạt độ chính xác 98,2% (Độ chính xác trung bình, mAP@0,5) với độ trễ tối thiểu. Phát hiện này làm nổi bật khả năng cung cấp độ chính xác cao theo thời gian thực của hệ thống, khiến nó trở thành giải pháp lý tưởng cho các ứng dụng đòi hỏi hiệu suất nhanh và đáng tin cậy, chẳng hạn như xử lý video trực tiếp và công nghệ tương tác.
Với 130.000 hình ảnh, Bộ dữ liệu cử chỉ tay ASL Alphabet bao gồm nhiều cử chỉ tay được chụp trong các điều kiện khác nhau để giúp các mô hình khái quát hóa tốt hơn. Các điều kiện này bao gồm nhiều môi trường ánh sáng khác nhau (sáng, tối và tối), nhiều loại nền (cả cảnh ngoài trời và trong nhà) và nhiều góc độ và hướng tay khác nhau để đảm bảo độ chắc chắn.
Mỗi hình ảnh được chú thích cẩn thận với 21 điểm chính, làm nổi bật các cấu trúc bàn tay thiết yếu như đầu ngón tay, đốt ngón tay và cổ tay. Các chú thích này cung cấp bản đồ xương của bàn tay, cho phép các mô hình phân biệt các cử chỉ tương tự với độ chính xác đặc biệt.
Bằng cách thu hẹp khoảng cách giao tiếp thông qua nhận dạng ASL theo thời gian thực, hệ thống này đóng vai trò quan trọng trong việc thúc đẩy một xã hội hòa nhập hơn. Nó cho phép những người khiếm thính tương tác liền mạch hơn với thế giới xung quanh, cho dù họ đang giới thiệu bản thân, điều hướng môi trường của mình hay chỉ đơn giản là tham gia vào các cuộc trò chuyện hàng ngày. Công nghệ này không chỉ tăng cường khả năng tiếp cận mà còn hỗ trợ sự hòa nhập xã hội lớn hơn, giúp tạo ra một cộng đồng gắn kết và đồng cảm hơn cho mọi người. Chi tiết tham khảo tại đây:
Bader Alsharif, Easa Alalwany, Ali Ibrahim, Imad Mahgoub, Mohammad Ilyas. Real-Time American Sign Language Interpretation Using Deep Learning and Keypoint Tracking. Sensors, 2025; 25 (7): 2138 DOI: 10.3390/s25072138