HỆ THỐNG NHẬN DẠNG GIỌNG NÓI TRỞ NÊN TOÀN DIỆN HƠN NHỜ MỘT NGHIÊN CỨU MỚI

HỆ THỐNG NHẬN DẠNG GIỌNG NÓI TRỞ NÊN TOÀN DIỆN HƠN NHỜ MỘT NGHIÊN CỨU MỚI

HỆ THỐNG NHẬN DẠNG GIỌNG NÓI TRỞ NÊN TOÀN DIỆN HƠN NHỜ MỘT NGHIÊN CỨU MỚI

08:41 - 04/05/2024

Một nghiên cứu mới được công bố gần đây nhằm khám phá cách những người nói tiếng Anh là người Mỹ gốc Phi điều chỉnh lời nói của họ để công nghệ nhận dạng giọng nói có thể hiểu được.

 

NGHIÊN CỨU VẬT LIỆU MỚI ĐẦY HỨA HẸN CHO NĂNG LƯỢNG MẶT TRỜI
MẠNG KHÔNG DÂY THẾ HỆ TIẾP THEO
AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần chỉ trong một bước
CẤU TRÚC NANO METALENS CÓ THỂ THƯƠNG MẠI HÓA VỚI CHI PHÍ THẤP?
KẾT QUẢ NGHIÊN CỨU HỢP TÁC GIỮA IMC VÀ ĐẠI HỌC MỞ HÀ NỘI VỀ GIẢI PHÁP PHÁT HIỆN BẤT THƯỜNG MẠNG

 

Tương tác với công nghệ giọng nói, chẳng hạn như Alexa của Amazon, Siri của Apple và Trợ lý Google, có thể giúp cuộc sống dễ dàng hơn bằng cách tăng hiệu quả và năng suất. Tuy nhiên, lỗi xuất hiện trong quá trình nói và hiểu lời nói khi tương tác thường khá phổ biến. Khi sử dụng các thiết bị này, người nói thường chuyển phong cách nói của họ từ kiểu bình thường sang âm lượng to hơn và chậm hơn, được gọi là lời nói định hướng công nghệ.

Nghiên cứu về lời nói định hướng công nghệ thường tập trung vào các dạng tiếng Anh Mỹ phổ biến mà không xem xét những nhóm người nói thường xuyên bị hiểu sai bởi công nghệ. Trên tạp chí JASA Express Letters, được xuất bản thay mặt cho Hiệp hội Âm học Hoa Kỳ bởi Nhà xuất bản AIP, các nhà nghiên cứu từ Google Research, Đại học California, Davis và Đại học Stanford đã tìm cách quyết vấn đề này.

Một nhóm thường bị hiểu nhầm bởi công nghệ giọng nói là những cá nhân nói tiếng Anh của người Mỹ gốc Phi, hay AAE. Vì tỷ lệ lỗi nhận dạng giọng nói tự động có thể cao hơn đối với người nói AAE, nên dễ xảy ra những ảnh hưởng tương ứng của việc phân biệt ngôn ngữ trong công nghệ.

Trên tất cả các hệ thống nhận dạng giọng nói tự động, cứ 10 từ mà đàn ông da màu nói thì có 4 từ bị phiên âm sai. Điều này ảnh hưởng đến nhóm người nói tiếng Anh là người Mỹ gốc Phi ở mọi cơ sở sử dụng công nghệ giọng nói, bao gồm cả chăm sóc sức khỏe và việc làm.

Nhóm nghiên cứu đã thiết kế một thử nghiệm để kiểm tra cách người nói AAE điều chỉnh lời nói của họ khi tưởng tượng nói chuyện với trợ lý giọng nói, so với việc nói chuyện với bạn bè, thành viên gia đình hoặc người lạ. Nghiên cứu đã kiểm tra các điều kiện nói chuyện quen thuộc của con người, điều kiện không quen thuộc và điều kiện lời nói do trợ lý giọng nói điều khiển bằng cách so sánh tốc độ giọng nói và sự thay đổi cao độ. Tham gia nghiên cứu bao gồm 19 người trưởng thành được xác định là người da màu hoặc người Mỹ gốc Phi từng gặp vấn đề với công nghệ giọng nói. Mỗi người tham gia hỏi một loạt câu hỏi cho trợ lý giọng nói. Những câu hỏi tương tự được lặp đi lặp lại như thể đang nói với một người quen và một lần nữa với một người lạ. Mỗi câu hỏi được ghi lại với tổng số 153 bản ghi.

Phân tích các bản ghi âm cho thấy người nói thể hiện hai sự điều chỉnh nhất quán khi họ nói chuyện bằng công nghệ giọng nói so với khi nói chuyện với người khác: tốc độ nói chậm hơn với ít biến đổi cao độ hơn (lời nói đơn điệu hơn).

Những phát hiện này cho thấy mọi người có những mô hình tinh thần về cách nói chuyện với công nghệ.

Có những nhóm người khác bị hiểu sai bởi công nghệ nhận dạng giọng nói, chẳng hạn như những người nói ngôn ngữ thứ hai. Các nhà nghiên cứu hy vọng sẽ mở rộng các loại ngôn ngữ được khám phá trong các thí nghiệm tương tác giữa người và máy tính, từ đó giải quyết những rào cản trong công nghệ để có thể hỗ trợ tất cả những ai muốn sử dụng nó.

       Chi tiết tham khảo tại:

[1]. Michelle Cohn, Zion Mengesha, Michal Lahav, Courtney Heldreth. African American English speakers’ pitch variation and rate adjustments for imagined technological and human addressees. JASA Express Letters, 2024; 4 (4) DOI: 10.1121/10.0025484

[2]. American Institute of Physics. “Machine listening: Making speech recognition systems more inclusive”. ScienceDaily. ScienceDaily, 30 April 2024. <www.sciencedaily.com/releases/2024/04/ 240430131852.htm>.