MÔ HÌNH AI MỚI “TABPFN” CHO DỮ LIỆU DẠNG BẢNG NHỎ

MÔ HÌNH AI MỚI “TABPFN” CHO DỮ LIỆU DẠNG BẢNG NHỎ

MÔ HÌNH AI MỚI “TABPFN” CHO DỮ LIỆU DẠNG BẢNG NHỎ

10:37 - 10/01/2025

Một nhóm các nhà nghiên cứu về học máy dẫn đầu bởi Đại học Freiburg đã phát triển phương pháp mới cho phép dự đoán nhanh hơn và chính xác hơn trên các tập dữ liệu dạng bảng, đặc biệt đối với các tập dữ liệu nhỏ có ít hơn 10.000 điểm dữ liệu.

 

MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI
ĐIỂM LẠI CÁC HOẠT ĐỘNG TIÊU BIỂU CỦA VUSTA NĂM 2024
TIẾP TỤC ĐỔI MỚI NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG CỦA CÁC TỔ CHỨC KHOA HỌC VÀ CÔNG NGHỆ
PHÁT HIỆN MỚI TRONG CÔNG NGHỆ HIỂN THỊ MÀN HÌNH
TRIỂN LÃM QUỐC TẾ VỀ LINH KIỆN ĐIỆN TỬ VÀ SẢN XUẤT THÔNG MINH 2024 TẠI HÀ NỘI

 

Lấp đầy khoảng trống trong các tập dữ liệu hoặc xác định giá trị ngoại lai là phạm vi của thuật toán học máy TabPFN, được phát triển bởi một nhóm do Giáo sư Tiến sĩ Frank Hutter từ Đại học Freiburg đứng đầu. Mô hình trí tuệ nhân tạo (AI) này sử dụng các phương pháp học lấy cảm hứng từ các mô hình ngôn ngữ lớn. TabPFN tìm hiểu mối quan hệ nhân quả từ dữ liệu tổng hợp và do đó có nhiều khả năng đưa ra các dự đoán chính xác hơn so với các thuật toán tiêu chuẩn đã được sử dụng cho đến nay. Kết quả đã được công bố trên tạp chí Nature. Ngoài Đại học Freiburg, Trung tâm Y tế Đại học Freiburg, Charité - Đại học Y khoa Berlin, công ty khởi nghiệp PriorLabs của Freiburg và Viện ELLIS Tübingen cùng tham gia.

Các tập dữ liệu, cho dù là về tác dụng của một số loại thuốc hay đường đi của hạt trong máy gia tốc tại CERN, hiếm khi hoàn chỉnh hoặc không có lỗi. Do đó, một phần quan trọng của phân tích dữ liệu khoa học là nhận ra những giá trị ngoại lệ hoặc dự đoán ước tính có ý nghĩa cho những giá trị bị thiếu. Các thuật toán hiện có, chẳng hạn như XGBoost, hoạt động tốt với những tập dữ liệu lớn, nhưng thường không đáng tin cậy với khối lượng dữ liệu nhỏ hơn.

Với mô hình TabPFN, Hutter và nhóm của ông giải quyết vấn đề này bằng cách đào tạo thuật toán trên tập dữ liệu được tạo ra một cách nhân tạo mô phỏng theo tình huống thực tế. Để làm được điều này, các nhà khoa học tạo ra bảng dữ liệu trong đó các mục nhập trong các cột bảng riêng lẻ được liên kết nhân quả. TabPFN đã được đào tạo với 100 triệu tập dữ liệu tổng hợp như vậy. Quá trình đào tạo này dạy mô hình đánh giá các mối quan hệ nhân quả có thể có khác nhau và sử dụng chúng để dự đoán. Các nhà nghiên cứu đã sử dụng siêu máy tính NEMO để đào tạo mô hình AI (xem hình ảnh tiêu đề).

Mô hình này đặc biệt vượt trội hơn các thuật toán khác đối với loại bảng nhỏ có ít hơn 10.000 hàng, nhiều giá trị ngoại lai hoặc số lượng lớn các giá trị bị thiếu. Ví dụ, TabPFN chỉ yêu cầu 50% dữ liệu để đạt được độ chính xác tương tự như mô hình tốt nhất trước đó. Ngoài ra, TabPFN hiệu quả hơn các thuật toán trước đó trong việc xử lý dữ liệu mới. Thay vì bắt đầu một quy trình học mới cho mỗi tập dữ liệu, mô hình có thể được điều chỉnh cho các tập dữ liệu tương tự. Quy trình này tương tự như việc điều chỉnh các mô hình ngôn ngữ có trọng số mở như Llama do Meta phát triển. Mô hình này cũng giúp có thể suy ra mật độ xác suất từ ​​một tập dữ liệu và tạo dữ liệu mới có các thuộc tính tương tự từ tập dữ liệu đó.

Khả năng sử dụng TabPFN để tính toán dự đoán một cách đáng tin cậy và nhanh chóng từ dữ liệu dạng bảng có tiềm năng ứng dụng cho nhiều ngành, từ y sinh học đến kinh tế và vật lý. TabPFN mang lại kết quả tốt hơn, nhanh hơn, đòi hỏi ít tài nguyên và dữ liệu, phù hợp lý tưởng cho các công ty và nhóm nhỏ. Chi tiết tham khảo tại đây:

Noah Hollmann, Samuel Müller, Lennart Purucker, Arjun Krishnakumar, Max Körfer, Shi Bin Hoo, Robin Tibor Schirrmeister, Frank Hutter. Accurate predictions on small data with a tabular foundation model. Nature, 2025; 637 (8045): 319 DOI: 10.1038/s41586-024-08328-6