YOLO v9: Vượt qua ranh giới phát hiện đối tượng theo thời gian thực

YOLO v9: Vượt qua ranh giới phát hiện đối tượng theo thời gian thực

YOLO v9: Vượt qua ranh giới phát hiện đối tượng theo thời gian thực

09:02 - 29/02/2024

Lĩnh vực phát hiện đối tượng đã chứng kiến ​​​​một cơn lốc tiến bộ trong những năm gần đây và phiên bản mới nhất - YOLO v9 hứa hẹn sẽ là phiên bản tiếp theo thay đổi cuộc chơi. Dựa trên sự thành công của những phiên bản tiền nhiệm, YOLO v9 mang đến những cải tiến đáng kể về độ chính xác, tốc độ và tính linh hoạt, củng cố vị trí dẫn đầu trong lĩnh vực thú vị này.

HỆ THỐNG NHẬN DẠNG GIỌNG NÓI TRỞ NÊN TOÀN DIỆN HƠN NHỜ MỘT NGHIÊN CỨU MỚI
AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần chỉ trong một bước
CẤU TRÚC NANO METALENS CÓ THỂ THƯƠNG MẠI HÓA VỚI CHI PHÍ THẤP?
KẾT QUẢ NGHIÊN CỨU HỢP TÁC GIỮA IMC VÀ ĐẠI HỌC MỞ HÀ NỘI VỀ GIẢI PHÁP PHÁT HIỆN BẤT THƯỜNG MẠNG
Chip mới mở ra cánh cửa cho điện toán AI với tốc độ ánh sáng

YOLO (You Only Look Once) lần đầu tiên xuất hiện vào năm 2015 và đã cách mạng hóa việc phát hiện đối tượng với kiến ​​trúc một giai đoạn. Điều này có nghĩa là dự đoán cả lớp đối tượng và vị trí trong một lần, dẫn đến tốc độ xử lý nhanh hơn so với các phương pháp hai giai đoạn truyền thống. Các phiên bản tiếp theo, như YOLO v5 và v8, đã cải tiến phương pháp này, nâng cao hơn nữa hiệu suất và giới thiệu những tính năng như phân đoạn toàn cảnh.

YOLO v9: Bước nhảy vọt mới?

Dưới đây là một số tính năng chính tạo nên sự khác biệt của YOLO v9:

Độ chính xác được cải thiện: Trong khi duy trì hiệu suất thời gian thực, YOLO v9 vượt qua các phiên bản trước và thậm chí là đối thủ của các mô hình hiện đại như RT-DETR về độ chính xác. Điều này giúp nhận dạng đối tượng tốt hơn và ít phát hiện bị bỏ sót hơn.

Programmable Gradient Information (PGI): Kỹ thuật mới này giải quyết nút thắt thông tin thường gặp phải ở các mô hình nhẹ. Nó cho phép luồng gradient hiệu quả hơn và chuyển giao kiến ​​thức giữa các lớp mạng, cuối cùng dẫn đến hiệu suất và học tập tốt hơn.

Tốc độ và hiệu quả được nâng cao: YOLO v9 có các chiến lược đào tạo và kiến ​​trúc được tối ưu hóa, dẫn đến thời gian suy luận nhanh hơn và cải thiện mức sử dụng bộ nhớ. Điều này khiến nó trở nên lý tưởng để triển khai trên các thiết bị có nguồn lực hạn chế và các ứng dụng thời gian thực.

Tính linh hoạt: Thiết kế mô-đun của YOLO v9 cho phép dễ dàng tùy chỉnh và thích ứng với các tác vụ và bộ dữ liệu khác nhau. Điều này mở ra cánh cửa cho các ứng dụng đa dạng ngoài khả năng phát hiện đối tượng truyền thống, bao gồm phân đoạn phiên bản, ước tính điểm chính, v.v…

                             So sánh hiệu năng của YOLO v9 với các phiên bản khác

 

                              Độ chính xác của YOLO v9 theo kích thước mô hình (S, M, C, E)

Tuy nhiên, điều quan trọng cần nhớ là YOLO v9 vẫn còn khá mới. Mặc dù kết quả ban đầu đầy hứa hẹn nhưng cần phải thử nghiệm và đánh giá thêm để củng cố vị trí của nó trong bối cảnh phát hiện đối tượng rộng hơn. Ngoài ra, các cân nhắc như yêu cầu đào tạo và tài nguyên tính toán phải được tính đến khi triển khai trong thế giới thực. Chi tiết tham khảo tại: 

https://github.com/WongKinYiu/yolov9

https://deepmindsystems.tech/yolo-v9-real-time-object-detection