AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần chỉ trong một bước

08:07 - 19/04/2024

Phương pháp mới giúp các công cụ như Stable Diffusion và DALL-E-3 nhanh hơn bằng cách đơn giản hóa quy trình tạo hình ảnh thành một bước duy nhất trong khi vẫn duy trì hoặc nâng cao chất lượng hình ảnh.

CÔNG NGHỆ AI DỊCH NGÔN NGỮ KÝ HIỆU THÀNH VĂN BẢN
SIÊU VẬT LIỆU CÓ TIỀM NĂNG ỨNG DỤNG TRONG CÔNG NGHỆ CẢM BIẾN
CHIP MICROCOMB MỞ ĐƯỜNG CHO HỆ THỐNG GPS CHÍNH XÁC HƠN GẤP NGHÌN LẦN
SỬ DỤNG SÓNG TERAHERTZ CHO MẠNG 6G AN TOÀN VÀ ỔN ĐỊNH
MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI

Trong thời đại trí tuệ nhân tạo hiện nay, máy tính có thể tạo ra “nghệ thuật” của riêng mình bằng các mô hình khuếch tán, lặp đi lặp lại việc thêm cấu trúc vào trạng thái nhiễu ban đầu cho đến khi xuất hiện hình ảnh hoặc video rõ ràng. Các mô hình khuếch tán đã dần khẳng định được vị trí của mình: Nhập một vài từ và trải nghiệm những khung cảnh tăng vọt dopamine tức thời ở điểm giao thoa giữa thực tế và tưởng tượng. Phía sau nó bao gồm một quy trình phức tạp, tốn nhiều thời gian, đòi hỏi nhiều lần lặp lại để thuật toán hoàn thiện hình ảnh.

Các nhà nghiên cứu của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) đã giới thiệu một nền tảng mới giúp đơn giản hóa quy trình gồm nhiều bước của các mô hình khuếch tán truyền thống thành một bước duy nhất, giải quyết các hạn chế trước đó. Điều này được thực hiện thông qua một loại mô hình huấn luyện-học hỏi: dạy một mô hình máy tính mới bắt chước hành vi của các mô hình nguyên bản, phức tạp hơn tạo ra hình ảnh. Phương pháp này, được gọi là chưng cất kết hợp phân phối (DMD), duy trì chất lượng của hình ảnh được tạo ra và cho phép tạo ra nhanh hơn nhiều.

Công việc của các nhà nghiên cứu là một phương pháp mới giúp tăng tốc các mô hình khuếch tán hiện tại như Khuếch tán ổn định và DALLE-3 lên 30 lần. Tiến bộ này không chỉ giảm đáng kể thời gian tính toán mà còn duy trì, nếu không muốn nói là vượt trội, chất lượng của nội dung hình ảnh được tạo ra. Về mặt lý thuyết, cách tiếp cận này kết hợp các nguyên tắc của mạng đối nghịch tạo sinh (GAN) với các nguyên tắc của mô hình khuếch tán, đạt được việc tạo ra nội dung trực quan trong một bước duy nhất - trái ngược hoàn toàn với hàng trăm bước sàng lọc lặp đi lặp lại mà các mô hình khuếch tán hiện tại yêu cầu. Nó có thể là một phương pháp mô hình tổng quát mới vượt trội về tốc độ và chất lượng.

Mô hình một bước này có thể nâng cao các công cụ thiết kế, cho phép tạo nội dung nhanh hơn và có khả năng hỗ trợ những tiến bộ trong khám phá thuốc và mô hình 3D, trong đó tính nhanh chóng và hiệu quả là chìa khóa.

Mô hình DMD có hai thành phần. Đầu tiên, nó sử dụng thất thoát hồi quy, neo giữ ánh xạ để đảm bảo tổ chức không gian hình ảnh thô nhằm giúp quá trình đào tạo ổn định hơn. Tiếp theo, nó sử dụng thất thoát khớp phân phối, đảm bảo rằng xác suất tạo ra một hình ảnh nhất định với mô hình học hỏi tương ứng với tần suất xuất hiện trong thế giới thực của nó. Để làm điều này, nó sử dụng hai mô hình khuếch tán đóng vai trò hướng dẫn, giúp hệ thống hiểu được sự khác biệt giữa hình ảnh thực và hình ảnh được tạo ra, đồng thời giúp việc huấn luyện tạo ra hình ảnh một bước trở nên nhanh chóng.

Hệ thống đạt được tốc độ tạo ra hình ảnh nhanh hơn bằng cách đào tạo một mạng mới để giảm thiểu sự khác biệt về phân phối giữa các hình ảnh được tạo ra và các hình ảnh từ tập dữ liệu huấn luyện được sử dụng bởi các mô hình khuếch tán truyền thống.

Các nhà nghiên cứu đã sử dụng mạng được đào tạo trước cho mô hình học hỏi mới, giúp đơn giản hóa quy trình. Bằng cách sao chép và tinh chỉnh các tham số từ các mô hình ban đầu, nhóm đã đạt được sự hội tụ đào tạo nhanh chóng của mô hình mới, có khả năng tạo ra hình ảnh chất lượng cao với cùng nền tảng kiến trúc. Điều này cho phép kết hợp với các tối ưu hóa hệ thống khác dựa trên kiến trúc ban đầu để đẩy nhanh hơn nữa quá trình sáng tạo.

Khi đưa vào thử nghiệm với các phương pháp thông thường, sử dụng nhiều điểm chuẩn khác nhau, DMD cho thấy hiệu suất ổn định. Theo tiêu chuẩn phổ biến về việc tạo hình ảnh dựa trên các lớp cụ thể trên ImageNet, DMD là kỹ thuật khuếch tán một bước đầu tiên tạo ra hình ảnh gần như ngang bằng với hình ảnh từ các mô hình ban đầu, phức tạp hơn, gây ấn tượng với chỉ số FID chỉ đạt 0.3, một con số ấn tượng vì FID chủ yếu đánh giá chất lượng và tính đa dạng của hình ảnh được tạo ra. Hơn nữa, DMD vượt trội trong việc tạo văn bản thành hình ảnh ở quy mô công nghiệp và đạt được hiệu suất tạo một bước hiện đại.

Ngoài ra, hiệu suất của hình ảnh do DMD tạo ra về bản chất có liên quan đến khả năng của mô hình huấn luyện được sử dụng. Hiện tại đang sử dụng Stable Diffusion v1.5 làm mô hình huấn luyện, mô hình học hỏi thừa hưởng những hạn chế như hiển thị mô tả chi tiết về văn bản và khuôn mặt cỡ nhỏ, cho thấy rằng hình ảnh do DMD tạo ra có thể được nâng cao hơn nữa bằng các mô hình huấn luyện tiên tiến hơn. Chi tiết tham khảo tại:

Rachel Gordon (2024). AI generates high-quality images 30 times faster in a single step. MIT News, https://news.mit.edu/2024/ai-generates-high-quality-images-30-times-faster-single-step-0321.

AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần chỉ trong một bước

AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần chỉ trong một bước

Khám phá kỹ thuật và công nghệ