Kyle Wiggers@kyle_l_wiggers / 12:00 AM GMT+7•October 20, 2023
Image Credits: Bryce Durbin / TechCrunch
OpenAI đã “thảo luận và tranh luận khá rộng rãi” về thời điểm phát hành một công cụ có thể xác định xem hình ảnh có được tạo bằng DALL-E 3, mô hình nghệ thuật AI tổng quát của OpenAI hay không. Nhưng công ty khởi nghiệp này không thể sớm đưa ra quyết định.
Đó là nhận định của Sandhini Agarwal, một nhà nghiên cứu OpenAI tập trung vào chính sách và an toàn, người đã nói chuyện với TechCrunch trong một cuộc phỏng vấn qua điện thoại trong tuần này. Cô ấy nói rằng, mặc dù độ chính xác của công cụ phân loại là “thực sự tốt” – ít nhất là theo ước tính của cô ấy – nhưng nó vẫn chưa đáp ứng được ngưỡng chất lượng của OpenAI.
Agarwal nói: “Vấn đề đặt ra là đưa ra một công cụ có phần không đáng tin cậy, vì những quyết định mà nó đưa ra có thể ảnh hưởng đáng kể đến các bức ảnh, chẳng hạn như liệu một tác phẩm được coi là do một nghệ sĩ vẽ hay không chân thực và gây hiểu nhầm”.
Độ chính xác được nhắm mục tiêu của OpenAI cho công cụ này dường như cực kỳ cao. Mira Murati, giám đốc công nghệ của OpenAI, cho biết tuần này tại hội nghị Tech Live của The Wall Street Journal rằng bộ phân loại có độ tin cậy “99%” trong việc xác định xem một bức ảnh chưa sửa đổi có được tạo bằng DALL-E 3 hay không. Có lẽ mục tiêu là 100%; Agarwal sẽ không nói.
Một bài đăng trên blog OpenAI dự thảo được chia sẻ với TechCrunch đã tiết lộ thông tin thú vị này:
“[Bộ phân loại] vẫn chính xác hơn 95% khi [một] hình ảnh phải chịu các loại sửa đổi phổ biến, chẳng hạn như cắt xén, thay đổi kích thước, nén JPEG hoặc khi văn bản hoặc phần cắt từ hình ảnh thực được chồng lên các phần nhỏ của hình ảnh được tạo .”
Sự miễn cưỡng của OpenAI có thể liên quan đến tranh cãi xung quanh công cụ phân loại công khai trước đây của nó, được thiết kế để phát hiện văn bản do AI tạo ra không chỉ từ các mô hình của OpenAI mà còn từ các mô hình tạo văn bản do các nhà cung cấp bên thứ ba phát hành. OpenAI đã kéo trình phát hiện văn bản do AI viết ra vì “tỷ lệ chính xác thấp” của nó, vốn đã bị chỉ trích rộng rãi.
Agarwal ngụ ý rằng OpenAI cũng tập trung vào câu hỏi triết học về chính xác thì điều gì tạo nên hình ảnh do AI tạo ra. Rõ ràng, tác phẩm nghệ thuật được tạo ra từ đầu bởi DALL-E 3 đủ điều kiện. Nhưng còn một hình ảnh từ DALL-E 3 đã trải qua nhiều vòng chỉnh sửa, được kết hợp với các hình ảnh khác và sau đó được chạy qua một vài bộ lọc xử lý hậu kỳ thì sao? Nó ít rõ ràng hơn.
“Tại thời điểm đó, hình ảnh đó có nên được coi là thứ do AI tạo ra hay không?” Agarwal nói. “ Ngay bây giờ, chúng tôi đang cố gắng giải quyết câu hỏi này và chúng tôi thực sự muốn nghe ý kiến từ các nghệ sĩ cũng như những người sẽ bị ảnh hưởng đáng kể bởi các công cụ [phân loại] như vậy.”
Một số tổ chức – không chỉ OpenAI – đang khám phá các kỹ thuật phát hiện và tạo hình chìm mờ cho phương tiện truyền thông tổng hợp khi các tác phẩm giả sâu của AI ngày càng phát triển .
DeepMind gần đây đã đề xuất một thông số kỹ thuật, SynthID , để đánh dấu các hình ảnh do AI tạo ra theo cách mà mắt người không thể nhận thấy nhưng có thể được phát hiện bởi một máy dò chuyên dụng. Công ty khởi nghiệp Imatag của Pháp , ra mắt vào năm 2020, cung cấp một công cụ tạo hình mờ mà họ tuyên bố không bị ảnh hưởng bởi việc thay đổi kích thước, cắt xén, chỉnh sửa hoặc nén hình ảnh, tương tự như SynthID. Tuy nhiên, một công ty khác, Steg.AI , sử dụng mô hình AI để áp dụng các hình mờ có thể thay đổi kích thước và các chỉnh sửa khác.
Vấn đề là, ngành công nghiệp vẫn chưa thống nhất xung quanh một tiêu chuẩn phát hiện hoặc hình mờ duy nhất. Ngay cả nếu có, không có gì đảm bảo rằng hình mờ – và bộ phát hiện vấn đề đó – sẽ không bị đánh bại .
Tôi đã hỏi Agarwal liệu trình phân loại hình ảnh của OpenAI có hỗ trợ phát hiện các hình ảnh được tạo bằng các công cụ tạo khác không phải OpenAI hay không. Cô ấy không cam kết với điều đó, nhưng đã nói rằng – tùy thuộc vào sự tiếp nhận của công cụ phân loại hình ảnh như nó tồn tại ngày nay – đó là một con đường mà OpenAI sẽ xem xét khám phá.
Agarwal nói: “Một trong những lý do tại sao ngay bây giờ [bộ phân loại] dành riêng cho DALL-E 3 là vì về mặt kỹ thuật, đó là một vấn đề dễ giải quyết hơn nhiều”. “[Máy dò chung] không phải là thứ chúng tôi đang làm ngay bây giờ… Nhưng tùy thuộc vào [công cụ phân loại] đi đến đâu, tôi không nói rằng chúng tôi sẽ không bao giờ làm điều đó.”