Các mô hình AI tạo ảnh đang phát triển với tốc độ chóng mặt, nhưng việc chúng tạo ra những hình ảnh “đáng ngờ” vẫn là điều phổ biến. Mọi người thường dễ dàng đổ lỗi cho các câu lệnh (prompt) do con người cung cấp. Vậy, liệu AI có khả năng xử lý tốt hơn khi làm việc độc quyền với các prompt được tạo ra bởi một AI khác không? Chúng ta sẽ đi sâu vào một thử nghiệm thực tế để tìm câu trả lời, nhằm đánh giá khả năng hiểu và diễn giải của các mô hình AI tạo ảnh hàng đầu hiện nay.
Thử nghiệm này không chỉ là một bài kiểm tra kỹ thuật mà còn là cơ hội để khám phá giới hạn và tiềm năng của công nghệ AI trong lĩnh vực sáng tạo hình ảnh. Bằng cách loại bỏ yếu tố “lỗi con người” trong quá trình tạo prompt, chúng ta có thể có cái nhìn rõ ràng hơn về cách AI thực sự “suy nghĩ” và “hình dung” các mô tả phức tạp.
Quy Tắc Thử Nghiệm Khả Năng Diễn Giải Prompt của AI
Khi các mô hình AI tạo ảnh xuất hiện cách đây vài năm, nhiều người đã nghĩ rằng chúng sẽ thay thế hoàn toàn những người làm việc với phương tiện hình ảnh. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, nhưng hình ảnh do AI tạo ra thường không thể đoán trước, đặc biệt nếu bạn yêu cầu những thứ phức tạp hơn (ví dụ, AI thường gặp khó khăn với việc tạo hình bàn tay người).
Chúng ta có thể đổ lỗi cho chính các mô hình AI về vấn đề này, hoặc cho sự thiếu nhất quán trong kỹ năng tạo prompt của con người. Cách tự nhiên nhất để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có cho kết quả tốt hơn nếu bạn nhập các prompt được tạo bởi AI hay không.
Để kiểm tra giả thuyết này, tôi sẽ sử dụng Gemini để tạo một loạt các prompt mà tránh sử dụng tên của đối tượng hoặc bức ảnh tôi đang cố gắng tạo ra. Điều này sẽ giúp kiểm tra mức độ AI “đọc” các hướng dẫn tốt đến đâu. Mặc dù vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu nó được huấn luyện (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng chúng ta sẽ chấp nhận điều đó.
Công cụ tôi chọn để tạo ảnh là Bing Image Creator, vốn được xây dựng trên DALL-E 3. Để kiểm tra khả năng của mô hình này một cách kỹ lưỡng, tôi sẽ bắt đầu với các hình dạng đơn giản và chuyển sang các hình ảnh phức tạp hơn khi thử nghiệm tiến triển.
Nếu bạn đã từng sử dụng ChatGPT và các công cụ tương tự, bạn sẽ nhận ra rằng một số câu trả lời của chúng có thể rất dài dòng. Điều này cũng không khác biệt với các prompt mà mô hình đã tạo ra cho tôi trong quá trình thử nghiệm. Vì vậy, tôi quyết định giới hạn mỗi prompt ở 500 ký tự để giữ tính nhất quán.
AI Hoạt Động Thế Nào Với Hình Dạng Đơn Giản?
Hãy bắt đầu với một hình vuông đơn giản. Tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó, và đây là kết quả:
“Một hình bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong có số đo chính xác 90 độ. Nó là một tứ giác đều với các cạnh đối song song.”
Sau khi đưa mô tả này vào DALL-E, tôi nhận được những kết quả sau:
Hình ảnh một hình vuông được tạo bởi AI DALL-E 3, minh họa khả năng của AI trong việc tái tạo hình học cơ bản.
Đúng là một hình vuông, mặc dù tôi nghĩ AI đã quá chú trọng vào hình học. Đã đến lúc tăng độ khó, vì vậy tôi yêu cầu AI mô tả chi tiết một hình lập phương.
“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”
Kết quả thật đáng ngạc nhiên:
Hình ảnh một khối lập phương, giống khối Rubik, do AI tạo ra từ mô tả về hình học không gian.
Bạn còn nhớ chúng ta đã nói gì về việc các mô hình AI khó đoán không? Chà, ở đây, DALL-E đã tạo ra một hình lập phương, nhưng nó lại hơi bị nhầm lẫn và biến thành một khối Rubik. Mặc dù tránh hoàn toàn từ ngữ chính xác, AI vẫn mắc lỗi một phần – có lẽ do sự phổ biến của món đồ chơi trí tuệ này. Điều này cho thấy ngay cả với những mô tả kỹ thuật chi tiết từ AI, DALL-E 3 vẫn có thể diễn giải sai ý định ban đầu, dẫn đến kết quả không mong muốn.
AI Tạo Ảnh Chân Dung Người Thế Nào?
Tình huống với khối lập phương cho thấy ngay cả với một mô tả chi tiết và “khách quan”, AI vẫn có thể hiểu sai các hướng dẫn khá trực tiếp. Vậy, hãy xem nó làm tốt đến đâu với các mô tả do AI tạo ra về những hình ảnh kinh điển, chẳng hạn như bức ảnh “Migrant Mother” của Dorothea Lange. Dưới đây là bức ảnh gốc:
Bức ảnh gốc 'Người Mẹ Di Cư' của Dorothea Lange, khắc họa người mẹ và các con trong cuộc Đại Khủng Hoảng.
Dưới đây là mô tả của Gemini về bức ảnh này:
“Một người phụ nữ, khuôn mặt in hằn vẻ lo lắng, nhìn ra ngoài khung hình. Bà được bao quanh bởi các con mình, khuôn mặt của chúng bị che khuất hoặc quay đi. Bàn tay bà đặt gần mặt, truyền tải sự kiệt sức và lo âu. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn cũ, và bố cục tổng thể u ám, nhấn mạnh gánh nặng của hoàn cảnh bà.”
Đây là cách DALL-E diễn giải bức ảnh nổi tiếng:
Tác phẩm AI tạo ra dựa trên mô tả ảnh 'Người Mẹ Di Cư', cho thấy khả năng tái hiện chủ thể con người của DALL-E 3.
Khá gần! Không hoàn hảo, vì DALL-E rõ ràng đã bỏ qua phần “được bao quanh bởi các con mình, khuôn mặt của chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại đảm nhận vai trò đó.
Hãy thử một cái gì đó phức tạp hơn. Bạn có lẽ đã thấy bức ảnh “Lunch atop a Skyscraper” mang tính biểu tượng:
Ảnh gốc 'Bữa Trưa Trên Tòa Nhà Chọc Trời', ghi lại cảnh công nhân ăn trưa trên xà thép.
Và đây là mô tả của Gemini:
“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không. Họ ăn trưa, chân buông thõng. Dầm được treo lơ lửng phía trên một thành phố trải dài. Những người đàn ông có vẻ thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh tượng được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”
Prompt xuất sắc này đã mang lại kết quả xuất sắc:
Hình ảnh được AI tạo ra phỏng theo bức 'Bữa Trưa Trên Tòa Nhà Chọc Trời', thể hiện khả năng tái tạo cảnh quan phức tạp.
Khi bạn bỏ qua những dấu hiệu kinh điển của một hình ảnh do AI tạo ra (những chiếc bát giống hệt nhau và các chủ thể “sao chép và dán”), nó gần như kỳ lạ về bố cục và không khí tổng thể. Tuy nhiên, điều này không có gì ngạc nhiên – bức ảnh này không chỉ siêu phổ biến mà còn thuộc phạm vi công cộng, vì vậy có lẽ DALL-E đã “tiêu hóa” nội dung của nó trong quá trình huấn luyện.
AI Có Thể Xử Lý Ảnh Phức Tạp Không?
Vì đây là “thử nghiệm” cuối cùng, chúng ta sẽ không ngần ngại. Mặc dù AI khá tốt với các chủ thể con người, nhưng nó thường gặp khó khăn khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh “Earthrise” mang tính biểu tượng được chụp từ quỹ đạo Mặt Trăng trên tàu Apollo 8 thì sao?
Bức ảnh 'Earthrise' mang tính biểu tượng, chụp Trái Đất từ quỹ đạo Mặt Trăng bởi phi hành đoàn Apollo 8.
Và đây là mô tả của Gemini:
“Một quả cầu được chiếu sáng một phần lơ lửng trong không gian tối. Một quả cầu nhỏ hơn, có tông màu xám, mọc lên trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các mảng xanh và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn đang mọc lên.”
Gemini thực sự đã “đánh rơi quả bóng” (hay đúng hơn là quả cầu) với mô tả này. Xem xét việc này quá trừu tượng, tôi đã thêm cụm từ “được chụp từ quỹ đạo Mặt Trăng gần” vào prompt, nhưng nó không giúp ích được nhiều:
Hình ảnh AI tạo ra về Mặt Trăng và Trái Đất, minh họa sự khó khăn của AI với các mô tả trừu tượng.
Đây là một bìa album nhạc progressive rock tuyệt vời, nhưng không có gì liên quan đến “Earthrise”. Để kết thúc thử nghiệm, tôi đã chọn bức ảnh ít được biết đến nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:
Bức ảnh công nghiệp 'Armco Steel' của Edward Weston, tập trung vào hình khối và kết cấu trừu tượng.
Mô tả của Gemini:
“Một loạt các bể công nghiệp kim loại tròn đầy khung hình. Các hình dạng của chúng trơn tru và phình to, tạo ra một mô hình lặp lại. Ánh sáng phản chiếu trên các bề mặt, làm nổi bật các hình dạng cong của chúng và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình thức và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”
Có vẻ là một prompt tốt, hãy xem DALL-E có đồng ý không:
Tác phẩm AI tạo ra từ mô tả 'Armco Steel', thể hiện sự khác biệt lớn so với ảnh gốc.
Mặc dù tôi đánh giá cao những rung cảm khoa học viễn tưởng, nhưng nó không hề giống với bản gốc. Tôi không muốn kết thúc thử nghiệm bằng một thất bại lớn, vì vậy tôi quyết định giúp máy bằng cách thêm thuật ngữ “ảnh chụp những năm 1920” vào cuối prompt.
Suy nghĩ của tôi là thuật ngữ cụ thể này có thể giúp làm rõ bức ảnh tôi đang đề cập. Thật không may, AI một lần nữa làm tôi thất vọng và tạo ra một bìa album nhạc prog rock khác:
Thử nghiệm AI tạo ảnh công nghiệp năm 1920, cho thấy kết quả vẫn không như mong đợi.
Kết quả của thử nghiệm này thật thú vị, và kết luận chúng ta có thể rút ra là việc tạo ảnh bằng AI cực kỳ khó đoán, đặc biệt là với các khái niệm trừu tượng hơn. Không quan trọng prompt được tạo ra bởi AI và chính xác, hay do con người và không hoàn hảo – kết quả dường như ngẫu nhiên.
Vì vậy, lần tới khi bạn cố gắng tự trách mình và khả năng tạo prompt của mình, hãy nhớ rằng kết quả có lẽ sẽ gần như tương tự ngay cả khi đó là hai cỗ máy giao tiếp với nhau. Có thể nói rằng, mặc dù prompt AI có thể rất chi tiết và khách quan, nhưng khả năng diễn giải ngữ cảnh và ý nghĩa sâu sắc của hình ảnh vẫn là một thách thức lớn đối với các mô hình AI tạo ảnh hiện nay. Việc cải thiện khả năng này sẽ là chìa khóa để nâng tầm công nghệ AI tạo ảnh trong tương lai.
Hãy chia sẻ ý kiến của bạn về khả năng tạo ảnh của AI dưới phần bình luận, hoặc tìm hiểu thêm các bài viết khác về công nghệ AI trên Thủ Thuật Mới!