So Sánh DALL-E và ChatGPT 4o: AI Tạo Ảnh Nào Vượt Trội Hơn?

Table of Contents

OpenAI vừa tung ra bản nâng cấp khổng lồ cho khả năng tạo hình ảnh của ChatGPT, và đây là một trong những khoảnh khắc khiến bạn phải chớp mắt, nhìn lại, và bắt đầu tự hỏi về ranh giới giữa thực và ảo. Với tư cách là một chuyên gia SEO và biên tập viên kỳ cựu tại thuthuatmoi.net, chúng tôi sẽ không lãng phí thời gian của bạn với các con số, kích thước mô hình, hay bao nhiêu giờ GPU mà mô hình mới này tiêu tốn. Thay vào đó, chúng tôi sẽ trực tiếp cho bạn thấy những gì công cụ tạo ảnh AI này có thể làm – và cách nó so sánh với mô hình DALL-E cũ. Mục tiêu của chúng tôi là cung cấp một cái nhìn khách quan, sâu sắc, giúp độc giả hiểu rõ hơn về khả năng hiện tại của ChatGPT 4o tạo ảnh trong việc định hình thế giới kỹ thuật số.

7. Khắc phục Lỗi “Ác Mộng” về Bàn Tay và Ngón Tay

Khi công nghệ AI tạo hình ảnh lần đầu tiên trở nên phổ biến, nó đã khiến chúng ta kinh ngạc. Nhưng sau đó… chúng ta nhìn kỹ hơn. Dấu hiệu nhận biết điển hình của một hình ảnh AI là giải phẫu bàn tay và ngón tay kỳ lạ, thường bị biến dạng hoặc có số lượng ngón không chính xác. Vậy còn cách nào tốt hơn để kiểm tra các mô hình này ngoài việc yêu cầu chúng tái tạo một hợp âm guitar?

Để dành phần tốt nhất đến cuối cùng, chúng tôi đã yêu cầu mô hình DALL-E gốc trước, sau đó là công cụ tạo ảnh mới được tích hợp vào mô hình ChatGPT 4o.

Bàn tay chơi guitar với ngón tay và dây đàn bị biến dạng do DALL-E tạo ra

Hình trên là kết quả mà DALL-E đưa ra. Mặc dù có những hạn chế nhất định, DALL-E thực sự đã xử lý khá tốt phần ngón tay và giải phẫu tổng thể ở đây. Tuy nhiên, bản thân hợp âm thì… không ổn lắm. Bàn tay được đặt quá cao trên cần đàn để có thể chơi hợp âm E minor. Nếu phóng to, bạn sẽ thấy cây đàn guitar có nhiều hơn bảy dây, và khoảng cách giữa các dây cũng không đồng đều.

Với những nhận xét đó, hãy cùng chuyển sang ChatGPT 4o.

Bàn tay thực tế đang chơi hợp âm E minor trên đàn guitar acoustic được tạo bởi ChatGPT 4o

Chúng tôi có thể đã nói đùa rằng đây thực ra là một bức ảnh cũ từ khi chúng tôi còn chơi guitar. ChatGPT 4o thực sự tốt đến mức đó. Sáu dây, khoảng cách đều nhau, và hợp âm thực sự có thể là E minor. Điều này thật sự ấn tượng và thể hiện sự cải thiện đáng kể trong chất lượng ảnh AI so với các thế hệ trước.

6. Tái Hiện Các Danh Nhân Lịch Sử Sống Động

Sau khi kiểm tra khả năng xử lý tay và ngón tay, hãy cùng thử thách các khuôn mặt. Chúng tôi quyết định thử với các nhân vật lịch sử, vì họ sẽ không cảm thấy bị xúc phạm, và thật thú vị khi thấy họ trong một bối cảnh hiện đại.

Prompt: “Albert Einstein đang ăn kem ở Central Park, mặc một chiếc áo sơ mi thông thường và dây đeo quần.”

Hình ảnh một người đàn ông giống Albert Einstein ăn kem tại Central Park do DALL-E tạo

Kết quả hoàn toàn đáng thất vọng. Công bằng mà nói, DALL-E đã cảnh báo rằng nó không thể sử dụng hình ảnh của Einstein mà thay vào đó sẽ dùng một người “có nét tương đồng”. Một trong những đặc điểm quen thuộc của DALL-E là phong cách vừa hoạt hình vừa thực tế, điều này thể hiện rõ ràng ở đây.

Tòa nhà San Remo ở phía sau gợi ý rằng đây là Central Park, nhưng đó là điểm cộng duy nhất. Chuyển sang ChatGPT 4o.

Chân dung Albert Einstein ăn kem tại Central Park sống động được tạo bởi ChatGPT 4o

Chỉ cần áp dụng bộ lọc đen trắng, chúng tôi có thể thuyết phục bạn rằng đây là một bức ảnh cổ điển có thật. Kem trên ốc quế trông đúng kiểu kem, Albert vẫn giữ vẻ thờ ơ đặc trưng của mình, và tòa nhà San Remo vẫn đứng sừng sững phía sau. Mọi thứ đều khớp. ChatGPT 4o đã làm rất tốt, cho thấy khả năng tạo ảnh chân thực AI đã đạt đến một tầm cao mới.

5. Vượt Qua Giới Hạn Bản Quyền với Nhân Vật Hư Cấu

Đến đây, chúng ta đã thấy rằng ChatGPT có thể tạo hình các nhân vật lịch sử khá tốt. Vì khuôn mặt và con người vẫn là một trong những cách tốt nhất để kiểm tra khả năng của AI, hãy thử thêm một số trường hợp khác.

Prompt: “Một nhân vật tương tự Chúa tể Sith đang gọi taxi ở George Square, Glasgow, với mưa nhẹ và đèn giao thông ở hậu cảnh.”

Sith Lord đang gọi taxi tại George Square, Glasgow với phong cách hoạt hình từ DALL-E

Chúng tôi đã dùng từ “tương tự” để bot hợp tác mà không bị vấn đề bản quyền. Kết quả của DALL-E khá ổn. Nhân vật này gợi nhớ đến một Sith, và các yếu tố còn lại ít nhiều cũng chính xác. Không có gì quá hoạt hình một cách rõ ràng, nhưng nó không tạo cảm giác chân thực. Muốn chân thực hơn? Hãy xem ChatGPT 4o đã tạo ra gì với cùng một prompt:

Hình ảnh chân thực của một Sith Lord trong bối cảnh mưa Glasgow do ChatGPT 4o tạo

Chúng tôi thích không khí của bức ảnh – ánh sáng, mưa phùn, sự hiện diện u ám của Chúa tể Sith. Mọi thứ đều có. Vấn đề duy nhất là chúa tể bóng tối của chúng ta đang đứng trên đường gọi taxi mà lại quay mặt về phía… vỉa hè. Ồ, và biển báo taxi ghi là “TAXL”.

Hãy chuyển từ khoa học viễn tưởng tương lai sang khoa học viễn tưởng lịch sử. Một cái gì đó như:

Prompt: “Một nhân vật tương tự Geralt of Rivia đang mua sắm hàng tạp hóa trong một siêu thị hiện đại, đẩy xe hàng và cau mày nhìn các loại đồ hộp.”

Geralt of Rivia mua sắm ở siêu thị hiện đại với chữ viết bị lỗi trên bao bì từ DALL-E

Không tệ chút nào. Hình ảnh vẫn mang phong cách hoạt hình tổng hợp và phần chữ trên hộp ngũ cốc hoàn toàn là “ngôn ngữ gibberish”, như mong đợi.

ChatGPT 4o ban đầu từ chối prompt vì vấn đề bản quyền – nhưng đã hoạt động khi chúng tôi thay “tương tự” bằng “giống”. Hãy xem:

Hình ảnh Henry Cavill trong vai Geralt ở siêu thị, tạo bởi ChatGPT 4o rất chân thực

Chúng tôi thực sự không nói nên lời. Giống như hầu hết mọi người, phiên bản Geralt của ChatGPT về cơ bản là Henry Cavill, không phải phiên bản trò chơi điện tử – nhưng nó đã làm rất tốt. Nét cau mày rất đúng, và bối cảnh tạo cảm giác tự nhiên. Đây có thể là một cảnh quay từ một quảng cáo crossover kỳ lạ. Và vâng, chúng tôi đã đọc bộ sách The Witcher trước khi bộ phim truyền hình ra mắt. Điều này khẳng định thêm khả năng tạo hình người AI của mô hình mới.

4. Đột Phá Trong Phong Cách Hoạt Hình và Nền Trong Suốt

Khả năng tạo hình ảnh của OpenAI không chỉ giới hạn ở chủ nghĩa hiện thực. Mặc dù DALL-E luôn có xu hướng hơi “mờ ảo” bất kể bạn yêu cầu gì, chúng tôi quyết định đẩy cả hai mô hình vào chế độ hoạt hình hoàn toàn.

Prompt: “Một thuyền trưởng cướp biển phong cách hoạt hình với áo khoác đỏ dài và cánh tay máy, đang cười trên boong tàu bay. Nền trong suốt.”

Thuyền trưởng cướp biển phong cách hoạt hình với cánh tay máy và nền giả trong suốt của DALL-E

DALL-E thực sự đã làm khá tốt ở đây – và thậm chí còn hiểu yêu cầu về nền trong suốt. Đại loại vậy. Những gì chúng tôi nhận được là mẫu ô bàn cờ xám-trắng cổ điển thường có nghĩa là trong suốt… ngoại trừ ở đây, nó được “nướng” vào hình ảnh. Vì vậy, hoàn toàn không trong suốt.

Ngoài ra, thật trớ trêu, bàn tay sinh học của thuyền trưởng cướp biển AI của chúng ta có bốn ngón trong khi cánh tay máy lại có năm ngón. Có lẽ anh ta đã mạ crôm nhầm cánh tay?

Thuyền trưởng cướp biển hoạt hình sắc nét với nền trong suốt thực sự từ ChatGPT 4o

Phiên bản của ChatGPT 4o cho cảm giác sắc nét và có chủ đích hơn. Phong cách tô màu khác biệt – liệu nó có tốt hơn hay không thì tùy thuộc vào cảm nhận cá nhân – nhưng rõ ràng trông nó như thể một nghệ sĩ đã cố ý vẽ như vậy. Nền cũng thực sự trong suốt. Bạn có thể in hình này lên áo phông, in ra, hoặc thậm chí biến nó thành sticker WhatsApp ngay lập tức. Đây là một điểm cộng lớn cho khả năng tạo ảnh hoạt hình AI của ChatGPT 4o.

3. Thử Thách Phản Chiếu: Khi AI Gặp “Gương”

Gương phản chiếu – và phản chiếu cần logic không gian để trông tự nhiên. Chúng tôi đã đưa ra một prompt mà chúng tôi biết DALL-E sẽ gặp khó khăn.

Prompt: “Một bồn rửa phòng tắm hiện đại với bàn chải đánh răng và dao cạo trên quầy, cả hai đều hiển thị trong gương và trong thế giới thực – ánh sáng dịu và đều.”

Hình ảnh bồn rửa nhà tắm với phản chiếu và vật thể không chính xác do DALL-E tạo

Như mong đợi. Có một cái gì đó cố gắng trở thành phản chiếu từ vòi nước trong gương, nhưng nó quá dài. Bàn chải đánh răng đang lơ lửng, bên trong bồn rửa, và không có phản chiếu. DALL-E thực sự đã đội mũ bảo hiểm AI cho lần này.

Bồn rửa hiện đại với phản chiếu trong gương gần như chính xác được tạo bởi ChatGPT 4o

Mô hình mới làm tốt hơn nhiều trong việc làm cho hình ảnh có cảm giác chân thực, giống như một bức ảnh thật. Phản chiếu của vòi nước hơi lệch nhưng chấp nhận được. Sau đó là bàn chải đánh răng, có phản chiếu nhưng không tồn tại trong thế giới vật lý – giống như một ma cà rồng ngược.

Không có người chiến thắng rõ ràng ở đây. Kết quả AI không nhất quán, vì vậy chúng tôi đã cho cả hai một cơ hội nữa với một cái gì đó tham vọng hơn một chút:

Prompt: “Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, trang phục và tư thế của cô ấy được phản chiếu chính xác, với hình ảnh cửa sổ phía sau cô ấy hiển thị rõ ràng trong gương.”

Người phụ nữ đứng trước gương toàn thân với phản chiếu bị biến dạng từ DALL-E

…Chúng tôi thậm chí không muốn phân tích cái này. Thưa quý vị, nếu bạn muốn làm DALL-E trông tệ, chỉ cần thêm từ “gương” vào prompt của bạn. Chuyển sang.

Người phụ nữ trước gương với hiệu ứng phản chiếu không hoàn hảo nhưng chân thực hơn từ ChatGPT 4o

Như mong đợi, phiên bản của ChatGPT 4o trông thực tế hơn nhiều – nhưng có lẽ lần này hơi siêu thực? Tư thế và trang phục của người phụ nữ được phản chiếu, nhưng chỉ một phần, giống như hiệu ứng pop-out 3D trong Photoshop. Các góc phản chiếu cũng bị lệch. AI vẫn chưa thể xử lý logic không gian hoàn hảo.

2. Chi Tiết Xe Cộ và Bối Cảnh Đường Phố Chân Thực

Chúng tôi là những người đam mê xe hơi. Khi các công cụ AI tạo ảnh lần đầu tiên xuất hiện, một trong những điều đầu tiên chúng tôi thử là tạo ảnh ô tô. Kết quả khi đó không tốt, nhưng với mô hình mới ra mắt, chúng tôi phải thử lại.

Prompt: “Một chiếc Ford GT 2006 và một chiếc Peugeot 206 phía sau đèn giao thông màu đỏ trên Phố Wall, New York, vào giữa trưa.”

Ford GT 2006 và Peugeot 206 với phong cách hoạt hình và chi tiết đường phố sai lệch do DALL-E tạo

DALL-E lại tiếp tục với phong cách hoạt hình ngày càng khó chịu của nó. Chiếc Peugeot đang ở trên vỉa hè, đèn giao thông chúng tôi yêu cầu lại quay mặt về phía các tòa nhà, và biển số xe đều là “ngôn ngữ gibberish”.

Hình ảnh chân thực của Ford GT 2006 và Peugeot 206 ở Wall Street do ChatGPT 4o tạo

Kết quả của ChatGPT 4o tốt hơn đáng kể. Những chiếc xe được mô tả đúng cách – ngay cả nắp chụp la-zăng của Peugeot cũng chuẩn xác và đúng thời kỳ. Loại chi tiết đó không phải là ngẫu nhiên. Nhưng nó còn tốt hơn nữa:

Ảnh chất lượng cao của Ford GT 2006 và Peugeot 206 do ChatGPT 4o tạo

Chúng tôi thực sự có thể sử dụng bức ảnh này làm hình nền điện thoại của mình. Ánh sáng, bố cục, phản chiếu – tất cả đều khớp. Ngoài sự trống trải kỳ lạ của con phố, bức ảnh này hoàn toàn có thể được coi là một bức ảnh thật. Đây là minh chứng rõ ràng cho khả năng tạo ảnh AI với độ chính xác và chi tiết cao.

1. “Gót Chân Achilles” của AI: Văn Bản và Chữ Viết

Cuối cùng, chúng ta nhắm vào gót chân Achilles của mọi công cụ tạo hình ảnh. Hầu hết các AI tạo ảnh đều gặp khó khăn trong việc hiển thị văn bản đúng cách. Đến bây giờ, bạn đã thấy đủ “ngôn ngữ gibberish” từ DALL-E trong các ví dụ trước để hiểu ý chúng tôi.

Để làm cho nó thú vị hơn – và nhất quán hơn – chúng tôi đã thêm yêu cầu rằng lá thư phải chứa nội dung bài phát biểu của Vua Terenas gửi Arthas từ Warcraft III.

Prompt: “Một bức thư viết tay trên giấy cổ điển với chữ viết thư pháp, đặt cạnh một cây bút máy và một lọ mực.”

Thư viết tay trên giấy cổ với chữ bị biến dạng không đọc được do DALL-E tạo

DALL-E đã làm những gì nó làm tốt nhất với văn bản: biến nó thành những chữ nhòe nhoẹt, không thể đọc được. Nó đã cố gắng hiển thị đúng một số từ, và không khí chung khá ổn – bút và lọ mực trông chắc chắn.

Thư viết tay với chữ rõ ràng, chính xác từ King Terenas được tạo bởi ChatGPT 4o

ChatGPT 4o đã làm hoàn hảo – từng từ một, với chữ viết thư pháp rõ ràng. Chính xác đến từng chữ cái. So với DALL-E, đây là một bước tiến vượt bậc. Thật đáng nể, OpenAI. Khả năng tạo văn bản trong ảnh AI của ChatGPT 4o đã đạt đến một cấp độ hoàn toàn mới.

Công nghệ AI tạo hình ảnh đã đi một chặng đường dài – và điều đó thể hiện rõ. ChatGPT 4o mang lại cảm giác đây là mô hình đầu tiên thực sự hiểu rõ về ánh sáng, kết cấu và bối cảnh. Tại thời điểm này, câu hỏi thực sự duy nhất còn lại là: các biện pháp bảo vệ của ChatGPT mạnh đến mức nào? Chúng tôi đã dễ dàng vượt qua các hạn chế bản quyền của nó. Bao lâu nữa trước khi ai đó “jailbreak” ChatGPT và bắt đầu tạo ra bất kỳ nội dung nào họ muốn bằng mô hình cực kỳ mạnh mẽ này?