Các mô hình AI hiện đại đang phát triển với tốc độ chóng mặt, mang đến khả năng tạo ra hình ảnh ấn tượng chỉ từ văn bản. Tuy nhiên, liệu chúng có thể thực sự tái tạo được vẻ đẹp, tinh thần và tầm vóc của những bức ảnh biểu tượng nhất thế kỷ 20, những tác phẩm đã đi vào lịch sử nhiếp ảnh? Bài viết này sẽ đi sâu vào một thử nghiệm thực tế với Fotor AI, một công cụ tạo ảnh từ văn bản phổ biến, để đánh giá khả năng của trí tuệ nhân tạo trong việc “sao chép” lại khoảnh khắc lịch sử và nghệ thuật.
Tại sao chúng tôi thực hiện thử nghiệm này?
Các mô hình AI đang ngày càng trở nên mạnh mẽ, cho phép người dùng tạo ra gần như mọi thứ chỉ bằng cách sử dụng các câu lệnh (prompts) phù hợp. Mục đích của thử nghiệm này là kiểm chứng liệu điều này có đúng với việc tái tạo các tác phẩm nhiếp ảnh kinh điển hay không. Mặc dù các thử nghiệm tương tự có thể khiến nhiều người làm sáng tạo lo lắng, nhưng các nhiếp ảnh gia nói chung vẫn khá “an toàn” trước sự thống trị của AI trong tương lai, vì một lý do đơn giản: họ ghi lại thực tế.
Những bức ảnh lịch sử được chọn lọc trong bài viết này không chỉ là kiệt tác của nghệ thuật nhiếp ảnh mà còn là những “viên nang thời gian”, ghi lại chính xác bối cảnh và cảm xúc của một giai đoạn. Mặc dù một mô hình AI có thể tạo ra những hình ảnh mang cùng “vibe” hoặc phong cách tương tự, nhưng thật vô lý khi mong đợi một bức ảnh do AI tạo ra có thể mang bất kỳ giá trị văn hóa hay lịch sử nào như bản gốc.
Công cụ được lựa chọn cho thử nghiệm này là Fotor AI, một trình tạo ảnh từ văn bản tương đối đơn giản nhưng thường mang lại kết quả ổn định. Tuy nhiên, cần lưu ý rằng Fotor AI không phải là Midjourney hay DALL-E. Dù rất tốt cho nhiều phong cách nghệ thuật khác nhau, kỹ năng “nhiếp ảnh” của nó thường còn khá sơ sài, đặc biệt khi cố gắng yêu cầu mô hình khớp với thời kỳ của hình ảnh gốc.
AI xử lý chủ thể con người như thế nào?
Dorothea Lange là huyền thoại đầu tiên được đưa vào thử nghiệm AI. Bức ảnh “Người Mẹ Di Cư” (Migrant Mother) của bà là một trong những bức ảnh mang tính biểu tượng nhất mọi thời đại, và chúng tôi đã lầm tưởng rằng Fotor AI sẽ “quen thuộc” với nó.
Bức ảnh gốc "Người Mẹ Di Cư" của Dorothea Lange, khắc họa một người mẹ và các con trong cuộc Đại Khủng hoảng
Thế nhưng, mô hình này không giỏi về tên riêng, và chúng tôi phải mô tả chi tiết bức ảnh cho đến khi nó hiểu được ý tưởng. Dưới đây là kết quả từ Fotor AI:
Hình ảnh do AI Fotor tạo ra từ văn bản, mô tả người mẹ và hai con tương tự bức ảnh "Migrant Mother"
Khi xem xét kỹ hơn, vấn đề lớn nhất là ánh sáng. Trong bản gốc, chủ thể được chiếu sáng bằng ánh sáng tự nhiên, trong khi AI đã xử lý “người mẹ” của chúng ta theo kiểu ánh sáng studio hiện đại. Hình ảnh cũng trông quá “mượt” theo ý kiến của chúng tôi, mặc dù đây không phải là điều mà một chút nhiễu hạt phim không thể khắc phục.
Về bố cục, đây là một thất bại. Dorothea Lange đã cẩn thận sắp xếp bố cục bức ảnh để kể câu chuyện về một người bị ảnh hưởng bởi cuộc Đại Khủng hoảng, với từng chi tiết từ cắt cúp đến ánh sáng đều góp phần vào thông điệp. Mặt khác, AI vẫn gặp khó khăn với các tầng ý nghĩa ẩn (subtext), vì vậy không có điều gì trong số đó được truyền tải vào kết quả cuối cùng.
Fotor cũng cung cấp tùy chọn sử dụng chế độ image-to-image (tạo ảnh từ ảnh), và điều này mang lại kết quả gần hơn (ít nhất là về bố cục):
Hình ảnh do Fotor AI tái tạo từ ảnh gốc "Migrant Mother" theo chế độ image-to-image
Mặc dù những hình ảnh này khó phân biệt, chúng tôi không hài lòng với kết quả vì Fotor dường như chỉ áp dụng một bộ lọc “làm đẹp” chất lượng thấp lên chủ thể. Vậy còn một cảnh phức tạp hơn thì sao?
Bức ảnh gốc Tổng thống Richard Nixon dùng đũa trong bữa tiệc với các quan chức Trung Quốc
Để thử thách tiếp theo, chúng ta sẽ chuyển sang đầu những năm 70 và cố gắng tái tạo bức ảnh “Nixon ở Trung Quốc” của Oliver F. Atkins. Dưới đây là kết quả của Fotor. Điều đầu tiên bạn sẽ nhận thấy là Fotor rõ ràng không biết Richard Nixon là ai (mô hình có lẽ sẽ “bùng nổ” nếu chúng tôi dùng từ khóa “Watergate”).
Ảnh do Fotor AI tạo từ văn bản, một người đàn ông dùng đũa giữa các quan chức Trung Quốc
Ý chính của bức ảnh có ở đó (bao gồm cả sự ngạc nhiên trước một miếng thức ăn trên đũa), nhưng bố cục và bối cảnh quá khác biệt. Có lẽ chúng tôi sẽ không thể nhận ra hình ảnh do AI tạo ra dựa trên cái gì nếu chưa nhìn thấy bản gốc.
Chế độ image-to-image mang lại bố cục tương tự nhưng chất lượng tổng thể lại bị giảm đáng kể. Các khuôn mặt bị méo mó, đây là một trong nhiều dấu hiệu của hình ảnh kém chất lượng do AI tạo ra.
Hình ảnh AI từ Fotor tái tạo "Nixon in China" qua chế độ image-to-image, với chất lượng bị giảm
Khả năng AI với cảnh vật và vật thể vô tri
Hãy bắt đầu với kiệt tác “Thảm họa Hindenburg” của Sam Shere. Bức ảnh “đời người chỉ có một lần” này cực kỳ phức tạp, vì vậy đây sẽ là một thử thách tốt cho AI.
Bức ảnh kinh điển ghi lại khoảnh khắc thảm họa khinh khí cầu Hindenburg bốc cháy
Fotor ít nhiều đã hiểu được những gì chúng tôi yêu cầu.
Ảnh AI Fotor tạo từ văn bản về vụ tai nạn khinh khí cầu Hindenburg, với chi tiết chưa chính xác
Chúng tôi dùng cụm từ “ít nhiều” vì khinh khí cầu vẫn còn nguyên vẹn mặc dù đang bốc cháy dữ dội. Nó cũng quá gần mặt đất, và không thể tái tạo bố cục của bản gốc.
Khi sử dụng hình ảnh gốc làm đầu vào, gần như không thể phân biệt hai hình ảnh:
Hình ảnh do Fotor AI tái tạo thảm họa Hindenburg từ ảnh gốc, rất khó phân biệt
Vậy còn một cảnh không dễ nhận biết ngay lập tức thì sao? Bức ảnh “Khinh khí cầu xương rồng” (The Cactus Hot Air Balloon) của Leon Gimpel hoàn toàn phù hợp.
Ảnh gốc "Khinh khí cầu xương rồng" của Léon Gimpel, chụp hai khinh khí cầu tại Paris
Đây cũng là một trong những ví dụ hiếm hoi về việc sử dụng nhiếp ảnh màu từ đầu những năm 1900, vì vậy sẽ rất thú vị để xem liệu AI có thể tái tạo vẻ ngoài độc đáo đó hay không. Kết quả đáng tiếc: nó không thể.
Ảnh AI Fotor tạo từ văn bản, hai khinh khí cầu trong không gian kín tại Paris, chưa đúng nguyên bản
Bối cảnh (Grand Palais, Paris) thì đúng, nhưng bố cục và chủ thể hầu như không giống bản gốc. Màu sắc cũng không đúng với thời kỳ. Sử dụng hình ảnh gốc làm prompt mang lại kết quả tốt hơn nhiều:
Hình ảnh Fotor AI tái tạo khinh khí cầu từ ảnh gốc, theo phong cách màu nước/pastel
Tuy nhiên, có một vấn đề nhỏ. Fotor dường như chỉ tái tạo lại hình ảnh gốc theo phong cách màu nước/pastel, mặc dù chúng tôi đã sử dụng các prompt phủ định để ngăn mô hình làm như vậy. Do đó, bạn không nên kỳ vọng nhiều vào việc cải thiện ở đây.
AI có thể tái tạo phong cảnh và cảnh đô thị không?
Với cách sử dụng bộ lọc đen trắng màu cam và vàng để chơi với độ tương phản, cùng cách tiếp cận bậc thầy của Ansel Adams trong phòng tối, phong cách của ông dễ nhận biết ngay lập tức và rất khó để tái tạo.
Bức ảnh phong cảnh "Mặt Trăng Mọc, Hernandez, New Mexico" của Ansel Adams với ánh sáng và tương phản đặc trưng
Vì vậy, tất nhiên, chúng tôi đã quyết định để Fotor cảm thấy “thua kém”. Mặc dù cảnh không giống bản gốc chút nào, nhưng độ tương phản lại gợi ý về phong cách của Ansel Adams.
Ảnh AI Fotor tạo từ văn bản, tái tạo cảnh thị trấn sa mạc dưới ánh trăng với tương phản cao
Chế độ image-to-image tốt hơn nhiều về tổng thể nhưng hình ảnh đã mất tất cả các chi tiết nhỏ:
Hình ảnh Fotor AI tái tạo phong cảnh của Ansel Adams từ ảnh gốc, nhưng thiếu chi tiết
Chúng tôi là một fan hâm mộ lớn của nhiếp ảnh đường phố, nhưng thật không may, hầu hết các bức ảnh đường phố mang tính biểu tượng vẫn chưa thuộc phạm vi công cộng. Do đó, bức ảnh nổi tiếng “Nụ Hôn Chia Tay Chiến Tranh” (Kissing the War Goodbye) của Victor Jorgensen sẽ là lựa chọn phù hợp.
Bức ảnh nổi tiếng "Nụ Hôn Chia Tay Chiến Tranh" của Victor Jorgensen, ghi lại cảnh thủy thủ hôn y tá ở Quảng trường Thời Đại
Đúng như những gì có thể mong đợi từ Fotor ở thời điểm này, kết quả cuối cùng là khá ổn. Tuy nhiên, có hai vấn đề.
Ảnh AI Fotor tạo từ văn bản, thủy thủ hôn y tá ở Quảng trường Thời Đại, mang cảm giác dàn dựng
Đầu tiên, nó gần giống với một bức ảnh khác về cùng cảnh được chụp bởi Alfred Eisenstadt, và thứ hai, giờ đây nó trông 100% là dàn dựng (bản gốc thì không).
Về mặt kỹ thuật, ánh sáng giống với ánh sáng studio hiện đại và bức ảnh quá tương phản theo ý thích của chúng tôi. Hãy thử sử dụng hình ảnh gốc làm prompt:
Hình ảnh AI từ Fotor tái tạo "Nụ Hôn Chia Tay Chiến Tranh" từ ảnh gốc, với nền bị biến dạng
Kết quả này khá lẫn lộn. Mặc dù chúng tôi yêu thích vẻ ngoài của các chủ thể chính, nhưng khuôn mặt của những người trong nền giờ đây trông thẳng từ một bộ phim kinh dị – một điều không hề mong muốn.
Kết luận
Nhìn chung, chúng tôi khá ấn tượng với một số tác phẩm do Fotor AI tạo ra, nhưng kết quả quá không nhất quán theo ý muốn của chúng tôi. Midjourney và DALL-E vẫn vượt trội hơn hẳn khi nói đến việc tạo ảnh dựa trên prompt, đặc biệt nếu bạn muốn tạo ra những bức ảnh trông chân thực. Điều này cho thấy rằng, mặc dù AI đang phát triển mạnh mẽ, khả năng nắm bắt được chiều sâu cảm xúc, bối cảnh lịch sử và sự tinh tế trong bố cục của các bức ảnh kinh điển vẫn là một thách thức lớn. Các nhiếp ảnh gia vẫn sẽ là những người kể chuyện chân thực nhất về thế giới thực.
Hãy chia sẻ ý kiến của bạn về khả năng của AI trong việc tái tạo các tác phẩm nhiếp ảnh lịch sử. Liệu AI có thể đạt đến cấp độ của một nhiếp ảnh gia con người trong tương lai không?