Trong những năm gần đây, các trình tạo ảnh AI đã mang đến những trải nghiệm đáng kinh ngạc (và đôi khi là ám ảnh) nhờ vào các công cụ như OpenAI, Imagen, Adobe Firefly và DALL-E 3. Khi công nghệ này ngày càng phát triển, chúng ta dường như có nhiều lựa chọn hơn để tinh chỉnh kết quả đầu ra. Mới đây, Google Labs đã chính thức ra mắt Whisk, một công cụ đột phá cho phép người dùng tải lên hình ảnh làm hướng dẫn thay vì chỉ dựa vào các câu lệnh văn bản truyền thống. Đây là một bước tiến quan trọng, mở ra kỷ nguyên mới cho việc sáng tạo hình ảnh bằng trí tuệ nhân tạo.
Whisk: Công Cụ AI Đột Phá Từ Google Labs Tạo Ảnh Từ Hình Ảnh Có Sẵn
Nếu bạn đang ở Hoa Kỳ, bạn có thể tiếp cận Whisk từ Google Labs, được mô tả là một “thử nghiệm trong lĩnh vực AI tạo sinh” theo thông báo từ Google Blog. Với Whisk, thay vì chỉ dựa vào các câu lệnh văn bản mô tả, bạn có thể thêm hình ảnh để làm tài liệu tham khảo trực quan. Nền tảng này sẽ yêu cầu ba đặc điểm chính để tạo hình ảnh: chủ thể (subject), bối cảnh (scene), và phong cách (style). Công cụ sẽ “pha trộn” (whisk) những “nguyên liệu” này lại với nhau và tạo ra hình ảnh phù hợp nhất với ý tưởng của bạn.
Whisk sử dụng Imagen 3, phiên bản mô hình tạo ảnh mới nhất và mạnh mẽ nhất của Google, đảm bảo chất lượng hình ảnh đầu ra cao và khả năng hiểu ngữ cảnh tốt.
Google vẫn không loại bỏ hoàn toàn khả năng sử dụng câu lệnh văn bản trong Whisk. Người dùng vẫn có tùy chọn viết prompt riêng cho từng trong ba danh mục (chủ thể, bối cảnh, phong cách) hoặc thêm một ghi chú chung. Đặc biệt, bạn có thể tinh chỉnh hình ảnh sau khi Whisk tạo ra phiên bản đầu tiên. Ví dụ, nếu bạn tạo một tấm thiệp Giáng sinh phong cách cổ điển với hình ảnh chú mèo nằm trong tuyết, sau khi xem kết quả, bạn có thể được truyền cảm hứng để thêm chi tiết bông tuyết làm điểm nhấn.
Mỗi khi bạn thêm hoặc tạo một hình ảnh trong bất kỳ danh mục nào của Whisk, nền tảng này sẽ tự động tạo ra một mô tả văn bản chi tiết về hình ảnh đó. Điều này có nghĩa là nếu bạn muốn bổ sung hoặc chỉnh sửa một hình ảnh đã có, bạn chỉ cần tùy chỉnh phần văn bản mô tả này.
Giao diện công cụ Whisk của Google Labs hiển thị tính năng chỉnh sửa prompt văn bản tự động từ hình ảnh
Cuối cùng, nếu bạn cảm thấy bí ý tưởng, Whisk cũng cung cấp tính năng ngẫu nhiên hóa các thành phần hình ảnh bằng cách chọn biểu tượng xúc xắc. Đối với những dự án phức tạp hơn, bạn có thể thêm nhiều hơn một tham chiếu cho chủ thể, bối cảnh hoặc phong cách. Khi đã hài lòng với tác phẩm của mình, bạn có thể lưu trực tiếp trên nền tảng hoặc tải về để sử dụng cục bộ.
Tại Sao Whisk Quan Trọng Trong Bối Cảnh AI Hiện Nay?
Với vô số lựa chọn tạo ảnh AI tiên tiến hiện có trên thị trường để nâng cao chất lượng ảnh hoặc tạo ra tác phẩm nghệ thuật “độc đáo”, công cụ mới của Google có thể ban đầu chỉ được xem như một tính năng bổ sung. Tuy nhiên, cách mà Whisk tận dụng các tham chiếu hình ảnh trong quá trình tạo hình ảnh là độc đáo và thực sự có giá trị trong các kịch bản sáng tạo và chuyên nghiệp.
Hãy tưởng tượng bạn đang xây dựng một bản thuyết trình và cần những hình ảnh có phong cách tương tự như một tài liệu tham khảo bạn đã có. Thay vì cố gắng diễn giải ngược lại tài liệu tham khảo đó bằng lời, bạn chỉ cần tải lên tệp tin, cùng với một mô tả văn bản ngắn gọn về những gì bạn muốn thay đổi trong hình ảnh mới.
Để tạo sự khác biệt giữa Whisk và các phần mềm tạo ảnh AI khác, Google đã nhấn mạnh rằng nền tảng này được xây dựng cho mục đích khám phá ý tưởng, không phải để tinh chỉnh chi tiết. Trong khi các sản phẩm khác có thể phù hợp hơn cho việc chỉnh sửa pixel-perfect, Whisk lại tối ưu cho quá trình động não và thử nghiệm nhanh:
“Chúng tôi xây dựng nó để khám phá hình ảnh một cách nhanh chóng, không phải để chỉnh sửa từng pixel hoàn hảo. Mục đích là để khám phá ý tưởng theo những cách mới và sáng tạo, cho phép bạn thử nghiệm hàng tá tùy chọn và tải về những gì bạn yêu thích.”
Thực tế là đôi khi, việc tìm đúng từ ngữ để diễn tả một ý tưởng hình ảnh là vô cùng khó khăn. Khả năng nói “Tôi muốn một hình ảnh trông giống cái này” mang lại tiềm năng đáng kể cho Whisk, đặc biệt trong những trường hợp mà việc diễn đạt bằng hình ảnh trực quan lại dễ dàng hơn nhiều so với diễn đạt bằng văn bản.
Whisk không chỉ là một công cụ tạo ảnh AI mà còn là một trợ thủ đắc lực giúp giải phóng khả năng sáng tạo, đặc biệt khi ngôn ngữ trở nên hạn chế. Khám phá những tiềm năng mà Google Whisk mang lại cho công việc và sở thích của bạn ngay hôm nay!