Google ra mắt Gemini Omni

Thời gian gần đây, Google chính thức ra mắt Gemini Omni. Với Omni, người dùng có thể kết hợp hình ảnh, âm thanh, video và văn bản làm đầu vào để tạo ra các video dựa trên nền tảng kiến thức về thế giới thực của Gemini. người dùng cũng có thể trò chuyện để chỉnh sửa video của họ.

Google đã triển khai mô hình đầu tiên trong dòng Omni: Gemini Omni Flash, tích hợp vào ứng dụng Gemini, Google Flow và YouTube Shorts. Dự kiến trong vài tháng tới, Google sẽ hỗ trợ thêm các phương thức đầu ra khác như hình ảnh và âm thanh.

Omni mang đến một cách chỉnh sửa video dễ dàng hơn - bằng ngôn ngữ tự nhiên. Mỗi chỉ dẫn đều kế thừa từ câu lệnh trước đó. Các nhân vật của người dùng sẽ giữ nguyên tính nhất quán, các quy luật vật lý có thể được đảm bảo và bối cảnh sẽ ghi nhớ những gì diễn ra trước đó.

Nguồn thông tin từ Google cho biết “Với một video người dùng tự quay và chỉ cần yêu cầu Omni thay đổi những gì đang diễn ra. Người dùng có thể tinh chỉnh chuyển động, thêm nhân vật, chèn vật thể mới, hoặc biến hóa một khoảnh khắc đời thường thành một trải nghiệm ngoạn mục. Tinh chỉnh video qua nhiều lần tương tác - Thay đổi môi trường, góc quay, phong cách hay thậm chí cả các chi tiết cụ thể mà không làm mất đi mạch liên kết của bối cảnh gốc”.

Omni còn có thể suy luận về diễn biến tiếp theo. Mô hình kết hợp khả năng thấu hiểu trực quan các quy luật vật lý với kho kiến thức sâu rộng của Gemini về lịch sử, khoa học lẫn bối cảnh văn hóa đã giúp thu hẹp khoảng cách từ một thước phim tả thực đến một câu chuyện có chiều sâu. Omni đã nâng cao khả năng am hiểu trực quan về tác động của các lực như trọng lực, động năng và động lực học chất lưu, giúp người dùng tạo nên những bối cảnh chân thực hơn.

Omni có thể chuyển mọi nguồn tư liệu - hình ảnh, văn bản, video hay âm thanh - thành một tác phẩm đầu ra đồng bộ và duy nhất. Trong giai đoạn đầu, mô hình sẽ hỗ trợ tham chiếu giọng nói trước khi mở rộng sang các dạng đầu vào âm thanh khác trong tương lai gần. Với các tài liệu tham chiếu đầu vào, người dùng có thể sử dụng hình ảnh của nhân vật, bối cảnh hoặc tranh vẽ để hiện thực hóa tác phẩm theo đúng tầm nhìn sáng tạo của họ. Thiết lập ngôn ngữ hình ảnh cho thước phim bằng tư liệu tham chiếu đầu vào, hoặc chỉ cần mô tả bằng ngôn ngữ tự nhiên. Omni có thể lồng ghép mọi yếu tố để cho tạo ra một thành phẩm.
Video được tạo bởi Gemini Omni

Nguồn thông tin từ Google cho biết “Google có các chính sách rõ ràng để bảo vệ người dùng khỏi các mối nguy hại cũng như quy định cách sử dụng các công cụ AI. Trước mắt, người dùng có thể tạo video bằng chính giọng nói của họ thông qua tính năng Ảnh đại diện (Avatar). Tính năng này sẽ tạo nên một phiên bản kỹ thuật số của chính người dùng, giúp tạo nên các video có ngoại hình và giọng điệu giống họ ngoài đời. Bên cạnh tính năng Ảnh đại diện, đối với việc chỉnh sửa video để thay đổi âm thanh và lời nói, Google vẫn đang thử nghiệm và nghiên cứu nhằm đưa năng lực này đến tay người dùng một cách có trách nhiệm”.

Tất cả video được tạo bằng Omni đều tích hợp dấu mờ kỹ thuật số vô hình SynthID. Người dùng có thể xác minh video được tạo bằng Gemini Omni thông qua ứng dụng Gemini, Gemini trên Chrome và Google Tìm kiếm.

Gemini Omni Flash đã được triển khai cho tất cả người dùng đăng ký Google AI Plus, Pro và Ultra trên toàn cầu thông qua ứng dụng Gemini và Google Flow. Mô hình này cũng được triển khai miễn phí cho người dùng trên YouTube Shorts và ứng dụng YouTube Create từ tuần này. Dự kiến trong thời gian sắp tới, Google cũng sẽ triển khai mô hình này tới các nhà phát triển và khách hàng doanh nghiệp thông qua các giao diện lập trình ứng dụng (API).
Nguồn: Google

Nhận xét