OpenAI bất ngờ ra mắt GPT-4o, Google trình diễn loạt AI mới trong khi ByteDance của Trung Quốc cũng ra mắt mô hình ngôn ngữ lớn Doubao.
Trong vòng 36 giờ, ngành AI toàn cầu chứng kiến cuộc cạnh tranh sôi động khi OpenAI, Google, ByteDance lần lượt tổ chức các sự kiện, phô diễn sức mạnh AI mới.
Cuộc chạy đua trong ba ngày qua cũng cho thấy ngành công nghiệp AI của Mỹ và Trung Quốc dường như đã đến ngã ba đường. Trong khi OpenAI, Google trình diễn những công nghệ vượt xa trí tưởng tượng, ByteDance lại có cách tiếp cận khác khi cung cấp mô hình với giá rẻ đáng kinh ngạc, sẵn sàng để tiếp cận người dùng trên diện rộng.
OpenAI cho thấy AGI đang đến gần
OpenAI tổ chức Hội nghị mùa xuân vào 14/5. Nhiều người đồn đoán GPT-5 hoặc công cụ tìm kiếm GPT sẽ trình làng nhưng CEO Sam Altman chỉ mang đến bản cập nhật GPT-4o. Dù vậy, giới công nghệ vẫn được dịp ấn tượng với các khả năng tương tác đa phương thức giữa văn bản, âm thanh và hình ảnh theo thời gian thực. Mô hình có thể phản hồi giao tiếp âm thanh trong 232 mili giây, tương tự thời gian phản hồi của hai người đang nói chuyện hay bước tiến vượt bậc về âm thanh khi thể hiện được cảm xúc, thay đổi giọng điệu.
Theo OpenAI, chữ "o" sau tên gọi GPT-4o là viết tắt của thuật ngữ "omni" (toàn năng). Đây là bước tiến mới, tiến đến sự tương tác giữa người và máy tính một cách tự nhiên.
"GPT-4o là tập hợp tất cả những gì chúng tôi đã học được trong vài năm qua. OpenAI đã nghiên cứu các mô hình âm thanh, hình ảnh, văn bản và làm việc chăm chỉ để kết hợp chúng lại. Ngày nay, mô hình ngôn ngữ lớn hiệu quả không chỉ là tìm ra bước đột phá vĩ đại mà là làm sao kết hợp nhiều phần lại với nhau", Sam Altman nói.
Không chỉ trò chuyện, GPT-4o còn có thể diễn giải biểu đồ, trợ giúp mã hóa, diễn giải cảm xúc hoặc phân tích hình ảnh qua camera, đồng thời "vẫn duy trì giọng điệu vui vẻ". Theo giới phân tích, mô hình mới của OpenAI có thể tương tác giống con người một cách đáng kinh ngạc. Đây là bước tiến mới cho thấy AGI đang đến gần.
Google chưa tạo được sự hứng thú như mong đợi
Một ngày sau màn trình diễn ấn tượng của OpenAI, Google cũng giới thiệu loạt AI mới tại sự kiện I/O rạng sáng 15/5 (giờ Hà Nội). Veo là câu trả lời của công ty với AI Sora được đối thủ ra mắt ba tháng trước. Tuy nhiên hiệu ứng từ video được tạo bằng Veo không gây ấn tượng mạnh bằng đối thủ về độ chân thực, khung cảnh phức tạp cho đến chuyển động máy quay.
Astra là trợ lý AI có thể "làm được mọi việc", tương tác theo thời gian thực tương tự các GPT-4o có thể làm. Google cho biết, mục tiêu của công cụ là trở thành tác nhân AI "trung thực nhất và tốt nhất". Trong khi đó, Gemini được nâng cấp lên bản 1.5 và đưa vào hầu hết dịch vụ của Google. Trên công cụ tìm kiếm Google Search, Gemini cũng được tích hợp sâu, không đơn thuần trả về thông tin kèm liên kết trích dẫn, mà còn lời truy vấn theo ngôn ngữ tự nhiên, thông tin liên quan, gợi ý nội dung mới dựa trên từ khóa tìm kiếm.