Bản nâng cấp mới nhất của OpenAI về cơ bản cho phép người dùng livestream trực tiếp với ChatGPT

Đã có một bản nâng cấp đáng kể cho ChatGPT, được gọi là GPT Omni. Bản nâng cấp này cho phép chatbot xử lý âm thanh và video theo thời gian thực, đồng thời phản hồi một cách thuyết phục hơn giống như con người. Điều này có nghĩa là người dùng có thể tương tác trực tiếp với ChatGPT trong thời gian thực, đặt câu hỏi bằng giọng nói và nhận lại câu trả lời bằng giọng nói.

Nhà sáng tạo ra ChatGPT, OpenAI, vừa công bố mô hình AI mới nhất của họ, GPT-4o. Đây là một chatbot AI thân thiện và giống con người hơn, có khả năng hiểu được âm thanh và video của người dùng, đồng thời phản hồi theo thời gian thực.

OpenAI đã tung ra một loạt bản demo cho thấy GPT-4 Omni có thể hỗ trợ người dùng trong nhiều tình huống. Ví dụ như: chuẩn bị phỏng vấn bằng cách đảm bảo người dùng trông lịch sự, hoặc gọi đến tổng đài chăm sóc khách hàng để yêu cầu thay thế iPhone.

Giám đốc điều hành của OpenAI – Sam Altman, trong một bài đăng trên blog vào ngày 13 tháng 5 đã chia sẻ: “Cảm giác giống như AI trong phim vậy và tôi vẫn hơi ngạc nhiên khi nó là có thật.” Ông nhấn mạnh thêm: “Việc đạt được thời gian phản hồi và khả năng diễn đạt ở cấp độ con người thực sự là một bước ngoặt lớn.”

Theo một bài đăng gần đây của OpenAI, phiên bản chỉ cho phép nhập văn bản và hình ảnh đã được ra mắt vào ngày 13 tháng 5, còn phiên bản đầy đủ sẽ ra mắt trong vài tuần tới. GPT-4o sẽ có sẵn cho cả người dùng ChatGPT trả phí và miễn phí, đồng thời có thể truy cập thông qua API của ChatGPT.

OpenAI cho biết chữ “o” trong GPT-4o đại diện cho “omni” (toàn năng), đánh dấu bước tiến tới tương tác tự nhiên hơn giữa người và máy tính.

Khả năng xử lý đồng thời đầu vào văn bản, âm thanh và hình ảnh của GPT-4o là một bước tiến đáng kể so với các công cụ AI trước đó của OpenAI, chẳng hạn như ChatGPT-4. Công cụ trước đó thường “bỏ sót nhiều thông tin” khi phải thực hiện nhiều tác vụ cùng lúc.

OpenAI cho biết GPT-4o đặc biệt tốt hơn về khả năng hiểu thị giác và âm thanh so với các mô hình hiện có, thậm chí có thể nhận ra cảm xúc và nhịp thở của người dùng. Nó cũng nhanh hơn nhiều và rẻ hơn 50% so với GPT-4 Turbo trong API của OpenAI.

OpenAI tuyên bố công cụ AI mới có thể phản hồi đầu vào âm thanh chỉ trong vòng 2,3 giây, với thời gian trung bình là 3,2 giây, tương tự như thời gian phản hồi của con người trong một cuộc trò chuyện thông thường.

Nguồn: Kenhbit tổng hợp

Bài viết mới
Tin nổi bật