IT Blog

Uncategorized

Gemini 3.5 Live Translate dịch thời gian thực không độ trễ

Hôm 9/6, Google chính thức giới thiệu Gemini 3.5 Live Translate, một mô hình âm thanh mới được thiết kế để các cuộc trò chuyện đa ngữ theo thời gian thực diễn ra tự nhiên hơn. Khác với các hệ thống dịch thuật truyền thống xử lý giọng nói theo từng lượt, Gemini 3.5 Live Translate liên tục lắng nghe, dịch và phát âm, giúp cuộc hội thoại trôi chảy chỉ với vài giây độ trễ để mô phỏng các kiểu nói tự nhiên.

Mô hình này tự động nhận diện ngôn ngữ đang nói và hỗ trợ hơn 70 ngôn ngữ, bao gồm tiếng Việt, cho phép hàng nghìn cặp ngôn ngữ tương tác trong cùng một cuộc trò chuyện. Google cho biết công nghệ hiện đã được cung cấp cho các nhà phát triển và đối tác, những người có thể tích hợp nó vào các cuộc họp, nền tảng giao tiếp và ứng dụng di động.

Thay đổi lớn nhất nằm ở cách thức dịch thuật diễn ra. Thay vì đợi một người nói xong mới tạo ra phản hồi, mô hình thực hiện dịch thuật luồng liên tục. Kết quả là một trải nghiệm giao tiếp trôi chảy hơn, giảm thiểu các khoảng lặng, sự gián đoạn và độ trễ.

Gemini 3.5 Live Translate cũng đang được triển khai toàn cầu trên ứng dụng Google Translate cho cả hai hệ điều hành Android và iOS. Khi sử dụng tính năng Live translate (Dịch trực tiếp), người dùng chỉ cần kết nối với bất kỳ tai nghe nào để trải nghiệm.

Đối với người dùng Android, nền tảng bắt đầu tung ra chế độ nghe) mới tích hợp cùng 3.5 Live Translate, cho phép nghe bản dịch trực tiếp qua loa thoại của điện thoại.

Người dùng chỉ cần áp điện thoại vào tai giống như một cuộc gọi thông thường và âm thanh dịch thuật sẽ được truyền thẳng đến người nghe. Trải nghiệm mới này đặc biệt hữu ích trong các tình huống cần nghe nhanh bản dịch mà không muốn người xung quanh phát hiện và không có sẵn tai nghe.

Mô hình được xây dựng dựa trên bối cảnh giao tiếp hàng ngày. Theo Google, công cụ có thể hoạt động trong môi trường ồn ào và được thiết kế để xử lý tạp âm nền, giọng nói chồng chéo và các phong cách nói chuyện thoải mái của đời thực. Tính năng giúp ứng dụng phù hợp với nhiều tình huống sử dụng thực tế, bao gồm các cuộc gọi hỗ trợ khách hàng, tour du lịch có hướng dẫn, lớp học, dịch vụ gọi xe và phát sóng trực tiếp.

Theo thông tin từ Google, Grab đang thử nghiệm mô hình để giúp tài xế và hành khách giao tiếp đa ngôn ngữ gần như theo thời gian thực các điểm đón. Những người dùng này hiện thực hiện hơn 10 triệu cuộc gọi thoại mỗi tháng thông qua Grab.

Google cũng đặc biệt chú trọng đến chất lượng giọng nói. Thay vì tạo ra một giọng nói tổng hợp chung chung, hệ thống cố gắng bảo tồn các yếu tố trong cách truyền đạt của người nói gốc, bao gồm nhịp điệu, ngữ điệu và tông giọng cảm xúc. Điều này giúp âm thanh dịch thuật tự nhiên và dễ theo dõi hơn.

Mục tiêu lớn hơn của Google là đưa dịch thuật trực tiếp vượt ra khỏi các bản trình diễn thông thường để tiến sâu vào giao tiếp hàng ngày. Bằng cách cho phép các cuộc hội thoại đa ngữ diễn ra gần như theo thời gian thực mà không buộc người dùng phải thay đổi thói quen nói chuyện, Gemini 3.5 Live Translate có thể khiến các tương tác xuyên biên giới trở nên thiết thực hơn đối với cả doanh nghiệp, tổ chức lẫn cá nhân.

(Theo Cnet, Google)


Source link

Quay lại
Yêu cầu gọi lại
Liên hệ Zalo OA
Gọi ngay
Nhận báo giá

    YÊU CẦU GỌI LẠI

    Vui lòng để lại thông tin, chúng tôi sẽ liện hệ lại nhanh nhất có thể.


      YÊU CẦU BÁO GIÁ

      Vui lòng để lại thông tin, chúng tôi sẽ liện hệ lại nhanh nhất có thể.