[NEWS] Qwen3.5-Omni: Alibaba Vừa Ra Model AI Nghe, Nhìn, Đọc Mọi Thứ Cùng Lúc Và Benchmark Này Đang Thách Thức Cả Gemini
QUILIX AI Insights là newsletter chia sẻ về chủ đề AI. Tại đây, bạn sẽ tìm được nhiều tin tức, kiến thức, kỹ năng AI được cập nhật liên tục mỗi ngày.
Mình có một thói quen mỗi khi có model AI mới ra: Không đọc headline, mình đọc thẳng vào benchmark.
Vì headline thì ai cũng viết được. Nhưng con số không nói dối.
Và benchmark của Qwen3.5-Omni vừa được Alibaba release hôm nay có một vài con số mình không ngờ đến.
Qwen3.5-Omni Là Gì?
Qwen3.5-Omni là dòng model AI đa phương thức mới nhất từ Alibaba, được thiết kế để hiểu native, tức là không phải chuyển đổi qua lại, tất cả bốn loại dữ liệu cùng lúc: văn bản, hình ảnh, âm thanh, và video.
Dòng model gồm bốn phiên bản:
Qwen3.5-Omni-Lite là phiên bản nhỏ nhất, dành cho ứng dụng nhẹ và thiết bị có tài nguyên hạn chế.
Qwen3.5-Omni-Flash là phiên bản cân bằng giữa tốc độ và hiệu năng, phù hợp cho ứng dụng cần phản hồi nhanh.
Qwen3.5-Omni-Plus là phiên bản mạnh nhất trong dòng standard, đây là model mình sẽ nói nhiều nhất trong bài vì đây là thứ thi đấu trực tiếp với Gemini 1.1 Pro.
Qwen3.5-Omni-Plus-Realtime là phiên bản tối ưu cho ứng dụng thời gian thực, giống như cuộc hội thoại giọng nói liên tục.
Benchmark Nói Gì? Mình Đọc Từng Con Số Cho Bạn
Đây là phần mình thấy thú vị nhất. Alibaba release benchmark so sánh trực tiếp ba model: Qwen3.5-Omni-Plus, Qwen3.5-Omni-Flash, và Gemini 1.1 Pro.
Benchmark chia thành hai nhóm lớn:
Nhóm Audio-Visual (Nghe và Nhìn cùng lúc):
Ở DailyOmni, test hiểu nội dung audio-visual hàng ngày, Plus đạt 84.6, Flash đạt 81.8, và Gemini 1.1 Pro đạt 82.7. Plus thắng Gemini ở bài test này.
Ở AVUT, test hiểu video từ góc độ âm thanh trung tâm, Plus đạt 85.0, Flash đạt 81.4, và Gemini đạt 85.6. Ở đây Gemini nhỉnh hơn một chút.
Ở QualcommInteractive, test tương tác audio-visual, Plus đạt 68.5, Flash đạt 66.3, và Gemini đạt 66.2. Plus và Flash đều thắng Gemini.
Ở Omni-Cloze, test caption chi tiết audio-visual, Plus đạt 64.8, Flash đạt 63.0, và Gemini chỉ đạt 57.2. Đây là khoảng cách lớn nhất, Plus hơn Gemini đến 7.6 điểm.
Nhóm Audio (Âm thanh thuần túy):
Ở VoiceBench, test hội thoại nói chuyện, Plus đạt 93.1, Flash đạt 87.8, và Gemini đạt 88.9. Plus thắng rõ ràng.
Ở Fleurs, test nhận dạng giọng nói đa ngôn ngữ 60 ngôn ngữ, Plus đạt 93.5, Flash đạt 89.2, và Gemini đạt 92.7. Plus thắng cả ở bài test này.
Ở RUL-Muchomusic, test hiểu âm nhạc, Plus đạt 72.4, Flash đạt 60.5, và Gemini chỉ đạt 59.6. Đây là khoảng cách lớn nhất toàn bộ benchmark, Plus hơn Gemini đến 12.8 điểm.
Tổng kết đọc benchmark: Qwen3.5-Omni-Plus thắng Gemini 1.1 Pro ở phần lớn các bài test, đặc biệt là nhóm Audio và Audio-Visual Interactive. Gemini nhỉnh hơn ở một số bài test về hiểu video thuần túy như AVUT và WorldSense.
Điều Này Có Nghĩa Gì Trong Thực Tế?
Với người dùng cá nhân làm content, việc một model hiểu được âm thanh, hình ảnh và video cùng lúc có nghĩa là bạn có thể upload thẳng clip gốc và hỏi AI phân tích, tóm tắt, hoặc tạo caption mà không cần phải transcript thủ công trước.
Với developer đang build sản phẩm, Qwen3.5-Omni mở ra khả năng xây ứng dụng xử lý đồng thời nhiều loại input mà không cần ghép nhiều model chuyên biệt với nhau. Ít pipeline phức tạp hơn, ít điểm lỗi tiềm ẩn hơn.
Với người đang theo dõi cuộc đua AI nói chung, đây là tín hiệu rõ ràng rằng Alibaba không phải chỉ đang bắt kịp. Ở một số bài test quan trọng, họ đang dẫn trước.
Góc Nhìn QUILIX
Có một điều thú vị khi đọc benchmark này mà nhiều người hay bỏ qua.
Qwen3.5-Omni-Flash, phiên bản nhỏ và nhanh hơn, vẫn đạt điểm cạnh tranh so với Gemini 1.1 Pro ở phần lớn các bài test. Ở bài VoiceBench, Flash đạt 87.8 trong khi Gemini đạt 88.9. Khoảng cách nhỏ đến mức gần như không đáng kể trong điều kiện thực tế.
Điều đó có nghĩa là bạn có thể dùng model Flash rẻ hơn và nhẹ hơn nhưng vẫn nhận được hiệu năng ngang ngửa với model full-size của đối thủ. Đây chính xác là lý do Alibaba release cả lineup thay vì một model duy nhất.
Còn con số 72.4 ở RUL-Muchomusic, bài test hiểu âm nhạc, mình thấy đặc biệt thú vị. Không phải vì con số cao mà vì cả Gemini 1.1 Pro chỉ đạt 59.6. Hiểu âm nhạc là một trong những bài toán khó nhất trong AI đa phương thức vì nó đòi hỏi kết hợp âm sắc, nhịp điệu, cảm xúc và ngữ cảnh. Một khoảng cách 12.8 điểm ở đây là không nhỏ.
Mình vẫn cần test thực tế mới có thể nói chắc. Benchmark lab và trải nghiệm thực tế không phải lúc nào cũng trùng nhau. Nhưng những con số này đủ để Qwen3.5-Omni vào danh sách model mình sẽ test trong tuần này.
Bạn đang dùng model đa phương thức nào hiện tại? Comment xuống dưới cho mình biết nhé!
1% better everyday with AI. Mình TIN CHẮC bạn làm được!
Theo dõi mình ở các mạng xã hội khác:


