Команда Qwen от Alibaba Cloud представила обновленную мультимодальную модель Qwen3.5-Omni, способную принимать на вход текст, изображения, аудио и видео, а на выходе генерировать текст и речь в реальном времени. Она доступна в трех версиях: Plus, Flash и Light, а также через Offline API и Realtime API.
Основным улучшением по сравнению с предыдущей моделью Qwen3-Omni стало увеличение контекстного окна с 32 до 256 тысяч токенов. Это позволяет обрабатывать более 10 часов аудио или 400 секунд видео 720p за один запрос. Распознавание речи теперь поддерживает 113 языков и диалектов, а синтез — 36.
По результатам тестов модель Plus продемонстрировала выдающиеся достижения на большинстве аудио- и видео-бенчмарков. Qwen3.5-Omni также представляет новые функции, включая семантическое прерывание, клонирование голоса и управление эмоциями. Интересной особенностью стало Audio-Visual Vibe Coding, позволяющее модели писать код на основе видео с аудиоинструкциями, что возникло как неожиданный побочный эффект от масштабирования.
