Исследовательская команда Qwen (принадлежит Alibaba) выпустила мультимодальную модель Qwen2.5-Omni, способную работать одновременно с текстом, изображениями, аудио и видео.Inc.
Russia
Фото: Freepik Модель использует уникальную архитектуру Thinker-Talker, которая позволяет обрабатывать разнородный контент и генерировать ответы в реальном времени как в текстовом, так и в голосовом формате.Inc.
Russia
Ключевой особенностью новой модели является возможность синхронизации временных меток видео и аудио с помощью технологии TMRoPE.Inc.
Russia
Разработчики утверждают, что Qwen2.5-Omni превосходит аналогичные одномодальные модели по производительности во всех тестируемых режимах, включая распознавание речи, перевод, понимание аудио и изображений.Inc.
Russia
SanDisk выпустила внешний SSD в стиле приставки PlayStation 5
Пензенцам рассказали, что важнее для долголетия: гены или образ жизни
человек.
Inc.Russia
Как избежать хлопот с зарядкой электромобилей: советы от Consumer Reports
Hyundai представляет новый суббренд Pleos: она превращается в Google в мире авто
Для FACEIT вышло обновление: авторизация через Steam и улучшенный подбор
Рязанский завод представил инновационный SMD-геркон
Авторы Castlevania: Lords of Shadow показали геймплей экшена Blades of Fire