阿里巴巴推出并开源Qwen3-Omni模型

阿里巴巴Qwen团队今天宣布推出Qwen3-Omni,这是阿里巴巴第一个原生端到端全模态AI模型,将文本、图像、音频和视频统一在一个模型中,无需模态权衡,同时阿里已开源了Qwen3-Omni-30B-A3B的Instruct、Thinking和Captioner三款模型。

在Hugging Face的模型介绍中,阿里表示早期的文本优先预训练和混合多模态训练为Qwen3-Omni提供了原生的多模态支持。在实现强劲的音频和音视频效果的同时,单模态文本和图像性能丝毫未减。支持广泛的多模态应用场景,涵盖音频、图像、视频和视听模态等各种领域任务,支持119种文本语言、19种语音输入语言和10种语音输出语言。采用了低延迟流媒体,可实现实时音频/视频交互。其中Captioner模型是一个通用、高度详细、低幻觉的音频字幕模型,填补了开源社区的一个关键空白。


相关链接:Qwen Chat / GitHub / HuggingFace / ModelScope

via 匿名

🗒 标签: #阿里巴巴 #Qwen #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
 
 
Back to Top