阿里巴巴推出并开源Qwen3-Omni模型阿里巴巴Qwen团队今天宣布推出Qwen3-Omni，这是阿里巴巴第一个原生端到端全模态AI模型，将文本、图像、音频和视频统一在一个模型中，无需模态权衡，同时阿里已开源了Qwen3-Omni-30B-A3B的Instruct、Thinking和Captioner三款模型

阿里巴巴推出并开源Qwen3-Omni模型

阿里巴巴Qwen团队今天宣布推出Qwen3-Omni，这是阿里巴巴第一个原生端到端全模态AI模型，将文本、图像、音频和视频统一在一个模型中，无需模态权衡，同时阿里已开源了Qwen3-Omni-30B-A3B的Instruct、Thinking和Captioner三款模型。

在Hugging Face的模型介绍中，阿里表示早期的文本优先预训练和混合多模态训练为Qwen3-Omni提供了原生的多模态支持。在实现强劲的音频和音视频效果的同时，单模态文本和图像性能丝毫未减。支持广泛的多模态应用场景，涵盖音频、图像、视频和视听模态等各种领域任务，支持119种文本语言、19种语音输入语言和10种语音输出语言。采用了低延迟流媒体，可实现实时音频/视频交互。其中Captioner模型是一个通用、高度详细、低幻觉的音频字幕模型，填补了开源社区的一个关键空白。

相关链接：Qwen Chat / GitHub / HuggingFace / ModelScope

via 匿名

🗒 标签: #阿里巴巴 #Qwen #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot