多模态推理的前沿成果！首个开源多模态推理模型问世,AI推理模型,大模型推理-智能制造网

多模态推理的前沿成果！首个开源多模态推理模型问世

导读：2024年12月25日，阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

　　人类的推理能力植根于语言思维和视觉记忆中，利用视觉理解增强大模型推理能力是AI技术的前沿探索之一。2024年12月25日，阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

　　一个月前(11月28日)，通义发布AI推理模型QwQ - 32B - Preview并斩获SuperCLUE的AI推理模型榜单「全球开源冠军」，评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。

　　QwQ(Qwen　with Questions)是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化。

　　如今在Qwen2 - VL - 72B开源模型基础上，研发出QVQ - 72B - Preview。

　　QVQ-72B-Preview不仅在逻辑推理上更上一层楼，还巧妙地融合了视觉理解能力，使得AI在解析图像信息、结合上下文进行空间推理方面取得了显著进步。这一突破意味着AI在处理诸如视觉问答、图像识别与解释等复杂任务时，能够更加精准地把握细节，实现更加智能化、人性化的交互体验。

　　例如，在解析一张包含物理实验的图像时，QVQ不仅能准确识别出实验器材，还能基于视觉线索推断出实验步骤、预测实验结果，甚至对实验设计中可能存在的逻辑漏洞提出质疑。这种跨模态的推理能力，为教育、科研、工业设计等多个领域带来了革命性的变化，加速了知识的自动化处理和创新应用的步伐。

　　目前，QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源，开发者可上手体验。截至目前，通义千问Qwen的衍生模型数突破7.8万个。

　　阿里云通义千问团队表示，QVQ-72B-Preview的发布只是冰山一角，他们正不断探索AI推理能力的极限，旨在构建一个更加全面、智能、适应未来需求的AI生态系统。随着技术的不断迭代与成熟，我们有理由相信，AI将在更多领域展现出超越人类想象的智慧之光，开启一个由技术与人类共同编织的智慧新时代。