资讯中心

多模态推理的前沿成果!首个开源多模态推理模型问世

来源:智能制造网整理
2024/12/27 18:52:52
3819
导读:2024年12月25日,阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。
  人类的推理能力植根于语言思维和视觉记忆中,利用视觉理解增强大模型推理能力是AI技术的前沿探索之一。2024年12月25日,阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。
 
  一个月前(11月28日),通义发布AI推理模型QwQ - 32B - Preview并斩获SuperCLUE的AI推理模型榜单「全球开源冠军」,评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。
 
  QwQ(Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化。
 
  如今在Qwen2 - VL - 72B开源模型基础上,研发出QVQ - 72B - Preview。
 
  QVQ-72B-Preview不仅在逻辑推理上更上一层楼,还巧妙地融合了视觉理解能力,使得AI在解析图像信息、结合上下文进行空间推理方面取得了显著进步。这一突破意味着AI在处理诸如视觉问答、图像识别与解释等复杂任务时,能够更加精准地把握细节,实现更加智能化、人性化的交互体验。
 
  例如,在解析一张包含物理实验的图像时,QVQ不仅能准确识别出实验器材,还能基于视觉线索推断出实验步骤、预测实验结果,甚至对实验设计中可能存在的逻辑漏洞提出质疑。这种跨模态的推理能力,为教育、科研、工业设计等多个领域带来了革命性的变化,加速了知识的自动化处理和创新应用的步伐。
 
  目前,QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源,开发者可上手体验。截至目前,通义千问Qwen的衍生模型数突破7.8万个。
 
  阿里云通义千问团队表示,QVQ-72B-Preview的发布只是冰山一角,他们正不断探索AI推理能力的极限,旨在构建一个更加全面、智能、适应未来需求的AI生态系统。随着技术的不断迭代与成熟,我们有理由相信,AI将在更多领域展现出超越人类想象的智慧之光,开启一个由技术与人类共同编织的智慧新时代。

热门评论

下一篇:工业和信息化部召开第十二次制造业企业座谈会

相关新闻

<