限时免费!通义千问多模态大模型重磅升级:性能赶超GPT
开心家园1月26日消息,今日,阿里云公布多模态大模型研究进展。
据悉,通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,整体性能堪比GPT-4V和Gemini Ultra。
Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界最佳水平。
基础能力方面,升级版模型能够准确描述和识别图片信息,并且根据图片进行信息推理、扩展创作;具备视觉定位能力,还可针对画面指定区域进行问答。
视觉推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程图等复杂形式图片,可以分析复杂图标,看图做题、看图作文、看图写代码也不在话下。
Qwen-VL-Max看图做题
图像文本处理方面,升级版Qwen-VL的中英文文本识别能力显著提高,支持百万像素以上的高清分辨率图和极端宽高比的图像,既能完整复现密集文本,也能从表格和文档中提取信息。
Qwen-VL-Max复现密集文本
LLM(大语言模型)之后,大模型领域的下一个爆点是什么?多模态是当前最具共识的方向。过去半年来,OpenAI、谷歌等争相推出多模态模型,阿里云也在2023年8月发布并开源具备图文理解能力的Qwen-VL模型,Qwen-VL取得了同期远超同等规模通用模型的表现。
视觉是多模态能力中最重要的模态,作为人类感知世界、认知世界的第一感官,视觉传递的信息占据了“五感”信息的80%。通义千问视觉语言模型基于通义千问LLM开发,通过将视觉表示学习模型与LLM对齐,赋予AI理解视觉信息的能力,在大语言模型的“心灵”上开了一扇视觉的“窗”。
相比LLM,多模态大模型拥有更大的应用想象力。比如,有研究者在探索将多模态大模型与自动驾驶场景结合,为“完全自动驾驶”找到新的技术路径;将多模态模型部署到手机、机器人、智能音箱等端侧设备,让智能设备自动理解物理世界的信息;或者基于多模态模型开发应用,辅助视力障碍群体的日常生活等等。
目前,Qwen-VL-Plus和Qwen-VL-Max限时免费,用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。
随便看看
- 2022-10-07学习榜样事迹传承榜样精神
- 2023-02-19羽毛都会坠落,为何60万亿亿吨的地球,却能漂浮在太空中?
- 2022-05-24鸡蛋到底怎么选?看看你做对了吗?
- 2022-06-052003年青花郎单瓶拍出上万元,20年升值近40倍,市场厚爱郎酒!
- 2021-07-12Windows11激活码大全!最新Windows11抢先版激活码大全!
- 2021-07-12Windows11发生了什么? Win11无法安装系统和图形解决方案的原因
- 2022-05-25中国最凉爽的四个城市,夏天自带空调模式,晚上睡觉盖被子
- 2023-02-15安卓影像机皇!小米13 Ultra最新设计图来了:徕卡四摄重构
- 2021-07-12win11和win10差异win11和win10是什么不同?
- 2021-07-12Win11如果升级将清除计算机数据?