AITOP100平台获悉,智谱AI近日宣布,其旗下的GLM-PC基座模型——CogAgent-9B已正式开源,旨在进一步推动大模型Agent生态的繁荣与发展。作为基于GLM-4V-9B训练而成的专用Agent任务模型,CogAgent-9B具备了一项独特的能力:它仅需通过屏幕截图作为输入信息,便能结合用户指定的任意任务及历史操作记录,精准预测下一步的GUI(图形用户界面)操作。

相较于2023年12月开源的首版CogAgent模型,最新版本的CogAgent-9B-20241220在多个方面实现了显著提升。在GUI感知方面,它更加敏锐且准确;在推理预测准确性上,它展现出了更高的智商与判断力;同时,动作空间的完善性、任务的普适性以及泛化性也得到了全面加强。此外,该模型还支持中英文双语的屏幕截图和语言交互,满足了更广泛用户的需求。
值得一提的是,CogAgent-9B-20241220的输入信息极为简洁明了。它仅需用户的自然语言指令、已执行的历史动作记录以及当前的GUI截图,无需任何额外的文本形式表征的布局信息或附加元素标签信息。而输出则涵盖了详细的思考过程、下一步动作的自然语言描述、结构化描述以及敏感性判断,为用户提供了全面且直观的操作指导。
在性能测试中,CogAgent-9B-20241220凭借其出色的表现,在多个数据集上均取得了领先的结果。无论是在GUI定位、单步操作还是中文step-wise榜单以及多步操作等方面,它都展现出了卓越的优势。
智谱AI的这一举措不仅为大模型技术的发展注入了新的活力,也为视障IT从业者带来了福音。他们可以通过这一工具更加便捷地进行电脑操作,提高工作效率。同时,CogAgent-9B-20241220的广泛应用也将为个人电脑、手机、车机设备等多种基于GUI交互的场景带来全新的智能化体验。
模型地址:
Huggingface::https://huggingface.co/THUDM/cogagent-9b-20241220
魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
代码地址:https://github.com/THUDM/CogAgent
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html








