智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答
智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答
登录
智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答
智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

12月21日 消息:智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。

它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。

智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

模型可以通过[]上传截图来进[]行任务推理,[]并返回计划、[]下一个动作以[]及具体操作的[]坐标信息。

CogAge[]nt 还支持 OCR 相关任务,通[]过预训练和微[]调,其能力得[]到了显著提升[]

Github:

https://github.com/CogNLP/CogAGENT

cogagent-chat:

https:[]//mode[]lscope[].cn/mo[]dels/Z[]hipuAI[]/cogag[]ent-ch[]at/sum[]mary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

    版权归属: noBug
    本文链接: https://wucuo.com/post/78
    相关推荐

    评论区

    提示:本文章评论功能已关闭