本文作者:adminddos

智谱发布AutoGLM 2.0,“云手机”能否实现Agent全自动操作?

adminddos 2025-08-20 14:55:49 2 抢沙发
智谱发布AutoGLM 2.0,“云手机”能否实现Agent全自动操作?摘要: ...

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

国产AI Agent竞争正在走向白热化。 

8月20日,智谱发布AI Agent产品AutoGLM 2.0,由最新开源模型GLM-4.5与GLM-4.5V驱动,面向普通用户开放。团队表示,AutoGLM本次为iOS、安卓、网页全平台上线,接下来会保持1-2周一次新feature(功能)发布的节奏。

AutoGLM 2.0定位为可直接“点、拖、输”的执行型智能体,相比把答案写在对话框里的传统助手,它更强调如何在设备中发挥真实作用,包括在手机、电脑与浏览器之间跨端执行任务。 

Device Use基准测试(涵盖手机、电脑和网页操作)图源:智谱

它到底“会干什么”?在生活侧,AutoGLM已能覆盖常见高频App与网站的操作,包括外卖、出行、电商下单、内容平台检索与发布等,其公开演示中就包含微信、抖音、小红书、美团、京东、拼多多等平台的自动化操作。

在办公场景,它支持从检索、分析到成稿输出,并在浏览器端实现自动打开网页、搜索与汇总的流程。 

AutoGLM 2.0一个重要的技术更新是本地与云端的结合。过去的手机Agent常占用用户屏幕、算力且易被打断。AutoGLM 2.0引入“云手机/云端桌面”式的执行形态,在云端直接调用App服务完成点餐、出行等操作,规避对本机屏幕的占用。

就场景展示而言,输入指令“在美团找附近奶茶店下单20杯并用优惠券”,AutoGLM 2.0可以在云端手机完成,不占用本机前台,中途可识别并跳过广告,选择品类,连续点击数量键至20杯,智能使用“8元红包”(或最大优惠力度红包),在最后的支付环节需用户确认。

操作图片来源:智谱

这其中的关键体验是Agent任务在后台并行、不打断用户当前设备使用,同时支持跨端跨APP、长程任务执行,可随时接续查看与交互。

从产品路线看,AutoGLM 2.0对标的是“会操作设备”的通用AI Agent,与谷歌Project Mariner、OpenAI ChatGPT Agent同属一类:强调跨应用、多步、可托管执行。不同之处在于,AutoGLM更早把“手机端真实App操作”作为第一落地场景,并配备浏览器与PC端的协同。 

需要指出的是,在当前的测试阶段,实际操作仍有跳出之后任务中止、个别App连续多次执行任务有概率账号被迫退出等问题;在覆盖与稳定性上,不同网站、App的适配程度与成功率还不完全一致,信息源可能出现偏科,复杂长链路偶有失步。对此,团队还需要一段时间排查并优化用户体验。

此外,不同平台之间的权限差异,以及自动化“代操作”涉及账号安全、隐私授权等问题,也将是包括AutoGLM在内所有Agent产品长期要关注与攻克的问题。

手机与PC之外,智谱似乎已经做好了接入更广大智能硬件生态的准备。团队表示已将AutoGLM的操作执行能力封装为API,开发者只需接入即可将这一能力结合至各类硬件设备。

成本是通用AI Agent另一个被重点关注的维度。智谱GLM技术负责人刘潇对界面新闻等媒体表示,目前在AutoGLM上完成任务,算上模型与虚拟机,单任务的成本为0.2美元(约合1.4元人民币)。他引入另一个真正通用且带来巨大价值的参照物谷歌搜索,指出谷歌搜索的成本据推断是0.02美元一次。

尽管对上述推断数据没有十足的确定性,刘潇仍然认为两者的数量级是接近的。“现在Agent执行任务的成本已经被砍到距离普通通用搜索只剩下一个数量级的水平了。而且这个事情随着规模化和商业化程度的推进,一定还会被进一步压缩到一个数量级以内,甚至更小的程度内。”他说。

智谱CEO张鹏在接受界面新闻等媒体采访时表示,AutoGLM的目标是借助其产品形态,给普通人以远超人类平均水平能力的机会。他认为,这件事有难度,难度在于某个任务本身可能已经超出了用户本人对事物的认知范围,而怎么用好AI能力就是打破这种障碍的关键。

可以感受到的是,张鹏现阶段还没有着急为AutoGLM注入更高级的使命,智谱计划的是通过迈出这一步,尝试用这款产品打破上述认知障碍的边界,让普通人开始逐步意识到,即便自己不懂、也有可能做好,因为手中有一个比自己更懂的AI工具。

我个人认为这一定是一个革命性的、划时代的事情。”张鹏告诉界面新闻记者,“未来这个事情怎么做到或者是什么产品形态,谁也说不清楚,但我们希望今天迈出这一步是有历史意义的。

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,2人围观)参与讨论

还没有评论,来说两句吧...