界面新闻记者 |
界面新闻编辑 | 文姝琪
2025年,国内具身智能机器人行业掀起了一场 “百机大战”。天眼查等数据平台显示,2024年底时,国内人形机器人整机公司已经超过了80家,全球范围内总共约有150家;而仅今年上半年,中国新增人形机器人公司数量就超过了去年一整年,同时还有更多新创企业排队入场。
“除了世界上少数团队专注于foundation model(注:OpenAI、Anthropic、阿里通义千问、DeepSeek研发的千亿参数底层基础模型)研发外,当下AI创业最具商业化潜力的两大分支,一个是Agentic AI(注:代理式AI,即AI Agent智能体),另一个就是具身智能。” 招商局集团首席科学家、狮子山人工智能实验室主任张家兴近期接受界面新闻专访时表示。
张家兴是国内最早一批投身AI研究的学者。他形容自己是一个 “追着技术前沿跑的人”:早年在微软亚洲研究院钻研大数据框架和深度学习,随后在蚂蚁金服、360数科带队开展 AI 深度学习落地探索;2021年加入IDEA研究院,担任认知计算与自然语言研究中心负责人,主导“封神榜”大模型项目;2024年正式加入招商局集团,筹办狮子山研究院,研究方向是AI与具身智能结合、应用于机器人研发。

虽然看起来每一段职业经历都是研究当时最热门的前沿技术,但在张家兴理解中,“每一步都是为下一步做铺垫”—— 深度学习以数据为基础,只有积累足够数据,才可能开展深度学习研究;而早期大模型正是从深度学习研究中衍生出的AI新领域。
而对于具身智能的爆发,张家兴认为,真正的转折点出现在2023年前后。行业发现VLA这类模型(Vision-Language-Action Model,即“视觉 - 语言 - 动作”模型,即强调通过整合视觉感知、语言理解和动作生成能力,实现机器人从环境观察到指令执行)已经能作为机器人 “大脑”,强大到可以驱动人形机器人、机器狗完成一系列高难度任务。在行业真正意识到技术的潜力后,如何将 AI 模型应用于机器人研发,成为了如今具身智能领域最前沿的创新趋势。
从去年9月在香港成立以后,招商局集团已经完成了狮子山研究院的团队组建,近期还首次发布了成立后的两项新产品:一是基于 Agentic AI研究的智能体强化学习训练推理系统L0系统;二是基于其柯基VLA 模型(Corgi-VLA)开发的四足机器狗。借助模型能力,这款机器狗仅通过16个小时真实环境数据训练,就能实现跟在人身后 “近身智能随行”,实时陪伴逛街。


以下是专访实录(内容经界面新闻调整)
界面新闻:从微软亚洲研究院、蚂蚁、360与IDEA研究院,到如今加入招商局集团,如何看待自己的职业经历?
张家兴:我的职业经历始终与科技前沿技术同步。在大数据时代,我们是全球最早一批研发大数据框架的团队;进入深度学习时代,我们同样是最早涉足深度学习研究的群体。
这几段经历之间的关联性可以这样理解:每一步都是为下一步做铺垫。举个例子,深度学习无疑是以数据为基础,必须先夯实大数据根基,积累足够数据,才能开展深度学习研究。
深度学习之后,2021年左右我开始投身大模型研究。大模型早期正是基于深度学习发展而来,简单说,它通过扩大模型规模,形成了一个新的研究领域。
大模型进一步发展衍生出不同分支。当下除少数团队专注于基础模型的研发与迭代外,我认为最具前景的两大分支就是Agentic AI和具身智能。
具身智能的概念2023年才开始走红,这主要得益于大模型的发展。当时行业发现,VLA这类端到端模型已具备强大能力,能够直接驱动机器人完成各类任务,其中一些任务是此前机器人领域难以想象的。我借此机会进入具身智能领域,同时也兼顾相关AI模型技术的研究。
界面新闻:从这一角度看,在AI时代,最重要的是技术、人才、资金还是其他因素?
张家兴:在深度学习时代,前沿技术创新多由老师带领学生开展,“人工智能三巨头” 杰夫・辛顿(Jeff Hinton)、杨立昆(Yan LeCun)、约书亚・本吉奥(Yoshua Bengio)都是在高校科研院所带学生完成重要的研究工作。
自OpenAI起,整个AI行业进入新的研发模式,即以团队为核心进行前沿技术创新。OpenAI、DeepSeek、美国人形机器人初创企业Figure均是这类模式的代表。
这些团队规模通常不大,约100人左右,成员被高效组织起来,聚焦共同目标,可能是一篇论文、一个模型或一台机器人。他们发表的每篇论文,作者列表往往多达几十人。
如今的核心问题变成了如何组建这样的团队?如何吸引人才并将其组织起来?我们研究院依托招商局这个国企平台组建团队,方式虽有不同,但本质上仍是团队建设问题。
界面新闻:您之前提到,当前大模型最重要的两个分支是Agentic AI和具身智能,公司最新发布了基于Agentic AI研究的L0系统。与传统AI智能体相比,它的主要突破是什么?
张家兴:L0主要有两项创新突破:一是在模型推理过程中实现自然语言与编程语言的深度融合;二是基于强化学习让模型通过 “试错进步” 实现 “探索式学习”。
自然语言与编程语言的结合,核心是将人类日常语言与计算机可理解的代码相融合。今年行业内热门的传统 Agent,均通过自然语言向计算机输入提示词(Prompt)与上下文(context)。自然语言用于驱动人类行动,而编程语言专为驱动计算机设计,在调用 API、访问数据库、连接真实世界与计算机互动等方面更为精准。我们在设计Agent时,便思考能否将自然语言与编程语言结合。
具体而言,我们在L0系统中选用了最流行的AI编程语言Python。Agent运行时,可实现自然语言与编程语言的交互:自然语言生成Python代码,代码在编程语言环境中执行后,将结果返回至自然语言环境,再生成新代码、执行并返回结果,形成持续交互。在此过程中,Agent推理思维链的 “状态” 可通过编程语言形式存储,其存储规模可视为无限大,计算机内存、硬盘乃至互联网的容量有多大,存储规模就能达到多大,这些极大拓展了现有大语言模型的能力。
探索式学习仍基于强化学习,类似人类通过不断尝试、获取反馈来学习。模型能够自主生成样本和训练数据,我们通过特定评判机制判断样本优劣,再利用反馈结果反过来训练模型。模型通过自主 “探索”,根据反馈调整自身,基于这种模式,其性能比普通模型提升近一倍。
界面新闻:这些创新的应用场景是什么?
张家兴:AI大语言模型的“Scale Law”法则强调,在模型研发与应用中,通过增加资源、扩大规模来提升性能和效果。
我们目前已开源L0系统,希望为行业提供一套加速训练框架。如今无论是何种Agent,包括具身智能机器人本身也被行业视为一种“Agent”,基于这套加速训练框架,我们都希望能提高模型所在数字空间与真实物理世界的互动效率,加快速度并降低成本。
界面新闻:你曾提到过,从2025年开始,Agentic AI领域进入 “Zero 时代”,零样本、模型探索合成数据、“算力 = 数据” 是这个时代的特征?
张家兴:深度学习领域,尤其是OpenAI之后流行的“Scaling Law”法则,使得基于数据和预训练的 “暴力美学” 成为绝对真理,开展任何工作都需先准备数据。
但在当下,在预训练大模型能以极低成本获取的情况下,大模型本身已具备基本能力,更重要的是,它实际上拥有自主开展exploration(探索式学习)的能力。简单说,对于任何任务,它一开始就能做得差不离。这种情况下,我们完全可以让大模型采用“Zero-Shot”模式,即不预先准备数据,而是从零开始让其在与环境的交互中生成数据,只要我们有能评判优劣的机制即可。
而在行业认可的评判标准尚未建立前,不预先准备数据,模型开始基于探索式学习时,犯错的代价便是消耗算力 —— 错误越多、成功率越低,算力浪费就越严重。因此,未来行业竞争将聚焦算力,谁拥有更多算力,就能开展更大规模的exploration,探索更多可能性。
界面新闻:在具身智能领域,如何看待VLA的前景?
张家兴:我认为VLA是当下的唯一选择。未来是否会出现更多选择,我们可以拭目以待。
可以说VLA是这一波具身智能引发行业关注的最重要原因。正是因为行业发现,经过大规模预训练的大模型在驱动机器人方面展现出潜力,才掀起了这具身智能的热潮。
界面新闻:如何看待行业热议的VLA作为端到端模型存在的 “技术黑箱” 和实现方法上的不可解释性问题?
张家兴:我不建议在这一问题上花费过多时间争论。世界上不可解释的事物众多,无论是人类大脑还是AI,复杂系统的不可解释性是必然的。
界面新闻:现阶段VLA模型有哪些独特的优势?
张家兴:现阶段VLA是让机器 “懂场景、有温度” 的最优解。以我们的Corgi-VLA模型为例,它有三大设计:混合注意力机制让它优先关注“人”的状态,比如在商场中始终锁定随行的老人而非货架上的商品,动态动作生成模块让动作更柔和,机器狗转身时会放慢速度避免惊吓到人,多模态融合训练让它能理解指令背后的真实需求,这些细节都是技术温度的载体。
从数据训练角度,Corgi-VLA模型通过对不同模态数据的高效融合,减少对单一模态大规模数据的依赖,以相对少量多模态数据训练出更具泛化性与适应性的模型,例如结合少量视觉图像、语言指令和动作反馈数据,实现对复杂场景的精准理解与执行。
为达成这一目标,在模型训练数据上,我们会不断探索用更少、更具代表性的数据,训练出能捕捉生活丰富细节、理解人类复杂情感的模型,让机器人在有限数据学习中,也能实现与人类深度、温暖的交互。
界面新闻:具身智能将模型引入机器人研发,目标是达到何种效果?
张家兴:单纯从传统机器人技术来看,像工厂产线的固定任务(如分拣、搬运),传统工业机器人、机械臂在特定软件算法与硬件配合下,其实表现不错。
而VLA模型在具身领域的研究,更多是将大语言模型的成功延伸至物理世界,bring large models into physical world,这一过程中更重要的是引入大语言模型已经具备的通用性。
通用性具体表现包括:一是能听懂人类语言,可通过自然语言接收指令;二是具有高度泛化性,能随场景变化,准确完成新任务。
换句话说,我们研究VLA、探索具身智能,就是要打造机器人版ChatGPT。
界面新闻:有质疑声称,今年新成立的具身智能机器人企业可能在几年后淘汰一半,您如何看待这一观点?行业的下一个赛点是什么?
张家兴:我认为具身智能真正的机会在于,能否在大模型的下次重大进步来临前,先确保自身存活。
“活着”的核心是“技术硬实力 + 人文软实力”的双重突破。一方面技术上要持续提升VLA模型的效率与泛化能力,硬件上降低成本让更多家庭用得起;另一方面更重要的是坚守科技创业的初心 , 不盲目追求酷炫功能,而是深耕“解决真需求”的场景。
还没有评论,来说两句吧...