2026年开始,AI推理消耗的算力已经超过训练本身。而且随着各类智能体的爆发,未来AI推理算力消耗将远超训练。
这不是预测,是事实。新基讯联合创始人、首席架构师张治在近期接受记者采访时给出判断:AI正从投入阶段进入收获阶段,已经到了创造价值的阶段。

△新基讯首席架构师张治(图片来源:新基讯供图)
推理算力需求爆发,意味着AI的商业闭环正在形成。但问题随之而来,这些推理算力,又将由哪些设备提供,云侧、边缘测,还是端侧?
张治认为:“未来在端侧智能体完成的任务数量,一定远远大于云侧。一方面,端侧AI具备隐私(保护)、带宽的优势;另一方面,随着大模型的快速发展,端侧大模型的能力也越来越强。比如 OPEN AI 开启大模型时代的GPT 3.5(ChatGPT),其能力甚至比不上现在跑在中档家用电脑上的不到20B参数的模型。”
端侧AI将迎来大爆发
据弗若斯特沙利文预测,全球端侧AI市场规模预计从2025年的3219亿元跃升至2029年的1.22万亿元,年复合增长率达40%。
所谓的端侧AI,是指人工智能的一种实现方式,侧重于将AI算法与模型直接部署到移动设备,比如手机、电脑、可穿戴设备等,最大化减少对于云服务的依赖,实现更快的响应速度、更好的隐私保护和最低的联网需求。
当下,无论训练还是推理,大多在云端完成计算。而相比云端AI依赖强大的算力处理复杂任务,端侧AI更强调本地连续性以及隐私保护。
张治举了一个例子,假设需要AI助手找出"去年在北京拍的照片",不可能把手机里几千张照片全部上传云端。隐私、带宽、延迟,三重障碍同时存在。
更关键的是实时性。端侧AI的价值不在于替代云端做复杂推理,而在于处理那些"必须此刻此地完成"的任务。一个了解你位置、环境、使用习惯的随身智能体,需要持续感知你的实时状态,这些信息只有随身设备才能获取。
"你走在路上,看到一个花想知道是什么,拍个照片让大模型识别也可以。"张治说,“但真正的AI助手应当了解我的个人习惯,能够时刻感知我当前的状态和外部环境,可以被情境变化触发,主动为我服务。这些只有随身设备才能做到。”
简而言之,端侧可以实时采集数据,并且实时处理。无需上传到云端,从而保护用户的隐私。
需要注意的是,当下端侧AI的处理能力尚且存在不足,但模型能力在快速进步之中。因此,不少厂商已经开始提前占位。
6月初,英伟达发布RTX Spark超级芯片,联手微软、联发科等巨头重新定义 AI PC,AMD也推出AI MAX+系列与之竞争。而近期苹果也召开发布会,宣布计划在iPhone手机上部署20B模型。
在张治看来,考虑到功耗与成本,端侧AI芯片市场亦会进一步细分,对成本和续航更加敏感的移动智能体市场与固定供电的个人/家庭智能体市场会被不同的芯片产品覆盖,前者使用的模型参数更少,比如2B到4B,如果遇到较为复杂的任务,智能体会判断并将其转发给预先设定的家用智能体或云端模型处理。而后者部署的模型规模可达100B以上,足以胜任绝大部分工作。新基讯在这两个领域均已开始布局。
"最新的27B(270亿参数)开源模型已经超过2年前世界最顶级模型的能力。"张治说。随着模型效率的快速提升,意味着端侧硬件未来可以跑起足够聪明的模型。
头豹研究院认为,过去十年,AI计算主要集中在云端数据中心,终端设备主要承担数据采集与交互功能。随着模型压缩、异构计算和NPU芯片的发展,AI推理能力逐渐向设备端迁移,形成端侧AI架构。端侧AI不是简单将云端大模型缩小部署在设备上,而是将AI能力转变为设备的原生计算能力与系统级入口,从而重塑终端产业的交互方式与价值分配结构。
端侧AI的隐形门槛
头豹研究院认为,从更深层次的产业逻辑看,厂商在这些终端中加速部署端侧AI,其核心目标是通过AI重构人机交互方式,从而掌握新的流量入口与用户触点。在智能手机、智能眼镜等高频终端中,AI助手逐步成为用户获取信息、完成任务和调用应用的核心界面。谁能够在终端系统层面建立AI入口,谁就能够在新一轮智能化竞争中掌握流量入口与用户连接的主导权。
而政策端,也在强调“人工智能+信息通信”的重要性。近日,工信部发布“人工智能+信息通信”创新发展实施意见(2026----2028年)。该意见表示,打造网智融合新终端。加强具身智能与信息通信融合创新,推动具身智能与网联通信模组和设备适配验证。大力发展人工智能手机和电脑、智慧家庭设备、智能穿戴设备等产品,培育智能化、融合化人工智能终端产品体系。
工信部也强调,丰富信息消费新场景。鼓励基础电信企业积极利用人工智能赋能传统电信业务,加强基于智能体的新型个人和家庭应用创新,深化智慧个人助理、智慧管家、家庭看护、互动健身、3D观影等人工智能应用,拓展消费服务新场景,提升生活品质。
在张治看来,未来的端侧AI设备,不仅仅是电脑、手机,可能是很多大家都想象不到的硬件新品。芯片厂商的任务,是尽量创造一个对创新友好的生态环境,让探索者和极客们能够快速上手和迭代,第一时间发现和抓住新的市场机会。
当前市面上的打着AI旗号的"智能设备",大部分不过是一个MCU加一个WiFi甚至蓝牙模块,结构简单,成本极低。张治直言,这种方案做出来的东西几乎没有可扩展性,MCU+WiFi无论移动性还是处理能力都远远不能满足AI时代的需求。
张治认为,只有蜂窝网络,才能做到随时随地获取情境信息并实时交互。而蜂窝网络,则需要基带芯片。
不过,5G基带芯片的门槛极高。全球能做5G基带的公司一共不超过10家,包括高通、联发科、苹果等,新基讯也是其中之一。与此同时,新基讯芯片团队在端侧AI加速技术上也有着深厚的积累,通信基础设施与AI芯片能力结合,形成了极高的技术壁垒。
简而言之,这是通信基础设施级别的技术壁垒。
InnoClaw撬动了什么?
端侧AI市场广阔,也承担了AI时代新的硬件入口的角色。但在基带芯片等条件限制下,少有公司能够即提供一整套软硬件解决方案。
2000年前后,中国手机市场几乎全被国外厂商占据,后来,联发科和展讯提供完整技术底座,让国内小团队能够以极低成本做出产品原型并迭代,带动国产手机市占率爆发,为中国企业在手机业持续至今的强势地位打下了基础。
而在端侧AI大爆发前夜,也急需同样提供产品解决方案的角色。
6月10日,新基讯发布了InnoClaw(5G移动智能体),这是一套基于自研芯片深度定制的软件系统。不到5%的端侧硬件成本,实现OpenClaw绝大部分功能。
具体来说,InnoClaw做了三件事。一是在驱动层级重构传感器数据,将其转化为大模型友好的格式。二是融合多种记忆机制形成用户画像,让智能体"认识"用户。三是支持单用户多终端绑定,手机、手表、眼镜、车载设备共享同一个智能体。
张治认为,今后AI智能体必定会深度参与人们的生活日常,token消耗相比现在将会数量级上升,高频次、低价值的日常交互如果全部走云端,对大众而言,成本可能高到不可接受。而端侧推理的边际成本趋近于零,了解更多的用户个人信息,也能更好的保护客户隐私。端侧推理设备将会成为未来每个人的标配。
"无论是想要踏入新领域的小公司客户、以创新为乐的极客,还是尚未毕业的学生,都可以在新基讯技术底座上设计自己的原型设备,并且轻易扩展他想要的功能。"张治说。
推理时代的大门已经打开。端侧AI的万亿市场不是会不会来的问题,而是谁能在窗口期内拿到入场券的问题。新基讯正在用5G基带芯片等建立的硬件壁垒,叠加5G移动智能体,去做端侧AI的底座。 |