翻译:Transwan

改写:Carl Cui

jensen huang holding rtx spark techradar getty

图片来源:TechRadar / Getty Images

2026 年 6 月 1 日,台北 Computex 2026 上,NVIDIA 发布了 RTX Spark。

单纯看参数,RTX Spark 很容易被当作又一颗高性能 PC 芯片:更强的 CPU,更强的 GPU,更大的内存,更适合 AI 的算力。硬件发布会一直就这样,只要参数堆得够高,就能引起关注。

但是对真正构建 AI 应用的人来说,它最重要的地方不是“笔记本终于能跑多大的模型”,而是它把一个被我们默认了三年的架构重新摆在桌面上:AI 推理一定要在云端吗?

过去几年,大多数 AI 应用的默认答案都是“是”。你在对话框里输入一句话,请求离开本机,进入 OpenAI、Anthropic、Google 或其他云端数据中心。模型在远端 GPU 集群上完成推理,再把结果返回。开发者围绕这个流程实现 agent:选择模型、组织 prompt、接入工具、压缩 token 成本、处理延迟、评估隐私风险,等等。

这套架构下诞生了很多好用的产品。它让小团队也能调用最强模型,让很多产品不必自己拥有昂贵硬件。但它也悄悄建立起一种成规:只要你想使用足够强的 AI,就必须把推理交给远端数据中心。

RTX Spark 的意义,在于它开始松动这个前提。

NVIDIA 对它的定位不是普通 PC 芯片,而是面向本地 AI agents 的 Windows PC 平台。换句话说,它要让一部分过去默认上云的 AI 工作负载,回到用户面前这台机器上。对我来说,这不是硬件新闻,而是一个架构信号

未来的 AI 系统,不应该再默认“所有推理都走云端”。一个更好的问题是:哪些推理必须在云端,哪些推理应该留在本地?

真正重要的不是峰值算力,而是内存形态

RTX Spark 发布时,最容易被引用的是几个参数:20 核 Arm CPU、Blackwell GPU、6,144 个 CUDA 核心、最高 1 petaflop AI 算力,以及 128GB 统一内存。NVIDIA 还把它和本地运行 120B 参数级别模型、长上下文工作负载联系在一起。

这里的 1 petaflop,意思是每秒约一千万亿次浮点运算。你可以把它理解成 AI 芯片的理论吞吐能力:数字越高,理论上越适合处理矩阵计算、模型推理和生成任务。但峰值算力从来不等于真实体验。尤其是本地大模型,真正的问题往往不是“算不算得动”,而是“装不装得下”

传统 PC 的内存是分裂的。CPU 使用系统 RAM,GPU 使用 VRAM。一个模型即使可以由 GPU 计算,也必须先装进显卡能访问的显存里。8GB、12GB、24GB VRAM 对游戏和常规创作已经够用,但对大模型和长上下文来说,很快就会撞墙。模型权重、KV cache、长上下文和中间状态都要占内存

RTX Spark 的 128GB 统一内存,真正改变的是这个约束。CPU 和 GPU 不再隔在两个独立内存池里,而是共享一个大内存空间。模型、上下文和工作状态可以放在同一个地址空间里,由 GPU 执行推理,由 CPU 编排流程,减少来回搬运。

这就是为什么我更关心统一内存,而不是 1 petaflop。算力决定你跑得多快,内存决定你能不能把这件事完整地放在本地跑起来

对本地 AI 来说,内存形态是地基。

本地 AI 最先改变的不是聊天,而是 Agent

很多人谈本地 AI,第一反应是隐私。这个判断没错。法律、医疗、金融、咨询、企业内部代码审查,这些场景都不适合随便把数据发给第三方云模型。一个足够强的本地模型,意味着敏感数据可以不离开设备,这对企业采用 AI 很关键。

但如果只讲隐私,就低估了 RTX Spark 的意义。

我认为本地 AI 更先改变的,是 Agent。

聊天机器人是一问一答。Agent 不是。Agent 会持续观察状态,理解上下文,调用工具,检查结果,再继续下一步。它可能要读文件、看屏幕、跑命令、修改代码、比较 diff、等待反馈,然后再做一次判断。

如果每一步都走云端,系统会被网络往返、排队、上下文传输和 token 成本拖住。一次请求无所谓,几十步、几百步的 Agent loop 就会变成架构问题。

本地推理给 Agent 提供了另一种可能:高频、低风险、贴近当前环境的判断留在本地;真正困难、低频、需要最强模型的推理再交给云端。

这会让 Agent 更像一个常驻系统组件,而不是一个远程 API 的前端包装。它可以在本地观察环境,处理小判断,维持状态,并在必要时调用云端模型升级推理。

如果你正在设计未来 18 个月还要运行的 AI 应用,现在就应该开始考虑这件事。

未来不是本地替代云端,而是推理分工

我不相信本地 AI 会取代云端 AI。至少在可见未来,不会。

最强的前沿模型仍然会在云端。它们需要更大的模型规模、更复杂的多模态能力、更频繁的训练更新,也需要远超单机设备的推理资源。最难的推理任务、最新的模型能力、超大规模并发服务,云端仍然有明显优势

本地 AI 有另一组优势:低延迟、隐私、离线可用、持续运行、高频调用,以及更可控的边际成本。

所以更现实的架构不是二选一,而是混合:

  • 本地模型负责常规推理、隐私数据、实时观察和持续 Agent loop;
  • 云端模型负责高难推理、最新能力、复杂多模态和大规模任务;
  • 应用层负责路由:什么时候本地,什么时候云端,什么时候两者协作。

这会改变 AI 应用的设计方式。过去我们主要在云端模型之间做选择:GPT、Claude、Gemini,哪个更强,哪个更便宜,哪个延迟更低。以后还要多一个问题:这次推理有没有必要离开本机?

模型路由会从“选哪家 API”,变成“选推理发生的位置”。

这才是 RTX Spark 对开发者真正有价值的提醒

Adobe 的信号:AI 会从功能变成工作流

Adobe 和 NVIDIA 的合作,是这次发布里很值得看的部分。

如果只是让 Photoshop、Premiere Pro 在新硬件上跑得更快,那它只是一次常规适配。但如果 Adobe 真的围绕本地 AI Agent 重构部分创作流程,那意义就不一样了。

过去很多 AI 功能像外挂。你打开侧边栏,输入提示词,让云端模型生成一段内容,再把结果拖回你的项目里。它有用,但它仍然像一个外部工具。

本地 Agent 的想象力在于,它可以进入工作流内部。它知道当前项目状态,知道你正在编辑哪段视频、哪一层图像、哪组素材。它可以调用本地工具,调整参数,生成候选方案,再根据你的反馈继续迭代。

这会改变软件的交互模型。

过去是用户点击功能,软件执行命令。未来可能是用户描述目标,Agent 在本地理解项目、调用工具、推进步骤。云端 AI 仍然可以参与,但本地 Agent 会更贴近工作现场。

我不认为这会马上完全实现。专业软件的生产环境很复杂,创作者也不会轻易把控制权交给一个黑盒 Agent。但方向值得关注:AI 不再只是侧边栏,而是逐渐变成软件工作流的一部分。

治理会决定本地 Agent 能不能进企业

本地 AI Agent 听起来很美好,但它也带来一个麻烦:权限。

一个真正有用的本地 Agent,往往需要访问文件、查看屏幕、调用应用、执行命令、连接 API。它越有能力,就越需要边界。否则它不是生产力工具,而是新的攻击面。

所以我很关注 OpenShell 这类安全运行时。它背后的问题很现实:Agent 能访问什么?不能访问什么?谁批准?谁审计?出问题后能不能追溯?

企业不会因为一台机器能跑 120B 模型,就允许任何 Agent 随便读文件、看屏幕、调用内部系统。算力只是前提,治理才决定它能不能进入生产环境

这也是很多本地 AI 讨论容易漏掉的一点。开发者喜欢谈模型、显存、上下文和速度;企业真正落地时,还会问权限、审计、隔离、合规和责任

本地 Agent 要成为基础设施,必须同时解决这两边。

PC 重新变得重要,是因为它离工作现场最近

过去十几年,PC 在某种意义上被云削弱了。SaaS 把功能搬到浏览器,移动设备抢走了日常注意力,云计算让本地机器越来越像一个输入输出终端

AI 可能让这个趋势出现一部分反转。

不是因为我们要回到离线时代,而是因为有些 AI 工作负载天然适合发生在本地:私密、持续、低延迟、强上下文、贴近用户当前环境。

本地设备知道你打开了什么文件,当前屏幕是什么状态,哪些应用正在运行,哪些项目资料就在磁盘上。云端模型可以更强,但它天然离你的工作现场更远。对很多 Agent 工作流来说,离现场更近就是优势。

RTX Spark 的赌注就在这里:如果未来的 PC 不只是运行应用,而是运行持续协作的本地 Agent,那么 PC 就不再只是云服务入口,而会重新成为 AI 系统里的重要计算节点

这也是我认为 RTX Spark 值得写的原因。它不是告诉我们数据中心不重要了,而是提醒我们:边缘设备可能重新拥有架构价值。

结语

RTX Spark 的意义,不是让笔记本跑赢数据中心。

它真正改变的是开发者的默认假设:AI 不必总在云端。

当本地设备拥有足够大的统一内存、足够强的推理能力和足够清晰的安全边界时,本地 AI 就会从极客实验变成正式架构选项。隐私敏感任务可以留在本地,高频 Agent loop 可以留在本地,创意软件可以把 AI 嵌入工作流,企业系统也可以在本地和云端之间做更细的推理分工。

未来真正重要的问题,不是本地 AI 和云端 AI 谁取代谁,而是谁能设计好它们之间的边界。

如果你今天还在构建一个所有推理都默认上云的 AI 应用,RTX Spark 至少给了你一个提醒:这个默认值可能不会一直成立。

参考资料