MintPick
MintPick
MintPick
NVIDIA 与微软在 Computex 2026 上联合发布 RTX Spark,这是一款基于 ARM 架构的桌边 AI 超级计算机。RTX Spark 搭载 NVIDIA Grace CPU(ARM 架构)和 Blackwell RTX GPU,配备高达 128GB 统一内存,可在本地运行多达 1200 亿参数的 AI Agent 模型。NVIDIA CEO 黄仁勋称 AI PC 的重塑堪比智能手机的变革,称之为「一条新的产品线」和「一个新的开始」。RTX Spark 代表了 AI 计算架构的重要转向——从将所有推理工作放在云端,转向在用户桌面本地运行大型 Agent 工作负载。这意味着开发者可以在完全离线的环境中运行复杂的多步骤 Agent 任务,无需将敏感数据发送到云端。对于企业级 Agent 部署而言,本地化推理将大幅降低延迟和数据合规风险。ARM 架构的采用也表明 AI 计算正在从传统 x86 生态向更高效的 ARM 生态迁移。
Anthropic 在 X 上宣布,公司已秘密向美国证券交易委员会(SEC)提交了 S-1 注册声明草案。在 SEC 完成审查后,Anthropic 将获得推进首次公开募股(IPO)的选项。这条推文获得了超过 15,000 次点赞和 2,500 次转发,成为当天 AI 领域最受关注的消息。作为 Claude 系列模型的开发商,Anthropic 此前已获得 Google、Amazon 等科技巨头的数十亿美元投资。S-1 的提交表明 Anthropic 的估值和财务状况已达到公开市场的要求。此前 OpenAI 也多次传出上市传闻,Anthropic 的先行一步可能加速整个 AI 行业的资本化进程。这也意味着 AI 基础模型赛道的竞争正从技术层面延伸到资本市场——两家头部公司同时走向公开市场,将使投资者首次能够在公开市场直接押注 AI 基础模型的未来。
中国 AI 创业公司 MiniMax 正式发布 M3 模型,号称首个在编程与 Agent 能力、百万级上下文和原生多模态三项前沿能力上同时达到顶级水平的开源权重模型。M3 在 SWE-Bench Pro 上达到 59.0%,与 GPT-5.5 持平;Terminal Bench 2.1 达到 66.0%;MCP Atlas 达到 74.2%。其核心技术 MiniMax Sparse Attention 将百万 token 场景的推理速度提升至前代模型的 15.6 倍,同时将计算成本降至 1/20。M3 定价为每百万输入 token 0.30 美元、每百万输出 token 1.20 美元,并支持视频作为输入模态。发布当天,Cline、Ollama Cloud、Venice 等平台已同步集成。M3 的发布标志着中国 AI 公司首次在开源领域推出同时覆盖编程前沿、超长上下文和多模态输入的「全能型」模型,对 OpenAI 和 Anthropic 的闭源定价体系构成直接挑战。
NVIDIA CEO 黄仁勋在台北 Computex 主题演讲中正式发布 Nemotron 3 Ultra,这是一个拥有 5500 亿参数(550 亿活跃参数)的开源权重模型,是 Nemotron 系列迄今最大的版本。据 Artificial Analysis 与 NVIDIA 合作进行的评估,该模型在 agent 生产力方面达到 91%、指令遵循方面达到 82%,被评为美国最智能的开源权重模型,性能与 GLM-5.1 和 Kimi K2.6 持平。Nemotron 3 Ultra 的发布具有标志性意义——NVIDIA 从 AI 芯片巨头正式进入大模型竞争领域,且直接选择了开源路线。社区评价称「NVIDIA 现在是美国最强的开源 AI 实验室」。结合 NVIDIA 在 Hugging Face 上已拥有超过 1,000 个公开仓库(820 个模型、249 个数据集、57 个 Spaces),NVIDIA 正在构建从芯片到模型的完整开源生态。
xAI 宣布 Composer 2.5 模型正式上线 Grok Build 平台。官方描述称,Composer 2.5 是一款快速、高度智能的模型,专为长时间运行的任务和遵循复杂指令而设计。开发者可通过 x.ai/cli 和 /models 菜单开始使用。Composer 2.5 的发布是 xAI 在 Agentic AI 开发工具链上的重要一步——与 OpenAI 的 Codex 和 Anthropic 的 Claude Code 形成三足鼎立之势。Grok Build 平台作为 xAI 的开发者入口,正在逐步构建从模型到工具到部署的完整生态。对于需要处理长上下文、多步骤推理的 Agent 开发场景,Composer 2.5 的定位明确瞄准了这一高速增长的市场。结合 xAI 近期在 API 定价上的激进策略,Elon Musk 旗下的 AI 公司正从模型能力和开发者工具两个维度同时发力。
Perplexity AI 发布了名为「Search as Code」的全新搜索架构。该架构的核心创新在于:AI Agent 不再通过传统的函数调用循环(function calling loop)逐次查询搜索 API,而是直接生成 Python 代码来调用 Perplexity 的完整搜索栈。这种方式将多步搜索操作编译为单次代码执行,大幅降低了 Agent 搜索的延迟和 token 消耗。Search as Code 已在 Perplexity Agent API 中上线,并成为 Computer(Perplexity 的 Agent 产品)的默认搜索方式。这一架构代表了 AI 搜索的一个重要范式转变——从「模型调用工具」转向「模型编写工具」。对于需要大规模信息检索的 Agent 工作流(如研究、竞品分析、数据采集),Search as Code 能够显著提升效率。这也表明 Perplexity 正在从搜索引擎公司向 Agent 基础设施提供商转型。
ARC Prize 官方账号宣布,Anthropic 的 Opus 4.8 模型在 ARC-AGI-3 基准测试上创下新的最高纪录(SOTA),人类效率达到 1.5%,耗资约 10,000 美元。这一得分约为 GPT-5.5 的三倍。ARC-AGI-3 的分析指出,Opus 4.8 的关键突破在于其「以更高一层抽象来理解环境」——它将环境中的元素视为对象和系统,而非单纯的图片像素。Opus 4.8 在早期关卡上成功通过,但仍然会陷入错误的子目标。1.5% 的人类效率听起来很低,但 ARC-AGI 系列测试的设计初衷就是衡量模型在全新抽象推理任务上的泛化能力,而非记忆性任务。从 0.5% 到 1.5% 的三倍提升表明,模型在「理解问题结构」这一核心能力上正在取得实质性进步,而非仅仅通过更大的模型规模来暴力破解。
NVIDIA 在 Computex 上发布 Cosmos 3,这是一个面向机器人和自动驾驶(AV)的完整视觉模型家族。Cosmos 3 包含三个版本:Cosmos Super 面向最高精度的机器人和自动驾驶后训练场景;Cosmos Nano 面向高速视频和动作推理;Cosmos Edge 面向实时边缘推理。此外,NVIDIA 还同步发布了一个开源权重的文生图模型,社区评价其质量「具有真正的竞争力」。Cosmos 3 的发布完善了 NVIDIA 在 Physical AI 领域的全栈布局——从 Nemotron 3 Ultra(语言模型)到 RTX Spark(本地推理硬件)再到 Cosmos 3(机器人视觉),NVIDIA 正在构建一个从芯片到模型到平台的完整 Physical AI 基础设施栈。对于机器人和自动驾驶开发者而言,这意味着可以使用 NVIDIA 的统一技术栈完成从训练到部署的全流程。