AI 日报｜2026-04-11

Main Brief

当日重点整理

01 模型

GLM-5.1成首个杀入Code Arena前三的开源模型，追平Claude Sonnet 4.6

智谱Z.ai发布的GLM-5.1在Code Arena代码评测中排名第三，超越Gemini 3.1和GPT-5.4，与Claude Sonnet 4.6持平。这是该榜单历史上首次有开源模型进入前三，打破了闭源模型长期垄断代码能力评测的格局。开源社区对此反响强烈，标志着开源模型在前沿代码能力上正式与闭源头部并驾齐驱。 From ↗

02 模型

Meta发布Muse Spark重返Arena第一梯队，文本与视觉双榜表现亮眼

Meta发布Muse Spark模型，在Arena评测中同时进入文本榜第三和视觉榜第二，标志其自2025年初以来首次重返前沿模型竞争行列。这是Meta在Llama开源基座之外的第二条产品线——闭源推理模型，直接与OpenAI和Anthropic正面竞争。Muse Spark的发布意味着Meta正式补齐了推理模型的短板，AI三巨头的前沿竞争格局再次均衡化。 From ↗

03 产品

OpenAI密集发布ChatGPT桌面版、Codex App和Atlas三款产品

OpenAI在同一天连续发布ChatGPT Desktop桌面应用、Codex App和Atlas三款产品的官方下载链接，标志着其产品矩阵从单一聊天工具向全场景平台的重大扩展。ChatGPT Desktop将AI能力嵌入操作系统层面，Codex App面向开发者编码场景，Atlas则拓展了新的应用形态。这是OpenAI历史上单日产品发布密度最高的一次。 From ↗

04 社区

AMD AI总监分析近7000次会话证实Claude Code性能显著下降

AMD AI总监通过分析近7000次Claude Code会话数据，用量化证据证实了社区长期猜测的性能下降问题：代码编辑前的文件阅读次数减少三分之二，更频繁地暴力重写整个文件而非精准修改，任务中途放弃率从零飙升至可观数值。此前社区对Claude Code「变笨」的抱怨多为主观感受，这是首次有大规模数据支撑的系统性分析，将讨论从玄学拉到了实证层面。 From ↗

05 开源

MiniMax推出MMX-CLI：首个专为AI智能体而非人类设计的基础设施

MiniMax推出MMX-CLI，这是一个从根本上为智能体而非人类设计的基础设施工具。它为智能体赋予图像、视频、语音、音乐等七种新感官能力，无需MCP胶水代码即可通过命令行直接调用。这代表了一种新的基础设施设计哲学：不再让智能体去适配人类工具，而是原生为智能体构建交互界面。社区将其视为智能体基础设施从「人机共用」向「智能体原生」范式转变的标志性产品。 From ↗

06 研究

刘壮陈丹琦团队开源视觉推理RL框架，无需思维链数据即刷新SOTA

刘壮和陈丹琦团队开源了一个通用视觉推理强化学习框架，在无需任何思维链（CoT）训练数据的情况下即刷新了视觉推理SOTA。这一结果挑战了当前主流的「先蒸馏思维链再强化学习」范式，证明纯RL路径同样可以在视觉推理任务上达到顶尖水平。该框架的开源也为学术界和工业界探索非CoT依赖的推理增强路线提供了可复现的基线。 From ↗