Main Brief

当日重点整理

01 产业

OpenAI收购Promptfoo补齐Agent安全短板,被收购方承诺继续开源运营

OpenAI正式宣布收购开源AI安全测试平台Promptfoo。根据公告,Promptfoo的核心红队测试技术将被整合至OpenAI Frontier项目,专门用于强化智能体的安全评估与漏洞检测能力。值得关注的是,Promptfoo承诺保持开源状态并继续独立服务现有客户。这笔收购折射出一个行业转折:随着AI Agent从实验走向生产,安全测试正从可选项升级为刚性基础设施,头部厂商开始通过并购快速构建完整安全栈。 From ↗

02 产业

a16z第六版消费级AI百强出炉:ChatGPT付费用户远超Gemini与Claude之和,Sora日活突破300万

a16z发布第六期消费级AI应用Top 100榜单,多项关键数据浮出水面。ChatGPT的付费订阅用户数已大幅领先Gemini和Claude的总和,且用户留存率维持在50%以上;OpenAI旗下视频生成工具Sora日活跃用户突破300万大关;OpenClaw注册页日访问量逼近百万量级。报告同时揭示,视频、音乐和语音类AI产品正加速侵蚀原本由图像生成主导的市场份额——多模态消费级AI的竞争版图正在从单一文本/图像向全感官体验迁移。 From ↗

03 应用

谷歌AI辅助英国放射科医生提升乳腺癌早期检出率

谷歌发布最新研究成果,展示其AI系统如何协助英国放射科医生在乳腺癌筛查中实现更早、更准确的病变检测。这是谷歌在临床辅助诊断领域的又一实质性推进——AI影像分析正从实验室论文走向真实临床工作流。当大模型在文本和代码赛道激烈角逐的同时,医疗影像或将成为AI最先产生规模化社会价值的应用场景之一。 From ↗

04 开源

斯坦福开源VAGEN框架:用强化学习教视觉语言模型构建内部世界模型

斯坦福AI实验室发布并开源VAGEN强化学习框架。该框架的核心创新在于通过显式视觉状态推理训练视觉语言模型(VLM)智能体,使其能够构建对环境的内部表征——即'世界模型'。与传统端到端训练范式不同,VAGEN要求VLM在决策过程中显式推理视觉状态的变化轨迹,从而提升复杂交互场景下的泛化能力和可解释性。这一工作为多模态Agent的训练方法论提供了新的技术路径。 From ↗

05 模型

OpenClaw编码Agent能力榜发布:Gemini 3 Flash登顶,Claude全系成功率超九成

一份针对OpenClaw框架下各主流模型执行实际编码任务成功率的基准排行榜引发社区热议。结果显示Gemini 3 Flash Preview拔得头筹,MiniMax M2.1和Kimi K2.5紧随其后分列二三位,而Claude家族模型虽然未进前三但整体表现稳健,成功率均维持在90%以上。该榜单为开发者在Agent场景下选型底层模型提供了量化依据,也揭示出不同模型在工具调用和代码执行等实战维度上的差异化表现。 From ↗

06 模型

Qwen3.5系列Agent场景实测:27B视觉能力突出,MoE架构性价比优势显现

开发者对通义千问Qwen3.5系列模型在OpenClaw Agent场景下的表现进行了系统性评测。结论显示,27B版本在视觉Agent任务上表现突出,而采用MoE架构的35B-A3B版本凭借更少的激活参数,在通用Agent任务中展现出更优的性价比——以接近大模型的完成率实现了显著的推理成本节约。评测为在成本与性能间寻找平衡的开发者提供了多层次的本地部署选项参考。 From ↗