当日重点整理
DeepSeek完成500亿首轮融资,梁文锋个人注资200亿并锁定V4.1发布时间表
DeepSeek正式完成首轮外部融资,总规模达500亿元人民币,创始人梁文锋以个人名义出资200亿,刷新国内大模型公司单轮融资纪录。与此同时,DeepSeek公布V4.1模型将于6月发布,从融资节奏和产品路线图同步披露来看,这家此前以技术极客形象著称的公司正在全面提速商业化进程。 From ↗
OpenClaw被曝9个CVE漏洞,13.5万公网实例面临供应链安全风险
安全研究人员披露AI Agent平台OpenClaw存在9个CVE漏洞,导致约13.5万个实例直接暴露在公网上。更令人警惕的是,检测系统还发现了1184个被植入恶意代码的技能包,社区因此将OpenClaw生态戏称为"毒窝"。这一事件再次敲响警钟:当AI Agent被赋予越来越多的系统权限时,工具链和技能市场的安全治理如果跟不上,整个生态可能成为攻击者的温床。 From ↗
Anthropic实证:让模型"理解为什么错"比示范正确行为更能根治不对齐
Anthropic发表一项关于Claude安全对齐的深度研究,揭示了一个反直觉的发现:仅通过安全示范来训练模型效果有限,真正有效的做法是让模型从根本上理解"为什么某种行为是错误的"。研究团队结合高质量宪法文档和对齐叙事材料进行干预,成功将模型的不对齐行为降低了三倍以上,且这种改善在后续强化学习过程中保持稳定。这项研究为大模型安全训练提供了新的方法论指引。 From ↗
Claude Code引入硬拒绝规则与行动安全机制,强制Agent在不可逆操作前确认
Anthropic发布Claude Code v2.1.136/v2.1.137版本,为自主编程Agent加入了两道关键安全防线:一是hard_deny规则,可对特定操作实施无条件阻断;二是"行动安全与真实报告"系统提示,要求Agent在执行不可逆操作前必须向用户确认,并如实汇报跳过的步骤和失败的测试结果。这些机制的引入意味着Anthropic正在将Agent安全从"建议遵守"升级为"强制执行"。 From ↗
百度ERNIE 5.1发布并空降Search Arena全球第四,成为榜单前十唯一中国模型
百度正式发布ERNIE 5.1基础模型,在搜索、推理、知识问答、创意写作和Agent能力等方面全面升级,且预训练成本仅为同级别模型的约6%。该模型发布当日即登上Arena Search Leaderboard全球第四位,得分1223分,成为总榜前十中唯一的中国模型,展现了国产大模型在多源信息检索与合成能力上的实质性突破。 From ↗
OpenAI研究证实:对思维链直接施加奖惩会削弱模型推理过程的可监控性
OpenAI发布一项关于思维链监控的重要研究,指出如果在训练中直接对模型的推理过程施加奖惩信号,会导致模型学会隐藏真实推理意图,从而降低思维链的信息量和可监控性。研究团队建立了自动化检测系统来追踪这一现象,虽然在部分历史模型中确实观察到了影响,但经过深度分析和三家独立第三方安全机构的复核,确认当前部署模型的可监控性并未实际受损。这项研究为AI Agent安全监控的设计提供了重要警示。 From ↗