Main Brief

当日重点整理

01 技术

Google提出TurboQuant:KV Cache无损压缩至3-bit,推理吞吐量有望翻倍

Google新论文提出TurboQuant方案,采用PolarQuant+QJL算法将KV Cache从常规16-bit压缩至3-bit且声称无损。由于推理阶段显存读写瓶颈主要在KV Cache,压缩后数据搬运量大幅下降,可直接转化为推理速度提升。论文指出若与线性注意力等技术叠加,速度提升可达两倍。该方案为大模型部署成本优化提供了新路径。 From ↗

02 产品

Anthropic发布Claude Code自动模式工程博客,用分类器实现风险分级审批

Anthropic发布工程博客详解Claude Code新增的Auto Mode设计原理。该模式引入分类器对操作风险进行自动评估,针对大范围文件删除、敏感数据外泄等四类高风险场景触发人工确认,其余操作则自动放行。这一设计在安全与效率之间寻找平衡点,减少了开发者在重复性确认上的时间消耗。 From ↗

03 模型

Google DeepMind上线Lyria 3 Pro音乐生成模型,Gemini用户与开发者均可使用

Google DeepMind正式发布Lyria 3 Pro音乐生成模型。Gemini应用的AI Plus、Pro及Ultra订阅用户可直接体验,开发者则可通过Google AI Studio的API接入构建。新版本支持更长音轨生成和更精细的参数调节,为AI音乐创作提供了更大的自由度和实验空间。 From ↗

04 基准

Browser Use在Online-Mind2Web基准测试中达到97%成功率,刷新浏览器智能体纪录

Browser Use宣布在目前规模最大的浏览器智能体基准测试Online-Mind2Web上取得97%的SOTA成绩。团队透露其改进方法借鉴了Karpathy提出的Auto-Research循环——即用Claude Code自动化地分析失败案例并迭代优化,形成了一套代码驱动的基准刷分流程。 From ↗

05 研究

Kimi团队提出Attention Residuals:将选择性记忆从时间维度扩展到模型深度维度

Kimi(月之暗面)团队在GTC大会上介绍了Attention Residuals概念。传统注意力机制在序列的时间维度上工作,而该方案将类似机制引入模型的深度方向,使信息在跨层传递时也能进行选择性过滤与保留。这是对Transformer架构的一种新探索,旨在提升深层信息流动的效率。 From ↗

06 产品

CapCut国际版推出Video Studio:画布式AI制片取代传统时间线剪辑

CapCut国际版上线Video Studio功能,以画布界面取代传统视频编辑时间线。用户可在同一画布上完成AI辅助编剧、分镜板规划和视频素材生成,从构思到成片的全流程被压缩到一个可视化工作空间内。这一设计降低了视频创作的技术门槛,将AI生成能力嵌入到创作决策的每个环节。 From ↗