Main Brief

当日重点整理

01 模型

OpenAI发布GPT-5.5:代理编码与计算机使用能力登顶,已向付费用户开放

OpenAI正式推出GPT-5.5,定位为代理编码和计算机使用场景的旗舰模型。在Terminal-Bench 2.0上达到82.7%,OSWorld-Verified达78.7%,速度与GPT-5.4持平但效率更高。模型已向Plus/Pro/Business/Enterprise用户开放,API即将上线。NVIDIA率先在内部全面部署并设立Codex Lab,工程团队反馈“失去它像被截肢”。独立评测机构Artificial Analysis的测试中,GPT-5.5以3分优势重返榜首,知识准确率57%创历史新高,但幻觉率仍高达86%。 From ↗

02 开源

DeepSeek-V4系列正式开源:1.6T总参数Pro版与284B Flash版,百万上下文成标配

DeepSeek正式发布并开源V4系列——Pro版(1.6T总参/49B激活)和Flash版(284B总参/13B激活),均支持1M上下文窗口。采用全新DSA注意力机制大幅降低计算与显存成本,Pro版在Agent能力和推理上对标顶级闭源模型。Arena评测中V4 Pro位列开源模型第二、总榜第14。Flash版API定价极低(输入$0.14/百万、输出$0.28/百万)。华为云、PPIO等平台首发适配,旧版API将于7月24日后退役。社区实测发现V4在指令遵循和工具调用上仍有不稳定表现。 From ↗

03 技术

Google DeepMind跨四区域低带宽训练120亿参数Gemma,发布弹性分布式训练新方法

Google DeepMind成功在低带宽网络条件下跨美国四个数据中心训练120亿参数的Gemma模型,支持混合不同硬件代际且不影响性能。团队同步发布Decoupled DiLoCo弹性训练方法,为大规模分布式训练提供了一种无需高带宽互联的可行方案。这项突破意味着训练超大模型不再必须依赖昂贵的高速网络集群,降低了分布式训练的基础设施门槛。 From ↗

04 模型

Kimi K2.6登顶视觉与文档Arena开源榜首,综合排名跃升14位

月之暗面旗下Kimi K2.6在Vision Arena和Document Arena中同时拿下开源模型第一名。相比上一代K2.5,视觉排名提升14位、文档排名提升9位,部分细分能力已追平闭源模型。同日Arena评测显示,Kimi-2.6在综合榜上与DeepSeek V4 Pro和GPT-5.4-high处于同一梯队,国产开源模型在多模态赛道的竞争力显著增强。 From ↗

05 产品

Codex推出Auto-review模式与浏览器交互能力,向长时自主编程代理进化

OpenAI基于GPT-5.5为Codex推出Auto-review新模式,允许模型更长时间自主工作并减少人工审批,同时由独立Agent在上下文层面检查高风险步骤。Codex还新增浏览器交互、文件生成和计算机使用能力,可操作网页应用、生成电子表格和幻灯片。开发者Simon Willison发现可通过Codex API非官方渠道提前使用GPT-5.5。英伟达同步在公司内部全面部署Codex并设立专属实验室。 From ↗

06 产业

国内首家百亿估值推理GPU独角兽曦望科技诞生,目标将百万Token成本降至1分钱

曦望科技成为国内首家达到百亿估值的纯推理GPU独角兽企业。公司联席CEO公开表示,目标是将百万Token推理成本降至1分钱,直指当前AI推理成本过高的行业痛点。这一估值里程碑反映出资本市场对推理芯片赛道的高度看好,也预示着推理侧算力竞争将进一步加剧。 From ↗