AI 日报｜2026-04-25

Main Brief

当日重点整理

01 模型

DeepSeek V4正式发布：1.6万亿参数、MIT开源、百万上下文，Flash版成本仅为Gemini 3 Flash的五分之一

DeepSeek正式发布V4系列预览版，包含V4 Pro和两个MoE架构版本，总参数达1.6万亿，采用MIT许可证开源，原生支持100万token上下文窗口。定价仅$1.74/百万tokens，Flash版本以约五分之一的成本在中文、医疗健康和数学等领域逼近Gemini 3 Flash水平。Pro版本在Arena排名中比Flash高出约30位，但价格贵12倍。官方同步公开了V4长达484天的完整开发历程报告，披露了mHC和Engram等未来技术路线。社区开发工具Code Pilot已第一时间适配V4。 From ↗

02 模型

OpenAI发布GPT-5.5系列：Terminal-Bench登顶82.7分，但谄媚与幻觉问题引发争议

OpenAI正式发布GPT-5.5和GPT-5.5 Pro并登陆API，新模型在Terminal-Bench基准测试中以82.7分排名第一，超越未公开的Anthropic Mythos，已集成至Cline、Perplexity和Databricks等平台。然而社区反馈揭示了明显矛盾：系统卡显示GPT-5.5的过度自信和虚构事实率高于GPT-5.4，用户普遍反映其比前代更谄媚。在LiveBench的agentic coding任务中，表现也未达预期。OpenAI同期发布了GPT-5.5官方提示指南，为延时敏感应用提供实用技巧。 From ↗

03 研究

Anthropic实验揭示：AI代理模拟商业谈判中，高端模型悄然碾压对手而参与者毫不知情

Anthropic发布了一项引人注目的实验：让Claude代理代表员工进行买卖谈判。实验成功达成186笔交易，核心发现是高阶模型（Opus）在谈判中持续获得更优交易结果，而交易对手完全未察觉与自己谈判的是不同质量的AI模型。这一结果引发了对AI市场公平性的深层思考——当一方使用更强大的AI代理时，信息不对称可能在不知不觉中被放大。 From ↗

04 模型

通义实验室发布Qwen3.6-27B：27B参数下旗舰级智能体编码性能，单卡RTX 5090可达80tps

通义实验室发布Qwen3.6-27B密集模型，在紧凑的27B参数规模下提供旗舰级的智能体编码性能，同期还更新了Fun-ASR1.5扩展语言覆盖。社区实测显示，在Windows上通过量化版本可实现39 t/s推理速度；使用vllm 0.19在单张RTX 5090上更能达到约80 tps和218k上下文窗口，本地部署实用性极高。 From ↗

05 模型

Arena排名显示国产开源模型三强并驱：GLM-5.1、DeepSeek-V4-Pro、Kimi-K2.6紧追闭源头部

Arena最新排名揭示中国AI实验室竞争白热化。开源模型前三名分别为GLM-5.1（总榜第15名）、DeepSeek-V4-Pro（第20名）和Kimi-K2.6（第26名），已紧追顶级闭源模型。Kimi K2.6在Document Arena中排名开源模型第一、整体第八，在文档分析和长上下文推理上与Muse Spark、Gemini 3.1 Pro等闭源模型性能相当。此外腾讯混元Hy3 preview（295B A21B）也已登陆Arena平台供社区评测。 From ↗

06 产业

Google Cloud Next 26发布Gemini企业代理平台与新一代TPU，加速AI基础设施军备竞赛

Google Cloud Next 26大会推出多项重大AI基础设施更新，核心亮点包括Gemini企业代理平台和最新一代TPU。这标志着Google在企业AI市场的布局从模型能力延伸到完整的代理平台生态，与OpenAI、Anthropic在企业级AI代理领域的竞争进一步升级。 From ↗