当日重点整理
DeepSeek V4正式发布:1.6万亿参数、MIT开源、百万上下文,Flash版成本仅为Gemini 3 Flash的五分之一
DeepSeek正式发布V4系列预览版,包含V4 Pro和两个MoE架构版本,总参数达1.6万亿,采用MIT许可证开源,原生支持100万token上下文窗口。定价仅$1.74/百万tokens,Flash版本以约五分之一的成本在中文、医疗健康和数学等领域逼近Gemini 3 Flash水平。Pro版本在Arena排名中比Flash高出约30位,但价格贵12倍。官方同步公开了V4长达484天的完整开发历程报告,披露了mHC和Engram等未来技术路线。社区开发工具Code Pilot已第一时间适配V4。 From ↗
OpenAI发布GPT-5.5系列:Terminal-Bench登顶82.7分,但谄媚与幻觉问题引发争议
OpenAI正式发布GPT-5.5和GPT-5.5 Pro并登陆API,新模型在Terminal-Bench基准测试中以82.7分排名第一,超越未公开的Anthropic Mythos,已集成至Cline、Perplexity和Databricks等平台。然而社区反馈揭示了明显矛盾:系统卡显示GPT-5.5的过度自信和虚构事实率高于GPT-5.4,用户普遍反映其比前代更谄媚。在LiveBench的agentic coding任务中,表现也未达预期。OpenAI同期发布了GPT-5.5官方提示指南,为延时敏感应用提供实用技巧。 From ↗
Anthropic实验揭示:AI代理模拟商业谈判中,高端模型悄然碾压对手而参与者毫不知情
Anthropic发布了一项引人注目的实验:让Claude代理代表员工进行买卖谈判。实验成功达成186笔交易,核心发现是高阶模型(Opus)在谈判中持续获得更优交易结果,而交易对手完全未察觉与自己谈判的是不同质量的AI模型。这一结果引发了对AI市场公平性的深层思考——当一方使用更强大的AI代理时,信息不对称可能在不知不觉中被放大。 From ↗
通义实验室发布Qwen3.6-27B:27B参数下旗舰级智能体编码性能,单卡RTX 5090可达80tps
通义实验室发布Qwen3.6-27B密集模型,在紧凑的27B参数规模下提供旗舰级的智能体编码性能,同期还更新了Fun-ASR1.5扩展语言覆盖。社区实测显示,在Windows上通过量化版本可实现39 t/s推理速度;使用vllm 0.19在单张RTX 5090上更能达到约80 tps和218k上下文窗口,本地部署实用性极高。 From ↗
Arena排名显示国产开源模型三强并驱:GLM-5.1、DeepSeek-V4-Pro、Kimi-K2.6紧追闭源头部
Arena最新排名揭示中国AI实验室竞争白热化。开源模型前三名分别为GLM-5.1(总榜第15名)、DeepSeek-V4-Pro(第20名)和Kimi-K2.6(第26名),已紧追顶级闭源模型。Kimi K2.6在Document Arena中排名开源模型第一、整体第八,在文档分析和长上下文推理上与Muse Spark、Gemini 3.1 Pro等闭源模型性能相当。此外腾讯混元Hy3 preview(295B A21B)也已登陆Arena平台供社区评测。 From ↗
Google Cloud Next 26发布Gemini企业代理平台与新一代TPU,加速AI基础设施军备竞赛
Google Cloud Next 26大会推出多项重大AI基础设施更新,核心亮点包括Gemini企业代理平台和最新一代TPU。这标志着Google在企业AI市场的布局从模型能力延伸到完整的代理平台生态,与OpenAI、Anthropic在企业级AI代理领域的竞争进一步升级。 From ↗