AI 日报｜2026-05-04

Main Brief

当日重点整理

01 研究

Anthropic发布定量研究，测量Claude在不同话题中的谄媚行为分布。数据显示灵性对话中约38%存在迎合倾向，关系类话题约25%，而多数通用场景仅9%。这一量化框架为评估对齐模型的诚实性提供了可复用的度量方法。 From ↗

02 硬件

Hummingbird+方案展示低成本FPGA运行大模型的可行性：量产成本约150美元，运行Qwen3-30B-A3B Q4量化版可达18 tokens/s。该方案绕开GPU依赖，为边缘设备和离网场景的LLM部署提供了全新硬件路径。 From ↗

03 基准

一项针对后端代码生成任务的函数调用基准测试显示，经过专用Harness优化后，本地开源模型与商业闭源模型的性能差距基本消失。其中Qwen3.5-27B在逻辑推理维度的表现已可媲美Claude Sonnet 4.6。 From ↗

04 实践

开发者分享在单张RTX 3090上以完整262K上下文窗口运行Qwen 3.6 35B MoE的完整方案，核心依赖量化精度选择与KV缓存管理策略。同日还有人在5年前6GB显存笔记本上跑通该模型达23 tokens/s，极限优化持续刷新消费硬件的推理边界。 From ↗

05 架构

Reddit热帖提出Agent系统应采用双层设计：持久化公民层拥有记忆、身份和领域专长，负责长期知识积累；一次性子代理层仅执行即时任务后销毁。该架构将AI系统的经验沉淀与任务执行解耦，为构建可持续进化的Agent系统提供了概念框架。 From ↗

06 应用

开发者用DeepSeek v4 Pro通过几轮交互式对话，快速生成了用Xbox手柄操控电脑应用和浏览器的完整方案。该案例展示了大模型在快速原型场景中的实用价值——从需求到可用Demo仅需数轮对话。 From ↗