AI 日报｜2026-03-09

Main Brief

当日重点整理

01 产品

谷歌Gemini for Education完成马来西亚全覆盖，服务60万学生与7.5万教职员工

谷歌宣布Gemini for Education已覆盖马来西亚全部20所公立大学，触达超过60万学生和7.5万教职工。这是AI教育产品在东南亚单一市场实现的最大规模公立教育系统部署，标志着谷歌在AI+教育赛道的区域落地从试点转向全面铺开。 From ↗

02 开源

Karpathy开源Agent自进化训练框架，48小时斩获9500星标

卡帕西发布Agent自进化训练框架，核心设计为5分钟一轮的极速实验迭代循环，让Agent在训练中自主生成任务、执行并学习。项目上线48小时内GitHub星标突破9500，成为近期AI开源项目中增长最快的仓库之一。该框架将Agent训练从人工设计奖励函数的范式，推向了Agent自主定义和优化目标的新方向。 From ↗

03 产品

LangChain推出LangSmith Skills和CLI，将Agent工程从开发延伸到运维

LangChain发布LangSmith Skills及配套CLI工具，使编码Agent能够自主调试追踪、创建评测数据集。新工具将Agent开发工作流从编写代码扩展到持续观测和质量保障，降低了Agent从原型到生产之间的工程鸿沟。 From ↗

04 模型

OpenClaw Agent编码能力排行出炉：Gemini 3 Flash领跑，Claude全线超90%成功率

社区发布OpenClaw框架下各模型执行编码任务的成功率排行。Gemini 3 Flash Preview以最高成功率位居榜首，MiniMax M2.1和Kimi K2.5紧随其后。Claude家族模型整体表现稳定，成功率均在90%以上。该榜单为开发者在OpenClaw生态中选择底层模型提供了首个基于真实任务的横向对比参考。 From ↗

05 开源

Human Archive开源最大规模手动劳动多模态数据集，覆盖视觉、深度与触觉

Human Archive发布HA-Multi数据集，包含第一视角RGB视频、深度图和触觉信号等多模态数据，是目前规模最大的手动劳动任务数据集。数据集面向机器人操作和世界模型的运动智能建模，由Y Combinator孵化团队推出，旨在为具身AI研究提供高质量的多感官训练素材。 From ↗

06 开源

阿里开源业界首个带仓库上下文感知的多语言AI代码评审基准

阿里集团开源CodeReview Benchmark，这是业界首个支持多语言且具备代码仓库上下文感知能力的AI代码评审评测基准。与传统逐文件评审不同，该基准基于真实生产场景构建，要求模型理解跨文件依赖和项目结构后给出评审意见，填补了AI辅助代码评审领域缺乏标准化评估工具的空白。 From ↗