当日重点整理
谷歌Gemini for Education完成马来西亚全覆盖,服务60万学生与7.5万教职员工
谷歌宣布Gemini for Education已覆盖马来西亚全部20所公立大学,触达超过60万学生和7.5万教职工。这是AI教育产品在东南亚单一市场实现的最大规模公立教育系统部署,标志着谷歌在AI+教育赛道的区域落地从试点转向全面铺开。 From ↗
Karpathy开源Agent自进化训练框架,48小时斩获9500星标
卡帕西发布Agent自进化训练框架,核心设计为5分钟一轮的极速实验迭代循环,让Agent在训练中自主生成任务、执行并学习。项目上线48小时内GitHub星标突破9500,成为近期AI开源项目中增长最快的仓库之一。该框架将Agent训练从人工设计奖励函数的范式,推向了Agent自主定义和优化目标的新方向。 From ↗
LangChain推出LangSmith Skills和CLI,将Agent工程从开发延伸到运维
LangChain发布LangSmith Skills及配套CLI工具,使编码Agent能够自主调试追踪、创建评测数据集。新工具将Agent开发工作流从编写代码扩展到持续观测和质量保障,降低了Agent从原型到生产之间的工程鸿沟。 From ↗
OpenClaw Agent编码能力排行出炉:Gemini 3 Flash领跑,Claude全线超90%成功率
社区发布OpenClaw框架下各模型执行编码任务的成功率排行。Gemini 3 Flash Preview以最高成功率位居榜首,MiniMax M2.1和Kimi K2.5紧随其后。Claude家族模型整体表现稳定,成功率均在90%以上。该榜单为开发者在OpenClaw生态中选择底层模型提供了首个基于真实任务的横向对比参考。 From ↗
Human Archive开源最大规模手动劳动多模态数据集,覆盖视觉、深度与触觉
Human Archive发布HA-Multi数据集,包含第一视角RGB视频、深度图和触觉信号等多模态数据,是目前规模最大的手动劳动任务数据集。数据集面向机器人操作和世界模型的运动智能建模,由Y Combinator孵化团队推出,旨在为具身AI研究提供高质量的多感官训练素材。 From ↗
阿里开源业界首个带仓库上下文感知的多语言AI代码评审基准
阿里集团开源CodeReview Benchmark,这是业界首个支持多语言且具备代码仓库上下文感知能力的AI代码评审评测基准。与传统逐文件评审不同,该基准基于真实生产场景构建,要求模型理解跨文件依赖和项目结构后给出评审意见,填补了AI辅助代码评审领域缺乏标准化评估工具的空白。 From ↗