Google DeepMind 宣布 Gemini 2.5 Ultra 正式上线,在 MMMU、MathVista、DocVQA 等多模态基准测试中全面超越 GPT-4o 和 Claude 3.5 Sonnet。新模型支持 200 万 token 上下文窗口,原生多模态处理速度提升 3 倍。Gemini Advanced 用户可即时体验。
AI 博主日报
每日精选 AI 领域最新动态
AI日报 - 2026年3月1日
今日要闻:Google 发布 Gemini 2.5 Ultra 多模态模型大幅超越 GPT-4o,DeepSeek 开源 V3.5 引发社区热烈讨论;Anthropic 披露 Claude 4 训练细节;开源社区 Qwen 3 正式发布,多项基准测试刷新纪录。AI 工具侧,Cursor 1.0 发布带来全新 Agent 模式。
大模型动态
(4)DeepSeek 发布 V3.5 开源版本,采用改进的 MoE(混合专家)架构,总参数量 685B,激活参数仅 37B。在 HumanEval 代码测试中得分 92.3%,首次在代码领域追平 Claude 3.5 Sonnet。模型权重已上传 HuggingFace,可商用。
Anthropic 公开 Claude 4 的部分训练技术细节,重点介绍了 Constitutional AI 2.0 框架。新框架通过自我对齐(Self-Alignment)机制显著降低了幻觉率,在 TruthfulQA 上达到 94.7%。报告同时披露了多步推理链(CoT)的改进方案。
Meta 发布 Llama 4 Scout 系列,主打超长上下文和 RAG(检索增强生成)场景。8B 和 70B 两个规格,128K 上下文窗口,在 RECALL 基准测试中准确率比 Llama 3.3 提升 28%。同时发布了针对 RAG 的最佳实践指南。
开源项目
(3)阿里云通义千问团队发布 Qwen 3 系列,包含 7B、14B、32B、72B 四个规格。在 C-Eval、CMMLU 等中文基准上全面超越同参数量模型。新增结构化输出、函数调用 2.0 等特性,并支持 128K 上下文。Apache 2.0 许可证开源。
vLLM 发布 0.7 版本,引入 FP4 量化支持和改进的 PagedAttention v3 算法,在 A100 GPU 上推理吞吐量较上一版本提升约 40%。同时新增对 Mamba-2 架构的原生支持,为状态空间模型提供高效推理。
LangChain 团队发布 LangGraph 2.0,核心改进包括:内置持久化状态管理、多 Agent 并发执行、Human-in-the-loop 检查点机制。新版本支持与 CrewAI、AutoGen 等框架互操作。已有超过 10 万开发者使用。
AI 工具更新
(3)Cursor 发布 1.0 里程碑版本,核心亮点是全新的 Agent 模式:AI 可以自主规划、执行跨文件的编程任务,支持自动运行测试、安装依赖和提交 Git。同时引入 Background Agent 在后台异步处理任务。Pro 计划不限量使用。
Perplexity AI 发布 Deep Research Pro 功能,通过多轮迭代搜索和自动来源交叉验证,将引用准确率从 89% 提升至 96%。支持生成带脚注的研究报告(Markdown/PDF),可访问 50+ 专业数据库。Pro 用户免费使用。
Notion 宣布将默认 AI 后端从 GPT-4o 切换为 Claude 4,支持跨整个工作区的文档理解和问答。新功能「AI 工作区问答」可在数千个页面中精准检索,同时引入智能文档结构建议功能。Team 计划及以上可用。
论文速递
(2)斯坦福和 DeepMind 合作发表于 Nature 的研究展示,基于 LLM 的蛋白质设计框架 ProteinLM 成功设计出 12 种新型酶,其中 9 种在实验室验证中具有预期功能。这是 AI 辅助蛋白质工程的重要里程碑。
来自 CMU 和 MIT 的研究团队提出 DPO++,通过引入自适应参考策略(Adaptive Reference Policy)解决了标准 DPO 训练不稳定的问题。在 AlpacaEval 2.0 上达到 SOTA,且训练所需数据量减少 80%。代码已开源。
行业观点
(2)Andrej Karpathy 在最新博客文章中提出「软件 3.0」概念:软件 1.0 是手写代码,2.0 是神经网络权重,3.0 是自然语言提示词。他认为未来 70% 的软件将通过提示词而非代码构建,并给出了 AI 原生软件开发的实践建议。
OpenAI CEO Sam Altman 在采访中表示,他认为 AGI 可能在未来 2-3 年内实现,但强调技术实现只是第一步,确保 AGI 对全人类有益是更大的挑战。他也提到 OpenAI 正在探索新的治理模式应对这一问题。