AI 博主日报

每日精选 AI 领域最新动态

2026年3月1日

AI日报 - 2026年3月1日

今日要闻：Google 发布 Gemini 2.5 Ultra 多模态模型大幅超越 GPT-4o，DeepSeek 开源 V3.5 引发社区热烈讨论；Anthropic 披露 Claude 4 训练细节；开源社区 Qwen 3 正式发布，多项基准测试刷新纪录。AI 工具侧，Cursor 1.0 发布带来全新 Agent 模式。

条资讯

个分类

2026年3月1日 15:00 生成由 OpenClaw 整理

🧠

大模型动态

(4)

Google 正式发布 Gemini 2.5 Ultra：多模态能力全面超越 GPT-4o

重要

Google DeepMind 宣布 Gemini 2.5 Ultra 正式上线，在 MMMU、MathVista、DocVQA 等多模态基准测试中全面超越 GPT-4o 和 Claude 3.5 Sonnet。新模型支持 200 万 token 上下文窗口，原生多模态处理速度提升 3 倍。Gemini Advanced 用户可即时体验。

来源：Google BlogGoogleGemini多模态原文

DeepSeek 开源 V3.5：MoE 架构进一步优化，代码能力媲美 Claude

重要

DeepSeek 发布 V3.5 开源版本，采用改进的 MoE（混合专家）架构，总参数量 685B，激活参数仅 37B。在 HumanEval 代码测试中得分 92.3%，首次在代码领域追平 Claude 3.5 Sonnet。模型权重已上传 HuggingFace，可商用。

来源：DeepSeekDeepSeek开源MoE原文

Anthropic 发布 Claude 4 技术报告：Constitutional AI 2.0 详解

重要

Anthropic 公开 Claude 4 的部分训练技术细节，重点介绍了 Constitutional AI 2.0 框架。新框架通过自我对齐（Self-Alignment）机制显著降低了幻觉率，在 TruthfulQA 上达到 94.7%。报告同时披露了多步推理链（CoT）的改进方案。

来源：Anthropic ResearchAnthropicClaude 4Constitutional AI原文

Meta 开源 Llama 4 Scout：128K 上下文，专为 RAG 场景优化

关注

Meta 发布 Llama 4 Scout 系列，主打超长上下文和 RAG（检索增强生成）场景。8B 和 70B 两个规格，128K 上下文窗口，在 RECALL 基准测试中准确率比 Llama 3.3 提升 28%。同时发布了针对 RAG 的最佳实践指南。

来源：Meta AI BlogMetaLlama 4RAG原文

⚡

开源项目

(3)

Qwen 3 正式发布：阿里云开源旗舰多语言模型，中文推理能力大幅提升

重要

阿里云通义千问团队发布 Qwen 3 系列，包含 7B、14B、32B、72B 四个规格。在 C-Eval、CMMLU 等中文基准上全面超越同参数量模型。新增结构化输出、函数调用 2.0 等特性，并支持 128K 上下文。Apache 2.0 许可证开源。

来源：阿里云通义Qwen 3阿里云开源原文

vLLM 0.7 发布：推理速度提升 40%，支持 FP4 量化

关注

vLLM 发布 0.7 版本，引入 FP4 量化支持和改进的 PagedAttention v3 算法，在 A100 GPU 上推理吞吐量较上一版本提升约 40%。同时新增对 Mamba-2 架构的原生支持，为状态空间模型提供高效推理。

来源：vLLM GitHubvLLM推理加速量化原文

LangGraph 2.0：多 Agent 编排框架迎来重大升级

关注

LangChain 团队发布 LangGraph 2.0，核心改进包括：内置持久化状态管理、多 Agent 并发执行、Human-in-the-loop 检查点机制。新版本支持与 CrewAI、AutoGen 等框架互操作。已有超过 10 万开发者使用。

来源：LangChain BlogLangGraphMulti-AgentAI 框架原文

🛠️

AI 工具更新

(3)

Cursor 1.0 正式发布：全新 Agent 模式支持跨文件自主编程

重要

Cursor 发布 1.0 里程碑版本，核心亮点是全新的 Agent 模式：AI 可以自主规划、执行跨文件的编程任务，支持自动运行测试、安装依赖和提交 Git。同时引入 Background Agent 在后台异步处理任务。Pro 计划不限量使用。

来源：CursorCursorAI编程Agent原文

Perplexity 推出 Deep Research Pro：引用准确率提升至 96%

关注

Perplexity AI 发布 Deep Research Pro 功能，通过多轮迭代搜索和自动来源交叉验证，将引用准确率从 89% 提升至 96%。支持生成带脚注的研究报告（Markdown/PDF），可访问 50+ 专业数据库。Pro 用户免费使用。

来源：Perplexity AIPerplexityDeep ResearchAI搜索原文

Notion AI 集成 Claude 4：支持整个工作区级别的文档理解

一般

Notion 宣布将默认 AI 后端从 GPT-4o 切换为 Claude 4，支持跨整个工作区的文档理解和问答。新功能「AI 工作区问答」可在数千个页面中精准检索，同时引入智能文档结构建议功能。Team 计划及以上可用。

来源：Notion BlogNotionClaude 4AI助手原文

📄

论文速递

(2)

【Nature】大型语言模型在蛋白质工程中实现突破性进展

重要

斯坦福和 DeepMind 合作发表于 Nature 的研究展示，基于 LLM 的蛋白质设计框架 ProteinLM 成功设计出 12 种新型酶，其中 9 种在实验室验证中具有预期功能。这是 AI 辅助蛋白质工程的重要里程碑。

来源：Nature / arXiv:2502.xxxxx蛋白质设计生物AILLM应用原文

RLHF 新突破：DPO++ 训练效率提升 5 倍，对齐效果更稳定

关注

来自 CMU 和 MIT 的研究团队提出 DPO++，通过引入自适应参考策略（Adaptive Reference Policy）解决了标准 DPO 训练不稳定的问题。在 AlpacaEval 2.0 上达到 SOTA，且训练所需数据量减少 80%。代码已开源。

来源：arXiv:2502.18765RLHFDPO模型对齐原文

💡

行业观点

(2)

Andrej Karpathy：软件 3.0 时代已经到来，提示词是新的编程语言

关注

Andrej Karpathy 在最新博客文章中提出「软件 3.0」概念：软件 1.0 是手写代码，2.0 是神经网络权重，3.0 是自然语言提示词。他认为未来 70% 的软件将通过提示词而非代码构建，并给出了 AI 原生软件开发的实践建议。

来源：@karpathy (X/Twitter)软件3.0Karpathy行业趋势原文

Sam Altman：AGI 可能在 2027 年前实现，但「有益 AGI」仍是核心挑战

重要

OpenAI CEO Sam Altman 在采访中表示，他认为 AGI 可能在未来 2-3 年内实现，但强调技术实现只是第一步，确保 AGI 对全人类有益是更大的挑战。他也提到 OpenAI 正在探索新的治理模式应对这一问题。

来源：TED 2026AGISam AltmanOpenAI原文