AI Agent 时代_火星财经

大模型进入Agent时代，国产AI究竟差哪了？

文章探讨大模型进入Agent时代后国产AI与海外产品的体验差距，指出国产模型在中文理解、长文本处理、代码推理等局部能力已领先，但在多模态生成（尤其文生图）、端到端自主执行物理世界任务、以及支撑深度推理的商业模式（如付费生态与算力投入）上存在系统性短板，导致用户倾向选择海外Agent。

07月10日 17:20

小扎“消失”三年后发帖，只为它：Meta最强Agent模型进军编程

Meta发布新版Muse Spark 1.1多模态AI模型，聚焦智能体编程任务，具备跨应用工具调用、代码修复与迁移、视觉转代码等能力，性能宣称超越竞品；CEO扎克伯格三年后罕见发帖推介，强调其低价策略与强实用性；该模型正逐步替代部分Llama模型，用于Meta旗下产品，并计划推出开源变体。

07月10日 17:08

Agent 下半场的隐秘战争发生在 Harness 调度层

文章指出大模型应用正从单一强模型依赖转向多模型协同调度，强调Harness（执行框架）在任务分解、模型路由、结果验证与失败恢复中的关键作用；OpenSquilla 0.5.0通过Agentic Routing实现步骤级模型调度与并行提案聚合，在DRACO评测中以更低成本取得超越旗舰模型的质量表现，凸显国产模型组合能力与系统工程优化的价值。

07月10日 14:41

伯恩斯坦研报解读：AI 智能体引爆 CPU 需求，内存接口芯片 TAM 三年翻三倍至 200 亿美元

AI智能体推动CPU在推理阶段成为核心编排器，带动服务器CPU出货量增长、单CPU内存模组数量上升及MRDIMM升级，三重驱动使全球内存接口芯片市场空间2030年达200亿美元，澜起科技、瑞萨电子等寡头厂商受益。

07月10日 10:14

登上Science，华人科学家推出通用生物医学AI Agent，真实科研表现接近人类专家

华人科学家黄柯鑫团队研发的通用生物医学AI Agent Biomni登上Science期刊，无需固定模板即可自主拆解任务、调用工具，在遗传学、基因组学、药理学等多领域展现强泛化能力，真实科研表现接近人类专家，可解读多模态数据、优化蛋白质稳定性、协调湿实验并生成可验证方案。

07月10日 09:00

现代AI之父新作：13个大模型实测，检索agent真的可信吗？

研究团队通过SearchGEO评测框架，对13个主流大模型在检索增强场景下的抗操纵能力进行系统测试，发现模型安全性差异显著：Claude表现最稳但存在沉默漂移和误拒风险，GPT在常规任务中稳健却在agent技能推荐等新场景下近乎完全失守，Gemini等模型则易受合成共识攻击；研究强调需将搜索可靠性纳入核心安全评测，并针对‘模型+框架’组合设计防御。

07月09日 17:38

WAIC前瞻：Agent接管终端、机器人进厂，AI叙事逻辑剧变

2026年世界人工智能大会（WAIC）聚焦AI从大模型参数竞赛转向实际落地，核心叙事变为Agent智能体接管终端与工作流、具身智能机器人进厂应用。重点展示全球首款智能体手机、阶跃Agent操作系统、华为Atlas 950算力集群、近存计算3D芯片，以及智元、宇树、银河通用等厂商的工业级人形与轮式机器人商业化成果。

07月08日 20:03

Claude、Cursor、OpenClaw集体上手机，Agent成最卷打工人：007全勤、关机照常搬砖

Anthropic推出Claude Cowork移动端与网页端，支持任务远程持续执行、跨设备接力及离线运行；Cursor和OpenClaw同步布局手机端，分别采用云端Agent和本地Gateway+手机控制模式。三者共同推动AI Agent从聊天机器人升级为异步、可管理的‘数字员工’，手机成为任务调度与审批的核心控制台。

07月08日 17:39

Coding Agent把Loop Engineering带火了，机器人的Loop还少了最关键一环

文章探讨Loop Engineering在AI领域的兴起，指出其核心是构建AI执行、反馈、修正的持续闭环，Coding Agent因软件世界天然具备高质量反馈而率先实现闭环；具身智能则面临真实世界反馈缺失难题，脸谱心智提出Ego-NeuroLoop数据范式，融合眼动、脑电、肌电与视觉信号，旨在采集人类动作背后的完整闭环过程，推动机器人从观察学习走向反馈驱动的闭环学习。

07月08日 17:04

竞赛编程Agent进入全球前十，南大、清华新模型CF rating超3500

南京大学与清华大学团队推出面向竞赛编程的智能体框架Solvita，通过Planner、Solver、Oracle、Hacker四角色闭环系统及可训练图结构知识网络，显著提升算法题求解准确率与鲁棒性，在Codeforces等真实比赛中达到全球前十水平（CF rating超3500），实现从‘多次尝试’到‘经验进化’的范式突破。

07月08日 12:24

3.8万小时、狂烧天价token：字节发现Agent的 Scaling Law

字节跳动Seed团队发布EdgeBench评测平台，通过134个长时程任务（单任务至少运行12小时）、总计约3.8万小时Agent运行实验，首次发现Agent环境学习遵循高精度log-sigmoid Scaling Law（R²达0.998），揭示其学习过程具有可预测性、路径多样性、经验依赖性及学习效率持续加速等核心规律，推动AI评测从静态能力向动态成长能力范式跃迁。

07月08日 11:32

全面超越「龙虾」的「爱马仕」，给国产Agent上了一课

文章对比分析开源AI Agent产品OpenClaw（龙虾）与Hermes（爱马仕），指出Hermes v0.18.0通过多智能体协作（MoA）、基于证据的自我验证、可编辑的学习循环（/learn、/journey）及后台子Agent等能力，显著提升任务可靠性与交付质量，为国产Agent发展提供从‘卷功能’转向‘卷质量’的关键启示。

07月08日 09:10

今天，Claude Cowork大更新，合上电脑，它替你彻夜打工

Anthropic推出Claude Cowork重大更新，支持手机与网页端运行，实现任务云端自主执行、跨设备协同与实时通知决策，使AI代理真正脱离用户设备限制，可彻夜工作并在关键节点推送手机确认，标志着AI办公助手从开发者工具迈向大众日常办公场景。

07月08日 08:52

当Agent成为职场和实验室的重要搭子

OpenAI和Google DeepMind的最新报告表明，AI Agent正深刻改变知识工作与科研范式：Codex在OpenAI内部成为核心工具，承担长周期、跨职能任务，大幅拓展非技术人员能力边界；Co-Scientist作为多智能体科研系统，通过假设生成、辩论与验证加速科学发现，显著缩短突破周期。

07月08日 08:37