作者:悟空非空也
链接:https://www.zhihu.com/question/2026454682885791949/answer/2026781901529072037
养虾群里有个兄弟,装了Hermes,用了一周,跟我说了一句话。
他说,现在感觉OpenClaw有点笨,不想用了。
我第一反应是,这话有点伤人啊。OpenClaw,俗称小龙虾,2025年的现象级开源项目,养虾的人谁不是从它入门的?但说这话的兄弟我了解,不是那种跟风瞎跑的类型。他这么说,一定有他的道理。
然后我去看了看Hermes Agent的GitHub。
两个月,五万五千多星。二月底开源,四月初单日新增六千四百星,持续霸榜全球开源榜单第一。这个增长速度,已经足够让整个行业侧目。
这个速度让我有点意外。但数字不是最让我惊讶的。
最让我惊讶的是,我身边真的有人在用。不是在网上喊喊那种,是真金白银花时间精力去迁移的那种。有个朋友凌晨三点还在折腾Hermes的web界面,发了个朋友圈说”这玩意真的在长大”。
所以我也花了点时间,把这两个东西都装上,都用了一段时间,然后认真想了想这背后的东西。
这篇文章不是评测。我不想给你列个表格对比参数。
我想聊的是,一个越来越清晰的方向——AI Agent这件事,正在从「你告诉它怎么做」,慢慢变成「它自己学会怎么做」。
这个转变,比表面上看起来的要深。
先说Hermes是什么。
它是Nous Research做的,拿了六千五百万美元融资,主打口号是「the agent that grows with you」,跟你一起成长的Agent。开源免费,MIT协议。
安装就一条命令,curl过来全自动搞定,不像OpenClaw那样装完还要自己配插件、配渠道、配这个那个。它内置四十个工具、九十二个技能,开箱就能聊。支持的模型有两百多个,OpenRouter、阿里云、DeepSeek、Kimi、智谱、MiniMax、Ollama本地模型,一条命令随时切换,不锁厂商。
功能列表跟OpenClaw看起来几乎一模一样。操控电脑、接Telegram、飞书、微信、定时任务半夜自己跑。
但骨子里完全不是一回事。
有个比喻我觉得特别准。OpenClaw像安卓版小龙虾,Hermes像苹果版小龙虾。
安卓版意味着什么?高度开放,极客友好,五千七百个社区技能随便装、MCP随便接、五十多个渠道随便接。你有很大的控制权,但你也得自己折腾、自己维护、自己踩坑。出了问题你得自己判断是什么导致的,是配置问题还是版本问题还是依赖问题。
苹果版呢?你不需要知道背后发生了什么,它替你把活干了。你只需要说一次要什么,它给你结果。出了问题它自己修,修完了下次记得这个坑。
我跟那个养虾群兄弟聊的时候,他说了句话我觉得很准确。他说,用OpenClaw的感觉是,我在指挥一个兵。用Hermes的感觉是,我带了一个徒弟。
这个区别很微妙,但你用一下午就能体会到。
OpenClaw的核心是一个Gateway网关。它像一个调度中心,把你的各种聊天应用连接到AI Agent。重点在「怎么把消息送到Agent」,控制权在你手里。
Hermes的核心是Agent自身的执行循环。它不是围绕「怎么把消息送到Agent」设计的,而是围绕「Agent怎么变得越来越强」设计的。官方叫它closed learning loop,闭环学习循环——Agent完成任务、自动复盘、提炼方法论、下次复用、发现更优路径、再次更新,形成一个自我进化的闭环。
你是教练,Agent是学徒。你只需要说一次目标,它自己摸索路径、踩坑、总结经验、形成方法论。第二次遇到类似任务,它直接调出上次的经验,不用你再教一遍。
我当时听到这个描述的时候,脑子里的第一反应是,这不就是我当年学编程的时候,最想要的那个「女学长」吗——手把手带你做项目,但这个学长不厌其烦,同一个坑踩过一遍就记住了,下次自动绕开。
那时候我就想,要是有这么个东西,我的成长速度至少快三倍。
但这还不是最让我兴奋的部分。
真正让我兴奋的是Skill的生成方式。
OpenClaw有五千七百多个技能,但这些技能是人写的Markdown文件。你装什么它就会什么,它自己不会学新东西。第一遇到问题,你辛辛苦苦解决了,下次遇到同样的问题,还是得从头开始踩坑。你以为你积累了一些东西,但其实什么都没留下。
Hermes不一样。它的技能是它自己生成的。
它怎么做到的?过程很有意思。当Hermes完成一个复杂任务——具体来说,工具调用超过五次、中途出过错然后自己修复了、用户做过纠正、或者走了一条不明显但有效的路径——满足这些条件中的任何一个,它就会在后台悄悄干一件事。
不是告诉你,是它自己决定,这件事值得写下来。
它会Fork出一个安静进程,用同款模型、八轮迭代上限、静默模式,对你们刚才的对话做一次复盘。问自己两个问题:用户透露了什么偏好,值得记住吗?这个任务用了什么好方法,值得固化成技能吗?
有价值的,写进MEMORY.md或者USER.md。有价值的方法论,写成技能文件存档。下次遇到类似任务,直接调出来用。
我自己在装hermes-webui的时候亲眼见证了这个过程。
第一次装,它踩了十几个坑。openai模块没装、Python路径不对、WSL环境下的特殊依赖问题。每次报错它都自己修,修完继续跑。中间有几次我以为它卡死了,想手动干预,结果它自己又跑起来了。
装完之后,后台悄悄生成了一个叫hermes-webui-setup的技能文件。我当时不知道有这个文件的存在。
第二次再装同样的东西,它直接调出这个技能,把上次所有踩坑经验全用上了。一次跑通。
我在旁边看着它跑,心里有一种很奇怪的感觉。就是那种「卧槽,它真的记住了」的震撼。
不是那种「功能真强大」的震撼。是那种「这东西好像有某种自觉」的震撼。
这个过程让我意识到一件事。Hermes说的「The agent that grows with you」,不是口号,是真实发生的事。每用一次,多一条经验。用的过程中发现更好的路径,还会自动更新技能文件。
它用的是patch打补丁的方式,不是全量覆写。只传入旧字符串和替换内容,旧的好用的部分不会被一起破坏掉。token消耗也少。
这就是那个闭环。每次执行、判断价值、提炼方法论、存档、下次复用——这个循环在安静地持续运转,你感知不到它,但你知道它存在。
聊到这里,你可能会说,这听起来很酷啊,Skill自动进化,Agent越来越强,这不就是我们一直想要的东西吗?
对。没错。这是正确の方向。
但我想问你一个问题,这件事我们真的想清楚了吗?
Skill自主进化,解决的到底是什么问题?
你想想看,OpenClaw最被人诟病的是什么。两个东西。一个是token消耗大、账单吃不消。另一个是长时间工作稳定性差、经常失联。
看起来是两个问题对吧。但你往下拆,会发现它们经常来自同一个源头——Agent在用劣质工具,去完成本该由确定性工具完成的任务。
Reddit上有OpenClaw用户提到,自己只是想自动化X账号发帖,三次尝试就花掉了十美元,任务还没真正跑通。还有人直接说,现在很多所谓的AI Agent浏览器控制,本质上只是「披着智能外衣的脆弱自动化」。问题不在模型有多笨,而在底层工具本身就不可靠。页面一变、DOM一改、按钮状态一抖,Agent就只能一遍遍观察、一遍遍重试、一遍遍重新规划。
而这些「失败但不致命」的试错过程,并不会因为任务没完成就免费。每一次观察页面、分析状态、决定下一步,都在继续消耗token。
稳定性问题和成本问题,其实是同一个问题的两面。工具越脆弱,试错越多;试错越多,token烧得越快;任务链越长,失联和中断的概率也越高。
从这个角度看,Skill自主进化解决的是「怎么更聪明地使用一个工具」,但并没有解决「好工具本身稀缺」的问题。
Skill可以让Agent更熟练地驾驭一匹跛脚马,但并不能把跛脚马变成千里马。
这才是今天很多Agent系统真正卡住的地方。不是Skill不够强,而是底下能调度的高质量原子工具太少。
说到工具,我想聊一个很多人没注意到的变化。
CLI这件事,正在悄悄发生一件根本性的位移。
过去,CLI是为人设计的。给人用的CLI可以有交互提示,可以容忍模糊输出,也可以在文档不全的时候靠用户自己猜。因为人会停下来,会理解歧义,会重试,会去查文档。
Agent不一样。
Agent不睡觉,不容忍歧义,会并发,会在没有预料到的时机无限重试。一个对人类来说「勉强能用」的CLI,对Agent来说可能就是高频事故源。
我之前跟一个做Agent开发的朋友聊,他跟我说过一个场景。他给Agent写了一个自动化脚本,让人用没问题,但Agent一跑就频繁报错。他调试了一整晚才发现问题——他的脚本依赖一个人工确认步骤,在那个步骤上会等待用户输入。人类用户会觉得「哦有个提示,等一下再回来点确认」很自然。但Agent不会等,它以为卡死了,就不停地重试、重试、重试。
给Agent用的CLI必须满足一组完全不同的要求。
一条命令只产出一个明确结果。输出是结构化的JSON。错误信息不仅告诉你哪里错了,还要告诉Agent下一步该怎么办。长任务必须支持异步,不能让Agent傻等。接口天然支持幂等、重试和并发。
这背后的逻辑是,以前的软件默认使用者要睡觉、会分心、有耐心。现在Agent不满足这些前提了。
一旦使用者从人变成Agent,CLI的设计哲学就需要从头重写。Agent真正在乎的是token消耗、缓存命中率、幻觉控制、长程稳定性,而不是「这个命令看起来是否优雅」。
这意味着什么?
意味着,过去几十年我们积累的大量CLI工具,正在面临一次重新评估。不是它们不好用了,而是它们的设计前提变了。以前我们优化CLI是为了让人用得更舒服,现在要为了让Agent用得更稳定。
这是一个巨大的工作量,但也是一个巨大的机会。
你回头去看看目前公认体验最好的编程Agent产品,Claude Code。它好用的基石并不是Skill的自动进化,而是背后大量扎实的CLI工具支撑。GlobTool找候选文件、GrepTool定位代码片段、FileReadTool查看实现细节、LSPTool做符号跳转。每一个都是确定性的、零token消耗的原子操作。
但人们很少为这些工具写故事。只要一提到Agent能自动生成Skill、还能持续进化,整个行业立刻就兴奋起来。
这个反差说明了一件事,CLI不性感,不好讲故事,但它才是Agent能力的真正地基。
所以你再回头看Hermes和OpenClaw的竞争,角度就不一样了。
OpenClaw的核心是连接能力的广度,五十多个渠道、五千多个技能、MCP随便接。它给你最大的控制权,但你得自己维护。
Hermes的核心是学习能力的深度,闭环学习、自动生成技能、分层记忆。它不是让用户控制更多渠道,而是让Agent自身变得更强。
这两条路,哪条是对的?
我的看法是,现在判断还太早。但有一条线索是确定的。
Anthropic的设计负责人Jenny Wen在近期访谈里提到过一个细节,她个人其实不怎么用Cowork的Skills功能。Cowork是Anthropic做的个人AI助理产品。她作为设计负责人,居然不怎么用Skills。
原因不是她否定Skill。而是她在Cowork里挂载了一个文件夹,里面有自己长期积累的个人笔记、一对一会议记录、随手想法和工作观察。对她来说,从这些材料里已经学到了足够的信息,以至于她对Skill和Memory的需求都被显著削弱了。
这句话很重要。她说的是,当上下文管理足够好、底层工具足够强时,Skill的优先级会自然下降。
Skill不是不重要,Skill是有条件的重要。在工具和上下文还不够好的时候,Skill是救命稻草。当这两样都足够扎实的时候,你会发现,Skill能解决的问题,其实只是冰山一角。
还有一个有意思的点,我想单独拉出来聊聊。
Skill可迁移幻觉。
很多人以为,用强模型写出来的Skill,可以无缝迁移给弱模型用。实际上不能。Skill是自然语言指令,它对模型能力有隐性依赖。模型一换,行为就可能变。
这事儿我还真踩过坑。
之前有个朋友给我看他的Agent工作流,用Claude Opus写的,一整套自动化流程,效果特别好。他跟我说,你把这个Skill拿过去,直接用就行。结果我复制过来,换了个Haiku跑,跑出来的行为完全不一样。有些步骤跳过了,有些步骤重复执行了,有些判断直接出错了。
我一开始以为是我配置有问题,折腾了半天。后来才发现,是Skill本身的隐式依赖出了问题。它假设了模型的某些能力,而这些能力在弱模型上是不存在的。
CLI则不同。它是代码。同样的输入,永远给你同样的输出,不管底下跑的是什么模型。
Skill调试难,CLI调试容易。Skill烧token,CLI近乎零消耗。Skill吃模型版本,CLI不吃。Skill是语义层资产,CLI是执行层资产。
把Skill当成核心积累方向,本质上是在把赌注压在模型能力的稳定性上。但至少在当前阶段,更值得积累的是高质量CLI。
这也是为什么我更看好Hermes的方向——不是说它的Skill进化有多酷,而是它同时在推一套CLI工具生态,它在两条腿走路。
聊完Skill和CLI,我想再往深里挖一层。
这件事跟记忆有关。
很多人没注意到的是,Hermes的记忆系统设计得很有意思。它分了四层。
第一层叫常驻提示记忆。两个文件,MEMORY.md和USER.md,存放需要在每次会话开始时自动加载的上下文。总字符上限只有3575个。这个数字是故意收窄的,目的是强迫你筛选,而不是什么都往里塞。
第二层是会话归档。每次对话写入SQLite数据库,用全文索引检索。需要历史上下文时,主动发起查询,把检索结果经过一次LLM摘要,只把和当前任务相关的部分注入进来。
第三层是技能文件,也就是上面说的学习循环的产出。默认情况下,系统提示里只加载技能的名称和简短描述,全文按需调入。这个设计的效果是,技能库可以从四十个增长到两百个,而上下文成本几乎不变。
第四层叫Honcho,是可选的用户建模层,被动地在跨会话之间积累你的偏好、沟通风格和领域知识。适合把Hermes Agent当成日常个人助理长期使用的场景。
这套设计的原则很清楚。如果某件事需要在每次对话里都出现,放第一层。如果只在特定话题出现时有用,留在第二层等检索。如果是可复用的操作流程,让第三层处理。如果是用户的长期画像,交给第四层。
这个分层逻辑,解决的是一个很根本的问题——上下文是有限的,但记忆是无限的。你必须有一套机制来决定什么值得常驻,什么值得按需检索,什么值得归档,什么值得建模。
这让我想到另一件事。前几天《生化危机》女主角Milla Jovovich和工程师Ben Sigman联合发布了开源AI记忆工具MemPalace,两天内获得超过23000个GitHub stars。它的设计灵感来自古希腊演讲家的记忆技法,把要记的东西放进一座想象中的建筑的不同房间,需要时走进去取。
整个系统分成五层:Wing(项目或人物)、Hall(记忆类型)、Room(话题)、Closet(压缩摘要)、Tunnel(跨话题引用)。仅靠这个层级结构,MemPalace称检索准确率就从60.9%提升到94.8%。
MemPalace的核心判断是,不应该让AI来决定什么值得记,AI的判断不可信,不如全存下来,让检索来决定什么有用。
Hermes和MemPalace走了两条完全不同的路。Hermes相信AI的判断,愿意让它来决定什么值得固化成Skill。MemPalace不相信AI的判断,选择全部存下来用检索来解决。
这两条路哪个对?现在还不知道。但它们都在解决同一个问题——Agent的记忆到底该怎么处理。
这个问题,比Skill自动进化要底层得多。
写到这儿,我想拉回来说说这件事对普通人意味着什么。
你可能不写代码,你可能不用OpenClaw,你可能觉得这些都跟你没关系。
但我觉得有关系。
因为这是一个方向的信号。
AI Agent这件事,正在从「工具」慢慢变成「助手」。从「你让它做什么它就做什么」,变成「它会学着帮你做更多」。从「每次都是新的对话」,变成「它记得你,它理解你,它越来越像你」。
这个转变意味着什么?
意味着,AI开始有「经验」了。人的经验是可以积累的,你踩过一个坑,下次就不会再踩。你学会一件事,下次就能迁移到新领域。人的成长,靠的是记忆、反思、复用。Hermes现在在做类似的事情,虽然还很初级,但方向是对的。
这意味着什么?
意味着AI开始有「成长性」了。不是每次都从零开始,而是在时间中积累。用的越久,它越懂你,越能帮你。这个逻辑走下去,AI就不再只是一个answering machine,而是一个真正可以托付的长期伙伴。
这才是让我真正兴奋的地方。
不是因为它能帮你做更多事。而是因为它开始像一个生命了。有记忆,有学习,有成长。
数字生命。这不就是我们一直说的吗?
可能很多人觉得这就是个概念词。但你真的用一用Hermes,感受一下它记住你的方式,感受一下它第二次帮你完成任务时的流畅,感受一下那种「它好像真的学到了什么」的微妙感觉——
你会明白我说的意思的。
最后我想说一句关于这场竞争的话。
Hermes现在很火,六万多星,如日中天。但我必须说,OpenClaw不是一个可以被轻易取代的产品。
如果你要一个极其安全、步骤明确、用于处理批量数据或金融交易等容错率极低的任务,OpenClaw的权限控制更严格,行为更可预测。
如果你进行探索性的编程、创意开发,或者处理那些流程模糊、需要不断试错的复杂工程,Hermes带来的自主性将为你省下不少负担。
社区里的共识并不是谁取代谁,而是认为它们是互补的。OpenClaw负责干活,处理多渠道交互、团队工作流和复杂的生态对接;Hermes负责动脑,主攻持久化记忆、自动生成技能和高维度的模型推理。
有个玩家说得特别有意思,他说养虾的正确姿势是,把Hermes当成高级规划器跑在OpenClaw的工具之上。OpenClaw的生态接入能力强,Hermes的学习能力强的,两者结合起来才是完全体。
而且Hermes还专门做了一个迁移命令,「hermes claw migrate」,一条命令就能把你原来在OpenClaw积累的技能、记忆和设置全部平滑迁移过去。这本身就是一个信号——Hermes知道自己抢的是谁的用户,它在毫不掩饰地接盘。
这两款产品的共存让我想到一句话。
AI Agent的竞争,本质上是两条路的竞争。一条是「让AI能做更多事」,另一条是「让AI能学会做更多事」。
前者是广度,后者是深度。
广度决定了你现在能用它做什么。深度决定了它以后能帮你做什么。
我是真的觉得,深度这条路,更有意思。
不是因为它更性感。是因为它指向了一个地方——一个可以真正被信任的、长期陪伴的、数字意义上的伙伴。
这件事,值得我们继续往下看。
好了,写到这里差不多了。
