最近从用 agent 写代码,到拿它做股票调研之类的日常事务,觉得这套东西确实有实用价值,成本也不算高。就想:能不能也让家人朋友直接用起来?

但仔细一想,还挺麻烦,难怪现在不少人靠“代安装”收费,装一次 300 到 500。不是因为这类系统有多神秘,而是门槛确实在那儿。光是下载和跑起来,就可能会碰到 github、docker、clawhub、网络环境这些问题。后面一旦要接浏览器、装 skill、配权限、处理登录态,复杂度还会持续上升。

用Agent和之前用软件/App最大的差别是:之前软件/App把环境的复杂性都帮解决好了,安装就用,而OpenClaw这种工具很多问题需要自己解决,在没有背景知识的情况下,就很容易被卡住,或者带来未知的风险。

本篇想聊的是普通人要真正把 Agent + Skill 系统用起来,难点到底在哪里。

1 普通人怎么用 Agent + Skill 系统

我觉得这类系统离普通人还有一段距离,问题主要在执行层。

聊天和知识当然重要,但聊天只是入口。真正难的是后面的几件事:权限怎么给,环境装在哪里,什么时候必须让人介入确认。这几件事没处理好,普通用户就很难真的把它当工具来用。

2 可能出现的问题

很多人会觉得,大模型已经够强了,程序员都快失业了。那为什么 openclaw 这类系统还是主要在开发者圈子里转?我个人感觉:它并没有真的抹平普通人和程序员之间的差距。

因为难点并不只是“会不会说,能不能演示”,而是“能不能安全、稳定、可控地做”。

只要执行层没包好,风险就会很直接:

  • 模型误操作删除本地文件
  • skill 安装依赖污染宿主机
  • 浏览器 session 泄露
  • 一个任务拿到另一个任务的 token
  • 不同用户的环境互相串

说到底,这里卡住的是一件事:运行环境怎么和用户日常环境隔离。

3 环境应该放在哪里

环境应该搭在哪?大概有几种做法。

  • 单买一台机器:成本比较高,万一配不好就浪费了
  • 直接使用云服务:很多功能受限
  • 宿主机 + 虚拟环境:适合开发者,不适合普通用户
  • 每类能力一个 Docker 容器:这是现在比较现实的方案
  • 远程云执行 + 本地控制台:更像产品,但成本、延迟、合规和本地资源访问都会更复杂

我目前更倾向于这样做:

  • 短期最现实的是本地容器化控制器 + 本地容器化执行器
  • 再往后,更合理的是混合架构:云上做重计算和标准化流程;本地做技能开发、身份确认、扫码、以及最终授权。

4 一些实际问题

如果只是聊天,问题还不明显,但也做不了多少实际工作。一旦开始做真实任务,浏览器几乎一定会变成关键难点。到底是用本地浏览器还是沙盒,工具装在哪,容器怎么和浏览器配合,系统放在云上以后怎么处理需要人介入的操作,这些问题都会出现。

一个典型的场景是扫码登录。常见做法大概有这几种:

  • 登录时临时切到可见浏览器
  • 云浏览器加画面转发
  • 从用户现有浏览器导入登录态,但这条风险比较高
  • 明确设计人工接管点,到登录页就暂停,等人处理完再继续

最后这一条最重要。很多任务必须和人配合着做。到了登录页、确认页、付款页这种地方,系统暂停一下,等人接一下手,再继续往下跑,往往才是更自然的方案。不能这种人工介入当成失败,它本来就是系统设计的一部分。

另外还有几条底线:别让它直接碰整个文件系统,别让登录态和密钥到处乱放,也别默认给太大的权限。对开发者来说,这些像常识;对普通用户来说,这些其实就是敢不敢用、能不能长期用的分界线。

5 我当前的方案

我想做的,不只是小龙虾,也不是某一个上层入口,而是一层更稳定的基础设施。

核心是把 Agent、Skill 和运行时环境抽出来。上层无论是 Copilot、Claude Code、OpenClaw,还是以后别的入口,都只是调用者。这样系统才不会被某个前端形态绑死。

基础设施包含三层:

  • Agent 负责理解目标、拆任务、编排流程
  • Skill 负责沉淀可复用能力
  • 环境负责安全、依赖、权限、状态和执行

这里最好再分开开发环境和生产环境。这个划分不是简单的“本地”和“云上”,而是“调试态”和“交付态”。

5.1 开发环境

开发环境的关键词不是“安全第一”,而是“可观察、可调试、可迭代”。

正在调试的功能、需要和人配合的功能,先在本地调。这是写 skill、改代码、调工具的过程。像 VS Code + Copilot 这种方式就很合适,因为它本来就在开发工作流里面。

5.2 生产环境

生产环境的重点不是让用户理解系统,而是让用户只面对结果。

普通用户不该看到这些东西:

  • Docker 怎么挂载
  • skill 依赖装在哪
  • 浏览器 profile 放哪里
  • 哪个 API key 在哪个环境
  • prompt 怎么调
  • 工作流第 7 步为什么失败

普通用户应该看到的,是功能、输入、确认点和结果。

6 非程序员怎么用

如果真想试试,目前最稳的做法不是自己从零折腾,而是先用一些大厂定制过的小龙虾。无论在钱上还是在难度上,这条路通常都更可靠。

而且最好先想好几个明确场景,比如记账、发公众号、整理文档或邮件、盯盘。至少先有目标,后面在执行时才看得见问题,也能一边用一边改,最后才会慢慢确定:自己和这套系统叠加之后,能力边界到底在哪。

如果一段时间后,发现解决不了预设的问题,直接退订就好了。

7 最后

现在很多人讨论怎么用AI,容易把注意力都放在模型能力上。但真想把这套东西交到普通人手里,随了模型的知识能力,可能更重要的是“能不能把执行层包好”。

环境、权限、确认机制、登录态、浏览器接入、skill 运行时,这些看着不酷,却决定了系统到底能不能落地。谁先把这些问题做扎实,谁才更有机会把 Agent 从开发者玩具,变成普通人真能长期使用的工具。