2025 年 1 月 24 日,OpenAI 发布了其首款 AI 智能体 Operator。这是一款能够在浏览器上执行简单在线任务的网络应用,例如预订音乐会门票和在线购买杂货。

Operator 由新模型 Computer-Using Agent(CUA)驱动,该模型基于 GPT-4o 构建。目前,该应用仅面向订阅每月 200 美元 ChatGPT Pro 服务的美国用户开放,未来将逐步向其他用户推广。

官方介绍: https://openai.com/index/computer-using-agent/

  • 原理:
    • 将 GPT-4 的推理能力结合视觉功能,用于操作电脑桌面(类似于操作浏览器)。
    • 基于桌面解析和文字识别技术,可以控制键盘和鼠标,并在沙箱环境中进行操作。
  • 问题:
    • 安全问题:适合操作商场中机器人,对于个人数据/公司数据可能涉及安全问题。
    • 目标用户是谁:像 Dify,扣子也有此问题。
  • 应用场景:
    • 浏览器使用:语法检查、退款总计、更新许可证、客户查询。
    • 电脑使用:下载讲座、合并 PDF、压缩图像、计算价格、导出图像。
  • 其它:
    • 要 200 刀的 pro 才能用,而且必须美国节点。
    • 字节跳动和智谱也有类似工具,能够本地化并保护数据。

相关资源

  • 通过 API 使用 CUA: https://github.com/openai/openai-cua-sample-app
  • openai 的 agent 框架: https://github.com/openai/openai-agents-python