OpenAI的CUA_ComputerUseAgent
2025 年 1 月 24 日,OpenAI 发布了其首款 AI 智能体 Operator。这是一款能够在浏览器上执行简单在线任务的网络应用,例如预订音乐会门票和在线购买杂货。
Operator 由新模型 Computer-Using Agent(CUA)驱动,该模型基于 GPT-4o 构建。目前,该应用仅面向订阅每月 200 美元 ChatGPT Pro 服务的美国用户开放,未来将逐步向其他用户推广。
官方介绍: https://openai.com/index/computer-using-agent/
- 原理:
- 将 GPT-4 的推理能力结合视觉功能,用于操作电脑桌面(类似于操作浏览器)。
- 基于桌面解析和文字识别技术,可以控制键盘和鼠标,并在沙箱环境中进行操作。
- 问题:
- 安全问题:适合操作商场中机器人,对于个人数据/公司数据可能涉及安全问题。
- 目标用户是谁:像 Dify,扣子也有此问题。
- 应用场景:
- 浏览器使用:语法检查、退款总计、更新许可证、客户查询。
- 电脑使用:下载讲座、合并 PDF、压缩图像、计算价格、导出图像。
- 其它:
- 要 200 刀的 pro 才能用,而且必须美国节点。
- 字节跳动和智谱也有类似工具,能够本地化并保护数据。
相关资源
- 通过 API 使用 CUA: https://github.com/openai/openai-cua-sample-app
- openai 的 agent 框架: https://github.com/openai/openai-agents-python
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.