开始使用
第一个任务
端到端走一遍真实任务,看 Agent 怎么思考、怎么请你授权、怎么回报。
这个走查带你完整经历一个任务的每个阶段,建立心智模型。
目标
"截一张当前最前窗口的图,用 OCR 抽取里面的文字,然后把摘要存成 Markdown 到 ~/Desktop/。"
这一次会用到好几个内置工具:screenshot、OCR、open_path(写文件)、最后的 notify_user。
走查
Prompt
打开 Chat,把目标粘进去。Agent 会确认理解,并给一份简短计划:
- 用
screenshot截最前窗口。 - 对图片跑 OCR。
- 总结抽取出的文字。
- 写入
~/Desktop/summary-{时间戳}.md。 - 完成时发通知。
授权
Agent 在以下时机暂停请求授权:
- 首次写入
~/Desktop/下的新路径 —— 你可以选择"本次允许"或"永远允许"。 - 本次会话首次使用截图工具 —— 同上。
你授予的权限会变成 设置 → 权限 里的规则,跨会话保留,直到你撤销。
结果
你看到截图、OCR 文本、Markdown 文件的链接。通知弹出。完成。
刚刚发生了什么
计划器
动手前把目标拆成步骤。计划在聊天里可见 —— 工具调用前你随时可以编辑或拒绝。
权限系统
拦住了每一个触系统的动作。只读类(list_windows)自动执行;写入类(screenshot、文件写入)先问。
记忆
记下你的授权,下次类似任务更顺滑。
ToShop文档