Your First Task
実践的な手順 —— ToShop にゴールを与え、タスクがエンドツーエンドで実行される様子を見る。
この手順では実際のタスクのすべての段階を体験できます。Agent がどう考え、許可を求め、報告するかを確認しましょう。
ゴール
「最前面のウィンドウのスクリーンショットを撮り、OCR で含まれるテキストを抽出し、Markdown のサマリーを ~/Desktop/ に保存して。」
これは複数の組み込みツールを同時に使います: screenshot、OCR、open_path(ファイル書き込み用)、最後に notify_user。
手順
プロンプト
Chat を開いてゴールを貼り付けます。Agent は理解を確認し、短いプランを下書きします:
screenshotで最前面ウィンドウをキャプチャ。- 画像に対して OCR を実行。
- 抽出テキストを要約。
~/Desktop/summary-{timestamp}.mdを書き出す。- 完了したら通知。
承認
Agent は次の項目で承認のために一時停止します:
~/Desktop/配下の新しいパスへの 初回のファイル書き込み —— 1 回だけ承認するか常に承認するかを選べます。- このセッションで スクリーンショットツールを初めて使う —— 同じ選択肢です。
あなたが付与した承認は Settings → Permissions のルールとなり、取り消すまでセッションをまたいで保持されます。
実行
Agent は手順を順番に実行し、各ツールの結果をチャットにストリーミングして返します。
ステップが失敗した場合(例: OCR がテキストを見つけられない)、Agent は勝手に推測せず、どう進めるべきか尋ねます —— あなたが主導権を握ったままです。
結果
スクリーンショット、OCR テキスト、Markdown ファイルへのリンクが表示されます。通知も表示されます。完了です。
何が起こったか
プランナー
何もする前にゴールを手順に分解しました。プランはチャットに表示され、ツールが呼ばれる前に編集または却下できました。
権限システム
システムに触れるすべてのアクションをゲートしました。読み取り専用操作(list_windows)は自動実行され、書き込み(screenshot、ファイル書き込み)は先に確認しました。
メモリ
付与した承認を記録したので、次回似たタスクはよりスムーズに進みます。
ToShopドキュメント