gpt-oss(100%ローカル)を使用してブラウザ自動化エージェントを構築しましょう。
ブラウザは依然として最も普遍的なインターフェイスであり、毎日43億ページがアクセスされています。 ここでは、それを完全に自動化する方法の簡単なデモを紹介します。 技術スタック: - @stagehanddevオープンソースの AI ブラウザの自動化 - オーケストレーションの@crewAIInc - gpt-ossを実行する@ollama 行きましょう!🚀
システム概要: - ユーザーが自動化クエリを入力します。 - Planner Agent は自動化計画を作成します。 - ブラウザー自動化エージェントは、ステージハンドツールを使用して実行します。 - レスポンス・エージェントがレスポンスを生成します。 それでは、コードに飛び込みましょう!
1️⃣ LLMの定義 3 つの LLM を使用します。 - プランナー LLM: 自動化タスクの構造化された計画を作成します。 - 自動化 LLM: ステージハンド ツールを使用して計画を実行します。 - 応答LLM:最終応答を合成します。 これがいいと思います 👇
2️⃣ Automation Planner エージェントの定義 プランナーエージェントは、ユーザーから自動化タスクを受け取り、ブラウザエージェントが実行するための構造化されたレイアウトを作成します。 これがいいと思います 👇
3️⃣ ステージハンドブラウザツールの定義 カスタム CrewAI ツールは、AI を利用して Web ページを操作します。 Stagehand のコンピューター使用エージェント機能を活用して、URL を自律的にナビゲートし、ページ アクションを実行し、質問に答えるためのデータを抽出します。 これがいいと思います 👇
4️⃣ ブラウザ自動化エージェントの定義 Browser Automation Agent は、前述の Stagehand ツールを利用して、自律的なブラウザ制御と計画の実行を行います。 これがいいと思います 👇
5️⃣ 応答合成エージェントの定義 Synthesis Agent は最終的な品質管理として機能し、ブラウザ自動化エージェントからの出力を改良して洗練された応答を生成します。 これがいいと思います 👇
6️⃣ CrewAI エージェント フローを作成する 最後に、CrewAI Flowsを使用してワークフロー内でエージェントを接続します。 これを👇チェックしてください
完成です!マルチエージェントブラウザ自動化ワークフローの動作を見てみましょう。🚀 これを👇チェックしてください
すべてのコードと必要なものはすべて、以下で共有されている GitHub リポジトリにあります。 これがいいと思います 👇
要約すると、参考までにシステムの概要を示します。 - ユーザーが自動化クエリを入力します。 - Planner Agent は自動化計画を作成します。 - ブラウザー自動化エージェントは、ステージハンドツールを使用して実行します。 - レスポンス・エージェントがレスポンスを生成します。 これを👇チェックしてください
洞察力に富んだものを見つけた場合は、ネットワークと再共有してください。 お探し→ @akshay_pachaar ✔️ LLM、AIエージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。
Akshay 🚀
Akshay 🚀8月10日 20:51
gpt-oss(100%ローカル)を使用してブラウザ自動化エージェントを構築しましょう。
87.03K