Lass uns einen Browser-Automatisierungsagenten mit gpt-oss (100% lokal) erstellen:
Der Browser ist nach wie vor die universellste Schnittstelle mit 4,3 Milliarden Seitenaufrufen jeden Tag! Hier ist eine kurze Demo, wie wir das komplett automatisieren können! Technologiestack: - @stagehanddev Open-Source AI-Browserautomatisierung - @crewAIInc für Orchestrierung - @ollama zum Ausführen von gpt-oss Los geht's!🚀
Systemübersicht: - Der Benutzer gibt eine Automatisierungsanfrage ein. - Der Planungsagent erstellt einen Automatisierungsplan. - Der Browser-Automatisierungsagent führt ihn mit dem Stagehand-Tool aus. - Der Antwortagent generiert eine Antwort. Jetzt tauchen wir in den Code ein!
1️⃣ Definiere LLM Wir verwenden drei LLMs: - Planner LLM: Erstellt einen strukturierten Plan für eine Automatisierungsaufgabe. - Automation LLM: Führt den Plan mit dem Stagehand-Tool aus. - Response LLM: Synthetisiert die endgültige Antwort. Sieh dir das an 👇
2️⃣ Definiere den Automatisierungsplaner-Agenten Der Planer-Agent erhält eine Automatisierungsaufgabe vom Benutzer und erstellt ein strukturiertes Layout für die Ausführung durch den Browser-Agenten. Sieh dir das an 👇
3️⃣ Definiere das Stagehand Browser Tool Ein benutzerdefiniertes CrewAI-Tool nutzt KI, um mit Webseiten zu interagieren. Es nutzt die agentischen Fähigkeiten von Stagehand zur Computerbenutzung, um autonom URLs zu navigieren, Seitenaktionen durchzuführen und Daten zu extrahieren, um Fragen zu beantworten. Schau dir das an 👇
4️⃣ Definiere Browser-Automatisierungsagent Der Browser-Automatisierungsagent nutzt das zuvor erwähnte Stagehand-Tool für die autonome Steuerung des Browsers und die Ausführung von Plänen. Sieh dir das an 👇
5️⃣ Definiere den Antwortsynthese-Agenten Der Synthese-Agent fungiert als letzte Qualitätskontrolle, verfeinert die Ausgaben des Browser-Automatisierungsagenten, um eine ausgefeilte Antwort zu generieren. Sieh dir das an 👇
6️⃣ Erstelle CrewAI Agentic Flow Schließlich verbinden wir unsere Agenten innerhalb eines Workflows mit CrewAI Flows. Überprüfe das 👇
Fertig! Lassen Sie uns unseren Multi-Agenten-Browserautomatisierungs-Workflow in Aktion sehen! 🚀 Überprüfen Sie das 👇
Sie finden den gesamten Code und alles, was Sie benötigen, im unten geteilten GitHub-Repository. Schauen Sie sich das an 👇
Um zusammenzufassen, hier ist die Systemübersicht zu Ihrer Information: - Der Benutzer gibt eine Automatisierungsanfrage ein. - Der Planungsagent erstellt einen Automatisierungsplan. - Der Browser-Automatisierungsagent führt ihn mit dem Stagehand-Tool aus. - Der Antwortagent generiert eine Antwort. Überprüfen Sie das👇
Wenn Sie es aufschlussreich fanden, teilen Sie es erneut mit Ihrem Netzwerk. Finde mich → @akshay_pachaar ✔️ Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!
Akshay 🚀
Akshay 🚀10. Aug., 20:51
Lass uns einen Browser-Automatisierungsagenten mit gpt-oss (100% lokal) erstellen:
87,02K