DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Connor Davis

Gründer von @getoutbox_ai Lernen Sie, wie Sie KI-Agenten KOSTENLOS 👉 https://t.co/q9zPwlldZ4

Dieses Papier zeigt leise auf, warum die meisten "KI-Agenten für Ingenieurwesen" scheitern, sobald sie die Spielzeug-Demos verlassen. Jeder geht davon aus, dass der schwierige Teil die Sprache ist. Oder das Denken. Oder größere Modelle. Diese Arbeit zeigt, dass der wahre Engpass die Struktur ist. Das Papier stellt SimuAgent vor, einen LLM-basierten Assistenten für Simulink, die grafische Modellierungsumgebung, die von Millionen von Ingenieuren in sicherheitskritischen Branchen verwendet wird. Autos. Flugzeuge. Stromnetze. Orte, an denen Halluzinationen keine zweite Chance bekommen. Das Kernproblem ist hässlich. Simulink ist kein Text. Es sind hierarchische Graphen mit strengen Topologieregeln, domänenspezifischen Einschränkungen und Tausenden von gültigen, aber fragilen Blockkombinationen. XML in ein LLM zu kippen, funktioniert nicht. Screenshots funktionieren nicht. Lange Eingabeaufforderungen kollabieren unter den Kontextgrenzen. Also ändern die Autoren die Darstellung. Anstatt XML oder Bilder zu verwenden, konvertiert SimuAgent Simulink-Modelle in ein kompaktes Python-Wörterbuch. Nur das Wesentliche bleibt erhalten: Blöcke, Parameter, Verbindungen. Kein Layout-Rauschen. Kein visueller Überfluss. Die Tokenanzahl sinkt von ~43k auf ~2,7k in realen Beispielen und noch niedriger nach der Vereinfachung. Das ist nicht kosmetisch. Es verändert grundlegend, worüber das Modell nachdenken kann. Darüber hinaus verwendet der Agent eine schlanke Plan–Ausführungs-Schleife. Kein ausufernder Multi-Agenten-Zirkus. Planung, wenn nötig. Ausführung, wenn es sicher ist. Neuplanung nur nach Validierungsfehlern. Ein lokales Python-Testwerkzeug erkennt Verdrahtungsfehler, ungültige Parameter und Typinkonsistenzen, bevor MATLAB jemals ausgeführt wird. Aber der interessanteste Beitrag ist nicht architektonisch. Es ist, wie sie das Modell trainieren. Die Nutzung von Werkzeugen über lange Zeiträume hat ein brutales Belohnungsproblem. Man weiß nur am Ende, ob das Modell erfolgreich war. Eine skalare Belohnung. Keine Anleitung in der Mitte. GRPO hilft ein wenig, aber es ist immer noch spärlich. Ihre Lösung ist Reflection-GRPO. Wenn die erste Charge von Rollouts fehlschlägt, generiert das Modell kurze Reflexionsspuren, die erklären, was schiefgelaufen ist – missbrauchte Werkzeuge, falsche Annahmen, fehlende Schritte. Diese Reflexionen werden in eine zweite Untergruppe eingespeist, die die Erkundung leitet, ohne Antworten preiszugeben. Zu Beginn ist die Reflexion häufig. Mit der Verbesserung des Modells verblasst sie natürlich. Das Lernen beschleunigt sich. Die Instabilität sinkt. Sie kombinieren dies mit einem cleveren selbstüberwachten Trick: Abstract–Reconstruct. Der Agent fasst ein Simulink-Modell zusammen und versucht dann, es nur mit dieser Zusammenfassung wieder aufzubauen. Dies zwingt ihn, die hochrangige Absicht und die niedrigstufige Implementierung zu überbrücken, genau wie es echte Ingenieure tun. Der Benchmark ist real, nicht synthetisch. SimuBench umfasst 5.300 Aufgaben in den Bereichen Steuerung, Elektrik, Mechanik, Thermik, Fluid und Elektromagnetik. Erstellung. Modifikation. QA. Kleine Modelle und große. Die Ergebnisse sind unangenehm. Ein Qwen-2.5-7B-Modell, das mit SimuAgent trainiert wurde, übertrifft das Vanilla GRPO, CoT, RAG und überwachte Feinabstimmung. Mit beiden Trainingsphasen erreicht es ~51,9% durchschnittliche Genauigkeit und übertrifft GPT-4o im gleichen Benchmark. GPT-4o schneidet bei kleinen Änderungen gut ab, fällt aber bei der Erstellung großer Systeme und strukturierten QA auseinander. Noch aufschlussreicher: Das erlernte Verhalten überträgt sich. Ein Modell, das nur auf Simulink trainiert wurde, generalisiert auf Modelica und PSCAD mit minimaler Feinabstimmung. Dieselbe Planungslogik. Dasselbe Reflexionsmechanismus. Verschiedene Werkzeuge. Die Erkenntnis ist nicht, dass "LLMs Ingenieure ersetzen können." Es ist schärfer als das. LLMs scheitern im Ingenieurwesen nicht, weil sie nicht denken können, sondern weil wir ihnen die falschen Abstraktionen zuführen und sie von zwischenzeitlichem Feedback abhalten. Wenn man die Darstellung und die Belohnungsstruktur verbessert, werden kleine Modelle überraschend kompetent. Dieses Papier handelt nicht von Simulink. Es geht darum, wie man Sprachmodelle dazu bringt, in starren, unerbittlichen Systemen zu arbeiten, ohne auseinanderzufallen. Und das ist der Teil, den die meisten Agentendemos sorgfältig vermeiden.

🚨 Dieses Papier zeigt auf, warum die meisten sogenannten „AI-Händler“ schlau erscheinen, bis man untersucht, wie sie denken. Das Problem ist nicht, dass die Modelle schwach sind. Es ist, dass das Belohnungssignal, auf dem sie trainiert werden, grundsätzlich unehrlich ist. Wenn man einen LLM-Agenten direkt auf Marktgewinne trainiert, entdeckt er schnell eine Abkürzung. Anstatt über Beweise nachzudenken, merkt er sich Vermögenswerte, die historisch gut abgeschnitten haben, tätigt Trades basierend auf diesem Gedächtnis und erfindet dann nachträglich Erklärungen. Der Trade funktioniert manchmal, also verstärkt die Belohnung das Verhalten. Das Denken war nie wichtig. Das Papier demonstriert diesen Fehler klar. Ein rein marktbasierter Reinforcement-Learning-Agent erzielt eine kumulierte Rendite von 37,62 % auf dem A-Aktienmarkt, aber sein Ähnlichkeitswert für das Denken bricht auf 0,4369 ein. Noch schlimmer, seine Halluzinationsrate springt auf 22,5 %. Einfach ausgedrückt, er ist zufällig profitabel und unehrlich über die Ursache. Das ist klassisches Belohnungshacking. Die zentrale Einsicht der Autoren ist subtil, aber verheerend: In stochastischen Umgebungen wie Finanzmärkten können Ergebnisse das Denken nicht validieren. Zufälligkeit kann schlechte Entscheidungen gut aussehen lassen. Nur der Entscheidungsprozess selbst kann bewertet werden. Also ändern sie das Ziel. Anstatt zu fragen, ob ein Trade Geld verdient hat, fragen sie, ob die Entscheidung logisch auf Beweisen basiert. Sie führen ein Dreieck-Verifizierungsprotokoll ein, das jede Aktion entlang dreier Dimensionen bewertet: ob das Denken treu zu den Beweisen ist, ob die Entscheidung logisch aus dem Denken folgt und ob die Entscheidung direkt mit den Beweisen übereinstimmt. Der endgültige Score ist ein Durchschnitt über alle drei, was jede einzelne Abkürzung entfernt, die das Modell ausnutzen könnte. Die Mathematik erklärt, warum das funktioniert. Sie modellieren die Marktbelohnung als r = r* + ξ, wobei r* der wahre Wert ist, der durch das Denken gerechtfertigt ist, und ξ das Marktgeräusch ist. Standard-Reinforcement-Learning wird letztendlich von der Varianz von ξ dominiert, was Modelle dazu drängt, der Volatilität nachzujagen, anstatt Kausalität zu verfolgen. Die Erkenntnis geht nicht wirklich um den Handel. Es ist eine Warnung für jedes Reinforcement-Learning-System, das auf verrauschten Ergebnissen trainiert wird. Wenn Sie Ergebnisse anstelle von Denken belohnen, wird Ihr Modell lernen, Glück zu haben, überzeugend zu lügen und es Intelligenz zu nennen. Lesen Sie das vollständige Papier hier:

Top

Ranking

Favoriten