Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Założyciel @getoutbox_ai
Dowiedz się, jak budować agentów AI za DARMOWE 👉 https://t.co/q9zPwlldZ4
Niniejszy artykuł cicho ujawnia, dlaczego większość „agentów AI do inżynierii” zawodzi w momencie, gdy opuszczają zabawkowe demonstracje.
Wszyscy zakładają, że trudną częścią jest język. Albo rozumowanie. Albo większe modele. Ta praca pokazuje, że prawdziwym wąskim gardłem jest struktura.
Artykuł wprowadza SimuAgent, asystenta opartego na LLM dla Simulinka, graficznego środowiska modelowania używanego przez miliony inżynierów w branżach krytycznych dla bezpieczeństwa. Samochody. Samoloty. Sieci energetyczne. Miejsca, gdzie halucynacje nie dostają drugiej szansy.
Podstawowy problem jest brzydki. Simulink to nie tekst. To hierarchiczne grafy z surowymi zasadami topologii, specyficznymi dla dziedziny ograniczeniami i tysiącami ważnych, ale kruchych kombinacji bloków. Wrzucenie XML do LLM nie działa. Zrzuty ekranu nie działają. Długie podpowiedzi załamują się pod ograniczeniami kontekstu.
Dlatego autorzy zmieniają reprezentację.
Zamiast XML lub obrazów, SimuAgent przekształca modele Simulinka w zwarty słownik Pythona. Tylko niezbędne elementy przetrwają: bloki, parametry, połączenia. Żadnego szumu układu. Żadnego wizualnego bałaganu. Liczba tokenów spada z ~43k do ~2.7k w rzeczywistych przykładach, a nawet niżej po uproszczeniu.
To nie jest kosmetyka. To fundamentalnie zmienia to, o czym model może rozumować.
Na dodatek agent używa zwinnej pętli planowania i wykonania. Nie rozległego cyrku wieloagentowego. Planowanie, gdy jest to potrzebne. Wykonywanie, gdy jest to bezpieczne. Przeplanowanie tylko po niepowodzeniach walidacji. Lokalny zestaw testowy Pythona wychwytuje błędy okablowania, nieprawidłowe parametry i niezgodności typów, zanim MATLAB w ogóle się uruchomi.
Ale najciekawszy wkład nie jest architektoniczny. To sposób, w jaki trenują model.
Użycie narzędzi na długim horyzoncie ma brutalny problem z nagrodą. Wiesz tylko, czy model odniósł sukces na samym końcu. Jedna skalarna nagroda. Brak wskazówek w trakcie lotu. GRPO pomaga trochę, ale nadal jest rzadkie.
Ich rozwiązaniem jest Reflection-GRPO.
Gdy pierwsza partia realizacji zawodzi, model generuje krótkie ślady refleksji wyjaśniające, co poszło nie tak — źle używane narzędzia, błędne założenia, brakujące kroki. Te refleksje są przekazywane do drugiej podgrupy, kierując eksploracją bez ujawniania odpowiedzi. Na początku refleksja jest częsta. W miarę poprawy modelu naturalnie zanika.
Uczenie przyspiesza. Niestabilność spada.
Łączą to z pomysłowym trikiem samonadzorowanym: Abstrakcyjny–Rekonstrukcja. Agent podsumowuje model Simulinka, a następnie próbuje go odbudować, używając tylko tego podsumowania. To zmusza go do łączenia wysokopoziomowego zamiaru z niskopoziomową implementacją, dokładnie tak, jak robią to prawdziwi inżynierowie.
Benchmark jest rzeczywisty, a nie syntetyczny. SimuBench obejmuje 5,300 zadań w zakresie systemów kontrolnych, elektrycznych, mechanicznych, termicznych, płynowych i elektromagnetycznych. Tworzenie. Modyfikacja. QA. Małe modele i duże.
Wyniki są niepokojące.
Model Qwen-2.5-7B wytrenowany z SimuAgentem przewyższa zwykłe GRPO, CoT, RAG i nadzorowane dostrajanie. Przy obu etapach treningowych osiąga ~51.9% średniej dokładności i wyprzedza GPT-4o w tym samym benchmarku. GPT-4o radzi sobie dobrze przy małych edycjach, ale załamuje się przy tworzeniu dużych systemów i strukturalnym QA.
Jeszcze bardziej wymowne: wyuczone zachowanie się przenosi. Model wytrenowany tylko na Simulinku generalizuje do Modelica i PSCAD z minimalnym dostrajaniem. Ta sama logika planowania. Ten sam mechanizm refleksji. Różne narzędzia.
Wniosek nie brzmi „LLM mogą zastąpić inżynierów”. Jest ostrzejszy niż to.
LLM zawodzą w inżynierii nie dlatego, że nie potrafią rozumować, ale dlatego, że karmimy je niewłaściwymi abstrakcjami i pozbawiamy ich pośrednich informacji zwrotnych. Gdy naprawisz reprezentację i strukturę nagród, małe modele stają się zaskakująco kompetentne.
Ten artykuł nie dotyczy Simulinka.
Dotyczy tego, jak sprawić, by modele językowe działały w sztywnych, nieprzebaczających systemach, nie rozpadając się.
I to jest część, której większość demonstracji agentów starannie unika.

25
🚨 Ten dokument ujawnia, dlaczego większość tzw. „traderów AI” wydaje się mądra, dopóki nie przyjrzysz się, jak myślą.
Problem nie polega na tym, że modele są słabe. Chodzi o to, że sygnał nagrody, na którym są trenowane, jest zasadniczo nieuczciwy.
Kiedy trenujesz agenta LLM bezpośrednio na zwrotach z rynku, szybko odkrywa skrót. Zamiast rozumować na podstawie dowodów, zapamiętuje aktywa, które historycznie dobrze się sprawowały, dokonuje transakcji na podstawie tej pamięci, a następnie fabrykuje wyjaśnienia później. Transakcja czasami działa, więc nagroda wzmacnia to zachowanie. Rozumowanie nigdy nie miało znaczenia.
Dokument jasno pokazuje ten tryb niepowodzenia. Agent uczenia przez wzmocnienie działający tylko na rynku osiąga 37,62% skumulowanego zwrotu na rynku A-share, ale jego wskaźnik podobieństwa rozumowania spada do 0,4369. Co gorsza, jego wskaźnik halucynacji skacze do 22,5%. Mówiąc wprost, jest zyskowny przez przypadek i nieuczciwy co do przyczyny.
To klasyczne hakowanie nagród.
Centralny wgląd autorów jest subtelny, ale niszczycielski: w stochastycznych środowiskach, takich jak rynki finansowe, wyniki nie mogą weryfikować rozumowania. Losowość może sprawić, że złe decyzje będą wyglądać dobrze. Tylko sam proces podejmowania decyzji może być oceniany.
Dlatego zmieniają cel. Zamiast pytać, czy transakcja przyniosła zysk, pytają, czy decyzja była logicznie uzasadniona dowodami.
Wprowadzają Triangular Verification Protocol, który ocenia każdą akcję w trzech wymiarach: czy rozumowanie jest wierne dowodom, czy decyzja logicznie wynika z rozumowania oraz czy decyzja jest zgodna z dowodami bezpośrednio. Ostateczny wynik to średnia ze wszystkich trzech, co eliminuje jakikolwiek pojedynczy skrót, który model mógłby wykorzystać.
Matematyka wyjaśnia, dlaczego to działa.
Modelują nagrodę rynkową jako r = r* + ξ, gdzie r* to prawdziwa wartość uzasadniona rozumowaniem, a ξ to szum rynkowy. Standardowe uczenie przez wzmocnienie kończy się dominacją wariancji ξ, co popycha modele w kierunku ścigania zmienności zamiast przyczynowości.
Wniosek nie dotyczy naprawdę handlu.
To ostrzeżenie dla każdego systemu uczenia przez wzmocnienie trenowanego na szumowych wynikach. Jeśli nagradzasz wyniki zamiast rozumowania, twój model nauczy się mieć szczęście, kłamać przekonująco i nazywać to inteligencją.
Przeczytaj pełny dokument tutaj:

31
Najlepsze
Ranking
Ulubione
