Niniejszy artykuł cicho ujawnia, dlaczego większość „agentów AI do inżynierii” zawodzi w momencie, gdy opuszczają zabawkowe demonstracje. Wszyscy zakładają, że trudną częścią jest język. Albo rozumowanie. Albo większe modele. Ta praca pokazuje, że prawdziwym wąskim gardłem jest struktura. Artykuł wprowadza SimuAgent, asystenta opartego na LLM dla Simulinka, graficznego środowiska modelowania używanego przez miliony inżynierów w branżach krytycznych dla bezpieczeństwa. Samochody. Samoloty. Sieci energetyczne. Miejsca, gdzie halucynacje nie dostają drugiej szansy. Podstawowy problem jest brzydki. Simulink to nie tekst. To hierarchiczne grafy z surowymi zasadami topologii, specyficznymi dla dziedziny ograniczeniami i tysiącami ważnych, ale kruchych kombinacji bloków. Wrzucenie XML do LLM nie działa. Zrzuty ekranu nie działają. Długie podpowiedzi załamują się pod ograniczeniami kontekstu. Dlatego autorzy zmieniają reprezentację. Zamiast XML lub obrazów, SimuAgent przekształca modele Simulinka w zwarty słownik Pythona. Tylko niezbędne elementy przetrwają: bloki, parametry, połączenia. Żadnego szumu układu. Żadnego wizualnego bałaganu. Liczba tokenów spada z ~43k do ~2.7k w rzeczywistych przykładach, a nawet niżej po uproszczeniu. To nie jest kosmetyka. To fundamentalnie zmienia to, o czym model może rozumować. Na dodatek agent używa zwinnej pętli planowania i wykonania. Nie rozległego cyrku wieloagentowego. Planowanie, gdy jest to potrzebne. Wykonywanie, gdy jest to bezpieczne. Przeplanowanie tylko po niepowodzeniach walidacji. Lokalny zestaw testowy Pythona wychwytuje błędy okablowania, nieprawidłowe parametry i niezgodności typów, zanim MATLAB w ogóle się uruchomi. Ale najciekawszy wkład nie jest architektoniczny. To sposób, w jaki trenują model. Użycie narzędzi na długim horyzoncie ma brutalny problem z nagrodą. Wiesz tylko, czy model odniósł sukces na samym końcu. Jedna skalarna nagroda. Brak wskazówek w trakcie lotu. GRPO pomaga trochę, ale nadal jest rzadkie. Ich rozwiązaniem jest Reflection-GRPO. Gdy pierwsza partia realizacji zawodzi, model generuje krótkie ślady refleksji wyjaśniające, co poszło nie tak — źle używane narzędzia, błędne założenia, brakujące kroki. Te refleksje są przekazywane do drugiej podgrupy, kierując eksploracją bez ujawniania odpowiedzi. Na początku refleksja jest częsta. W miarę poprawy modelu naturalnie zanika. Uczenie przyspiesza. Niestabilność spada. Łączą to z pomysłowym trikiem samonadzorowanym: Abstrakcyjny–Rekonstrukcja. Agent podsumowuje model Simulinka, a następnie próbuje go odbudować, używając tylko tego podsumowania. To zmusza go do łączenia wysokopoziomowego zamiaru z niskopoziomową implementacją, dokładnie tak, jak robią to prawdziwi inżynierowie. Benchmark jest rzeczywisty, a nie syntetyczny. SimuBench obejmuje 5,300 zadań w zakresie systemów kontrolnych, elektrycznych, mechanicznych, termicznych, płynowych i elektromagnetycznych. Tworzenie. Modyfikacja. QA. Małe modele i duże. ...