Tento článek tiše odhaluje, proč většina "AI agentů pro inženýrství" selže hned, jakmile opustí ukázky hraček. Všichni si myslí, že nejtěžší je jazyk. Nebo rozumování. Nebo větší modely. Tato práce ukazuje, že skutečným úzkým hrdlem je struktura. Článek představuje SimuAgent, asistenta založeného na LLM pro Simulink, grafické modelovací prostředí používané miliony inženýrů v průmyslech kritických pro bezpečnost. Auta. Letadla. Elektrické sítě. Místa, kde halucinace nedostanou druhou šanci. Jádro problému je ošklivé. Simulink není text. Jsou to hierarchické grafy s přísnými pravidly topologie, doménově specifická omezení a tisíce platných, ale křehkých blokových kombinací. Ukládání XML do LLM nefunguje. Screenshoty nefungují. Dlouhé výzvy se pod kontextovými limity zhroucují. Autoři tedy změnili reprezentaci. Místo XML nebo obrázků SimuAgent převádí modely Simulink do kompaktního Python slovníku. Přežívají jen podstatné: bloky, parametry, spojení. Žádný šum rozložení. Žádný vizuální nepořádek. Počet tokenů klesá z ~43k na ~2,7k v reálných příkladech a po zjednodušení ještě nižší. Tohle není jen kosmetické. Zásadně mění to, o čem model dokáže uvažovat. Navíc agent používá lean plan–execute cyklus. Ne rozlehlý cirkus s více agenty. Plánování, když je potřeba. Provádět útok, když je to bezpečné. Přeplánování až po neúspěšných validačních neúspěchech. Lokální testovací svazek v Pythonu zachytí chyby v zapojení, neplatné parametry a nesoulady typů ještě před spuštěním MATLABu. Ale nejzajímavější příspěvek není architektonický. Je to způsob, jakým trénují model. Používání nástrojů s dlouhým horizontem má brutální problém s odměnami. Zjistíte jen na úplném konci, jestli model uspěl. Jedna skalární odměna. Žádné navádění během letu. GRPO trochu pomáhá, ale pořád je to vzácné. Jejich řešením je Reflection-GRPO. Když první série zavádění selže, model generuje krátké reflexní stopy vysvětlující, co se pokazilo — nesprávně použité nástroje, špatné předpoklady, chybějící kroky. Tyto úvahy jsou vloženy do druhé podskupiny, která vede průzkum, aniž by unikla odpovědi. Na začátku je reflexe častá. Jak se model zlepšuje, přirozeně mizí. Učení se zrychluje. Nestabilita klesá. Spojí to s chytrým, samodohlíženým trikem: Abstrakt–Rekonstruujte. Agent shrne Simulink model a poté se jej pokusí znovu sestavit pouze na základě tohoto souhrnu. To ji nutí spojovat vysoký záměr a nízkoúrovňovou implementaci přesně to, co dělají skuteční inženýři. Měřítko je skutečné, ne syntetické. SimuBench zahrnuje 5 300 úkolů napříč řídicím, elektrotechnickým, mechanickým, tepelným, kapalinovým a elektromagnetickým systémům. Tvoření. Úpravy. QA. Malé modely a velké modely. ...