DApp Store | Centrum Web3 pro události a hry

Populární témata

Connor Davis

Tento článek tiše odhaluje, proč většina "AI agentů pro inženýrství" selže hned, jakmile opustí ukázky hraček. Všichni si myslí, že nejtěžší je jazyk. Nebo rozumování. Nebo větší modely. Tato práce ukazuje, že skutečným úzkým hrdlem je struktura. Článek představuje SimuAgent, asistenta založeného na LLM pro Simulink, grafické modelovací prostředí používané miliony inženýrů v průmyslech kritických pro bezpečnost. Auta. Letadla. Elektrické sítě. Místa, kde halucinace nedostanou druhou šanci. Jádro problému je ošklivé. Simulink není text. Jsou to hierarchické grafy s přísnými pravidly topologie, doménově specifická omezení a tisíce platných, ale křehkých blokových kombinací. Ukládání XML do LLM nefunguje. Screenshoty nefungují. Dlouhé výzvy se pod kontextovými limity zhroucují. Autoři tedy změnili reprezentaci. Místo XML nebo obrázků SimuAgent převádí modely Simulink do kompaktního Python slovníku. Přežívají jen podstatné: bloky, parametry, spojení. Žádný šum rozložení. Žádný vizuální nepořádek. Počet tokenů klesá z ~43k na ~2,7k v reálných příkladech a po zjednodušení ještě nižší. Tohle není jen kosmetické. Zásadně mění to, o čem model dokáže uvažovat. Navíc agent používá lean plan–execute cyklus. Ne rozlehlý cirkus s více agenty. Plánování, když je potřeba. Provádět útok, když je to bezpečné. Přeplánování až po neúspěšných validačních neúspěchech. Lokální testovací svazek v Pythonu zachytí chyby v zapojení, neplatné parametry a nesoulady typů ještě před spuštěním MATLABu. Ale nejzajímavější příspěvek není architektonický. Je to způsob, jakým trénují model. Používání nástrojů s dlouhým horizontem má brutální problém s odměnami. Zjistíte jen na úplném konci, jestli model uspěl. Jedna skalární odměna. Žádné navádění během letu. GRPO trochu pomáhá, ale pořád je to vzácné. Jejich řešením je Reflection-GRPO. Když první série zavádění selže, model generuje krátké reflexní stopy vysvětlující, co se pokazilo — nesprávně použité nástroje, špatné předpoklady, chybějící kroky. Tyto úvahy jsou vloženy do druhé podskupiny, která vede průzkum, aniž by unikla odpovědi. Na začátku je reflexe častá. Jak se model zlepšuje, přirozeně mizí. Učení se zrychluje. Nestabilita klesá. Spojí to s chytrým, samodohlíženým trikem: Abstrakt–Rekonstruujte. Agent shrne Simulink model a poté se jej pokusí znovu sestavit pouze na základě tohoto souhrnu. To ji nutí spojovat vysoký záměr a nízkoúrovňovou implementaci přesně to, co dělají skuteční inženýři. Měřítko je skutečné, ne syntetické. SimuBench zahrnuje 5 300 úkolů napříč řídicím, elektrotechnickým, mechanickým, tepelným, kapalinovým a elektromagnetickým systémům. Tvoření. Úpravy. QA. Malé modely a velké modely. Výsledky jsou nepříjemné. Model Qwen-2.5-7B trénovaný pomocí SimuAgent překoná vanilla GRPO, CoT, RAG a dohledované jemné ladění. S obou tréninkovými fázemi dosahuje průměrné přesnosti ~51,9 % a na stejném benchmarku těsně překoná GPT-4o. GPT-4o si vede dobře při malých úpravách, ale selhává při tvorbě velkých systémů a strukturované QA. Ještě výmluvnější je, že naučené chování se přenáší. Model trénovaný pouze na Simulinku se zobecňuje na Modelica a PSCAD s minimálním jemným laděním. Stejná plánovací logika. Stejný mechanismus odrazu. Různé nástroje. Poučení není "LLM mohou nahradit inženýry." Je to ostřejší než to. LLM selhávají v inženýrství ne proto, že by nedokázaly rozumovat, ale protože jim dáváme špatné abstrakce a připravujeme je o mezizpětnou vazbu. Když opravíte reprezentaci a strukturu odměn, malé modely se stávají překvapivě schopnými. Tento článek není o Simulink. Jde o to, jak donutit jazykové modely fungovat uvnitř rigidních, neúprosných systémů, aniž by se rozpadly. A to je část, které se většina agentních ukázek pečlivě vyhýbá. Článek:

Top

Hodnocení

Oblíbené