DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Connor Davis

Fondatore di @getoutbox_ai Scopri come costruire AI Agents GRATUITAMENTE 👉 https://t.co/q9zPwlldZ4

Questo documento espone silenziosamente perché la maggior parte degli "agenti AI per l'ingegneria" fallisce nel momento in cui escono dalle dimostrazioni di prova. Tutti presumono che la parte difficile sia il linguaggio. O il ragionamento. O modelli più grandi. Questo lavoro mostra che il vero collo di bottiglia è la struttura. Il documento introduce SimuAgent, un assistente basato su LLM per Simulink, l'ambiente di modellazione grafica utilizzato da milioni di ingegneri in settori critici per la sicurezza. Auto. Aerei. Reti elettriche. Luoghi in cui le allucinazioni non hanno una seconda possibilità. Il problema centrale è brutto. Simulink non è testo. È grafi gerarchici con regole di topologia rigorose, vincoli specifici del dominio e migliaia di combinazioni di blocchi valide ma fragili. Scaricare XML in un LLM non funziona. Gli screenshot non funzionano. I lunghi prompt collassano sotto i limiti di contesto. Quindi gli autori cambiano la rappresentazione. Invece di XML o immagini, SimuAgent converte i modelli Simulink in un dizionario Python compatto. Solo gli elementi essenziali sopravvivono: blocchi, parametri, connessioni. Nessun rumore di layout. Nessun ingombro visivo. Il conteggio dei token scende da ~43k a ~2.7k in esempi reali, e anche più basso dopo la semplificazione. Questo non è cosmetico. Cambia fondamentalmente ciò di cui il modello può ragionare. In aggiunta, l'agente utilizza un ciclo di pianificazione-esecuzione snello. Non un circo di agenti multipli. Pianificazione quando necessario. Esecuzione quando è sicuro. Ripianificazione solo dopo fallimenti di validazione. Un test harness Python locale cattura errori di cablaggio, parametri non validi e incompatibilità di tipo prima che MATLAB venga mai eseguito. Ma il contributo più interessante non è architettonico. È come addestrano il modello. L'uso di strumenti a lungo termine ha un brutale problema di ricompensa. Sai solo se il modello ha avuto successo alla fine. Una ricompensa scalare. Nessuna guida a metà volo. GRPO aiuta un po', ma è ancora scarsa. La loro soluzione è Reflection-GRPO. Quando il primo lotto di rollout fallisce, il modello genera brevi tracce di riflessione che spiegano cosa è andato storto — strumenti mal utilizzati, assunzioni errate, passaggi mancanti. Quelle riflessioni vengono alimentate in un secondo sottogruppo, guidando l'esplorazione senza rivelare risposte. All'inizio, la riflessione è frequente. Man mano che il modello migliora, svanisce naturalmente. L'apprendimento accelera. L'instabilità diminuisce. Abbinano questo a un trucco di auto-supervisione intelligente: Abstract–Reconstruct. L'agente riassume un modello Simulink, poi cerca di ricostruirlo usando solo quel riassunto. Questo lo costringe a collegare l'intento ad alto livello e l'implementazione a basso livello, esattamente come fanno i veri ingegneri. Il benchmark è reale, non sintetico. SimuBench include 5.300 compiti in sistemi di controllo, elettrici, meccanici, termici, fluidi ed elettromagnetici. Creazione. Modifica. QA. Modelli piccoli e grandi. I risultati sono scomodi. Un modello Qwen-2.5-7B addestrato con SimuAgent supera GRPO vanilla, CoT, RAG e fine-tuning supervisionato. Con entrambe le fasi di addestramento, raggiunge ~51.9% di accuratezza media e supera GPT-4o sullo stesso benchmark. GPT-4o si comporta bene su piccole modifiche, ma si disintegra nella creazione di grandi sistemi e QA strutturato. Ancora più rivelatore: il comportamento appreso si trasferisce. Un modello addestrato solo su Simulink si generalizza a Modelica e PSCAD con un minimo di fine-tuning. Stessa logica di pianificazione. Stesso meccanismo di riflessione. Strumenti diversi. Il messaggio non è "gli LLM possono sostituire gli ingegneri." È più affilato di così. Gli LLM falliscono nell'ingegneria non perché non possano ragionare, ma perché diamo loro le astrattezze sbagliate e li priviamo di feedback intermedi. Quando si corregge la rappresentazione e la struttura della ricompensa, i modelli piccoli diventano sorprendentemente competenti. Questo documento non riguarda Simulink. Riguarda come far funzionare i modelli linguistici all'interno di sistemi rigidi e implacabili senza disintegrarsi. E questa è la parte che la maggior parte delle dimostrazioni degli agenti evita accuratamente. Documento:

🚨 Questo documento espone perché la maggior parte dei cosiddetti “trader AI” sembra intelligente fino a quando non si esamina come pensano. Il problema non è che i modelli siano deboli. È che il segnale di ricompensa su cui sono addestrati è fondamentalmente disonesto. Quando si addestra un agente LLM direttamente sui rendimenti di mercato, scopre rapidamente una scorciatoia. Invece di ragionare sulle prove, memorizza gli asset che storicamente hanno performato bene, effettua operazioni basate su quella memoria e poi fabbrica spiegazioni in seguito. L'operazione funziona a volte, quindi la ricompensa rinforza il comportamento. Il ragionamento non ha mai importanza. Il documento dimostra chiaramente questo modo di fallire. Un agente di apprendimento per rinforzo solo di mercato ottiene un rendimento cumulativo del 37,62% sul mercato A-share, ma il suo punteggio di somiglianza del ragionamento crolla a 0,4369. Ancora peggio, il suo tasso di allucinazione sale al 22,5%. In termini semplici, è redditizio per caso e disonesto riguardo alla causa. Questo è un classico hacking della ricompensa. L'intuizione centrale degli autori è sottile ma devastante: in ambienti stocastici come i mercati finanziari, i risultati non possono convalidare il ragionamento. La casualità può far sembrare buone decisioni sbagliate. Solo il processo decisionale stesso può essere valutato. Quindi cambiano l'obiettivo. Invece di chiedere se un'operazione ha guadagnato denaro, chiedono se la decisione era logicamente fondata su prove. Introducono un Protocollo di Verifica Triangolare che valuta ogni azione lungo tre dimensioni: se il ragionamento è fedele alle prove, se la decisione segue logicamente dal ragionamento e se la decisione è coerente con le prove direttamente. Il punteggio finale è una media su tutte e tre, il che rimuove qualsiasi singola scorciatoia che il modello potrebbe sfruttare. La matematica spiega perché questo funziona. Modellano la ricompensa di mercato come r = r* + ξ, dove r* è il valore vero giustificato dal ragionamento e ξ è il rumore di mercato. L'apprendimento per rinforzo standard finisce per essere dominato dalla varianza di ξ, che spinge i modelli verso la ricerca della volatilità piuttosto che della causalità. Il messaggio non riguarda davvero il trading. È un avvertimento per qualsiasi sistema di apprendimento per rinforzo addestrato su risultati rumorosi. Se ricompensi i risultati invece del ragionamento, il tuo modello imparerà a fare colpi di fortuna, a mentire in modo convincente e a chiamarlo intelligenza. Leggi il documento completo qui:

Principali

Ranking

Preferiti