Una teoria più ampia del design dei sistemi: cosa c'è di sbagliato nella modernità e nella post-modernità, come sopravvivere all'imminente valanga e come risolvere i principali problemi che stiamo affrontando. Parte prima: I sistemi sono modelli. Ma cos'è un modello?
Prometto che a un certo punto diventerà pratico, ma prima dobbiamo gettare alcune basi. Se trovi le basi ovvie o sei disposto a prendere semplicemente la mia parola, sentiti libero di saltarle. Ma in definitiva, senza il contesto non puoi nemmeno davvero comprendere la proposta.
Senza perdita di generalità, qualsiasi sistema può essere visto come un grafo parametrico connesso da archi, dove i nodi sensoriali ricevono input che guidano sia i cambiamenti interni del grafo sia producono output nei nodi attivi.
Un modello è un sistema che agisce per minimizzare l'errore di previsione rispetto ai priors incarnati dal suo grafo dei parametri.
I sistemi sono sempre modelli perché i sistemi devono continuare a persistere, e se intraprendono azioni incompatibili con le condizioni di persistenza, muoiono. Le condizioni cambiano. Pertanto, i sistemi persistenti devono apprendere, il che richiede loro di modellare la realtà e minimizzare la sorpresa.
Esempi di modelli: acciaio nella fucina di un fabbro, il mercato, una foresta, una cellula, un albero, un LLM, la rete elettrica, una corporazione, un servizio di social media. In altre parole, qualsiasi cosa che si adatta nel tempo per anticipare nuovi input.
A parte: queste cose non sono solo modelli. Possono anche essere viste in altri modi: un servizio di social media è anche una raccolta di software, perfettamente fissato e deterministico, che elabora input e output. Un essere umano è un sacco lipidico composto per lo più da acqua, ed è anche una persona, ed è anche un modello.
I modelli possono essere visti come predittori di una distribuzione sugli input possibili. Un modello di successo predice una distribuzione che corrisponde bene alla distribuzione dei suoi input. Significa che predice in modo accurato, preciso, robusto ed efficiente.
(Ciò che segue è una spiegazione semplice del processamento predittivo e del principio dell'energia libera e dell'inferenza attiva, nel caso tu abbia le basi).
Diciamo che la distribuzione prevista è accurata quando minimizza la divergenza dalla distribuzione di input osservata.
Chiamiamo la distribuzione prevista precisa quando ha una bassa varianza, il che significa che fa una previsione molto specifica. Una previsione più ristretta a una certa accuratezza non avvicina la tua stima media all'input medio, ma ti avvicina a ogni singola stima!
Le previsioni sono robuste al rumore se sono il più semplici possibile. Meno parametri e interazioni tra parametri un modello utilizza per una previsione, più si adatta all'aspetto invariato a bassa frequenza dell'input.
Salteremo principalmente l'efficienza qui, ma l'idea principale è che il consumo energetico è fondamentalmente lo stesso della spesa in bits, accuratezza o complessità; devi solo tradurre dalla termodinamica alla teoria dell'informazione.
È facile avere un'alta precisione in modo davvero robusto: indovinare sempre la stessa cosa. Sfortunatamente, la tua accuratezza sarà scarsa. Di conseguenza, generalmente li consideriamo insieme, come errore ponderato per la precisione.
La strada reale verso la perdita pesata a bassa precisione si è rivelata essere la lezione amara: hai provato con più parametri e più dati? Alla fine, puoi sovradattarti a tutta la conoscenza umana (LLM) e questo è piuttosto buono. Purtroppo, se il dominio cambia... non è robusto.
Tutti e tre richiedono equilibrio. Fortunatamente puoi ottenerli tutti in bit. Errore ponderato per precisione = -log(divergenza dagli input, ponderata per le precisioni) Robustezza alias Complessità = -log(divergenza delle prior del modello da una prior uniforme o naturale)
Per ogni azione o modifica al tuo modello, puoi valutare quanto aiuta sommando il beneficio totale in termini di accuratezza, precisione e robustezza. Vale la pena aggiungere quel parametro? Beh, i 20 bit extra di accuratezza compensano gli 8 bit di complessità nei tuoi priors?
Quando si considera un sistema reale, l'obiettivo nominale è solitamente una sorta di accuratezza. Per l'economia, un alto tasso di crescita del PIL e una bassa disoccupazione sono le "aspettative precedenti" che il sistema cerca di soddisfare. Per un'azienda, di solito c'è un'aspettativa precedente di alti ricavi e bassi costi.
In arrivo, parte 2: cosa sta succedendo con i nostri sistemi? Come ci siamo arrivati? Perché tutto sta impazzendo e si sta rompendo, ma allo stesso tempo tutto sta salendo e a destra?
38,46K