Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tomasz Tunguz
Il 4 settembre dalle 17:00 alle 21:00 PDT a Berkeley, Hamel Husain guiderà una conversazione con Claire Vo, Greg Ceccarelli e me su come raggiungere lo stato di flusso di Mihaly Csikszentmihalyi con l'AI.
@HamelHusain è un ingegnere di machine learning con oltre 20 anni di esperienza. Ha lavorato con aziende come Airbnb e GitHub, che hanno incluso ricerche iniziali su LLM utilizzate da OpenAI per la comprensione del codice. Ha anche guidato e contribuito a numerosi strumenti di machine learning open-source popolari ed è attualmente un consulente indipendente che aiuta le aziende a costruire prodotti AI.
@clairevo è la fondatrice di ChatPRD e conduttrice del podcast “How I AI”. Come Chief Product & Technology Officer per tre volte, ha gestito team di prodotto e ingegneria scalati in aziende come LaunchDarkly, Color Health e Optimizely. È conosciuta per l'uso di agenti AI per costruire funzionalità end-to-end e ha creato un progetto secondario alimentato da AI a sei cifre mentre gestiva le organizzazioni di prodotto e ingegneria di LaunchDarkly.
@gregce10 è il co-fondatore e CPO di SpecStory. In precedenza ha guidato il prodotto in Pluralsight e gestito la scienza dei dati in GitHub, con ruoli precedenti in Google e Dropbox. I suoi esperimenti sono ampi e variegati, dalla spedizione di mini prodotti a la creazione di video di marketing di prodotto di alta qualità con AI, oltre al suo lavoro quotidiano di costruzione di SpecStory.
Se sei curioso riguardo allo stato di flusso nell'AI, registrati qui:

7,03K
Il multimodale è il futuro dei dati

changhiskhan22 ago, 02:52
Sono un grande fan del blog di ingegneria di Netflix da molto tempo. Sono così entusiasta che @lancedb sia una parte importante della trasformazione AI multimodale nell'ingegneria dei dati.

2,98K
GPT-5 raggiunge il 94,6% di accuratezza su AIME 2025, suggerendo un ragionamento matematico quasi umano.
Tuttavia, chiedigli di interrogare il tuo database e i tassi di successo crollano negli adolescenti.
I benchmark Spider 2.0 rivelano un divario enorme nelle capacità dell'IA. Spider 2.0 è un benchmark completo text-to-SQL che testa la capacità dei modelli di IA di generare query SQL accurate da domande in linguaggio naturale su database reali.
Mentre i grandi modelli di linguaggio hanno conquistato il lavoro di conoscenza in matematica, programmazione e ragionamento, il text-to-SQL rimane ostinatamente difficile.
I tre benchmark Spider 2.0 testano l'interrogazione di database reali in diversi ambienti. Spider 2.0-Snow utilizza database Snowflake con 547 esempi di test, raggiungendo un picco del 59,05% di accuratezza.
Spider 2.0-Lite copre BigQuery, Snowflake e SQLite con altri 547 esempi, raggiungendo solo il 37,84%. Spider 2.0-DBT testa la generazione di codice contro DuckDB con 68 esempi, arrivando a un massimo del 39,71%.
Questo divario di prestazioni non è dovuto alla mancanza di tentativi. Da novembre 2024, 56 sottomissioni di 12 famiglie di modelli hanno gareggiato su questi benchmark.
Claude, OpenAI, DeepSeek e altri hanno tutti messo alla prova i loro modelli contro questi test. I progressi sono stati costanti, passando da circa il 2% a circa il 60% negli ultimi nove mesi.
Il puzzle si approfondisce quando consideri i vincoli di SQL. SQL ha un vocabolario limitato rispetto all'inglese, che ha 600.000 parole, o ai linguaggi di programmazione che hanno sintassi e librerie molto più ampie da conoscere. Inoltre, c'è molta SQL là fuori su cui addestrarsi.
Se c'è qualcosa, questo dovrebbe essere più facile rispetto ai compiti di ragionamento aperto in cui i modelli ora eccellono.
Eppure anche una generazione SQL perfetta non risolverebbe la vera sfida aziendale. Ogni azienda definisce "entrate" in modo diverso.
Il marketing misura il costo di acquisizione dei clienti in base alla spesa della campagna, le vendite lo calcolano utilizzando i costi degli account executive e la finanza include le spese per i dipendenti completamente caricati. Queste differenze semantiche creano confusione che l'accuratezza tecnica non può risolvere.
I risultati di Spider 2.0 indicano una verità fondamentale sul lavoro con i dati. La competenza tecnica nella sintassi SQL è solo il punto di partenza.
La vera sfida risiede nel contesto aziendale. Comprendere cosa significano i dati, come i diversi team definiscono le metriche e quando i casi limite sono importanti. Come ho scritto in Semantic Cultivators, il ponte tra i dati grezzi e il significato aziendale richiede un giudizio umano che l'attuale IA non può replicare.

9,53K
GPT-5 raggiunge il 94,6% di accuratezza su AIME 2025, suggerendo un ragionamento matematico quasi umano.
Tuttavia, chiedigli di interrogare il tuo database e i tassi di successo crollano negli adolescenti.
I benchmark Spider 2.0 rivelano un divario enorme nelle capacità dell'IA. Spider 2.0 è un benchmark completo text-to-SQL che testa la capacità dei modelli di IA di generare query SQL accurate da domande in linguaggio naturale su database reali.
Mentre i grandi modelli di linguaggio hanno conquistato il lavoro di conoscenza in matematica, programmazione e ragionamento, il text-to-SQL rimane ostinatamente difficile.
I tre benchmark Spider 2.0 testano l'interrogazione di database reali in diversi ambienti. Spider 2.0-Snow utilizza database Snowflake con 547 esempi di test, raggiungendo un picco del 59,05% di accuratezza.
Spider 2.0-Lite copre BigQuery, Snowflake e SQLite con altri 547 esempi, raggiungendo solo il 37,84%. Spider 2.0-DBT testa la generazione di codice contro DuckDB con 68 esempi, arrivando a un massimo del 39,71%.
Questo divario di prestazioni non è dovuto alla mancanza di tentativi. Da novembre 2024, 56 sottomissioni di 12 famiglie di modelli hanno gareggiato su questi benchmark.
Claude, OpenAI, DeepSeek e altri hanno tutti messo alla prova i loro modelli contro questi test. I progressi sono stati costanti, passando da circa il 2% a circa il 60% negli ultimi nove mesi.
Il puzzle si approfondisce quando consideri i vincoli di SQL. SQL ha un vocabolario limitato rispetto all'inglese, che ha 600.000 parole, o ai linguaggi di programmazione che hanno sintassi e librerie molto più ampie da conoscere. Inoltre, c'è molta SQL là fuori su cui addestrarsi.
Se c'è qualcosa, questo dovrebbe essere più facile rispetto ai compiti di ragionamento aperto in cui i modelli ora eccellono.
Eppure anche una generazione SQL perfetta non risolverebbe la vera sfida aziendale. Ogni azienda definisce "entrate" in modo diverso.
Il marketing misura il costo di acquisizione dei clienti in base alla spesa della campagna, le vendite lo calcolano utilizzando i costi degli account executive e la finanza include le spese per i dipendenti completamente caricati. Queste differenze semantiche creano confusione che l'accuratezza tecnica non può risolvere.
I risultati di Spider 2.0 indicano una verità fondamentale sul lavoro con i dati. La competenza tecnica nella sintassi SQL è solo il punto di partenza.
La vera sfida risiede nel contesto aziendale. Comprendere cosa significano i dati, come i diversi team definiscono le metriche e quando i casi limite sono importanti. Come ho scritto in Semantic Cultivators, il ponte tra i dati grezzi e il significato aziendale richiede un giudizio umano che l'attuale IA non può replicare.

4,26K
Perplexity AI ha appena fatto un'offerta non richiesta di 34,5 miliardi di dollari per il browser Chrome di Google, cercando di capitalizzare sulla prossima sentenza antitrust che potrebbe costringere Google a dismettere la sua attività di browser.
Confrontare l'economia di Chrome con l'attuale accordo di Google con Safari rivela perché 34,5 miliardi di dollari svalutano il browser.
Google paga ad Apple tra 18 e 20 miliardi di dollari all'anno per rimanere il motore di ricerca predefinito di Safari¹, servendo circa 850 milioni di utenti². Questo si traduce in 21 dollari per utente all'anno.
L'offerta di Perplexity valuta Chrome a 32 miliardi di dollari, che corrisponde a 9 dollari per utente all'anno per i suoi 3,5 miliardi di utenti³.
Se gli utenti di Chrome avessero le stesse condizioni dell'accordo Google/Apple con Safari, il potenziale di entrate annuali del browser supererebbe i 73 miliardi di dollari.
Questi dati si basano su stime pubbliche ma sono un'approssimazione.
Si presume che Google pagherebbe a un nuovo proprietario di Chrome una tassa simile per il posizionamento del motore di ricerca predefinito. Dato un multiplo di capitalizzazione di mercato rispetto alle entrate di 5x a 6x, Chrome vale tra 172 miliardi e 630 miliardi di dollari, ben lontano dall'offerta di 34,5 miliardi di dollari.
Chrome domina il mercato con una quota del 65%⁴, rispetto al 18% di Safari. Una dismissione gettirebbe il mercato degli annunci di ricerca nel caos. Il valore di mantenere i budget pubblicitari è difficile da sottovalutare per la capitalizzazione di mercato e la posizione di Google nell'ecosistema pubblicitario.
Se costretta a vendere Chrome, Google si troverebbe di fronte a una scelta esistenziale. Pagare qualunque cifra per rimanere il motore di ricerca predefinito, o guardare i concorrenti trasformare il suo canale di distribuzione più prezioso in un'arma contro di essa.
Quanto vale tutto ciò? Un premio significativo rispetto a un semplice multiplo di entrate.
¹ Bloomberg: I pagamenti di Google ad Apple hanno raggiunto i 20 miliardi di dollari nel 2022 (
² ZipDo: Statistiche essenziali su Apple Safari nel 2024 (
³ Backlinko: Quota di mercato dei browser web nel 2025 (
⁴ Statcounter: Quota di mercato dei browser nel mondo (

8,15K
Nel 1999, le dotcom erano valutate in base al traffico. Le metriche delle IPO ruotavano attorno agli utenti.
Poi Google ha lanciato AdWords, un modello pubblicitario basato sui clic, e ha costruito un business da 273 miliardi di dollari nel 2024.
Ma tutto questo potrebbe essere sul punto di cambiare: lo studio di Pew Research di luglio 2025 rivela che gli utenti cliccano solo l'8% dei risultati di ricerca con riassunti AI, rispetto al 15% senza - una riduzione del 47%. Solo l'1% clicca attraverso i riassunti AI.
I dati di Cloudflare mostrano che le piattaforme AI eseguono la scansione dei contenuti molto più di quanto rimandino traffico: Anthropic scansiona 32.400 pagine per ogni 1 referral, mentre i motori di ricerca tradizionali esaminano i contenuti solo un paio di volte per visitatore inviato.
La spesa per servire contenuti ai crawler AI potrebbe non essere enorme se si tratta principalmente di testo.
Il punto più grande è che i sistemi AI disintermediano la relazione tra utente e editore. Gli utenti preferiscono risposte aggregate dall'AI piuttosto che cliccare sui siti web per trovare le loro risposte.
È logico che la maggior parte dei siti web dovrebbe aspettarsi meno traffico. Come gestirà il tuo sito web e la tua attività questa situazione?
Fonti:
- Pew Research Center - Athena Chapekis, 22 luglio 2025 (
- Cloudflare: La scansione prima della caduta dei referral (
- Cloudflare Radar: AI Insights - Rapporto di scansione rispetto ai referral (
- Podcast: Il valore in evoluzione dei contenuti nell'era dell'AI (

9,82K
GPT-5 è stato lanciato ieri. 94,6% su AIME 2025. 74,9% su SWE-bench.
Man mano che ci avviciniamo ai limiti superiori di questi benchmark, essi svaniscono.
Ciò che rende GPT-5 e la prossima generazione di modelli rivoluzionari non è la loro conoscenza. È sapere come agire. Per GPT-5 questo avviene a due livelli. Prima, decidere quale modello utilizzare. Ma secondo, e più importante, attraverso la chiamata agli strumenti.
Abbiamo vissuto in un'era in cui i LLM hanno padroneggiato il recupero e la riassemblaggio delle conoscenze. La ricerca per i consumatori e la codifica, le applicazioni killer iniziali, sono fondamentalmente sfide di recupero delle conoscenze. Entrambi organizzano le informazioni esistenti in modi nuovi.
Abbiamo scalato quelle colline e, di conseguenza, la competizione è più intensa che mai. I modelli di Anthropic, OpenAI e Google stanno convergendo su capacità simili. I modelli cinesi e le alternative open source continuano a spingersi sempre più vicino allo stato dell'arte. Tutti possono recuperare informazioni. Tutti possono generare testo.
Il nuovo asse della competizione? La chiamata agli strumenti.
La chiamata agli strumenti trasforma i LLM da consulenti ad attori. Compensa due debolezze critiche dei modelli puramente linguistici che non possono essere superate.
Prima, l'orchestrazione del flusso di lavoro. I modelli eccellono nelle risposte a colpo singolo ma faticano con processi multi-step e con stato. Gli strumenti consentono loro di gestire flussi di lavoro lunghi, monitorando i progressi, gestendo gli errori, mantenendo il contesto attraverso dozzine di operazioni.
Secondo, l'integrazione del sistema. I LLM vivono in un mondo solo testuale. Gli strumenti consentono loro di interfacciarsi in modo prevedibile con sistemi esterni come database, API e software aziendale, trasformando il linguaggio naturale in azioni eseguibili.
Nell'ultimo mese ho costruito 58 strumenti AI diversi.
Processori di email. Integratori CRM. Aggiornatori di Notion. Assistenti alla ricerca. Ogni strumento estende le capacità del modello in un nuovo dominio.
La capacità più importante per l'AI è selezionare rapidamente e correttamente lo strumento giusto. Ogni passo errato uccide l'intero flusso di lavoro.
Quando dico “leggi questa email da Y Combinator e trova tutte le startup che non sono nel CRM”, i moderni LLM eseguono una sequenza complessa.
Un comando in inglese sostituisce un intero flusso di lavoro. E questo è solo un semplice esempio.
Ancora meglio, il modello, correttamente impostato con gli strumenti giusti, può verificare il proprio lavoro che i compiti sono stati completati in tempo. Questo ciclo di auto-verifica crea affidabilità nei flussi di lavoro che è difficile da raggiungere altrimenti.
Moltiplica questo per centinaia di dipendenti. Migliaia di flussi di lavoro. I guadagni di produttività si accumulano in modo esponenziale.
I vincitori nel futuro mondo dell'AI saranno quelli che sono più sofisticati nell'orchestrare strumenti e instradare le giuste query. Ogni volta. Una volta che quei flussi di lavoro sono prevedibili, è allora che tutti noi diventeremo manager di agenti.

3,28K
Il 2025 è l'anno degli agenti, e la capacità chiave degli agenti è chiamare strumenti.
Quando utilizzo Claude Code, posso dire all'IA di setacciare una newsletter, trovare tutti i link alle startup, verificare che esistano nel nostro CRM, con un solo comando. Questo potrebbe comportare l'uso di due o tre strumenti diversi.
Ma ecco il problema: utilizzare un grande modello di fondazione per questo è costoso, spesso limitato in termini di frequenza, e sovradimensionato per un compito di selezione.
Qual è il modo migliore per costruire un sistema agentico con chiamate agli strumenti?
La risposta risiede nei modelli di azione piccoli. NVIDIA ha pubblicato un documento convincente che sostiene che "I piccoli modelli di linguaggio (SLM) sono sufficientemente potenti, intrinsecamente più adatti e necessariamente più economici per molte invocazioni nei sistemi agentici."
Ho testato diversi modelli locali per convalidare un esercizio di riduzione dei costi. Ho iniziato con un modello Qwen3:30b, che funziona ma può essere piuttosto lento perché è un modello così grande, anche se solo 3 miliardi di quei 30 miliardi di parametri sono attivi in un dato momento.
Il documento NVIDIA raccomanda il modello Salesforce xLAM - un'architettura diversa chiamata modello di azione grande specificamente progettata per la selezione degli strumenti.
Quindi, ho eseguito un test personale, ogni modello chiamando uno strumento per elencare i miei compiti su Asana.
I risultati sono stati sorprendenti: xLAM ha completato i compiti in 2,61 secondi con il 100% di successo, mentre Qwen ha impiegato 9,82 secondi con il 92% di successo - quasi quattro volte di più.
Questo esperimento mostra il guadagno di velocità, ma c'è un compromesso: quanto intelletto dovrebbe risiedere nel modello rispetto agli strumenti stessi. Questo è limitato.
Con modelli più grandi come Qwen, gli strumenti possono essere più semplici perché il modello ha una migliore tolleranza agli errori e può aggirare interfacce mal progettate. Il modello compensa le limitazioni degli strumenti attraverso il ragionamento di forza bruta.
Con modelli più piccoli, il modello ha meno capacità di recuperare dagli errori, quindi gli strumenti devono essere più robusti e la logica di selezione più precisa. Questo potrebbe sembrare una limitazione, ma in realtà è una caratteristica.
Questa restrizione elimina il tasso di errore cumulativo degli strumenti a catena LLM. Quando i grandi modelli effettuano chiamate sequenziali agli strumenti, gli errori si accumulano in modo esponenziale.
I piccoli modelli di azione costringono a una migliore progettazione del sistema, mantenendo il meglio degli LLM e combinandolo con modelli specializzati.
Questa architettura è più efficiente, più veloce e più prevedibile.


5,4K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari