Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
Non aver paura della grandezza
Julian Schrittwieser (Anthropic):
- La discussione sulla bolla dell'AI su X è "molto distaccata" da ciò che sta accadendo nei laboratori all'avanguardia. "Nei laboratori all'avanguardia, non stiamo vedendo alcun rallentamento dei progressi."
- L'AI avrà un "impatto economico massiccio". Le proiezioni di fatturato per OpenAI, Anthropic e Google sono in realtà "abbastanza conservative".
- Estrapolando da dati come quelli di METR, l'anno prossimo, i modelli saranno in grado di lavorare autonomamente su un'intera gamma di compiti. La lunghezza del compito è importante, perché sblocca la possibilità per un umano di supervisionare un team di modelli, ognuno dei quali lavora autonomamente per ore alla volta (rispetto a dover parlare con un agente ogni 10 minuti per dargli feedback).
- È "estremamente probabile" che l'attuale approccio alla formazione dei modelli AI (pre-addestramento, RL) produrrà un sistema in grado di eseguire a un livello sostanzialmente umano in praticamente tutti i compiti che ci interessano in termini di produttività.
- Su Move 37: "Penso sia abbastanza chiaro che questi modelli possono fare cose nuove." AlphaCode e AlphaTensor "hanno dimostrato che puoi scoprire programmi e algoritmi nuovi". L'AI sta "assolutamente scoprendo cose nuove" già, e "stiamo solo salendo la scala di quanto impressionanti e interessanti siano le cose che è in grado di scoprire da sola."
- È "altamente probabile" che entro l'anno prossimo avremo alcune scoperte che le persone concordano all'unanimità siano super-impressionanti.
- L'AI sarà in grado di fare da sola una scoperta che merita un Premio Nobel nel 2027 o 2028.
- Sulla capacità dell'AI di accelerare lo sviluppo dell'AI: Un problema molto comune in molti campi scientifici è che diventa sempre più difficile fare progressi man mano che il campo avanza (cioè, 100 anni fa, un singolo scienziato poteva scoprire il primo antibiotico per caso, mentre ora ci vogliono miliardi di dollari per scoprire un nuovo farmaco). Lo stesso potrebbe accadere con la ricerca sull'AI - anche se l'AI renderà la ricerca di nuove AI più produttiva, potrebbe non esserci un'esplosione a causa dei nuovi progressi che diventano sempre più difficili da trovare.

Matt Turck24 ott, 03:37
Non riesci a capire l'esponenziale, di nuovo?
La mia conversazione con @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - su Move 37, Scaling RL, Premio Nobel per l'AI e il confine dell'AI:
00:00 - Apertura a freddo: “Non vediamo alcun rallentamento.”
00:32 - Introduzione — Incontra Julian
01:09 - L'“esponenziale” dall'interno dei laboratori di frontiera
04:46 - 2026–2027: agenti che lavorano un'intera giornata; ampiezza a livello esperto
08:58 - Benchmark vs realtà: lavoro a lungo termine, GDP-Val, valore per l'utente
10:26 - Move 37 — cosa è realmente successo e perché è stato importante
13:55 - Scienza innovativa: AlphaCode/AlphaTensor → quando l'AI guadagna un Nobel?
16:25 - Discontinuità vs progresso fluido (e segnali di avvertimento)
19:08 - La pre-formazione + RL ci porta lì? (dibattiti sull'AGI a parte)
20:55 - “RL da zero” di Sutton? Il parere di Julian
23:03 - Il percorso di Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (impara + cerca) in termini semplici
30:16 - AlphaGo Zero (nessun dato umano)
31:00 - AlphaZero (un algoritmo: Go, scacchi, shogi)
31:46 - MuZero (pianificazione con un modello del mondo appreso)
33:23 - Lezioni per gli agenti di oggi: ricerca + apprendimento su larga scala
34:57 - Gli LLM hanno già modelli del mondo impliciti?
39:02 - Perché il RL sugli LLM ha impiegato tempo (stabilità, cicli di feedback)
41:43 - Calcolo e scalabilità per RL — ciò che vediamo finora
42:35 - Frontiera delle ricompense: preferenze umane, rubriche, RLVR, ricompense di processo
44:36 - Dati di addestramento RL & il “volano” (e perché la qualità è importante)
48:02 - RL & Agenti 101 — perché il RL sblocca la robustezza
50:51 - I costruttori dovrebbero usare RL come servizio? O solo strumenti + prompt?
52:18 - Cosa manca per agenti affidabili (capacità vs ingegneria)
53:51 - Evals & Goodhart — benchmark interni vs esterni
57:35 - Interpretabilità meccanicistica & “Golden Gate Claude”
1:00:03 - Sicurezza & allineamento in Anthropic — come si manifesta nella pratica
1:03:48 - Lavori: complementarità umano–AI (vantaggio comparativo)
1:06:33 - Disuguaglianza, politica e il caso per una produttività 10× → abbondanza
1:09:24 - Pensieri finali
203,06K
Una dichiarazione del CISO di OpenAI riguardo alla mitigazione dei rischi di iniezione di prompt in Atlas

DANΞ23 ott, 00:40
Ieri abbiamo lanciato ChatGPT Atlas, il nostro nuovo browser web. In Atlas, l'agente ChatGPT può fare le cose per te. Siamo entusiasti di vedere come questa funzionalità renda il lavoro e la vita quotidiana più efficienti ed efficaci per le persone.
L'agente ChatGPT è potente e utile, ed è progettato per essere sicuro, ma può comunque commettere errori (a volte sorprendenti!), come cercare di acquistare il prodotto sbagliato o dimenticare di controllare con te prima di intraprendere un'azione importante.
Un rischio emergente che stiamo studiando e mitigando con molta attenzione è l'iniezione di comandi, in cui gli attaccanti nascondono istruzioni dannose in siti web, email o altre fonti, per cercare di ingannare l'agente a comportarsi in modi non intenzionati. L'obiettivo per gli attaccanti può essere semplice come cercare di influenzare l'opinione dell'agente durante lo shopping, o tanto grave quanto un attaccante che cerca di far sì che l'agente recuperi e divulghi dati privati, come informazioni sensibili dalla tua email o credenziali.
Il nostro obiettivo a lungo termine è che tu possa fidarti dell'agente ChatGPT per utilizzare il tuo browser, allo stesso modo in cui ti fideresti del tuo collega o amico più competente, affidabile e consapevole della sicurezza. Stiamo lavorando duramente per raggiungere questo obiettivo. Per questo lancio, abbiamo effettuato un ampio red-teaming, implementato tecniche di addestramento del modello innovative per premiare il modello per ignorare istruzioni dannose, implementato sovrapposizioni di misure di sicurezza e guardrail, e aggiunto nuovi sistemi per rilevare e bloccare tali attacchi. Tuttavia, l'iniezione di comandi rimane un problema di sicurezza irrisolto e i nostri avversari spenderanno tempo e risorse significative per trovare modi per far cadere l'agente ChatGPT in questi attacchi.
Per proteggere i nostri utenti e per aiutare a migliorare i nostri modelli contro questi attacchi:
1. Abbiamo dato priorità ai sistemi di risposta rapida per aiutarci a identificare rapidamente le campagne di attacco non appena ne veniamo a conoscenza.
2. Stiamo anche continuando a investire pesantemente in sicurezza, privacy e sicurezza - inclusa la ricerca per migliorare la robustezza dei nostri modelli, monitor di sicurezza, controlli di sicurezza dell'infrastruttura e altre tecniche per aiutare a prevenire questi attacchi tramite una difesa a più livelli.
3. Abbiamo progettato Atlas per darti controlli che ti aiutino a proteggerti. Abbiamo aggiunto una funzionalità per consentire all'agente ChatGPT di agire per tuo conto, ma senza accesso alle tue credenziali chiamata "modalità disconnessa". Raccomandiamo questa modalità quando non hai bisogno di intraprendere azioni all'interno dei tuoi account. Oggi, riteniamo che la "modalità connessa" sia più appropriata per azioni ben definite su siti molto fidati, dove i rischi di iniezione di comandi sono inferiori. Chiedere di aggiungere ingredienti a un carrello della spesa è generalmente più sicuro di una richiesta ampia o vaga come "rivedi le mie email e prendi le azioni necessarie".
4. Quando l'agente opera su siti sensibili, abbiamo anche implementato una "Modalità di Vigilanza" che ti avvisa della natura sensibile del sito e richiede che tu abbia la scheda attiva per osservare l'agente mentre svolge il suo lavoro. L'agente si fermerà se ti allontani dalla scheda con informazioni sensibili. Questo assicura che tu rimanga consapevole - e in controllo - delle azioni che l'agente sta eseguendo.
Nel tempo, prevediamo di aggiungere più funzionalità, guardrail e controlli di sicurezza per consentire all'agente ChatGPT di lavorare in modo sicuro e protetto sia nei flussi di lavoro individuali che aziendali.
Nuovi livelli di intelligenza e capacità richiedono che la tecnologia, la società e la strategia di mitigazione del rischio co-evolvano. E come con i virus informatici nei primi anni 2000, riteniamo sia importante che tutti comprendano un uso responsabile, incluso il pensare agli attacchi di iniezione di comandi, in modo che tutti possiamo imparare a beneficiare di questa tecnologia in modo sicuro.
Siamo entusiasti di vedere come l'agente ChatGPT potrà potenziare i tuoi flussi di lavoro in Atlas e siamo risoluti nella nostra missione di costruire le tecnologie AI più sicure, private e sicure per il beneficio di tutta l'umanità.
37,61K
Principali
Ranking
Preferiti


