Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
não tenhais medo da grandeza
Julian Schrittwieser (Anthropic):
- A discussão sobre a bolha da IA no X está "muito divorciada" do que está a acontecer nos laboratórios de ponta. "Nos laboratórios de ponta, não estamos a ver qualquer desaceleração do progresso."
- A IA terá um "impacto económico massivo". As projeções de receita para a OpenAI, Anthropic e Google são, na verdade, "bastante conservadoras".
- Extrapolando a partir de dados como os do METR, no próximo ano, os modelos serão capazes de trabalhar por conta própria em uma ampla gama de tarefas. O comprimento da tarefa é importante, porque desbloqueia a capacidade de um humano supervisionar uma equipe de modelos, cada um dos quais trabalha autonomamente por horas a fio (em vez de ter que falar com um agente a cada 10 minutos para dar feedback).
- É "extremamente provável" que a abordagem atual para treinar modelos de IA (pré-treinamento, RL) vá produzir um sistema que pode atuar em níveis aproximadamente humanos em basicamente todas as tarefas que nos importam em termos de produtividade.
- Sobre o Move 37: "Acho que está bastante claro que esses modelos podem fazer coisas novas." AlphaCode e AlphaTensor "provaram que você pode descobrir programas e algoritmos novos". A IA está "absolutamente descobrindo coisas novas" já, e "estamos apenas subindo a escala de quão impressionantes, quão interessantes são as coisas que ela é capaz de descobrir por conta própria."
- É "altamente provável" que em algum momento do próximo ano teremos algumas descobertas que as pessoas concordam unanimemente que são super impressionantes.
- A IA será capaz de, por conta própria, fazer uma descoberta que é digna de um Prêmio Nobel em 2027 ou 2028.
- Sobre a capacidade da IA de acelerar o desenvolvimento da IA: Um problema muito comum em muitos campos científicos é que se torna cada vez mais difícil fazer avanços à medida que o campo avança (ou seja, há 100 anos, um único cientista poderia descobrir o primeiro antibiótico por acidente, enquanto agora leva bilhões de dólares para descobrir um novo medicamento). O mesmo pode acontecer com a pesquisa em IA - mesmo que a IA torne a pesquisa de novas IAs mais produtiva, pode não haver uma explosão devido a novos avanços se tornarem cada vez mais difíceis de encontrar.

Matt Turck24/10, 03:37
Falhando em Compreender o Exponencial, Novamente?
Minha conversa com @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - sobre o Movimento 37, Escalando RL, Prêmio Nobel para IA e a fronteira da IA:
00:00 - Abertura fria: “Não estamos vendo nenhuma desaceleração.”
00:32 - Introdução — Conheça Julian
01:09 - O “exponencial” de dentro dos laboratórios de fronteira
04:46 - 2026–2027: agentes que trabalham um dia inteiro; amplitude em nível de especialista
08:58 - Referências vs realidade: trabalho de longo prazo, PIB-Val, valor do usuário
10:26 - Movimento 37 — o que realmente aconteceu e por que foi importante
13:55 - Ciência nova: AlphaCode/AlphaTensor → quando a IA ganha um Nobel?
16:25 - Descontinuidade vs progresso suave (e sinais de alerta)
19:08 - O pré-treinamento + RL nos leva lá? (debates sobre AGI à parte)
20:55 - “RL do zero” de Sutton? A visão de Julian
23:03 - O caminho de Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (aprender + buscar) em inglês simples
30:16 - AlphaGo Zero (sem dados humanos)
31:00 - AlphaZero (um algoritmo: Go, xadrez, shogi)
31:46 - MuZero (planejamento com um modelo de mundo aprendido)
33:23 - Lições para os agentes de hoje: busca + aprendizado em escala
34:57 - Os LLMs já têm modelos de mundo implícitos?
39:02 - Por que o RL em LLMs levou tempo (estabilidade, ciclos de feedback)
41:43 - Computação & escalonamento para RL — o que vemos até agora
42:35 - Fronteira de recompensas: preferências humanas, rubricas, RLVR, recompensas de processo
44:36 - Dados de treinamento de RL & o “flywheel” (e por que a qualidade importa)
48:02 - RL & Agentes 101 — por que o RL desbloqueia robustez
50:51 - Os construtores devem usar RL como serviço? Ou apenas ferramentas + prompts?
52:18 - O que está faltando para agentes confiáveis (capacidade vs engenharia)
53:51 - Avaliações & Goodhart — benchmarks internos vs externos
57:35 - Interpretabilidade mecanicista & “Golden Gate Claude”
1:00:03 - Segurança & alinhamento na Anthropic — como isso se manifesta na prática
1:03:48 - Empregos: complementaridade humano–IA (vantagem comparativa)
1:06:33 - Desigualdade, política e o caso para 10× produtividade → abundância
1:09:24 - Pensamentos finais
203,05K
Uma declaração do CISO da OpenAI sobre a mitigação dos riscos de injeção de prompts no Atlas

DANΞ23/10, 00:40
Ontem lançámos o ChatGPT Atlas, o nosso novo navegador web. No Atlas, o agente ChatGPT pode fazer as coisas por si. Estamos entusiasmados para ver como esta funcionalidade torna o trabalho e a vida quotidiana mais eficientes e eficazes para as pessoas.
O agente ChatGPT é poderoso e útil, e foi projetado para ser seguro, mas ainda pode cometer erros (às vezes surpreendentes!), como tentar comprar o produto errado ou esquecer-se de consultar consigo antes de tomar uma ação importante.
Um risco emergente que estamos a investigar e mitigar de forma muito cuidadosa são as injeções de prompt, onde atacantes escondem instruções maliciosas em websites, e-mails ou outras fontes, para tentar enganar o agente a comportar-se de maneiras não intencionais. O objetivo dos atacantes pode ser tão simples quanto tentar influenciar a opinião do agente enquanto faz compras, ou tão consequente quanto um atacante tentando fazer com que o agente busque e vaze dados privados, como informações sensíveis do seu e-mail ou credenciais.
O nosso objetivo a longo prazo é que você possa confiar no agente ChatGPT para usar o seu navegador, da mesma forma que confiaria no seu colega ou amigo mais competente, confiável e consciente da segurança. Estamos a trabalhar arduamente para alcançar isso. Para este lançamento, realizámos extensos testes de segurança, implementámos novas técnicas de treinamento de modelos para recompensar o modelo por ignorar instruções maliciosas, implementámos medidas de segurança e proteção sobrepostas, e adicionámos novos sistemas para detectar e bloquear tais ataques. No entanto, a injeção de prompt continua a ser uma fronteira, um problema de segurança não resolvido, e os nossos adversários gastarão tempo e recursos significativos para encontrar maneiras de fazer o agente ChatGPT cair nestes ataques.
Para proteger os nossos usuários e ajudar a melhorar os nossos modelos contra esses ataques:
1. Priorizámos sistemas de resposta rápida para nos ajudar a identificar rapidamente campanhas de ataque assim que tomamos conhecimento delas.
2. Continuamos a investir fortemente em segurança, privacidade e proteção - incluindo pesquisa para melhorar a robustez dos nossos modelos, monitores de segurança, controles de segurança de infraestrutura e outras técnicas para ajudar a prevenir esses ataques através de defesa em profundidade.
3. Projetámos o Atlas para lhe dar controles que ajudem a proteger-se. Adicionámos uma funcionalidade que permite ao agente ChatGPT agir em seu nome, mas sem acesso às suas credenciais, chamada "modo desconectado". Recomendamos este modo quando não precisa de tomar ações nas suas contas. Hoje, achamos que o "modo conectado" é mais apropriado para ações bem definidas em sites muito confiáveis, onde os riscos de injeção de prompt são menores. Pedir-lhe para adicionar ingredientes a um carrinho de compras é geralmente mais seguro do que um pedido amplo ou vago como "revise os meus e-mails e tome as ações necessárias".
4. Quando o agente está a operar em sites sensíveis, também implementámos um "Modo de Vigilância" que o alerta sobre a natureza sensível do site e exige que tenha a aba ativa para observar o agente a realizar o seu trabalho. O agente fará uma pausa se você se afastar da aba com informações sensíveis. Isso garante que você permaneça ciente - e no controle - das ações que o agente está a realizar.
Com o tempo, planejamos adicionar mais funcionalidades, proteções e controles de segurança para permitir que o agente ChatGPT trabalhe de forma segura e protegida em fluxos de trabalho individuais e empresariais.
Novos níveis de inteligência e capacidade exigem que a tecnologia, a sociedade e a estratégia de mitigação de riscos co-evoluam. E assim como com os vírus de computador no início dos anos 2000, achamos importante que todos entendam o uso responsável, incluindo pensar sobre ataques de injeção de prompt, para que todos possamos aprender a beneficiar desta tecnologia de forma segura.
Estamos entusiasmados para ver como o agente ChatGPT irá capacitar os seus fluxos de trabalho no Atlas e estamos resolutos na nossa missão de construir as tecnologias de IA mais seguras, privadas e seguras para o benefício de toda a humanidade.
37,61K
Top
Classificação
Favoritos


