Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
Nie bój się wielkości
Julian Schrittwieser (Anthropic):
- Dyskusja na temat bańki AI na X jest "bardzo oderwana" od tego, co dzieje się w laboratoriach na czołowej linii. "W laboratoriach na czołowej linii nie widzimy żadnego spowolnienia postępu."
- AI będzie miało "ogromny wpływ na gospodarkę". Prognozy przychodów dla OpenAI, Anthropic i Google są w rzeczywistości "dość konserwatywne".
- Ekstrapolując z takich danych jak METR, w przyszłym roku modele będą w stanie pracować samodzielnie w całym zakresie zadań. Długość zadania jest ważna, ponieważ odblokowuje możliwość, aby człowiek nadzorował zespół modeli, z których każdy działa autonomicznie przez godziny (w przeciwieństwie do konieczności rozmawiania z agentem co 10 minut, aby dać mu feedback).
- "Ekstremalnie prawdopodobne" jest, że obecne podejście do szkolenia modeli AI (wstępne szkolenie, RL) doprowadzi do systemu, który będzie w stanie działać na poziomie zbliżonym do ludzkiego w zasadzie we wszystkich zadaniach, które są dla nas istotne pod względem produktywności.
- W odniesieniu do Ruchu 37: "Myślę, że jest dość jasne, że te modele mogą robić nowe rzeczy." AlphaCode i AlphaTensor "udowodniły, że można odkrywać nowe programy i algorytmy". AI "absolutnie odkrywa już nowe rzeczy" i "po prostu przesuwamy się w górę skali tego, jak imponujące, jak interesujące są rzeczy, które jest w stanie odkryć samodzielnie."
- "Bardzo prawdopodobne", że w przyszłym roku będziemy mieli jakieś odkrycia, które ludzie jednogłośnie uznają za super-imponujące.
- AI będzie w stanie samodzielnie dokonać przełomu, który zasługuje na Nagrodę Nobla w 2027 lub 2028 roku.
- W odniesieniu do zdolności AI do przyspieszania rozwoju AI: Bardzo powszechnym problemem w wielu dziedzinach naukowych jest to, że staje się coraz trudniej dokonywać postępów w miarę jak dziedzina się rozwija (tj. 100 lat temu pojedynczy naukowiec mógł przypadkowo odkryć pierwszy antybiotyk, podczas gdy teraz potrzeba miliardów dolarów, aby odkryć nowy lek). To samo może się zdarzyć w badaniach nad AI - mimo że AI uczyni badania nad nowym AI bardziej produktywnymi, może nie dojść do eksplozji, ponieważ nowe osiągnięcia stają się coraz trudniejsze do znalezienia.

Matt Turck24 paź, 03:37
Nie rozumiesz wykładniczości, znowu?
Moja rozmowa z @Mononofu - Julianem Schrittwieserem (@AnthropicAI, AlphaGo Zero, MuZero) - na temat Ruchu 37, skalowania RL, Nagrody Nobla za AI i granicy AI:
00:00 - Zimne otwarcie: „Nie widzimy żadnego spowolnienia.”
00:32 - Wprowadzenie — Poznaj Juliana
01:09 - „Wykładniczość” z wnętrza laboratoriów granicznych
04:46 - 2026–2027: agenci pracujący pełen dzień; szerokość na poziomie ekspertów
08:58 - Wskaźniki a rzeczywistość: prace długoterminowe, GDP-Val, wartość użytkownika
10:26 - Ruch 37 — co się naprawdę wydarzyło i dlaczego to miało znaczenie
13:55 - Nowa nauka: AlphaCode/AlphaTensor → kiedy AI zasługuje na Nobla?
16:25 - Dyskontynuacja a płynny postęp (i znaki ostrzegawcze)
19:08 - Czy wstępne szkolenie + RL nas tam doprowadzi? (debata AGI na bok)
20:55 - „RL od podstaw” Suttona? Opinia Juliana
23:03 - Ścieżka Juliana: Google → DeepMind → Anthropic
26:45 - AlphaGo (uczenie + wyszukiwanie) w prostych słowach
30:16 - AlphaGo Zero (bez danych ludzkich)
31:00 - AlphaZero (jeden algorytm: Go, szachy, shogi)
31:46 - MuZero (planowanie z wykorzystaniem modelu świata)
33:23 - Lekcje dla dzisiejszych agentów: wyszukiwanie + uczenie na dużą skalę
34:57 - Czy LLM-y już mają implicitne modele świata?
39:02 - Dlaczego RL na LLM-ach zajęło czas (stabilność, pętle sprzężenia zwrotnego)
41:43 - Obliczenia i skalowanie dla RL — co widzimy do tej pory
42:35 - Granica nagród: preferencje ludzkie, rubryki, RLVR, nagrody procesowe
44:36 - Dane treningowe RL i „koło zamachowe” (i dlaczego jakość ma znaczenie)
48:02 - RL i Agenci 101 — dlaczego RL odblokowuje odporność
50:51 - Czy twórcy powinni korzystać z RL jako usługi? A może tylko narzędzi + podpowiedzi?
52:18 - Czego brakuje, aby agenci byli niezawodni (zdolności a inżynieria)
53:51 - Evals & Goodhart — wewnętrzne a zewnętrzne wskaźniki
57:35 - Mechanistyczna interpretowalność i „Złota Brama Claude”
1:00:03 - Bezpieczeństwo i dostosowanie w Anthropic — jak to wygląda w praktyce
1:03:48 - Praca: komplementarność człowiek–AI (przewaga komparatywna)
1:06:33 - Nierówność, polityka i argument na rzecz 10× wydajności → obfitość
1:09:24 - Myśli końcowe
203,04K
Oświadczenie od CISO OpenAI w sprawie łagodzenia ryzyk związanych z wstrzykiwaniem poleceń w Atlas

DANΞ23 paź, 00:40
Wczoraj uruchomiliśmy ChatGPT Atlas, naszą nową przeglądarkę internetową. W Atlasie agent ChatGPT może załatwiać sprawy za Ciebie. Jesteśmy podekscytowani, jak ta funkcja uczyni pracę i codzienne życie bardziej efektywnym i skutecznym dla ludzi.
Agent ChatGPT jest potężny i pomocny, zaprojektowany z myślą o bezpieczeństwie, ale wciąż może popełniać (czasami zaskakujące!) błędy, takie jak próba zakupu niewłaściwego produktu lub zapomnienie o skontaktowaniu się z Tobą przed podjęciem ważnej decyzji.
Jednym z pojawiających się ryzyk, które bardzo starannie badamy i łagodzimy, są wstrzyknięcia poleceń, gdzie napastnicy ukrywają złośliwe instrukcje w witrynach internetowych, e-mailach lub innych źródłach, aby spróbować oszukać agenta, by działał w niezamierzony sposób. Celem napastników może być tak proste, jak próba wpłynięcia na opinię agenta podczas zakupów, lub tak poważne, jak próba skłonienia agenta do pozyskania i ujawnienia prywatnych danych, takich jak wrażliwe informacje z Twojego e-maila lub dane logowania.
Naszym długoterminowym celem jest to, abyś mógł ufać agentowi ChatGPT w korzystaniu z przeglądarki, tak jak ufałbyś swojemu najbardziej kompetentnemu, godnemu zaufania i świadomemu bezpieczeństwa koledze lub przyjacielowi. Pracujemy ciężko, aby to osiągnąć. Przy tym uruchomieniu przeprowadziliśmy szerokie testy red-teamowe, wdrożyliśmy nowe techniki szkolenia modeli, aby nagradzać model za ignorowanie złośliwych instrukcji, wprowadziliśmy nakładki zabezpieczające i środki bezpieczeństwa oraz dodaliśmy nowe systemy do wykrywania i blokowania takich ataków. Jednak wstrzyknięcie poleceń pozostaje nieodkrytym problemem bezpieczeństwa, a nasi przeciwnicy będą poświęcać znaczną ilość czasu i zasobów, aby znaleźć sposoby na oszukanie agenta ChatGPT.
Aby chronić naszych użytkowników i pomóc w poprawie naszych modeli przeciwko tym atakom:
1. Priorytetowo traktujemy systemy szybkiej reakcji, aby pomóc nam szybko identyfikować kampanie ataków, gdy tylko się o nich dowiemy.
2. Kontynuujemy również intensywne inwestycje w bezpieczeństwo, prywatność i bezpieczeństwo - w tym badania mające na celu poprawę odporności naszych modeli, monitorów bezpieczeństwa, kontroli bezpieczeństwa infrastruktury i innych technik, które pomogą zapobiegać tym atakom poprzez obronę w głębokości.
3. Zaprojektowaliśmy Atlas, aby dać Ci kontrolę, która pomoże Ci się chronić. Dodaliśmy funkcję, która pozwala agentowi ChatGPT podejmować działania w Twoim imieniu, ale bez dostępu do Twoich danych logowania, nazwaną „trybem wylogowanym”. Zalecamy ten tryb, gdy nie musisz podejmować działań w swoich kontach. Dziś uważamy, że „tryb zalogowany” jest najbardziej odpowiedni do dobrze określonych działań na bardzo zaufanych stronach, gdzie ryzyko wstrzyknięcia poleceń jest niższe. Prośba o dodanie składników do koszyka zakupowego jest zazwyczaj bezpieczniejsza niż szerokie lub niejasne żądanie, takie jak „przejrzyj moje e-maile i podejmij wszelkie potrzebne działania”.
4. Gdy agent działa na wrażliwych stronach, wdrożyliśmy również „Tryb obserwacji”, który informuje Cię o wrażliwym charakterze strony i wymaga, abyś miał aktywną kartę, aby obserwować, jak agent wykonuje swoją pracę. Agent wstrzyma się, jeśli odejdziesz od karty z wrażliwymi informacjami. To zapewnia, że pozostajesz świadomy - i masz kontrolę - nad tym, jakie działania podejmuje agent.
Z biegiem czasu planujemy dodać więcej funkcji, nakładek zabezpieczających i środków bezpieczeństwa, aby umożliwić agentowi ChatGPT pracę w sposób bezpieczny i zabezpieczony zarówno w indywidualnych, jak i przedsiębiorczych przepływach pracy.
Nowe poziomy inteligencji i zdolności wymagają, aby technologia, społeczeństwo i strategia łagodzenia ryzyka ewoluowały razem. I tak jak w przypadku wirusów komputerowych na początku lat 2000, uważamy, że ważne jest, aby wszyscy rozumieli odpowiedzialne użytkowanie, w tym myślenie o atakach wstrzyknięcia poleceń, abyśmy wszyscy mogli nauczyć się korzystać z tej technologii w sposób bezpieczny.
Jesteśmy podekscytowani, jak agent ChatGPT wzmocni Twoje przepływy pracy w Atlasie i jesteśmy zdeterminowani w naszej misji, aby zbudować najbezpieczniejsze, najbardziej prywatne i bezpieczne technologie AI dla dobra całej ludzkości.
37,59K
Najlepsze
Ranking
Ulubione


