Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
Älä pelkää suuruutta
Julian Schrittwieser (antropinen):
- Keskustelu tekoälykuplasta X:ssä on "hyvin kaukana" siitä, mitä tapahtuu rajalaboratorioissa. "Eturintaman laboratorioissa emme näe edistymisen hidastumista."
- Tekoälyllä on "valtava taloudellinen vaikutus". OpenAI:n, Anthropicin ja Googlen tuloennusteet ovat itse asiassa "melko konservatiivisia".
- Ekstrapoloimalla esimerkiksi METR-tiedoista mallit pystyvät ensi vuonna työskentelemään itsenäisesti monenlaisissa tehtävissä. Tehtävän pituus on tärkeä, koska se avaa ihmisen kyvyn valvoa malliryhmää, joista jokainen työskentelee itsenäisesti tuntikausia kerrallaan (verrattuna siihen, että hänen pitäisi puhua agentin kanssa 10 minuutin välein antaakseen sille palautetta).
- "Erittäin todennäköistä", että nykyinen lähestymistapa tekoälymallien kouluttamiseen (esikoulutus, RL) tuottaa järjestelmän, joka pystyy suoriutumaan suunnilleen ihmisen tasolla periaatteessa kaikissa tuottavuuden kannalta tärkeissä tehtävissä.
- Liikkeestä 37: "Mielestäni on melko selvää, että nämä mallit voivat tehdä uusia asioita." AlphaCode ja AlphaTensor "osoittivat, että voit löytää uusia ohjelmia ja algoritmeja". Tekoäly "löytää jo ehdottomasti uusia asioita", ja "olemme vain siirtymässä ylöspäin asteikolla sen suhteen, kuinka vaikuttavia ja mielenkiintoisia ovat ne asiat, jotka se pystyy löytämään itse".
- "Erittäin todennäköistä", että joskus ensi vuonna saamme löytöjä, jotka ihmiset ovat yksimielisesti yhtä mieltä erittäin vaikuttavista.
- Tekoäly pystyy yksinään tekemään Nobel-palkinnon arvoisen läpimurron vuonna 2027 tai 2028.
- Tekoälyn kyvystä nopeuttaa tekoälyn kehitystä: Hyvin yleinen ongelma monilla tieteenaloilla on, että edistyminen alan edetessä on yhä vaikeampaa (eli 100 vuotta sitten yksi tiedemies saattoi löytää ensimmäisen antibiootin vahingossa, kun taas nyt uuden lääkkeen löytäminen vaatii miljardeja dollareita). Sama voi tapahtua tekoälytutkimuksessa - vaikka tekoäly tekee uuden tekoälyn tutkimuksesta tuottavampaa, räjähdysmäistä ei välttämättä tapahdu, koska uusia edistysaskeleita on yhä vaikeampi löytää.

Matt Turck24.10. klo 03.37
Epäonnistuminen eksponentiaalin ymmärtämisessä, taas?
Keskusteluni @Mononofu:n kanssa - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - Move 37:stä, RL:n skaalaamisesta, tekoälyn Nobel-palkinnosta ja tekoälyn rajasta:
00:00 - Kylmä avaus: "Emme näe hidastumista."
00:32 - Johdanto - Tapaa Julian
01:09 - "Eksponentiaalinen" rajalaboratorioiden sisältä
04:46 - 2026–2027: agentit, jotka työskentelevät koko päivän; Asiantuntijatason laajuus
08:58 – Vertailuarvot vs. todellisuus: pitkän aikavälin työ, BKT-Val, käyttäjäarvo
10:26 - Siirto 37 - mitä oikeastaan tapahtui ja miksi sillä oli merkitystä
13:55 - Uusi tiede: AlphaCode/AlphaTensor → milloin tekoäly ansaitsee Nobelin?
16:25 – Epäjatkuvuus vs. sujuva eteneminen (ja varoitusmerkit)
19:08 - Viekö esiharjoittelu + RL meidät sinne? (AGI-keskustelut sikseen)
20:55 - Suttonin "RL tyhjästä"? Julianin näkemys
23:03 - Julianin polku: Google → DeepMind → Anthropic
26:45 - AlphaGo (opi + hae) selkokielellä
30:16 – AlphaGo Zero (ei ihmistietoja)
31:00 - AlphaZero (yksi algoritmi: Go, shakki, shogi)
31:46 - MuZero (suunnittelu opitun maailman mallin avulla)
33:23 - Oppitunteja nykypäivän agenteille: haku + oppiminen mittakaavassa
34:57 - Onko LLM:illä jo implisiittisiä maailmanmalleja?
39:02 - Miksi LLM:n RL vei aikaa (vakaus, takaisinkytkentäsilmukat)
41:43 – Laskeminen ja skaalaus RL:lle – mitä näemme tähän mennessä
42:35 – Palkintojen raja: ihmisasetukset, rubriikit, RLVR, prosessipalkinnot
44:36 - RL-harjoitustiedot ja "vauhtipyörä" (ja miksi laadulla on väliä)
48:02 – RL ja agentit 101 – miksi RL vapauttaa kestävyyden
50:51 – Pitäisikö rakentajien käyttää RL-as-a-serviceä? Vai vain työkaluja + kehotteita?
52:18 – Mitä luotettavilta asiakaspalvelijoilta puuttuu (kyky vs. suunnittelu)
53:51 - Evals & Goodhart — sisäiset vs. ulkoiset vertailuarvot
57:35 - Mekanistinen tulkintakyky ja "Golden Gate Claude"
1:00:03 - Turvallisuus ja linjaus Anthropicilla – miten se näkyy käytännössä
1:03:48 – Työpaikat: ihmisen ja tekoälyn täydentävyys (suhteellinen etu)
1:06:33 - Eriarvoisuus, politiikka ja 10× tuottavuuden → yltäkylläisyyden perusteet
1:09:24 - Loppu
203,05K
OpenAI CISO:n lausunto re: nopean injektion riskien vähentäminen Atlaksessa

DANΞ23.10. klo 00.40
Eilen julkaisimme ChatGPT Atlasin, uuden verkkoselaimemme. Atlaksessa ChatGPT-agentti voi tehdä asioita puolestasi. Odotamme innolla, miten tämä ominaisuus tekee työstä ja jokapäiväisestä elämästä tehokkaampaa ja vaikuttavampaa ihmisille.
ChatGPT-agentti on tehokas ja avulias, ja se on suunniteltu turvalliseksi, mutta se voi silti tehdä (joskus yllättäviä!) virheitä, kuten yrittää ostaa väärän tuotteen tai unohtaa kirjautua sisään ennen tärkeän toimenpiteen tekemistä.
Yksi nouseva riski, jota tutkimme ja lievennämme erittäin harkiten, ovat nopeat injektiot, joissa hyökkääjät piilottavat haitallisia ohjeita verkkosivustoille, sähköposteihin tai muihin lähteisiin yrittääkseen huijata agentin käyttäytymään tahattomasti. Hyökkääjien tavoite voi olla niinkin yksinkertainen kuin agentin mielipiteen vääristäminen ostosten aikana tai niinkin merkittävä kuin hyökkääjä, joka yrittää saada agentin hakemaan ja vuotamaan yksityisiä tietoja, kuten arkaluonteisia tietoja sähköpostistasi tai tunnistetietojasi.
Pitkän aikavälin tavoitteenamme on, että voit luottaa ChatGPT-agenttiin selaimesi käytössä samalla tavalla kuin luottaisit pätevimpään, luotettavimpaan ja tietoturvatietoisimpaan kollegaasi tai ystävääsi. Teemme kovasti töitä saavuttaaksemme sen. Tätä julkaisua varten olemme suorittaneet laajan red-teamingin, ottaneet käyttöön uusia mallikoulutustekniikoita palkitaksemme mallia haitallisten ohjeiden huomiotta jättämisestä, ottaneet käyttöön päällekkäisiä suojakaiteitä ja turvatoimenpiteitä sekä lisänneet uusia järjestelmiä tällaisten hyökkäysten havaitsemiseksi ja estämiseksi. Nopea injektio on kuitenkin edelleen ratkaisematon tietoturvaongelma, ja vastustajamme käyttävät paljon aikaa ja resursseja löytääkseen tapoja saada ChatGPT-agentti lankeamaan näihin hyökkäyksiin.
Suojellaksemme käyttäjiämme ja auttaaksemme parantamaan mallejamme näitä hyökkäyksiä vastaan:
1. Olemme priorisoineet nopean toiminnan järjestelmät, joiden avulla voimme nopeasti tunnistaa lohkohyökkäyskampanjat, kun saamme niistä tietoomme.
2. Jatkamme myös vahvoja investointeja turvallisuuteen, yksityisyyteen ja turvallisuuteen – mukaan lukien tutkimus mallidemme, tietoturvavalvojiemme, infrastruktuurin turvakontrolliemme ja muiden tekniikoidemme kestävyyden parantamiseksi, jotka auttavat estämään näitä hyökkäyksiä syvällisen puolustuksen avulla.
3. Olemme suunnitelleet Atlaksen niin, että voit suojautua itseltäsi. Olemme lisänneet ominaisuuden, jonka avulla ChatGPT-agentti voi toimia puolestasi, mutta ilman pääsyä kirjautumistietoihisi, nimeltään "uloskirjautunut tila". Suosittelemme tätä tilaa, kun sinun ei tarvitse tehdä mitään tileilläsi. Nykyään uskomme, että "sisäänkirjautumistila" sopii parhaiten hyvin rajattuihin toimiin erittäin luotettavilla sivustoilla, joissa nopean injektion riski on pienempi. Sen pyytäminen lisäämään ainesosia ostoskoriin on yleensä turvallisempaa kuin laaja tai epämääräinen pyyntö, kuten "tarkista sähköpostini ja ryhdy tarvittaviin toimiin".
4. Kun agentti toimii arkaluonteisilla sivustoilla, olemme myös ottaneet käyttöön "Watch Mode" -tilan, joka varoittaa sinua sivuston arkaluonteisesta luonteesta ja edellyttää, että sinulla on aktiivinen välilehti, jotta voit seurata agentin työtä. Agentti keskeyttää, jos siirryt pois välilehdeltä, jossa on arkaluonteisia tietoja. Näin varmistat, että pysyt tietoisena - ja hallitset - agentin toimia.
Ajan myötä aiomme lisätä lisää ominaisuuksia, suojakaiteita ja turvatoimintoja, jotta ChatGPT-agentti voi työskennellä turvallisesti sekä yksittäisissä että yritystyönkuluissa.
Älykkyyden ja kyvykkyyden uudet tasot edellyttävät teknologian, yhteiskunnan ja riskinhallintastrategian kehittymistä yhdessä. Ja kuten tietokonevirusten kohdalla 2000-luvun alussa, mielestämme on tärkeää, että kaikki ymmärtävät vastuullisen käytön, mukaan lukien nopeat injektiohyökkäykset, jotta voimme kaikki oppia hyötymään tästä tekniikasta turvallisesti.
Olemme innoissamme nähdessämme, kuinka ChatGPT-agentti tehostaa työnkulkujasi Atlaksessa, ja olemme päättäväisiä tehtävässämme rakentaa turvallisimpia, yksityisimpiä ja turvallisimpia tekoälyteknologioita koko ihmiskunnan hyödyksi.
37,61K
Johtavat
Rankkaus
Suosikit


