Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Taelin
Snill / Bøy / HVM / INets / λKalkulus
nei du tar feil, GPT-5 er et sprang
Jeg dobler meg 100 % her nede
Jeg ønsket ikke å legge ut for fort og angre på det igjen, men det løste bare en haug med veldig, veldig vanskelige feilsøkingsmeldinger som tidligere var uløste (av AI), og designet deretter et nydelig pikselert Gameboy-spill med et detaljnivå og kvalitet som helt klart overgår alt annet jeg noen gang har sett.
Det er ingen måte denne modellen er dårlig.
Jeg tror dere alle er traumatisert av benchmaxxere, og overkompenserer mot en modell som faktisk er god. Jeg tror også du undervurderer gpt-oss sine styrker (men ja, mitt siste innlegg ble forhastet)
Jeg vet fortsatt ikke om det er brukbart for seriøs programmering (o3 var det ikke), men det virker slik? En kodemodell som er så pålitelig som Opus, men likevel smartere enn o3, vil endre arbeidsflyten min fullstendig. Opus trenger imidlertid ikke å tenke for å være bra, så det kan veie i dens favør.
For hva det er verdt, brukte jeg egentlig bare 3 modeller:
- Opus 4.1 for koding
- Gemini 2.5 svært sjelden for koding når Opus svikter
- O3 for alt annet enn koding
13,2K
nei du tar feil, GPT-5 er et sprang
Jeg dobler meg 100 % her nede
Jeg ønsket ikke å legge ut for fort og angre på det igjen, men det løste bare en haug med veldig, veldig vanskelige feilsøkingsmeldinger som tidligere var uløste (av AI), og designet deretter et nydelig pikselert Gameboy-spill med et detaljnivå og kvalitet som helt klart overgår alt annet jeg noen gang har sett.
Det er ingen måte denne modellen er dårlig.
Jeg tror dere alle er traumatisert av benchmaxxers, og overkompenserer mot en modell som faktisk er veldig bra. Jeg tror også du undervurderer gpt-oss sine styrker (men ja, mitt siste innlegg ble forhastet)
Jeg vet fortsatt ikke om det er brukbart for seriøs programmering (4o, o3 var definitivt ikke), men det virker slik? En kodemodell som er så pålitelig som Opus, men likevel smartere enn o3, vil endre arbeidsflyten min fullstendig. Opus trenger imidlertid ikke å tenke for å være bra, så det kan veie i dens favør.
For hva det er verdt, brukte jeg egentlig bare 3 modeller:
- Opus 4.1 for koding
- Gemini 2.5 svært sjelden for koding når Opus svikter
- O3 for alt annet enn koding
439
«Å forhindre døden er høyst uetisk»

João Pedro de Magalhães6. aug., 06:41
"Det er svært uetisk å slutte å eldes" - anmelder kommenterer en av mine søknader.
Tilskuddet fokuserte på cellulær foryngelse, uten å nevne å kurere aldring, men det viser at vi fortsatt har en lang vei å gå for å overbevise selv andre forskere om at det er ønskelig å kurere aldring.
16,05K
Å forebygge død er svært uetisk

João Pedro de Magalhães6. aug., 06:41
"Det er svært uetisk å slutte å eldes" - anmelder kommenterer en av mine søknader.
Tilskuddet fokuserte på cellulær foryngelse, uten å nevne å kurere aldring, men det viser at vi fortsatt har en lang vei å gå for å overbevise selv andre forskere om at det er ønskelig å kurere aldring.
220
Så gpt-oss 120B kan ikke produsere riktig tysk, men spikrer komplekse Haskell-feil som selv Opus ikke klarte å identifisere?
Hvordan skjer det?
Jeg er virkelig så forvirret av alt dette

Björn Plüster6. aug., 04:45
gpt-oss 120B er svært åpenbart ute av stand til å produsere språklig korrekt tysk tekst. 🧵
224
Mitt første inntrykk av OpenAIs OSS-modell er på linje med det de annonserte. Den føles nærmere o3 enn andre åpne modeller, bortsett fra at den er mye raskere og billigere. Noen tilbydere tilbyr det til 3000 tokens/s, noe som er vanvittig. Den er definitivt smartere enn Kimi K2, R1 og Qwen 3. Jeg testet alle modellene litt, og fikk veldig avgjørende resultater til fordel for OpenAI-OSS-120b.
Dessverre er det én ting disse modellene ikke kan gjøre ennå - min jævla jobb. Så håper dere har det gøy. Jeg kommer tilbake til feilsøking av overliggende λ-kalkulusevaluering, 😭 vi sees
373,7K
Bare en rask oppdatering: vi klarte å gjenskape disse påstandene
Guans system når 25 % på ARC-AGI 1 med 50 GPU-timer
Jeg kunne fortsatt ikke revidere koden personlig, men med mindre juks på en eller annen måte, ser denne tilnærmingen ut til å generalisere ARC-AGI-forekomster med relativt lite databehandling
129,02K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til