Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dr.PR
🕶️ | ei oikea tohtori. | Kaikki postaukseni ovat hölynpölyä | #DYOR #NFA
Polvistu ja lue deepseekin uusin artikkeli ()
Otetaanpa pintapuolinen ymmärrys, ja kaikki korjaavat, mikä on pielessä
Tämä tutkimus (mHC) tarjoaa käytännössä "edullisen, korkean tuoton" mallin päivitysratkaisun tekoälyteollisuudelle.
Mallin vaikutus: parantaa merkittävästi "ajattelukykyä" Älykkäämpi: mHC parantaa merkittävästi tekoälyn laskentatehoa muuttamatta mallin infrastruktuuria. Testeissä, jotka heijastavat loogista päättelyä ja lukemisen ymmärtämistä, kuten BBH ja DROP, suorituskyky paranee 2,1 %:sta 2,3 %:iin. Tämä tarkoittaa, että malli käyttäytyy enemmän kuin "asiantuntijana" kuin "toistajana" tehtävissä kuten monimutkaisessa liiketoimintalogiikassa, taloudellisessa analyysissä jne.
Koulutuskustannukset: Erittäin pieni suorituskyvyn menetys korkean kannattavuuden vastineeksi Kustannustehokas: Vaikka tämä uusi teknologia kasvattaa tiedonsiirtoleveyttä syvällisen ohjelmisto- ja laitteistopohjaisen optimoinnin avulla, suuren mallin kouluttamisen aikakustannus, jossa on 27 miljardia parametria, kasvaa vain noin 6,7 %. Sijoittajille tämä tarkoittaa hyvin pienen määrän lisäsähkö- ja laskentatehoinvestointeja vaihtamista korkeamman tason mallin suorituskykyyn.
Koulutuksen vakaus: Vältä omaisuuden menetykset, jotka johtuvat "koulutuksen romahtamisesta" ja jätä hyvästit kuolleille koneille: Vaikka samankaltaiset yritykset (kuten HC) ovat myös pyrkineet laajentamaan tiedon reittiä, rajoitteiden puutteen vuoksi suuret mallit usein "menevät sekaisin" tai kaatuvat (häviöhyppyjä) kesken koulutuksen, mikä johtaa arvokkaiden laskentaresurssien hukkaan. mHC käyttää matemaattisia "tasapainotusloitsuja" (monistorajoitteita) varmistaakseen, että malli on erittäin kestävä koulutuksen aikana, suojaten kalliita laskentatehoinvestointeja systeemisiltä romahduksilta.
Muistivaatimukset: Älykkäät ratkaisut "laitteistopullonkauloihin" algoritmien avulla Älykäs muistin käyttö: Tämä teknologia laajentaa tiedon "kaistaa" nelinkertaiseksi, mikä teoriassa kuluttaa paljon muistia. Mutta DeepSeek säästää paljon muistitilaa hieman lisälaskenta-ajalla menetelmällä nimeltä "selective recalculation". Tämä mahdollistaa nykyisten huippuluokan näytönohjaimien, kuten H100/H200:n, tämän monimutkaisemman arkkitehtuurin ajamisen ilman laitteistokustannuksia.
Tulevaisuuden potentiaali: Perinteisten "heap-koneiden ylärajan" rikkominen Uudet kasvupisteet: Aiemmin mallivaikutusten parantaminen perustui pääasiassa "heap-dataan" ja "heap GPU:hun". mHC avaa kolmannen polun: mallin sisäisen rungon optimointi. Se todistaa, että parantamalla kerrosten välistä yhteyttä voidaan jatkuvasti puristaa ulos enemmän suorituskykyetuja, vaikka mallin kokoa ei kasvatettaisi sokeasti.
Vertauskuva sijoittajien näkökulmasta: Jos suuri malli on tehdas, edellinen päivitys oli työntekijöiden määrän kasvattaminen (parametrien kasvattaminen). mHC puolestaan uudistaa tehtaan kokoonpanolinjoja ja logistiikkakanavia lisäämättä työasemien määrää. Se ei ainoastaan levennä kuljetinhihnaa useaan kertaan kuljettaakseen lisää osia, vaan varmistaa myös, ettei tehdas pysähdy tuotantoa logistiikkaruuhkien vuoksi kehittyneen liikenteenhallintajärjestelmän avulla. Lopputuloksena on merkittävä parannus laitoksen tehokkuudessa, kun taas sähkön ja laitteiden ylläpitokustannukset pysyvät käytännössä ennallaan.

464
Johtavat
Rankkaus
Suosikit
