Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ik heb de nieuwste artikelen van deepseek gelezen ()
Ik zal mijn oppervlakkige begrip delen, als er fouten zijn, laat het me weten.
Dit onderzoek (mHC) biedt in wezen een "laag-kosten, hoge-opbrengst" modelupgrade-oplossing voor de AI-industrie.
Modelprestaties: Significante verbetering van de "denkkracht" slimmer: Zonder de basisarchitectuur van het model te veranderen, heeft mHC de verwerkingscapaciteit van AI aanzienlijk verbeterd. In tests die logische redenering en leesbegrip reflecteren (zoals BBH en DROP), is de prestatie met 2,1% tot 2,3% verbeterd. Dit betekent dat het model zich bij het verwerken van complexe zakelijke logica, financiële analyses en dergelijke taken meer als een "expert" gedraagt dan als een "herhalingsmachine".
Trainingskosten: Zeer lage prestatieverlies voor hoge opbrengst kosteneffectief: Hoewel deze nieuwe technologie de breedte van informatieoverdracht vergroot, heeft het door middel van diepe software- en hardware-samenwerking bij het trainen van een groot model met 27 miljard parameters, de tijdskosten met slechts ongeveer 6,7% verhoogd. Voor investeerders betekent dit dat ze met een zeer kleine extra elektriciteits- en rekenkrachtinzet een hoger niveau van modelprestaties kunnen behalen.
Trainingsstabiliteit: Vermijden van vermogensverlies door "trainingscrashes" afscheid van vastlopen: Eerdere vergelijkbare pogingen (zoals HC) probeerden ook de informatiepaden te verbreden, maar door gebrek aan beperkingen, "verknalde" of crashten grote modellen vaak halverwege de training (verlies sprong), wat leidde tot verspilling van kostbare rekenkrachtbronnen. mHC zorgt door middel van een wiskundige "balansformule" (manifoldbeperkingen) ervoor dat het model tijdens het trainen extreem robuust is, waardoor dure rekenkrachtinvesteringen niet verloren gaan door systematische crashes.
Geheugenvereisten: Slim gebruik van geheugen om "hardwareflessenhalzen" op te lossen: Deze technologie heeft de "rijstroken" van informatie vier keer verbreed, wat theoretisch veel geheugen vereist. Maar DeepSeek heeft door een techniek genaamd "selectieve herberekening" met een beetje extra rekentijd een enorme hoeveelheid videogeheugen bespaard. Dit stelt bestaande high-end grafische kaarten zoals H100/H200 in staat om deze complexere architectuur te draaien zonder extra hardwarekosten.
Toekomstpotentieel: Doorbreken van de traditionele limieten van "machines stapelen" nieuwe groeipunten: Eerdere verbeteringen van modelprestaties waren voornamelijk afhankelijk van "data stapelen" en "GPU stapelen". mHC heeft een derde weg geopend: het optimaliseren van de interne structuur van het model. Het heeft aangetoond dat door de verbinding tussen lagen te verbeteren, zelfs zonder blindelings de modelgrootte te vergroten, er voortdurend meer prestatievoordelen kunnen worden behaald.
Vergelijking vanuit het perspectief van investeerders: Als grote modellen een fabriek zijn, dan was de vorige upgrade afhankelijk van het verhogen van het aantal werknemers (parameters verhogen). mHC herschikt de productielijn en logistieke kanalen van de fabriek zonder veel extra werkplekken toe te voegen. Het heeft de transportbanden meerdere keren verbreed om meer onderdelen te vervoeren, en door een nauwkeurig verkeersbeheersysteem te implementeren, wordt ervoor gezorgd dat de fabriek niet stilvalt door logistieke congestie. Het uiteindelijke resultaat is: de efficiëntie van de fabriek is aanzienlijk verbeterd, terwijl de elektriciteits- en onderhoudskosten die je betaalt vrijwel onveranderd blijven.

"mHC heeft de vraag naar geheugen door AI niet fundamenteel verminderd, maar heeft in plaats daarvan door het multi-stream ontwerp de geheugendruk verhoogd"
@rickawsb Ik heb gekeken en deze mHC heeft in theorie meer geheugen nodig.
499
Boven
Positie
Favorieten
