Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dr.PR
🕶️ | no es un Dr. de verdad | Todas mis publicaciones son una tontería | #DYOR #NFA
He leído la última artículo de deepseek ()
Voy a compartir una comprensión superficial, por favor corríjanme si me equivoco.
Este estudio (mHC) ofrece, en esencia, una solución de actualización de modelo "de bajo costo y alto rendimiento" para la industria de la IA.
Efecto del modelo: Aumenta significativamente la "capacidad de pensamiento" y es más inteligente: Sin cambiar la arquitectura básica del modelo, mHC mejora notablemente la capacidad de procesamiento de la IA. En las pruebas que reflejan el razonamiento lógico y la comprensión lectora (como BBH y DROP), el rendimiento ha mejorado entre un 2.1% y un 2.3%. Esto significa que el modelo se comportará más como un "experto" que como un "repetidor" al manejar tareas complejas de lógica comercial y análisis financiero.
Costo de entrenamiento: Un bajo costo de rendimiento a cambio de una alta relación costo-beneficio: Aunque esta nueva tecnología aumenta el ancho de transmisión de información, mediante una profunda optimización colaborativa de software y hardware, al entrenar un modelo grande de 27 mil millones de parámetros, solo se incrementó aproximadamente un 6.7% en el costo de tiempo. Para los inversores, esto significa que con un pequeño costo adicional de electricidad y potencia de cálculo, se obtiene un rendimiento de modelo de mayor nivel.
Estabilidad de entrenamiento: Evitar las pérdidas de activos causadas por "colapsos de entrenamiento" y despedirse de los bloqueos: Intentos similares anteriores (como HC) también buscaban ampliar el camino de la información, pero debido a la falta de restricciones, los modelos grandes a menudo "enloquecían" o colapsaban (pérdidas repentinas) a mitad de entrenamiento, desperdiciando valiosos recursos de cálculo. mHC, mediante un "hechizo de equilibrio" matemático (restricción de variedad), asegura que el modelo sea extremadamente robusto durante el proceso de entrenamiento, protegiendo la costosa inversión en potencia de cálculo de colapsos sistémicos.
Requisitos de memoria: Resolver el "cuello de botella de hardware" con astucia algorítmica: Esta tecnología amplía las "carriles" de información cuatro veces, lo que teóricamente consumiría mucha memoria. Sin embargo, DeepSeek utiliza una técnica llamada "recomputación selectiva" que ahorra una gran cantidad de espacio de memoria gráfica con un poco de tiempo de cálculo adicional. Esto permite que las tarjetas gráficas de alta gama existentes, como H100/H200, puedan ejecutar esta arquitectura más compleja sin aumentar los costos de hardware.
Potencial futuro: Rompe el límite tradicional de "apilar máquinas" y crea nuevos puntos de crecimiento: Anteriormente, mejorar el rendimiento del modelo se basaba principalmente en "apilar datos" y "apilar GPU". mHC ha abierto un tercer camino: optimizar la estructura interna del modelo. Ha demostrado que al mejorar la forma en que se conectan las capas, incluso sin aumentar ciegamente el tamaño del modelo, se pueden seguir extrayendo más dividendos de rendimiento.
Analogía desde la perspectiva del inversor: Si los grandes modelos son una fábrica, las actualizaciones anteriores dependían de aumentar el número de trabajadores (aumentar parámetros). mHC, en cambio, ha reorganizado la línea de producción y los canales logísticos de la fábrica sin aumentar significativamente los puestos de trabajo. Ha ampliado la cinta transportadora varias veces para transportar más piezas y, a través de un sistema de gestión de tráfico preciso, asegura que la fábrica no se detenga debido a congestiones logísticas. El resultado final es: la eficiencia de la fábrica se ha incrementado drásticamente, mientras que los costos de electricidad y mantenimiento del equipo apenas han cambiado.

460
Parte superior
Clasificación
Favoritos
