热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
好的,关于 @Extropic_AI (@BasedBeffJezos) 的基本了解,我在锻炼时能够挖掘到的信息。
简而言之:标准推理涉及进行一系列顺序和并行的矩阵计算,但最终归结为概率采样。Extropic 正在构建一款芯片,绕过所有这些数学机制,而是直接嵌入基础训练集的学习概率分布,并直接从硬件中进行采样。
这非常酷!
从最基本的层面来看,LLM(大型语言模型)使用一个由标记组成的庞大训练集,学习单词、句子等之间的结构。它们并不是在推理,而是实际上在学习标记之间极其复杂的概率分布。
例如,如果我问“天空是什么颜色”,它会在学习到的概率分布中查找,然后看到[“天空”,“的”,“颜色”,“是”,“蓝色”]作为概率最高的序列。它是通过进行一系列矩阵计算得出的。如果你想了解这个机制,可以去阅读原始的Transformer论文,但老实说,这并不是那么重要。
重要的是这一点:
1. 训练步骤:输入大型数据集 --> 输出标记的概率分布。
2. 推理步骤:输入查询 --> 输出在概率采样下的映射。
顺便说一下,事后看来,真正酷(虽然有点显而易见)的结果是……LLM是单射和可逆的!这意味着从提示到潜在空间之间有一个唯一的映射,反之亦然。真是太酷了!

无论如何,Extropic团队的工作非常酷!
顺便说一下,今天是腿部训练,真是太棒了。

38.11K
热门
排行
收藏

