一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

好的，关于 @Extropic_AI (@BasedBeffJezos) 的基本了解，我在锻炼时能够挖掘到的信息。简而言之：标准推理涉及进行一系列顺序和并行的矩阵计算，但最终归结为概率采样。Extropic 正在构建一款芯片，绕过所有这些数学机制，而是直接嵌入基础训练集的学习概率分布，并直接从硬件中进行采样。这非常酷！

从最基本的层面来看，LLM（大型语言模型）使用一个由标记组成的庞大训练集，学习单词、句子等之间的结构。它们并不是在推理，而是实际上在学习标记之间极其复杂的概率分布。例如，如果我问“天空是什么颜色”，它会在学习到的概率分布中查找，然后看到[“天空”，“的”，“颜色”，“是”，“蓝色”]作为概率最高的序列。它是通过进行一系列矩阵计算得出的。如果你想了解这个机制，可以去阅读原始的Transformer论文，但老实说，这并不是那么重要。重要的是这一点： 1. 训练步骤：输入大型数据集 --> 输出标记的概率分布。 2. 推理步骤：输入查询 --> 输出在概率采样下的映射。顺便说一下，事后看来，真正酷（虽然有点显而易见）的结果是……LLM是单射和可逆的！这意味着从提示到潜在空间之间有一个唯一的映射，反之亦然。真是太酷了！

无论如何，Extropic团队的工作非常酷！顺便说一下，今天是腿部训练，真是太棒了。

38.11K