好的,关于 @Extropic_AI (@BasedBeffJezos) 的基本了解,我在锻炼时能够挖掘到的信息。 简而言之:标准推理涉及进行一系列顺序和并行的矩阵计算,但最终归结为概率采样。Extropic 正在构建一款芯片,绕过所有这些数学机制,而是直接嵌入基础训练集的学习概率分布,并直接从硬件中进行采样。 这非常酷!
从最基本的层面来看,LLM(大型语言模型)使用一个由标记组成的庞大训练集,学习单词、句子等之间的结构。它们并不是在推理,而是实际上在学习标记之间极其复杂的概率分布。 例如,如果我问“天空是什么颜色”,它会在学习到的概率分布中查找,然后看到[“天空”,“的”,“颜色”,“是”,“蓝色”]作为概率最高的序列。它是通过进行一系列矩阵计算得出的。如果你想了解这个机制,可以去阅读原始的Transformer论文,但老实说,这并不是那么重要。 重要的是这一点: 1. 训练步骤:输入大型数据集 --> 输出标记的概率分布。 2. 推理步骤:输入查询 --> 输出在概率采样下的映射。 顺便说一下,事后看来,真正酷(虽然有点显而易见)的结果是……LLM是单射和可逆的!这意味着从提示到潜在空间之间有一个唯一的映射,反之亦然。真是太酷了!
无论如何,Extropic团队的工作非常酷! 顺便说一下,今天是腿部训练,真是太棒了。
38.11K