热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
系统设计的更大理论:现代性和后现代性有什么问题,如何在即将到来的雪崩中生存,以及如何解决我们面临的主要问题。
第一部分:系统是模型。但什么是模型?
我保证这在某个时刻会变得实用,但首先我们必须打下基础。如果你觉得基础显而易见,或者愿意相信我的话,可以随意跳过。但最终,没有背景知识,你甚至无法真正理解这个提议。
在不失一般性的情况下,任何系统都可以被视为一个通过边连接的参数图,其中感知节点接收输入,这些输入驱动内部图的变化并在活动节点上产生输出。
模型是一个系统,它的作用是最小化与其参数图所体现的先验知识之间的预测误差。
系统总是模型,因为系统必须持续存在,如果它们采取与持续条件不兼容的行动,它们就会消亡。条件是会变化的。因此,持久的系统必须学习,这要求它们对现实进行建模并最小化惊讶。
模型的例子:铁匠铺中的钢材、市场、森林、细胞、树木、LLM、电网、公司、社交媒体服务。换句话说,任何随着时间的推移而适应以预测新输入的事物。
旁注:这些事物不仅仅是模型。它们也可以从其他角度来看:社交媒体服务也是一组软件,完美固定且确定,处理输入和输出。人类是一个主要由水组成的脂质袋,同时也是一个人,还是一个模型。
模型可以被视为对可能输入的分布进行预测。一个成功的模型能够预测出与其输入分布相匹配的分布。这意味着它的预测准确、精确、稳健且高效。
(以下是对预测处理、自由能原理和主动推理的简单解释,以防你有相关背景知识)。
当预测分布最小化与观察到的输入分布之间的差异时,我们说该预测分布是准确的。

当预测分布具有低方差时,我们称其为精确,这意味着它做出了非常具体的预测。在给定准确度的情况下,更窄的预测并不会使你的平均猜测更接近平均输入,但它确实使你每次猜测更接近!

如果预测尽可能简单,那么它们对噪声的鲁棒性就更强。模型用于预测的参数和参数交互越少,它就越能适应输入中低频不变的特征。

我们在这里主要跳过效率,但主要思想是,能量消耗基本上与比特的支出精度或复杂性相同,你只需将热力学转换为信息理论。
要实现高精度其实很简单:总是猜测相同的东西。不幸的是,你的准确性会很糟糕。因此,我们通常将它们一起考虑,作为精度加权误差。
低精度加权损失的皇家之路被发现是一个痛苦的教训:你是否尝试过更多的参数和更多的数据?最终,你可以在所有人类知识(大型语言模型)上过拟合,这相当不错。可悲的是,如果领域发生变化……就不够稳健。
这三者都需要平衡。幸运的是,你可以在比特中获得它们的所有分数。
精度加权误差 = -log(与输入的偏差,按精度加权)
鲁棒性即复杂性 = -log(模型先验与均匀或自然先验的偏差)
对于您模型的任何操作或更改,您可以通过将准确性、精确度和鲁棒性方面的总收益相加来评估其帮助程度。添加该参数值得吗?那么,额外的20位准确性是否值得您在先验中增加8位复杂性?
在考虑一个真实系统时,名义目标通常是某种准确性。对于经济来说,高GDP增长和低失业率是系统试图实现的“先前预期”。对于公司来说,通常是高收入和低成本的先前预期。
即将推出,第二部分:我们的系统发生了什么?我们是如何走到这一步的?为什么一切都在疯狂和崩溃,但同时一切又在向上和向右发展?
38.45K
热门
排行
收藏