跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+0.45%
USELESS
-9.33%
IKUN
+1.04%
gib
-4.84%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.58%
ALON
-3.76%
LAUNCHCOIN
-17.75%
GOONC
+3.03%
KLED
-10.81%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.11%
Boopa
-12.25%
PORK
+7.23%
主页
Alex Ker 🔭
@basetenco eng+gtm,投资 Tower Research Ventures |分享我的好奇心以及如何深思熟虑地应用人工智能 |@stanfordhai @bloombergbeta @launchdarkly
查看原文
Alex Ker 🔭
2025年10月22日
DeepSeek-OCR 在医生手写文字上的结果…… 从大学的可读性到执业医生的混乱。 如果我们朝着无限上下文窗口 + 实时智能的方向发展,我们可能需要更小、更快的多模态模型,配合高效的压缩,而不是扩展 LLM。 因为也许压缩就是智能。 预测:DeepSeekV4 将会是一个 VLM。这篇 OCR 论文是预告。
5.98K
18
Alex Ker 🔭
2025年10月21日
一张图片值千言万语吗? DeepSeek-OCR 说是的。 我在医生的手写字上进行了测试,从大学的可读性到执业医生的混乱。 如果我们正在朝着无限上下文窗口 + 实时智能的方向发展,我们可能需要更小的多模态模型和高效的压缩,而不仅仅是扩展 LLM。因为也许压缩就是智能…… 预测:DeepSeekV4 将是一个 VLM。这篇 OCR 论文是预告。
Andrej Karpathy
2025年10月21日
我非常喜欢新的 DeepSeek-OCR 论文。这是一个不错的 OCR 模型(可能比 dots 差一点),是的,数据收集等等,但无论如何这并不重要。 对我来说,更有趣的部分(尤其是作为一个内心深处是计算机视觉的人,暂时伪装成自然语言专家)是像素是否比文本更适合输入到 LLMs。文本标记是否浪费且糟糕,作为输入。 也许更合理的是,所有输入到 LLMs 的内容应该永远只是图像。即使你碰巧有纯文本输入,也许你会更愿意将其渲染后再输入: - 更多的信息压缩(见论文)=> 更短的上下文窗口,更高的效率 - 显著更多的通用信息流 => 不仅仅是文本,例如粗体文本、彩色文本、任意图像。 - 输入现在可以轻松地以双向注意力处理,并作为默认,而不是自回归注意力 - 强大得多。 - 删除分词器(在输入时)!!我已经抱怨过我有多不喜欢分词器。分词器很丑,分离,不是端到端的阶段。它“引入”了 Unicode、字节编码的所有丑陋,它继承了很多历史包袱,安全/越狱风险(例如,续续字节)。它使得两个在视觉上看起来相同的字符在网络内部看起来像两个完全不同的标记。一个微笑的表情符号看起来像一个奇怪的标记,而不是一个... 实际的微笑面孔,像素和所有的转移学习都带来了。分词器必须去。 OCR 只是许多有用的视觉 -> 文本任务之一。而文本 -> 文本任务可以被转化为视觉 -> 文本任务。反之则不然。 所以用户消息是图像,但解码器(助手的响应)仍然是文本。如何现实地输出像素就不那么明显了……或者你是否想这样做。 现在我还得抵制冲动,想要制作一个仅限图像输入的 nanochat 版本...
673
Alex Ker 🔭
2025年10月21日
大脑腐烂使LLM智能崩溃。 研究人员表明,垃圾网络数据导致LLM的永久性认知衰退。就像人类在无休止地滚动信息一样。 >推理衰退(ARC)74.9->57.2,长时记忆(RULER)84.4->52.3。LLM基本上跳过了思维链,直接进入幻觉。 >在评估个性特征时,模型显示出更高的自恋和精神病特征。 随着垃圾数据喂养下一代AI模型,算法将它们推向顶端,数据质量进一步下降——形成一个无尽的循环。 正如@ilyasut所说,预训练的结束已经到来。
736
2
热门
排行
收藏