热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Matt Shumer
现在GPT-5已经发布,你觉得我做得怎么样?
我对这个模型的预测正确吗?

Matt Shumer2024年4月15日
我对GPT-5能力的预测:
从最不有趣到最有趣:
- 显著更长的上下文长度 + 更强的有效使用能力(即在干草堆测试中跨针推理的能力)
- 更加多模态(无论是模态数量还是每个模态的深度)
- 多模态输出,尽管我猜测某些模态在发布时会被禁用(安全等)
- 想象一下直接与GPT-5对话,它会回应,而不使用Whisper或Voice Engine
- Q*推理突破
- 两种模式:推理 + 正常 — Q*可能需要显著的推理时间/成本,因此除非有效率突破,否则它们可能还会提供像我们今天看到的那样的正常响应模式
- 同样,GPT-5可能具有更高级的自适应计算/Q*使用形式……查询越难,它投入的计算能力就越多,以提供出色的解决方案
- 10倍更好的代理能力……简单/受限的代理将大部分得到解决,我们将更接近现实世界的通用代理
- 回溯能力——超越反思,GPT-5将能够在回答时识别错误并纠正方向
- 在长期数据中具有惊人的连贯性……我们将开始减少使用独立系统来启用记忆的想法,而更多地考虑将所有记忆嵌入提示中……这也将推动代理的发展
- 通过这最后三点,你将能够让GPT-5独立完成复杂任务,并相信它确实能正确完成,而无需检查它的工作
- 在比之前的模型多出OOM的数据上进行训练,其中大部分数据来自ChatGPT,经过清理、改进、转换为其他模态等。
- 在比当前领先模型更*好的*数据上进行后训练
- 我们将开始看到远超我们今天讨论的能力的曙光——例如,它将拥有更接近可用的科学研究能力
我遗漏了什么?你怎么看?
回复让我知道。
6.96K
新的 Rork Agent 迄今为止是世界上最好的移动应用程序构建代理。
如果您想构建 iOS 或 Android 应用程序,您需要尝试一下。
尽快。

Rork8月9日 02:37
推出新的移动应用 Rork Agent
・错误自动修复,减少 90% 的错误
・新的强大代理工具
・借助 Claude Code 的最佳实践,智能提升 10 倍
・使用 GPT-5 和 Sonnet 4 生成最佳用户界面
最佳移动应用代理来了 👇

9.44K
Rork 刚刚进行了重大升级。GPT-5 使其能力提升了 10 倍。
如果你一直想开发一个 iPhone 应用,现在就试试吧!!

Rork8月8日 03:42
GPT-5 现在在 Rork。
而且它非常棒。
→ 在 Rork 的移动应用基准测试中,比 Claude 4 提高了 190%
→ 在推理/逻辑方面更出色
→ 制作非常美观的用户界面
现在就试试 Rork。告诉我们你的想法!
敬请期待。我们还没有完成。
一个更大的更新即将到来 👀

5.89K
Matt Shumer 已转发
GPT-5 在 Cline 上线了。
我们一直在与 OpenAI 合作,以准备这个模型,以下是我们的看法:它纪律严明、持之以恒且能力出众。
在规划时它具有协作性,在执行时则是一个勤奋的操作员。
它会全面规划,在需要时询问选项跟进,然后让开并发布代码。在长任务中,它会持续进行,然后暂停检查进度。
它严格遵循指示。最重要的是——它写出好的代码。
GPT-5 就像《低俗小说》中的“狼”。进来,评估情况,然后执行。
以下是您可以期待在 Cline 中使用 GPT-5 的内容:
> 规划时冗长;执行时简洁
> 提出很多好的澄清问题,并在适当时提供选项
> 在长时间内保持强大的上下文保留和持久性(256k 上下文窗口)
> 擅长 diff 风格的编辑和多文件更改(我们会在更多使用数据到来时进行监控)
> 在执行模式下安静——写代码时不喋喋不休
元提示是另一个强项。我们早期与 OpenAI 进行了测试,并使用 GPT-5 来调整我们自己的 GPT-5 提示。以下是我们喜欢的模式:
“从你自己的角度回答:哪些更改或补充可以帮助你更好地遵循这个提示?这是提示(或片段):[snippet]。用户对 X 和 Y 表达了不满。你会做哪些最小的编辑,同时保持其余部分不变?”
你需要在 Cline 中更改任何现有模式吗?不——它开箱即用。给出明确的目标和约束,让它规划,然后让它执行。预计会比大多数模型提出更多的澄清问题。
定价:$1.25/M 输入令牌(+90% 缓存),$10/M 输出。大约是 Sonnet 4 的一半($3/$15)。
想尝试 GPT-5 吗?今天在 Cline 中使用它,通过 OpenAI、Cline 或 OpenRouter 提供商进行纯粹、未过滤的推理。
(顺便说一下——GPT-5 在下面的浏览器 DAW 上一次性完成了提示“构建一些令人印象深刻的东西来展示你的能力”)
59.81K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可