Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers erneut gepostet
Einführung von DeepConf: Tiefes Denken mit Vertrauen
🚀 Erste Methode, um 99,9 % bei AIME 2025 mit Open-Source-Modellen zu erreichen! Mit GPT-OSS-120B haben wir sogar ohne Werkzeuge diese nahezu perfekte Genauigkeit erreicht und dabei bis zu 85 % der generierten Tokens eingespart.
Es bietet auch viele starke Vorteile für paralleles Denken:
🔥 Leistungssteigerung: ~10 % Genauigkeit über Modelle & Datensätze
⚡ Ultra-effizient: Bis zu 85 % weniger generierte Tokens
🔧 Plug & Play: Funktioniert mit JEDEM bestehenden Modell - keine Schulung erforderlich (auch kein Hyperparameter-Tuning!)
⭐ Einfach zu implementieren: Nur ~50 Zeilen Code in vLLM (siehe PR unten)
📚 Papier:
🌐 Projekt:
gemeinsame Arbeit mit: @FuYichao123 , xuewei_wang, @tydsh
(siehe Details in den Kommentaren unten)
408,65K
Tim Dettmers erneut gepostet
Können wir die Speichergrenze für LLM-Inferenz durch die Rematerialisierung des KV-Caches durchbrechen?
🚨 Einführung von XQuant, das ungenutzte Recheneinheiten nutzt, um den Speicherengpass für LLM-Inferenz zu beseitigen!
• 10–12,5x Speicherersparnis im Vergleich zu FP16
• Nahezu kein Genauigkeitsverlust
• Übertrifft den Stand der Technik bei KV-Quantisierung🔥
Wichtige Erkenntnisse:
1. KV-Cache = Engpass → wächst linear mit der Kontextlänge + Batch-Größe.
2. Rechenleistung >> Speicher → GPUs bieten FLOPs, die um Größenordnungen schneller sind als die Speicherbandbreite.
3. Schlüsselidee → speichere KV nicht, berechne es einfach neu. 🧠
Da die LLM-Inferenz typischerweise speicherbandbreitengebunden ist, sind Recheneinheiten oft untätig und ungenutzt. Daher können wir diese verfügbare Rechenleistung ohne zusätzlichen Aufwand nutzen!
Die Trends in der GPU-Hardware zeigen, dass die Rechenfähigkeiten viel schneller skalieren als die Speicherbandbreite. Daher kann die Reduzierung von Speicheroperationen im Austausch für mehr Berechnung dazu beitragen, die LLM-Inferenz zu beschleunigen. Der KV-Cache wächst linear mit der Sequenzlänge und der Batch-Größe und verursacht während der LLM-Inferenz die Mehrheit der Speicheroperationen. Wenn wir zusätzliche Berechnungen eintauschen können, um das Laden und Speichern des KV-Caches zu umgehen, können wir die Inferenz beschleunigen!
XQuant nutzt diesen Hardware-Trend aus: 🧵 [1/7]
Papier:
Gemeinsame Arbeit mit: @coleman_hooper1 @mjlee_official von @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang von @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,43K
Meiner Meinung nach sind SWE-bench und T-bench die wenigen Benchmarks, die ein gutes Signal dafür geben, wie viel Fortschritt wir mit Modellen machen. Dieses Modell schneidet genauso gut ab wie Qwen3 Coder und ist nur 10 % schlechter als GPT-5, während es auch ein allgemeines LLM und nicht auf Code spezialisiert ist.

Z.ai11. Aug., 11:43
Präsentation des GLM-4.5 technischen Berichts!👇
Diese Arbeit zeigt, wie wir Modelle entwickelt haben, die in den Bereichen Schlussfolgern, Programmieren und agentischen Aufgaben durch ein einzigartiges, mehrstufiges Trainingsparadigma herausragend sind.
Wichtige Innovationen umfassen die Iteration von Expertenmodellen mit Selbst-Distillation zur Vereinheitlichung der Fähigkeiten, einen hybriden Denkmodus für dynamisches Problemlösen und einen auf Schwierigkeiten basierenden Lehrplan für verstärkendes Lernen.

28,62K
Es scheint, dass die Landschaft zwischen Closed-Source und Open-Weights ausgeglichen ist. GPT-5 ist nur 10 % besser im Programmieren als ein Open-Weight-Modell, das Sie auf einem Consumer-Desktop und bald auch auf einem Laptop ausführen können. Wenn Anthropic kein gutes Modell entwickeln kann, werden wir wahrscheinlich eine Weile keine AGI sehen.
67,21K
Tim Dettmers erneut gepostet
Gedankenregen: Anstatt deine Twitter/𝕏-Auszahlung zu behalten, leite sie in eine "PayoutChallenge" deiner Wahl - alles, was du mehr in der Welt haben möchtest!
Hier ist meine für diese Runde, kombiniert aus meinen letzten 3 Auszahlungen von 5478,51 $:
Es ist unerlässlich, dass die Menschheit nicht fällt, während die KI aufsteigt. Die Menschheit muss weiterhin aufsteigen und besser werden. Schaffe etwas, das speziell dazu entworfen ist, das Team Mensch zu erheben. Die Definition wurde absichtlich etwas vage gelassen, um etwas Entropie in die Interpretation der Menschen zu bringen, aber meiner Meinung nach gehören dazu:
- Jedes Softwarestück, das Erklärung, Visualisierung, Memorierung, Inspiration, Verständnis, Koordination usw. unterstützt...
- Es muss nicht zu hochtrabend sein, z.B. kann es ein spezifischer Bildungsartikel/ein Video sein, das etwas erklärt, von dem andere profitieren könnten oder über das du einzigartiges Wissen hast.
- Eingaben/Agenten zur Erklärung, z.B. in der Art des kürzlich veröffentlichten ChatGPT-Studienmodus.
- Verwandte Kunstwerke
Diese Herausforderung läuft 2 Wochen bis zum 17. August EOD PST. Reiche deinen Beitrag als Antwort ein. Es muss etwas sein, das speziell für diese Herausforderung geschaffen wurde und sonst nicht existieren würde. Die Kriterien umfassen Ausführung, Hebelwirkung, Neuheit, Inspiration, Ästhetik, Unterhaltung. Die Leute können Beiträge durch Likes aufwerten, diese "Wahl der Leute" wird ebenfalls ein Faktor sein. Ich werde den Gewinner am 17. August entscheiden und 5478,51 $ senden :)
677,06K
Tim Dettmers erneut gepostet
Einige Aktualisierungen 🚨
Ich habe im Juni 2025 an der @uwcse promoviert!
Nach einem Jahr bei AI2 als Research Scientist komme ich im Herbst 2026 als Assistenzprofessorin an die CMU @LTIatCMU & @mldcmu (mit freundlicher Genehmigung).
Die Reise, Anerkennungen und Rekrutierung in 🧵


98,86K
Tim Dettmers erneut gepostet
Ankündigung unserer frühen Arbeit an der FP4-Inferenz für LLMs!
- QuTLASS: Kernel-Unterstützung mit niedriger Genauigkeit für Blackwell-GPUs
- FP-Quant: ein flexibles Quantisierungs-Harness für Llama/Qwen
Wir erreichen eine 4-fache Beschleunigung im Vergleich zu BF16, mit guter Genauigkeit durch MXFP4-Mikroskalierung + fusionierte Hadamard-Rotationen.


22,62K
Tim Dettmers erneut gepostet
Die Tokenisierung ist nur ein Spezialfall des "Chunking" - des Aufbaus von Low-Level-Daten in High-Level-Abstraktionen - was wiederum für die Intelligenz von grundlegender Bedeutung ist.
Unsere neue Architektur, die hierarchisches *dynamisches Chunking* ermöglicht, ist nicht nur tokenizerfrei, sondern skaliert einfach besser.

194,8K
Tim Dettmers erneut gepostet
Das größte Dataset von menschlich geschriebenem GPU-Code, alles Open Source? 👀 JA bitte! Wir bei @GPU_MODE haben rund 40.000 🚀 menschlich geschriebene Codebeispiele veröffentlicht, die Triton, Hip und PyTorch abdecken, und alles ist auf dem @huggingface Hub verfügbar. Trainiere das neue GPT, um GPTs schneller zu machen ⚡️
Link unten ⬇️
28,91K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten