Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

xjdr
PTX njutare
Jag tycker fortfarande att Lama4 Maverick var en bra modell och ni använde bara VLLM och öppen router och fick faktiskt inte använda den modell som var tränad. Det var ganska nära GPT4O med bättre verktygsanrop. Inte min favorit och överträffades av qwen3 i verktyg som ringer men inte fruktansvärt
9,98K
Så efter att ha lekt med detta under större delen av dagen kunde ingen av dem göra det (förväntat) men GPT5 via Codex gav upp mycket och skulle bara krascha (exempel nedan). Med det sagt, det som till slut fungerade var att GPT5 skapade den detaljerade specifikationen baserat på arxiv-dokumentet och sedan granskade opuskoden

23,87K
Detta är min dagliga påminnelse om att ta med mig exakt denna energi till allt jag gör

Jürgen Schmidhuber3 aug. 22:05
Vem uppfann konvolutionella neurala nätverk (CNN)?
1969: Fukushima hade CNN-relevanta ReLU:er [2].
1979: Fukushima hade den grundläggande CNN-arkitekturen med faltningslager och nedsamplingslager [1]. Beräkning var 100 gånger dyrare än 1989 och en miljard gånger dyrare än idag.
1987: Waibel tillämpade Linnainmaas backpropagation från 1970 [3] på viktdelande TDNN:er med 1-dimensionella faltningar [4].
1988: Wei Zhang et al. tillämpade "moderna" backprop-tränade 2-dimensionella CNN:er för teckenigenkänning [5].
Allt ovanstående publicerades i Japan 1979-1988.
1989: LeCun et al. tillämpade CNN igen på teckenigenkänning (postnummer) [6,10].
1990-93: Fukushimas nedsampling baserad på spatial averaging [1] ersattes av max-pooling för 1-D TDNNs (Yamaguchi et al.) [7] och 2D-CNN (Weng et al.) [8].
2011: Långt senare gjorde mitt team med Dan Ciresan max-pooling av CNN:er riktigt snabbt på NVIDIA GPU:er. År 2011 uppnådde DanNet det första resultatet av igenkänning av övermänskliga mönster [9]. Under en tid hade det monopol: från maj 2011 till september 2012 vann DanNet varje bildigenkänningsutmaning som de deltog i, 4 av dem i rad. Visserligen handlade det mest om att konstruera och skala upp de grundläggande insikterna från det förra millenniet och dra nytta av mycket snabbare hårdvara.
Vissa "AI-experter" hävdar att det var lika viktigt att "få CNN att fungera" (t.ex. [5,6,9]) som att uppfinna dem. Men att "få dem att fungera" berodde till stor del på om ditt labb var tillräckligt rikt för att köpa de senaste datorerna som krävdes för att skala upp det ursprungliga arbetet. Det är samma som idag. Grundforskning kontra teknik/utveckling - Forskning vs D inom FoU.
REFERENSER
[1] K. Fukushima (1979). Neural nätverksmodell för en mekanism för mönsterigenkänning som inte påverkas av positionsförskjutning - Neocognitron. IECE, vol. J62-A, nr 10, s. 658-665, 1979.
[2] K. Fukushima (1969). Extrahering av visuella egenskaper av ett flerskiktat nätverk av analoga tröskelelement. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Detta arbete introducerade likriktade linjära enheter (ReLUs), som nu används i många CNNs.
[3] S. Linnainmaa (1970). Magisteravhandling, Helsingfors universitet, 1970. Den första publikationen om "modern" backpropagation, även känd som det omvända läget för automatisk differentiering. (Se Schmidhubers välkända översikt över backpropagation: "Who Invented Backpropagation?")
[4] A. Waibel. Fonemigenkänning med hjälp av neurala nätverk med tidsfördröjning. Möte i IEICE, Tokyo, Japan, 1987. Backpropagation för en viktdelande TDNN med 1-dimensionella faltningar.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Skift-invariant mönsterigenkänning neuralt nätverk och dess optiska arkitektur. Proc. Årlig konferens för Japan Society of Applied Physics, 1988. Första backpropagation-tränade 2-dimensionella CNN, med tillämpningar på engelsk teckenigenkänning.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation, 1(4):541-551, 1989. Se även § 3 i [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Ett neuralt nätverk för talaroberoende isolerad ordigenkänning. Första internationella konferensen om talspråksbehandling (ICSLP 90), Kobe, Japan, november 1990. En 1-dimensionell faltnings-TDNN som använder Max-Pooling istället för Fukushimas Spatial Averaging [1].
[8] Weng, J., Ahuja, N. och Huang, T. S. (1993). Inlärning av igenkänning och segmentering av 3D-objekt från 2D-bilder. Proc. 4th Intl. Conf. Computer Vision, Berlin, s. 121-128. En 2-dimensionell CNN vars nedsamplingslager använder Max-Pooling (som har blivit mycket populärt) istället för Fukushimas Spatial Averaging [1].
[9] År 2011 uppnådde den snabba och djupa GPU-baserade CNN-enheten DanNet (7+ lager) den första övermänskliga prestandan i en tävling i datorseende. Se översikt: "2011: DanNet utlöser en djupgående CNN-revolution."
[10] Hur 3 Turingpristagare återpublicerade viktiga metoder och idéer vars skapare de misslyckades med att kreditera. Teknisk rapport IDSIA-23-23, Swiss AI Lab IDSIA, 14 dec 2023. Se även YouTube-videon för Bower Award Ceremony 2021: J. Schmidhuber hyllar Kunihiko Fukushima.

7,94K
Glad att se att detta (potentiellt) kommer till god användning

xjdr15 apr. 2025
Fp4 experts? GB200 benches? Basic switch transformer style routing? Lots of interesting bits in here
3,73K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda