Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco ENG+GTM, Inwestowanie w Tower Research Ventures | dzielenie się moimi ciekawostkami i przemyślanym zastosowaniem sztucznej inteligencji | @stanfordhai @bloombergbeta @launchdarkly
Wyniki DeepSeek-OCR dotyczące pisma lekarzy...
Od czytelności w college'u do chaosu praktykującego lekarza.
Jeśli dążymy do nieskończonych okien kontekstowych + inteligencji w czasie rzeczywistym, być może potrzebujemy mniejszych, szybszych, multimodalnych modeli z efektywną kompresją, a nie skalowania LLM.
Bo może kompresja to po prostu inteligencja.
Prognoza: DeepSeekV4 będzie VLM. Ten artykuł o OCR to zapowiedź.

5,95K
Czy piksel jest wart tysiąca słów?
DeepSeek-OCR mówi tak.
Testowałem to na ręcznym piśmie lekarzy, od czytelności w college'u po chaos praktykującego lekarza.
Jeśli zmierzamy w kierunku nieskończonych okien kontekstowych + inteligencji w czasie rzeczywistym, możemy potrzebować mniejszych modeli multimodalnych z efektywną kompresją, a nie tylko skalowania LLM. Bo może kompresja to po prostu inteligencja...
Prognoza: DeepSeekV4 będzie VLM. Ten artykuł o OCR to zapowiedź.


Andrej Karpathy21 paź 2025
Bardzo podoba mi się nowy artykuł DeepSeek-OCR. To dobry model OCR (może trochę gorszy niż dots), a tak, zbieranie danych itd., ale w każdym razie to nie ma znaczenia.
Bardziej interesującą częścią dla mnie (szczególnie jako osoba z zamiłowaniem do wizji komputerowej, która tymczasowo udaje osobę zajmującą się językiem naturalnym) jest to, czy piksele są lepszymi wejściami do LLM niż tekst. Czy tokeny tekstowe są marnotrawne i po prostu okropne jako wejście.
Może ma sens, że wszystkie wejścia do LLM powinny być tylko obrazami. Nawet jeśli przypadkiem masz czysty tekst jako wejście, może wolałbyś go renderować, a następnie wprowadzać:
- większa kompresja informacji (zobacz artykuł) => krótsze okna kontekstowe, większa efektywność
- znacznie bardziej ogólny strumień informacji => nie tylko tekst, ale np. pogrubiony tekst, kolorowy tekst, dowolne obrazy.
- wejście może być teraz przetwarzane z łatwością i jako domyślne z dwukierunkową uwagą, a nie autoregresywną uwagą - znacznie potężniejsze.
- usuń tokenizator (na wejściu)!! Już narzekałem, jak bardzo nie lubię tokenizatora. Tokenizatory są brzydkie, oddzielne, nie są etapem end-to-end. "Importują" całą brzydotę Unicode, kodowania bajtów, dziedziczą wiele historycznego bagażu, ryzyko bezpieczeństwa/łamania zabezpieczeń (np. bajty kontynuacji). Sprawiają, że dwa znaki, które wyglądają identycznie dla oka, wyglądają jako dwa zupełnie różne tokeny wewnętrznie w sieci. Uśmiechnięty emoji wygląda jak dziwny token, a nie... rzeczywiste uśmiechnięte oblicze, piksele i wszystko, co się z tym wiąże. Tokenizator musi odejść.
OCR to tylko jedno z wielu użytecznych zadań wizji -> tekst. A zadania tekst -> tekst mogą być przekształcone w zadania wizji -> tekst. Nie odwrotnie.
Więc wiele wiadomości od użytkownika to obrazy, ale dekoder (odpowiedź asystenta) pozostaje tekstem. O wiele mniej oczywiste jest, jak realistycznie wyjść z pikselami... lub czy byś chciał.
Teraz muszę również walczyć z pokusą, aby zająć się wersją nanochatu tylko z wejściem obrazów...
641
Zanikanie inteligencji LLM przez "brain rot".
Badacze pokazują, że śmieciowe dane z sieci powodują trwały spadek zdolności poznawczych w LLM. Dokładnie jak u ludzi, którzy przeglądają bez końca.
>Spadek w rozumowaniu (ARC) 74.9->57.2, pamięć długoterminowa (RULER) 84.4->52.3. LLM w zasadzie pomijają łańcuch myślenia, prosto wpadając w halucynacje.
>Podczas oceny cech osobowości modele wykazują zwiększone oznaki narcyzmu i psychopatii.
Gdy śmieciowe dane zasilają nową generację modeli AI, a algorytmy pchają je na szczyt, jakość danych pogarsza się jeszcze bardziej—tworząc niekończącą się pętlę.
Jak powiedział @ilyasut, koniec wstępnego szkolenia jest tutaj.

705
Najlepsze
Ranking
Ulubione

