Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Passei 25 anos na indústria de defesa (com mais de 8 em uniforme, mais de 2 em zonas de guerra).
Não tenho amor pelo PCC, mas não importa como vejo o governo da China, as empresas de pesquisa em IA deles estão fazendo muito bem e merecem algum crédito.
Para quem pensa que a Deepseek é algum tipo de "mau ator", lembre-se de que se eles mantivessem esses tipos de inovações em segredo, é provável que eles ultrapassassem as empresas dos EUA e nós perderíamos a corrida da IA. Empresas como @deepseek_ai e @Alibaba_Qwen estão ativamente ajudando a avançar o SOTA IA nos EUA e ao redor do mundo, e não pedindo nada em troca.
E eles fazem isso não por causa de uma pressão esmagadora <cough>gpt-oss<cough>, mas porque querem compartilhar sua pesquisa e modelos com pessoas que os executam em seus dados privados, sem se preocupar que sejam coletados por terceiros, usados para anúncios ou compartilhados.
Enquanto empresas como a Anthropic tentam ativamente pressionar por mais regulamentações, e a OpenAI mantém suas inovações, testes e sistemas em segredo, esses laboratórios chineses estão impulsionando a indústria para frente enquanto são criticados pela mídia ocidental e pelo NIST(?).
Parabéns a vocês. Continuem assim.

Andrej Karpathy21/10, 06:13
Gosto bastante do novo artigo DeepSeek-OCR. É um bom modelo de OCR (talvez um pouco pior que os pontos), e sim, a coleta de dados, etc., mas de qualquer forma, isso não importa.
A parte mais interessante para mim (especialmente como alguém que é um entusiasta de visão computacional e que está temporariamente a disfarçar-se de pessoa de linguagem natural) é se os pixels são melhores entradas para LLMs do que o texto. Se os tokens de texto são desperdícios e apenas terríveis, na entrada.
Talvez faça mais sentido que todas as entradas para LLMs sejam apenas imagens. Mesmo que você tenha uma entrada de texto puro, talvez prefira renderizá-la e depois alimentá-la:
- mais compressão de informação (veja o artigo) => janelas de contexto mais curtas, mais eficiência
- fluxo de informação geral significativamente maior => não apenas texto, mas por exemplo, texto em negrito, texto colorido, imagens arbitrárias.
- a entrada agora pode ser processada com atenção bidirecional facilmente e como padrão, não atenção autoregressiva - muito mais poderosa.
- delete o tokenizer (na entrada)!! Já reclamei sobre o quanto não gosto do tokenizer. Os tokenizers são feios, separados, não são uma etapa de ponta a ponta. Ele "importa" toda a feiura do Unicode, codificações de bytes, herda muito do peso histórico, risco de segurança/jailbreak (por exemplo, bytes de continuação). Faz com que dois caracteres que parecem idênticos aos olhos pareçam como dois tokens completamente diferentes internamente na rede. Um emoji sorridente parece um token estranho, não um... rosto sorridente real, pixels e tudo, e todo o aprendizado de transferência que isso traz. O tokenizer deve ir embora.
OCR é apenas uma das muitas tarefas úteis de visão -> texto. E tarefas de texto -> texto podem ser transformadas em tarefas de visão -> texto. Não o contrário.
Então, muitas vezes a mensagem do usuário é imagens, mas o decodificador (a resposta do Assistente) permanece texto. É muito menos óbvio como output pixels de forma realista... ou se você gostaria de fazê-lo.
Agora também tenho que lutar contra a vontade de criar uma versão apenas de entrada de imagem do nanochat...
392,33K
Top
Classificação
Favoritos