Sofrendo de fadiga do chatbot? Frustrado que Singularity foi cancelado? Procurando algo novo para lhe dar esperança? Aqui está o meu plano delirante, mas "ei, meio que faz sentido" para construir superinteligência no meu pequeno laboratório de pesquisa independente (nota: vou trocar precisão por pedagogia) Primeiro, um histórico: Eu sou um cara de 33 anos que passou os últimos 22 anos programando. ao longo do tempo, fiz muitas perguntas sobre a natureza da computação e acumulei algumas bastante... peculiar... Insights. há alguns anos, construí o HVM, um sistema capaz de executar programas em uma linguagem esotérica chamada "Haskell" na GPU - sim, o mesmo chip que fez o aprendizado profundo funcionar e brilhou todo esse ciclo de IA. mas como Haskell se relaciona com a IA? bem, essa é uma longa história. como os mais velhos devem se lembrar, naquela época, o que chamávamos de "IA" era ... diferente. quase 3 décadas atrás, pela primeira vez, um computador derrotou o campeão mundial de xadrez, gerando muitos debates sobre AGI e singularidade - assim como hoje! o sistema, chamado Deep Blue, era bem diferente dos modelos que temos hoje. não usava transformadores. não usava redes neurais. na verdade, não havia "modelo". era uma pura "IA simbólica", o que significa que era apenas um algoritmo simples, que escaneava bilhões de movimentos possíveis, mais rápido e mais profundo do que qualquer humano poderia, vencendo-nos por pura força bruta. isso desencadeou uma onda de pesquisas simbólicas promissoras de IA. algoritmos evolutivos, gráficos de conhecimento, demonstração automatizada de teoremas, solucionadores SAT/SMT, solucionadores de restrições, sistemas especialistas e muito mais. Infelizmente, com o tempo, a abordagem atingiu uma parede. regras construídas à mão não escalavam, os sistemas simbólicos não eram capazes de *aprender* dinamicamente e a bolha estourou. um novo inverno de IA começou. Foi apenas anos depois que um curioso alinhamento de fatores mudou tudo. os pesquisadores tiraram a poeira de uma ideia antiga - redes neurais - mas desta vez, eles tinham algo novo: GPUs. Esses chips gráficos, originalmente construídos para renderizar videogames, acabaram sendo perfeitos para as multiplicações massivas de matrizes que as redes neurais exigiam. De repente, o que levou semanas pode ser feito em horas. O aprendizado profundo explodiu, e aqui estamos hoje, com Transformers comendo o mundo. mas aqui está a coisa: nós portamos apenas *um* ramo de IA para GPUs - o conexionista, numérico. O lado simbólico? ainda está preso na idade da pedra da CPU. Haskell é uma linguagem especial, porque unifica a linguagem das provas (ou seja, o idioma que os matemáticos usam para expressar teoremas) com a linguagem de programação (ou seja, o que os desenvolvedores usam para construir aplicativos). Isso o torna exclusivamente adequado para o raciocínio simbólico - o tipo exato de computação que o Deep Blue usava, mas agora podemos executá-lo massivamente paralelo em hardware moderno. (para ser mais preciso, apenas o paralelismo massivo da GPU não é a única coisa que o HVM traz para a mesa. acontece que também resulta em acelerações * assintóticas * em alguns casos. e esta é uma das principais razões para acreditar em nossa abordagem: os métodos simbólicos do passado não eram apenas famintos por computação. eles eram exponencialmente lentos, em um sentido algorítmico. não é de admirar que eles não funcionassem. eles não tiveram chance.) minha tese é simples: agora que posso rodar o Haskell em GPUs, e dada essa aceleração assintótica, estou em posição de ressuscitar esses antigos métodos simbólicos de IA, ampliá-los em ordens de magnitude e ver o que acontece. talvez, apenas talvez, um deles nos surpreenda. nosso primeiro marco já está em movimento: construímos o sintetizador de programa/prova mais rápido do mundo, que chamo de SupGen. ou NeoGen. ou QuickGen? vamos lançá-lo como uma atualização para nossa linguagem "Bend", tornando-o disponível publicamente no final de outubro. Então, ainda este ano, vamos usá-lo como base para um novo programa de pesquisa, buscando uma arquitetura simbólica pura que possa realmente aprender com os dados e construir generalizações - não por meio de gradiente descendente e retropropagação, mas por meio de raciocínio lógico e síntese de programas. nossos primeiros experimentos serão muito simples (não muito diferente do GPT-2), e o principal marco seria ter uma "próxima ferramenta de conclusão de token" 100% livre de redes neurais. se isso funcionar, pode ser um salto inovador além dos transformadores e do aprendizado profundo, porque é uma abordagem totalmente nova que provavelmente eliminaria muitas limitações herdadas do GPT que as IAs têm hoje. não apenas problemas de tokenizer (como os R's em morango), mas problemas fundamentais que impedem os GPTs de aprender com eficiência e generalizar delirante? provavelmente Vale a pena tentar? absolutamente (agora adivinhe quanto foi gerado por IA e qual modelo usei)
35,2K