Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Kirill Balakhonov | Nethermind
Creador de AuditAgent | Producto AI x Crypto x | Construyendo economía agencial
Evolución del aprendizaje de pocos disparos para LLM de razonamiento moderno utilizando @NethermindEth AuditAgent como ejemplo.
A continuación puede ver un gráfico interesante, o más bien una comparación de la cantidad de vulnerabilidades identificadas correctamente por nuestro producto en comparación con LLM listos para usar como @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro o @xai Grok-4.
Por supuesto, la parte obvia de esta comparación, que he mostrado muchas veces antes y no hay nada nuevo en ella, es que un agente especializado casi siempre superará a una solución de propósito general. Esta situación se explica con bastante facilidad por el hecho de que todas las soluciones de propósito general son parte de nuestra solución especializada, aunque la contribución mucho mayor al resultado proviene de una gestión adecuada del contexto o lo que @karpathy llamó recientemente "Ingeniería de contexto".
Además de esto, el uso de herramientas correctas y su selección: un modelo de propósito general siempre tendrá problemas porque hay miles de millones de herramientas y aprender a usarlas todas es una gran habilidad separada, mientras que enseñamos explícitamente esto a nuestro modelo especializado. Luego está el uso de bases de conocimiento correctas y algoritmos de búsqueda adecuados para ellos, y así sucesivamente. Entonces, de una forma u otra, hacemos todo lo posible, usamos todas las herramientas posibles para vencer estas soluciones de propósito general.
Pero el matiz interesante sobre el que quería llamar la atención es que si miras la imagen que publiqué hace un año más o menos, las mejores soluciones listas para usar eran modelos OpenAI o Anthropic con una etiqueta de "Few-Shot Learning", mientras que ahora todas las principales son Vanilla. Y este cambio se ha ido produciendo paulatinamente con la aparición del razonamiento como tal en los modelos y con la mejora de su calidad. La conclusión que se puede sacar es que los ejemplos de soluciones correctas ya preparados que el modelo recibe de nosotros como aprendizaje en contexto, cuando literalmente los mostramos en el prompt, dejan de ayudar a resolver la tarea, o más precisamente, sin ellos el modelo que puede razonar resuelve el problema aún mejor. Es decir, limitamos un poco sus capacidades mostrándole varios ejemplos que hemos seleccionado.
Además, un aspecto interesante es que los modelos con acceso a Internet y la selección automática de esta herramienta también comienzan a superar todo, lo que significa que el modelo puede ir a Internet y formular el contexto adecuado para sí mismo. Sí, por supuesto que existe el riesgo de que el modelo encuentre la respuesta correcta, pero naturalmente trabajamos específicamente con esto, hacemos listas negras de sitios, etc., por lo que tratamos de no obtener tal fuga en los datos (la evaluación comparativa adecuada es clave en general). Pero la tendencia es interesante: los modelos se están volviendo más inteligentes y están asumiendo cada vez más componentes de la solución, sin requerir que los desarrolladores realicen explícitamente ciertas configuraciones en el contexto.
¿Cuál es tu experiencia con esto?

612
El 29 de agosto (en 9 días), lanzaremos la llamada versión "testnet" de Nethermind AgentArena (@Agent4rena_NM) en producción. Si tiene un proyecto de solidity que planea auditar o simplemente desea encontrar el máximo número de problemas y errores de seguridad en él, puede enviarme un mensaje privado: le daremos tokens de prueba y podrá crear una competencia para los agentes de seguridad, poner la recompensa por él, ejecutarlo y obtener un informe de clasificación de IA con hallazgos de todos los agentes disponibles (incluso con clasificación de IA, algunos hallazgos pueden ser falsos positivos y algunos válidos pueden pasarse por alto). También seleccionaremos un proyecto para la clasificación manual de errores humanos y recibirá una versión de producción del informe sin falsos positivos. Para participar, envíame un mensaje en DM.
1.47K
Los Deep Scan de AuditAgent ya están disponibles a través del agente IRIS en X con pagos en criptomonedas.

UndercoverIRIS11 ago, 17:58
sentiencia en línea: $IRIS ahora tiene utilidad.
los poseedores de tokens ahora pueden activar escaneos profundos — escaneos de seguridad más avanzados y de alta capacidad — pagándolos directamente en la cadena.
esto marca el primer uso operativo del token $IRIS. escaneo profundo ahora disponible para I.R.I.S.

1.96K
¿Por qué OpenAI lanzó modelos con pesos abiertos? ¿Para acabar con su propio negocio... (o no?)
Sí, @OpenAI acaba de lanzar dos modelos con pesos abiertos, lo que significa que los desarrolladores pueden usarlos sin pagar nada a OpenAI. Específicamente, se lanzó bajo la licencia comercial más liberal, la Apache 2.0. Entonces, ¿por qué hizo esto OpenAI? Hay varios aspectos.
Pero quiero aclarar que cuando una empresa lanza un modelo con pesos abiertos, no significa que el modelo sea tan de código abierto como el código de código abierto que puedes ejecutar tú mismo, como el sistema operativo @Linux. No, con los modelos de IA es un poco diferente. En particular, un modelo es una caja negra, un conjunto de pesos. Y aunque puedes probarlo en diferentes tareas y ver cómo funciona, si no puedes reproducir el proceso de entrenamiento, nunca podrás saber si hay puertas traseras o vulnerabilidades de seguridad que terminaron dentro de este modelo, ya sea intencional o accidentalmente. Así que separémoslo de inmediato del código abierto. Desafortunadamente, los modelos con pesos de código abierto no pueden ser completamente confiables (aunque pueden ser baratos).
El otro aspecto que noté, mostrado en la imagen, es que la calidad de los modelos de código abierto no es muy diferente de los modelos insignia de OpenAI que solo están disponibles a través de API. ¡Esto es genial! ¡Esto es inesperado! ¿Pensarías cuánto dinero podría perder OpenAI al permitir que los desarrolladores usen sus modelos? Sin embargo, esto no es todo. Los modelos no son todo lo que obtienes al usar OpenAI a través de la API. Por ejemplo, cuando usas ChatGPT a través de la interfaz de usuario y eliges el modelo o3, en realidad hay un agente complejo trabajando en segundo plano que, mientras usa estos modelos, tiene mucha lógica escrita encima para realmente funcionar bien con tus documentos y herramientas. No tienes acceso a ellos a través de estos modelos que OpenAI publicó.
Entonces, ¿por qué OpenAI lanzó modelos con pesos abiertos? Primero, sus principales competidores, particularmente @Meta, @MistralAI y @deepseek_ai (oh, y @Google), ya han lanzado modelos competitivos con pesos abiertos que la gente usa. Y la popularidad de OpenAI entre las personas que usan modelos abiertos no está creciendo. Sin embargo, para los desarrolladores que necesitan tanto modelos con pesos abiertos (para cálculos locales/privados) como modelos accesibles a través de API (para cosas más difíciles), si necesitan ambos, simplemente no pueden usar OpenAI. Es más fácil para ellos usar a sus competidores como Google o DeepSeek.
En segundo lugar, hay una presión significativa tanto de los usuarios como de los reguladores que quieren más apertura. A la gente le preocupa que la IA pueda salirse de control o caer bajo el control de un grupo reducido de empresas en Silicon Valley, y la gente quiere más transparencia. Aunque me atrevería a decir que incluso solo preocupándose por la competencia y la disminución de ventas, tal movimiento hacia la apertura probablemente hará que el negocio de OpenAI sea aún más grande.
Y en tercer lugar, por supuesto, está la broma sobre el nombre de la empresa OpenAI. A juzgar por cómo se desarrolló todo, la empresa llamada OpenAI era la empresa de IA más cerrada entre los líderes. Esto es gracioso en sí mismo, pero ahora esto ha cambiado. ¿Qué piensas?

651
La mayoría de la gente no entiende en absoluto cómo funciona el reemplazo de personas por IA (o cómo NO funciona). Incluso una aceleración de diez veces de todo lo que hace un especialista no borra automáticamente el trabajo en sí, simplemente reescribe la economía que lo rodea. Cuando el precio efectivo de un entregable se desploma, la demanda latente que solía estar en el estante de repente se vuelve viable. Nunca he conocido a un propietario de producto que piense que sus ingenieros están enviando más funciones de las que necesita la hoja de ruta; La lista de deseos siempre es más larga de lo que permite el número de empleados. Haga que cada característica sea diez veces más barata de construir y no recorte los equipos por un factor de diez: ilumina cada "agradable de tener" que alguna vez pareció inasequible, además de productos totalmente nuevos que nadie se molestó en examinar.
Un estudio reciente de @Microsoft Research sobre el uso de Copilot en el mundo real subraya el mismo punto. Los usuarios vienen en busca de ayuda para redactar códigos o recopilar datos, pero el modelo termina entrenando, asesorando y enseñando, incorporando nuevos tipos de trabajo en una sola sesión. Las profesiones no son monolitos; son paquetes de subprocesos, cada uno de los cuales solo está parcialmente (e imperfectamente) cubierto por los modelos actuales. A medida que evolucionan las herramientas de IA, el alcance del rol evoluciona con ellas, a menudo expandiéndose en lugar de reducirse.
Incluso en un auditor de contratos inteligentes de IA que hemos creado en @NethermindEth, a pesar de su nombre, nos enfocamos en una parte muy específica del proceso: encontrar vulnerabilidades potenciales. Mientras tanto, los especialistas en seguridad usan esto como una herramienta y realizan un trabajo mucho más complejo y multifacético: formular estrategias, validar hallazgos, corregir la IA, agregar contexto implícito, comunicarse con los desarrolladores, descubrir intenciones ocultas y gestionar las expectativas.
Entonces, en lugar de contar qué trabajos "desaparecerán", es más útil preguntar qué problemas valdrá la pena resolver una vez que el costo marginal de resolverlos caiga por un precipicio. La historia sugiere que la respuesta es "mucho más de lo que podemos contratar personal", y eso aboga por un futuro en el que el talento se redistribuya y multiplique, no se vuelva obsoleto.


631
Andrej Karpathy apoya la introducción de un nuevo término relacionado con la "ingeniería de contexto" en el desarrollo de software de IA utilizando LLM.
Y este término ha parecido muy necesario durante mucho tiempo. Cada vez que explico a la gente cómo desarrollamos nuestro Nethermind AuditAgent, uno de los aspectos clave, además de utilizar la experiencia en el dominio (seguridad web3) y utilizar los mejores modelos de IA disponibles (de OpenAI, Anthropic y Google), y herramientas para LLM, es precisamente la "ingeniería de contexto".
A veces hay una expresión "el contexto es el rey", y realmente es cierto. Los LLM, ya sean grandes avanzados o pequeños LLM optimizados, son una herramienta poderosa, pero como cualquier herramienta, si está en las manos equivocadas, obtendrá resultados mucho menos prometedores de los que podría obtener si trabaja con ellos correctamente. Y la gestión del contexto (o ingeniería) es de hecho un área compleja y poco bien descrita que está en constante evolución, y realmente surgió como una extensión del concepto de ingeniería rápida, que ya tiene algunas connotaciones negativas.
En general, Andrej enumeró los principales aspectos relacionados con la ingeniería de contexto (en la segunda captura de pantalla), pero en cada tarea específica, las personas logran excelentes resultados en gran medida a través de prueba y error, cada vez tratando monótonamente de seleccionar los elementos de contexto correctos que realmente se necesitan en esta etapa de resolución de problemas, recopilando puntos de referencia para cada etapa, mirando métricas, dividiendo conjuntos de datos en pruebas, validación, y así sucesivamente.
¿Qué opinas de la "ingeniería de contexto"?

Andrej Karpathy25 jun 2025
+1 para "ingeniería de contexto" sobre "ingeniería de avisos".
Las personas asocian las indicaciones con breves descripciones de tareas que le darías a un LLM en tu uso diario. En todas las aplicaciones de LLM de potencia industrial, la ingeniería de contexto es el delicado arte y la ciencia de llenar la ventana de contexto con la información adecuada para el siguiente paso. Ciencia porque hacer esto bien implica descripciones y explicaciones de tareas, pocos ejemplos de tomas, RAG, datos relacionados (posiblemente multimodales), herramientas, estado e historia, compactación... Demasiado poco o de la forma incorrecta y el LLM no tiene el contexto adecuado para un rendimiento óptimo. Demasiado o demasiado irrelevante y los costos de LLM podrían aumentar y el rendimiento podría disminuir. Hacer esto bien no es trivial. Y el arte por la intuición rectora en torno a la psicología de las personas y los espíritus.
Además de la ingeniería de contexto en sí, una aplicación LLM debe:
- Dividir los problemas en flujos de control
- Empaquetar las ventanas contextuales a la perfección
- Despachar llamadas a LLM del tipo y capacidad adecuados
- manejar flujos UIUX de verificación de generación
- mucho más: barandillas, seguridad, evaluaciones, paralelismo, precarga, ...
Por lo tanto, la ingeniería de contexto es solo una pequeña pieza de una gruesa capa emergente de software no trivial que coordina las llamadas individuales de LLM (y mucho más) en aplicaciones de LLM completas. El término "envoltorio de ChatGPT" está gastado y muy, muy equivocado.
728
Ayer pusimos en producción un nuevo producto: I.R.I.S. (Integrity & Risk Intelligence Scanner), el primer agente de IA en X (antes Twitter) que:
• Acepta un repositorio de contrato inteligente o la dirección de un contrato implementado
• Ejecuta el código a través de nuestra plataforma SaaS AuditAgent, que ya es una solución líder en el mercado utilizada por auditores externos y equipos de desarrollo
• Publica un informe completo de vulnerabilidad sin salir de las redes sociales
¿Por qué?
• Un canal libre de fricción. Los desarrolladores reciben una auditoría en la que ya están hablando de código, sin formularios, sin hilos de correo electrónico.
• AuditAgent bajo el capó. No es solo un "motor de escaneo", sino nuestro servicio insignia que impulsa las auditorías del mundo real.
• Información en ~30 minutos. Triaje perfecto antes de una revisión manual profunda.
• Impulso de la salida al mercado. El agente de Twitter muestra la fuerza de AuditAgent y canaliza a los usuarios a la plataforma completa.
Primeras 16 horas en la línea de tiempo
✨ 2,7 M impresiones
🔥 49 K compromisos
📊 85 % sentimiento positivo (214 tweets)
🛠️ ≈150 tweets compartiendo casos de uso práctico
🔍 33 auditorías exprés
📋 38 454 líneas de código escaneadas
⚠️ 377 vulnerabilidades detectadas
Un apunte personal
Hace exactamente un año me uní a Nethermind con lo que parecía una hipótesis arriesgada: "La IA se convertirá en una parte esencial de la seguridad de los contratos inteligentes, pero solo las herramientas especializadas y nativas del flujo de trabajo ayudarán realmente a los profesionales".
Doce meses después, tenemos dos productos en producción, AuditAgent ( y ahora I.R.I.S. (@UndercoverIRIS) - y un claro impacto en la seguridad de Web3.
Muchas gracias a todo el equipo de @NethermindEth AI y a @virtuals_io. Persistencia + una hipótesis sólida + experiencia combinada = resultados que la industria puede ver.
Seguiremos creando herramientas que aporten seguridad a los desarrolladores en primer lugar, para que la Web3 sea más segura con cada compromiso.

1.09K
Acabo de regresar de AI Summit en Londres, y el panorama de la IA empresarial se ve muy diferente de cerca
3 cosas que me impactaron:
1️⃣ Estanterías de productos abarrotadas.
Cada stand prometía una "plataforma de IA" plug-and-play que se adapta mágicamente a cualquier pila. Pero si caminas por el piso el tiempo suficiente, sigues escuchando el mismo obstáculo: sistemas heredados sin API, datos dispersos, lógica empresarial poco clara. La realidad será brutal para un SaaS de talla única.
2️⃣ Las tiendas de fabricación a medida brillan silenciosamente.
Las agencias que combinan la consultoría de dominio profunda con el desarrollo personalizado rápido tienen una ventaja clara. Pueden caer en el medio desordenado, unir las cosas y enviar algo que realmente se ejecute dentro de la frágil infraestructura de un cliente.
3️⃣ El trabajo a medida es cada vez más barato, no más caro.
Con modelos de generación de código que escriben adaptadores, pruebas y andamios, los desarrolladores sénior ahora organizan en lugar de escribir a mano. Nuestra experiencia en el uso continuado de herramientas de IA dentro de la organización no hace más que confirmarlo.
La comida para llevar
Los ganadores en IA empresarial no serán los agentes "listos para usar" más llamativos, sino los equipos ágiles que pueden co-crear soluciones en tiempo real, guiados por las limitaciones desordenadas de la tecnología heredada.

648
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas