Искусственный интеллект по своей сути имеет недостатки. Не из-за злого умысла или чего-то подобного, а потому что он моделирует реальность, а реальность является вероятностной. Истина становится тем, что решают веса. Это проблема больших языковых моделей (LLMs), они просто предсказывают следующий токен. Следуя линейным паттернам для запросов, они сопоставляют, распознают, отражают ответы, которые подходят. Вы запрашиваете три элемента; он дает четыре. Почему так? Включается смещение параметрических знаний: сильные обучающие данные подавляют слабые запросы, смешивая источники, пока модель не начнет верить в свое собственное сжатие мира. Вы когда-нибудь запрашивали ИИ и получали ответ: «Я не знаю»? Это редко или, возможно, никогда не происходило. Потому что такая концепция им не известна. Они, кажется, знают все, даже в области, выходящей за пределы их компетенции. ИИ разрабатывает систему на основе принципов нейроморфных вычислений, которая имитирует физический механизм человеческой памяти и сомнений. Сложные запросы обычно становятся жертвами таких обстоятельств – они встречаются с удивительными галлюцинациями. Почему? >> Накопление ошибок в его действиях >> Отсутствие структуры проблемы >> Неподходящий контекст отвлекает @SentientAGI имеет решение - ROMA [Рекурсивный Открытый Мета-Агент] → Оркестратор. В игре долгосрочных задач структура важнее интеллекта. ROMA понимает это, поэтому принимает рекурсивно-иерархическую цепочку команд, которая поддерживает поток контекста. Как работает ROMA - финальный босс для решения долгосрочных задач? ROMA предоставляет агентам рекурсивную структуру – иерархическое дерево задач, которое контролирует, как течет контекст. Как только поток контекста нарушается, врывается анархия. Поэтому ROMA обязана управлять потоком контекста. Чтобы эффективно справляться с этим, ROMA; Разделяет и декомпозирует задачи на отдельные подагенты, известные как узлы, особенно задачи, которые она считает сложными. Давайте назовем ROMA менеджером ИИ, который управляет другими ИИ. В простой схеме вот структура: Родительские узлы: высокоуровневые агенты, которые получают вашу сложную цель. => Они разбивают ее на подзадачи и передают их дочерним узлам (более простым агентам/инструментам). => Дочерние узлы решают свою часть, отправляют результаты обратно родительским узлам. => Родительские узлы агрегируют решения и комбинируют их в окончательный ответ. Запрос решен! Четыре типа узлов, которые управляют системой ROMA: >> Атомизатор – Определяющий узел. Оценивает задачу. Определяет, достаточно ли она проста для выполнения? Или требуется декомпозиция? >> Планировщик – Если задача требует декомпозиции - разбивает сложные цели на подзадачи. Каждая подзадача становится дочерним узлом. Задачи могут выполняться последовательно (когда зависимы) или параллельно (когда независимы). >> Исполнитель – Выполняет работу. Вызывает инструменты, агентов, API. Передает выходные данные вверх или вниз по дереву по мере необходимости. >> Агрегатор – Собирает результаты от дочерних узлов, проверяет согласованность, синтезирует окончательный ответ. Вот наглядная иллюстрация 👇 Запрос: "Сколько фильмов с бюджетом более $350M не стали самыми кассовыми в своем году выпуска?" Процесс ROMA: 1/ Атомизатор проверяет - Определяющий узел. Слишком сложно для одного шага? Входит Атомизатор. 2/ Планировщик. Цель слишком сложна? Входит планировщик, декомпозирует: Подзадача 1: Найти все фильмы с бюджетом более $350M (названия, бюджеты, годы) Подзадача 2: Найти самые кассовые фильмы по годам Подзадача 3: Перекрестная проверка и фильтрация 3/ Исполнители выполняют каждую подзадачу (поиск API, модели извлечения) 4/ Агрегатор синтезирует: чистый список фильмов, соответствующих критериям. Кроме рекурсивных формул узлов ROMA, добавлен дополнительный уровень ясности для пользователей и строителей. Человек в цикле = вмешательство пользователя. Встроенный механизм обратной связи, который позволяет пользователям без разрешения проверить условия своего запроса. Это происходит сразу после этапа планирования. "Я нашел эти факты. Они верны? Я спланировал эти подзадачи - соответствуют ли они тому, что вы хотите?" Это позволяет пользователю исправлять, редактировать или добавлять контексты перед тем, как агент продолжит.
Отслеживание этапов - Для разработчиков Для разработчика, который создает или отлаживает агента. Отслеживание этапов раскрывает внутреннее рассуждение: >> Какой ввод получил этот узел? >> Какой вывод он произвел? >> Где контекст был потерян или искажен? Разработчик использует эту прозрачность для: >> Диагностики мест, где происходят сбои. >> Уточнения подсказок на конкретных узлах. >> Замены неэффективных агентов/инструментов. Эта функция помогает пользователям ловить ошибки в реальном времени, а разработчикам исправлять системные проблемы на архитектурном уровне. Использование в реальном мире Поиск ROMA в качестве доказательства концепции, использующего всю архитектуру ROMA с его SEAL-0, тест для сложного многопоточного рассуждения с максимальной точностью 45.6% (лучший в своем классе), предыдущий лучший результат (Kimi Researcher): 36%, Gemini 2.5 Pro: 19.8%, лучший открытый конкурент: 8.9%.
1,89K