Как повысить точность ответов нейросетей, используя мультиагентный подход
В статье разберём способы, как повысить точность ответов нейросетей, и то, как выглядит мультиагентный подход. Об этом на «Питерском промпте» рассказал Антон Бесщетников, CEO suvvy.ai.

В начале 2024 г. Salesforce опросила 16 000 компаний и получила такой результат:
- почти половина компаний (46%) хотели бы работать с ИИ-агентом для более быстрого обслуживания
- 38% клиентов комфортно с ИИ-агентами, и только 17% комфортно с агентом, принимающим за них финансовые решения
- 72% клиентов говорят, что им важно знать, общаются ли они с агентом ИИ.
При этом основная проблема применения ИИ-агентов — недостаточный уровень точности ответов LLM-моделей.
Уровень точности ответов нейросетей ниже 85% уже критичен для большинства компаний. Поэтому стремление к 95% и выше — необходимый стандарт.
Причины низкого уровня точности ответов
1. Несовершенство классических RAG-технологий (технологий хранения и поиска в базе знаний)
RAG (Retrieval-Augmented Generation) — это технология, которая ищет информацию на основе загруженных данных и создаёт текст с помощью языковых моделей.
Допустим, у нас есть регламент. С помощью RAG-технологии мы помечаем информацию цифрами или векторами. Далее клиент задаёт вопрос. Этот вопрос анализируется в системе, система собирает смыслы и передаёт языковой модели. Модель даёт ответ.
Но такая система может дать сбой. Допустим, у нас производство перегородок. Клиент спрашивает в чате про них, система выдаёт информацию по перегородкам. Но затем клиент задаёт вопрос про монтаж. Система может выдать ответ, который не относится к перегородкам. Например, монтаж труб или других изделий.
2. Неумение LLM работать с большими таблицами
Особенно если в таблице много похожих наименований. Например, в интернет-магазине могут быть разные позиции товара: доска резная 20×40, доска резная 40×60 и т. д. Модели часто путаются в таких данных.
3. Ограниченность контекста (объёма текста)
Новые версии нейросетей увеличивают объём, но всё равно есть ограничения.
4. Невозможность дообучаться «на ходу»
Мы можем обучать нейронку, но сама она обучаться не сможет.
5. Потеря фокуса при больших инструкциях
При больших промптах модель теряет фокус и забывает некоторые важные данные.
6. Высокая стоимость использования
При больших объёмах увеличивается стоимость использования нейронок.
Как повысить уровень точности ответов нейросетей
Можно использовать специализированные RAG-технологии. Но это отдельная тема. Поэтому разберём два других способа.

Использование Google Таблиц
Позволяет получить:
- актуальные цены на товары или услуги
- информацию об остатках товаров
- список актуальных предложений
- динамическую информацию (акции, промокоды).
Но нельзя просто подключить Google Таблицы к LLM. Для получения нужных данных необходимо использовать динамическое создание SQL-запроса к таблице.
Эту технологию в команде Антона назвали Dynamic SQL Generator.
В чём суть: мы обучаем модель создавать SQL-запрос, который накладывается на таблицу. С помощью этого мы получаем из таблицы только нужную информацию.
Пример:

Допустим, клиент задал вопрос о наличии чёрной доски. Модель отвечает ему:

Сокращение контекста с помощью мультиагентности
Мультиагентность — это системы, состоящие из нескольких взаимодействующих агентов.
В мультиагентных системах каждый агент представляет собой автономную сущность. Каждая сущность может:
- выполнять задачи
- взаимодействовать с другими агентами
- принимать решения на основе информации из окружения
- реагировать на изменения в этом окружении.
Разберём на примере. Слева — обычный бот с объёмом текста в 10x.
Справа — мультиагентная система. Есть главный бот со своей ролью. А вызовы функций расчёта цен и работы с заказом вынесены в отдельные боты. Это сокращает объём текста на 40%.

Как это выглядит в сервисе suvvy.ai
Сначала мы создаём действие, с помощью которого можно вызвать бота. Это обычный бот, только подчинённый. Он вызывается, как отдельная функция.

Далее настраиваем бота.


Как это выглядит в диалоге с клиентом:

Если нажать на значок с информацией, можно посмотреть, что происходит внутри бота: вызывается функция, в неё передаются параметры. Получается конкретный запрос, который нужно обработать.
Второй бот обрабатывает запрос и возвращает ответ.

Кейс: крупное HR-агентство
Агентство занимается подбором линейного персонала для Ленты, Сбера, Самоката.
Задачи: масштабирование, увеличение конверсии.
Технологический стек: WhatsApp, Telegram, Авито + amoCRM + Google Таблицы + IT-системы клиентов.
Как происходит процесс поиска сотрудников:

Что было до внедрения ИИ:
- коэффициент конверсии — до 15%
- вовлечённость сотрудников — 100%
- время первого ответа — до 15 мин.
- объём заявок — 60 заявок в день.
Что сделали
Команда Антона составила отдельный промпт для каждой воронки в amoCRM. Каждый промпт учитывает все нюансы сценария. Для экономии бюджета промпты написаны на английском языке. Иногда ChatGPT может неправильно переводить тексты. Поэтому некоторые данные можно добавлять на русском языке.
Пример ответа бота:

Затем боту нужно найти подходящую информацию в Google Таблице. Таблица постоянно обновляется, поэтому реализовали механизм безошибочного поиска. В результате клиенты получали то, что искали.

Для повышения точности ответов использовали мультиагентную систему работы (Smart Bot Networks).
Компания собирает разные виды документов для собеседования, с разными комбинациями: паспорт, медкнижка, ИНН. Или: ИНН, СНИЛС, паспорт.
Если все возможные комбинации были прописаны в промпте или векторном поиске, модель начинала путаться. Она могла выдать данные из другого проекта. Эту проблему не решить на уровне промпта. Поэтому пришлось применять мультиагентный подход.
Команда выделила отдельный кусок с разными комбинациями документов и загрузила его в отдельного бота. У него была одна задача — возвращать список документов по названию проекта.
Так это выглядит при общении с ботом:

Поиск в таблице временных слотов перенаправили на отдельного бота.

Для бронирования слотов в таблице запустили механизм смены статуса в CRM, заполнения полей и оповещения сотрудников.
Когда человек подтверждал, что придёт на стажировку, бот сам передвигал сделку в CRM на следующую ступень. Затем менеджер получал оповещение.
Результаты
Время первого ответа сократилось до 30 сек. Можно быстрее, но лучше использовать специальные задержки, чтобы бот успел объединить все сообщения пользователя в один запрос. Также задержки имитируют поведение человека.
Объём заявок увеличился до 1 000 в день.

Коэффициент конверсии за счёт скорости ответа вырос до 25%.
Вовлечённость сотрудников сократилась до 18,5%. То есть 81% сообщений обрабатывается ботом.
В планах внедрить проверку документов и заполнение карточки, интегрировать систему с API и довести автоматизацию до 95%.
Выводы по мультиагентности
Мультиагентность повышает качество ответов до 95% и выше.
- За счёт уменьшения инструкции основного бота.
- За счёт уменьшения инструкции у подчинённых ботов.
- Чем меньше инструкция, тем выше фокус бота на выполнении поставленных задач.
- Чем выше фокус, тем выше качество ответов.
Отрасли, где лучше всего применяется:
- e-com (приём, обработка заказов)
- онлайн-школы (работа с воронкой, фоллоу-апы)
- производство и услуги
- HR (автоматизация коммуникации с соискателем)
- бьюти-сфера (бот-администратор)
- финансы (банки, МФО и т. д.).
Собираем только качественный образовательный контент для всех участников индустрии: кейсы, обзоры, личные мнения лидеров онлайн-образования. И делимся им с вами.
Подпишитесь на рассылку, мы отправим вам подарок — разбор 12 воронок продаж от Дмитрия Румянцева, которые не вызывают негатива и дают высокую конверсию.