Почему RAG не решит проблему галлюцинаций в генеративном искусственном интеллекте

Галлюцинации - это, по сути, ложь, которую рассказывают модели генеративного искусственного интеллекта, - большая проблема для бизнеса, стремящегося интегрировать технологию в свою деятельность.

Поскольку модели не обладают реальным интеллектом и просто предсказывают слова, изображения, речь, музыку и другие данные в соответствии с частной схемой, они иногда ошибаются. Очень ошибаются. В недавней статье в The Wall Street Journal источник рассказывает о случае, когда генеративный искусственный интеллект Microsoft выдумал участников встречи и подразумевал, что конференц-звонки говорили о темах, которые фактически не обсуждались на звонке.

Как я уже писал некоторое время назад, галлюцинации могут быть неразрешимой проблемой с архитектурами моделей на основе трансформаторов сегодня. Но несколько поставщиков генеративного искусственного интеллекта утверждают, что они могут, более или менее, избавиться от них с помощью технического подхода, называемого усовершенствованным поколением с извлечением, или RAG.

Вот как это предлагает один поставщик, Squirro:

В основе предложения лежит концепция усовершенствованных LLM или усовершенствованного поколения извлечения (RAG), встроенная в решение ... [наш генеративный искусственный интеллект] уникален своим обещанием нулевых галлюцинаций. Каждая сгенерированная информация просматривается к источнику, обеспечивая ее правдоподобность.

Вот аналогичное предложение от SiftHub:

Используя технологию RAG и тщательно отточенные большие языковые модели с тренировкой на знаниях, специфичных для отрасли, SiftHub позволяет компаниям генерировать персонализированные ответы без каких-либо галлюцинаций. Это гарантирует увеличение прозрачности, снижение рисков и вдохновляет абсолютное доверие к использованию искусственного интеллекта для всех своих потребностей.

RAG был разработан датасаентистом Патриком Льюисом, исследователем в Meta и Университете Колледжа Лондона, и главным автором статьи 2020 года, в которой этот термин был придуман. Примененный к модели, RAG извлекает документы, возможно, относящиеся к вопросу - например, страницу Википедии о Супербоуле - используя в основном поиск по ключевым словам, а затем просит модель сгенерировать ответы с учетом этого дополнительного контекста.

«Взаимодействуя с генеративной моделью искусственного интеллекта, такой как ChatGPT или Llama, и задавая вопрос, модель по умолчанию отвечает из своей 'параметрической памяти' - т.е. из знаний, хранящихся в ее параметрах в результате обучения на огромных данных из веба», - пояснил Дэвид Уадден, исследователь в AI2, исследовательском подразделении, сосредоточенном на искусственном интеллекте, в негосударственном Институте Аллена. «Но, как и в случае, если вам вероятно давать более точные ответы, если у вас есть справка [как книга или файл] перед вами, то же самое верно в некоторых случаях для моделей».

RAG безусловно полезен - он позволяет присвоить модели сгенерированные вещи извлеченным документам, чтобы проверить их фактичность (и, как дополнительное преимущество, избежать потенциально нарушающего авторские прав пересказа). RAG также позволяет предприятиям, которые не хотят, чтобы их документы использовались для обучения модели - скажем, компаниям в высокорегулируемых отраслях, таких как здравоохранение и юриспруденция - позволить моделям использовать эти документы более безопасным и временным способом.

Но RAG определенно не может остановить модель от галлюцинаций. И у него есть ограничения, о которых многие поставщики забывают.

Уадден говорит, что RAG наиболее эффективен в «знаниево-интенсивных» сценариях, когда пользователь хочет использовать модель для решения своей «информационной потребности» - например, чтобы узнать, кто победил на Супербоуле в прошлом году. В этих сценариях документ, отвечающий на вопрос, вероятно, содержит много из тех же ключевых слов, что и вопрос (например, «Супербоул», «в прошлом году»), что делает его относительно легко найти с помощью поиска по ключевым словам.

Вещи усложняются с «рассуждательно-интенсивными» задачами, такими как кодирование и математика, где сложнее указать в запросе на поиск на основе ключевых слов концепции, необходимые для ответа на запрос, не говоря уже об идентификации того, какие документы могут быть релевантными.

Даже с базовыми вопросами модели могут быть «отвлечены» от нерелевантного содержания в документах, особенно в длинных документах, где ответ не очевиден. Или они могут - по пока неясным причинам - просто игнорировать содержимое извлеченных документов, предпочитая полагаться на свою параметрическую память.

RAG также дорог в терминах аппаратных средств, необходимых для его применения в масштабе.

Потому что извлеченные документы, будь то из веба, внутренней базы данных или откуда-то еще, должны храниться в памяти - по крайней мере временно - чтобы модель могла к ним обратиться. Еще одни затраты - в вычисления для увеличенного контекста, который модель должна обработать, прежде чем порождать свой ответ. Для технологии, уже печально известной своим потреблением вычислительных мощностей и электроэнергии даже для базовых операций, это представляет серьезное соображение.

Это не означает, что RAG не может быть улучшен. Уадден отметил множество текущих усилий по обучению моделей делать лучшее использование извлеченных документов RAG.

Некоторые из этих усилий включают модели, которые могут «решать», когда использовать документы, или модели, которые могут отказаться от операции извлечения, если они считают ее ненужной. Другие фокусируются на способах более эффективного индексирования массивных наборов документов и на улучшении поиска благодаря более лучшим представлениям документов - представлениям, выходящим за рамки ключевых слов.

«Мы довольно хорошо умеем извлекать документы на основе ключевых слов, но не очень хорошо умеем извлекать документы на основе более абстрактных концепций, например, метода доказательства, необходимого для решения математической задачи», - сказал Уадден. «Для построения представлений документов и техник поиска, способных идентифицировать релевантные документы для более абстрактных задач генерации требуется исследование. Я думаю, что на данный момент это вопрос открытый».

Таким образом, RAG может помочь уменьшить галлюцинации модели, но это не ответ на все проблемы галлюцинаций искусственного интеллекта. Остерегайтесь поставщика, пытающегося утверждать обратное.