Знакомьтесь, Хамелеон: Вилка | Группа патч-кордов Цзилинь

Недавние модели больших языков (LLM) для различных задач НЛП добились значительных успехов, яркими примерами являются GPT-3, PaLM, LLaMA, ChatGPT и недавно предложенный GPT-4. Эти модели имеют огромные перспективы для планирования и принятия решений, подобно людям, поскольку они могут решать различные задачи в ситуациях с нулевым шансом или с помощью нескольких экземпляров. Студенты LLM демонстрируют новые навыки, в том числе контекстное обучение, математическое рассуждение и мышление на основе здравого смысла. Однако у LLM есть встроенные ограничения, такие как невозможность использовать внешние инструменты, получать доступ к текущей информации или точно рассуждать математически.

Текущая область исследований сосредоточена на совершенствовании языковых моделей с доступом к внешним инструментам и ресурсам, а также на изучении интеграции внешних инструментов и модульных стратегий «подключи и работай» для решения этих ограничений LLM. В недавних исследованиях LLM используется для создания сложных программ, которые более эффективно решают задачи логического рассуждения и используют мощные компьютерные ресурсы для улучшения способностей к математическому рассуждению. Например, с помощью внешних источников знаний и онлайн-поисковых систем студенты LLM могут получать информацию в режиме реального времени и использовать знания, специфичные для предметной области. Другое текущее направление исследований, в том числе ViperGPT, Visual ChatGPT, VisProg и HuggingGPT, объединяет несколько базовых моделей компьютерного зрения, чтобы дать специалистам LLM навыки, необходимые для решения проблем визуального мышления.

Несмотря на существенные достижения, сегодняшние LLM, дополненные инструментами, по-прежнему сталкиваются с серьезными препятствиями при ответе на запросы из реального мира. Большинство современных методов ограничены узким набором инструментов или полагаются на конкретные устройства для конкретной области, что затрудняет их обобщение для различных запросов. Рисунок 1 иллюстрирует это: «Какой основной убедительный призыв используется в этой рекламе?» 1) Предположим, что рекламное изображение имеет текстовый контекст, и вызовем текстовый декодер, чтобы понять семантику для ответа на этот запрос; 2) найти справочную информацию, объясняющую, что такое «убеждающая привлекательность» и чем различаются разные типы; 3) найти решение, используя подсказки входного вопроса и промежуточные результаты предыдущих этапов; и 4) наконец, представить ответ в соответствии с задачей.

С другой стороны, отвечая на вопрос «Кожа какого животного приспособлена к выживанию в холодных местах», возможно, потребуется обратиться к дополнительным модулям, таким как заголовок изображения для анализа информации об изображении и поисковая система в Интернете для сбора знаний о предметной области для освоить научную терминологию. Исследователи из Калифорнийского университета в Лос-Анджелесе и Microsoft Research разработали Chameleon, готовую к использованию систему композиционного рассуждения, которая использует огромные языковые модели для решения этих проблем. Хамелеон может синтезировать программы для создания различных инструментов для ответа на множество вопросов.

Chameleon — это планировщик естественного языка, основанный на LLM. В отличие от традиционных методов, он использует различные инструменты, такие как LLM, готовые модели компьютерного зрения, онлайн-поисковые системы, функции Python и модули на основе правил, предназначенные для конкретной цели. Chameleon создает эти программы, используя возможности LLM для контекстного обучения, и не требует никакого обучения. Планировщик может определить правильный порядок создания и запуска инструментов, чтобы предоставить окончательный ответ на запрос пользователя, основанный на описаниях каждого инструмента и примерах его использования.

Chameleon создает программы, напоминающие естественный язык, в отличие от более ранних попыток создания программ, ориентированных на предметную область. Эти программы менее подвержены ошибкам, их проще отлаживать, они более удобны для пользователей с небольшими знаниями в области программирования и допускают расширение за счет включения новых модулей. Каждый модуль в программе выполняет, обрабатывает и кэширует запрос и контекст, возвращает ответ, выбранный модулем, и изменяет запрос и сохраненный контекст для предстоящих выполнений модуля. Составляя модули как последовательную программу, обновленные запросы и ранее кэшированный контекст могут использоваться при выполнении следующих модулей. В двух задачах — ScienceQA и TabMWP — они демонстрируют гибкость и эффективность Chameleon.