среда, 22 марта 2023 г.

Что умеет новая языковая модель от OpenAI GPT-4

С момента появления ChatGPT в интернете уже разошлись мемы с вакансией «выключателя», который должен вытащить вилку из розетки, если ИИ внутри модели оживет. Директор по развитию прикладных проектов Института искусственного интеллекта AIRI Манвел Аветисян рассказывает о том, что сейчас умеет новая версия основы популярного бота GPT-4 и как релиз новинки от OpenAI отразится на нашей жизни.

Эволюция языковых моделей

Бурное развитие умных языковых ботов началось с довольно простой мысли: в виде текста можно представить огромное количество задач, а значит, можно научить модели ИИ эти задачи решать. В 2017 году появились трансформерные архитектуры, способные обучаться на больших объемах текстов. Чуть позже ученые совместили обучение с подкреплением (Reinforcement learning, RL, технология, которая позволяет «хвалить» программу за правильные действия и «наказывать» за неправильные) с большими языковыми моделями, такими, как GPT-3 (Large Language Models, LLM). Получился ChatGPT.

Представьте себе игру в шахматы: подкрепление в ней — это результат игры. Компьютерному агенту на основе искусственного интеллекта необходимо научиться делать ходы, которые приведут к победе. Люди способны действовать с подкреплением, удаленным на годы вперед, например, долго и усердно трудиться в школе и университете, чтобы получить первую зарплату. Компьютеру сложно выполнять длинные последовательности действий для достижения итогового результата, и разработчикам приходится учить ИИ «заглядывать вперед» при выборе следующего шага. Исследователи начали обучать модели, способные отвечать на вопросы человека и интегрировать в них огромные объемы человеческой обратной связи.

Среди основных прорывов, полученных исследователями в последнее время, можно отметить:

·       Toolformer, LLM от Meta (признана в России экстремистской организацией и запрещена): исследователи научили большие языковые модели обращаться к внешним инструментам (веб-поиску, переводчику, калькулятору).

·       LLaMA, LLM от Meta: ученые доказали, что объем данных для обучения модели важнее, чем ее сложность. Более легкие по вычислительным ресурсам модели с большими выборками обучающих данных обошли большие модели в качестве решения прикладных задач.

·       ChatGPT на Bing научился указывать источники тех или иных фактов, которые он приводит в ответе на вопрос.

Плюсы и минусы нового движка

GPT-4 — последняя из больших языковых моделей семейства GPT от OpenAI: GPT-2, GPT-3 и GPT-3.5, которая легла в основу первой версии популярного бота ChatGPT. Модель состоит из большого количества нейросетей, которые умеют обрабатывать, понимать, анализировать, интерпретировать и генерировать тексты на естественном языке. Несмотря на то что четвертая версия модели понимает 28 языков, включая малоресурсные валлийский язык и урду (близкий к хинди язык индоевропейской семьи), наилучшие результаты по-прежнему можно получить, используя для создания промптов (так называются фразы-запросы к модели) английский.

GPT-4 прошел проверку эффективности на множестве экзаменов — как академических, так и профессиональных. Порой работы модели превосходили результаты большинства параллельно тестируемых людей. Например, на смоделированном экзамене для адвокатов (Uniform Bar Examination) GPT-4 оказалась среди 10% лучших участников теста, в то время как ChatGPT оказался среди худших 10%. Кроме того, согласно данным технического отчета OpenAI, сгенерированные GPT-4 ответы нравились тестовой группе пользователей в 70,2% случаев чаще, чем ответы GPT-3.5. Впрочем, по словам самих создателей, разница между ответами от двух версий бота может показаться незаметной в процессе работы с интерфейсом.

Наиболее важная и интересная часть свежего релиза — мультимодальность, одновременная работа с разными форматами представления данных. GPT-4 умеет принимать на вход и текст, и изображения. Благодаря этому функционалу пользователь может отправить боту любую зрительную или языковую задачу. В частности, модель генерирует текстовые выходные данные, учитывая входные данные, состоящие из произвольно чередующихся текстов и изображений. В ряде доменов, включая текстовые документы с иллюстрациями, диаграммы или скриншоты, GPT-4 демонстрирует те же возможности, что и при вводе в нее только текста.

Модель может интерпретировать картинки и «понимать» шутки. Разумеется, не как человек в прямом смысле этого слова. Бот анализирует изображение и пытается сгенерировать наиболее ожидаемую от среднестатистического пользователя сети реакцию. Разработчики показали модели пост пользователя Reddit, который поделился с сообществом неоправданно большой зарядкой для мобильного телефона. На вопрос о том, почему фотографии могут быть смешными, модель ответила: «На изображении показана упаковка для адаптера Lightning Cable. Смартфон с разъемом VGA (большой синий 15-контактный разъем, обычно используемый для компьютерных мониторов), подключенный к порту зарядки с небольшим разъемом Lightning (используется для зарядки iPhone и других устройств Apple). Юмор на этом изображении исходит из абсурдности подключения большого устаревшего разъема VGA к маленькому современному порту для зарядки смартфона».

Важной задачей проекта была разработка инфраструктуры и методов оптимизации вычислительных мощностей. Это позволило создателям заранее предсказать определенные аспекты точности GPT-4 на основе моделей, обученных на менее чем 1/1000 вычислительных ресурсов GPT-4.

Несмотря на значительное улучшение качества работы нового «движка» по сравнению с предыдущими версиями, ряд фундаментальных проблем остается нерешенным. GPT-4 не умеет обращаться к внешней памяти, искать информацию в интернете и хорошо считать, а значит, часто «галлюцинирует», то есть очень правдоподобно генерирует неверную информацию. Кроме того, модель по-прежнему не знает ничего о том, что произошло в мире после сбора данных для ее обучения.

На графике можно увидеть оценку знаний разных версий GPT по навыкам обучаемости, знанию технологий, умению писать, представлений об истории, математике, науке, написании кода, выдаче рекомендаций и способности разбираться в бизнесе.

Закрытый «Открытый AI»


В феврале 2023 года OpenAI обнародовал новую стратегию развития и отказался от публикации архитектур своих разработок в открытом доступе. Получить API к «четверке» можно в двух случаях: для исследовательских целей компания предоставляет персональный доступ к модели по заявке в формате очереди, а разработчики могут получить доступ по подписке. Цена платного доступа составляет $0,03 за 1000 токенов-промпта и $0,06 за 1000 токенов результата. И тот, и другой объем равняются примерно 750 словам. Токены — это необработанный текст, например, слово «технологичный» будет разделено на токены «техно» и «логичный». Токены промпта — это части слов, переданные внутрь GPT-4, а токены результата — это сгенерированные моделью ответы. На данный момент доступ к коммерческому использованию модели ограничен для России.

Итак, помимо информации о метриках качества из отчета компании мы знаем, что GPT-4:

·        Это «трансформерная» модель

·       Обучена как на публичных данных из интернета, так и на приватных данных под лицензией создателей

·       Была дообучена (fine-tuned) c помощью обучения с подкреплением от человеческой обратной связи

Информация об архитектуре и размере модели, использованных вычислительных ресурсах, обучающей выборке, протоколе обучения и другие технические характеристики полностью скрыты даже от получающих доступ к модели в исследовательских целях ученых.

Манвел Аветисян
https://www.forbes.ru/

Комментариев нет:

Отправить комментарий