С момента появления ChatGPT в интернете уже разошлись мемы с вакансией «выключателя», который должен вытащить вилку из розетки, если ИИ внутри модели оживет. Директор по развитию прикладных проектов Института искусственного интеллекта AIRI Манвел Аветисян рассказывает о том, что сейчас умеет новая версия основы популярного бота GPT-4 и как релиз новинки от OpenAI отразится на нашей жизни.
Эволюция языковых моделей
Бурное развитие умных языковых ботов началось с довольно простой мысли: в виде текста можно представить огромное количество задач, а значит, можно научить модели ИИ эти задачи решать. В 2017 году появились трансформерные архитектуры, способные обучаться на больших объемах текстов. Чуть позже ученые совместили обучение с подкреплением (Reinforcement learning, RL, технология, которая позволяет «хвалить» программу за правильные действия и «наказывать» за неправильные) с большими языковыми моделями, такими, как GPT-3 (Large Language Models, LLM). Получился ChatGPT.
Представьте себе игру в шахматы: подкрепление в ней — это результат игры. Компьютерному агенту на основе искусственного интеллекта необходимо научиться делать ходы, которые приведут к победе. Люди способны действовать с подкреплением, удаленным на годы вперед, например, долго и усердно трудиться в школе и университете, чтобы получить первую зарплату. Компьютеру сложно выполнять длинные последовательности действий для достижения итогового результата, и разработчикам приходится учить ИИ «заглядывать вперед» при выборе следующего шага. Исследователи начали обучать модели, способные отвечать на вопросы человека и интегрировать в них огромные объемы человеческой обратной связи.
Среди основных прорывов, полученных исследователями в последнее время, можно отметить:
· Toolformer, LLM от Meta (признана в России экстремистской организацией и запрещена): исследователи научили большие языковые модели обращаться к внешним инструментам (веб-поиску, переводчику, калькулятору).
· LLaMA, LLM от Meta: ученые доказали, что объем данных для обучения модели важнее, чем ее сложность. Более легкие по вычислительным ресурсам модели с большими выборками обучающих данных обошли большие модели в качестве решения прикладных задач.
· ChatGPT на Bing научился указывать источники тех или иных фактов, которые он приводит в ответе на вопрос.
Плюсы и минусы нового движка
GPT-4 — последняя из больших языковых моделей семейства GPT от OpenAI: GPT-2, GPT-3 и GPT-3.5, которая легла в основу первой версии популярного бота ChatGPT. Модель состоит из большого количества нейросетей, которые умеют обрабатывать, понимать, анализировать, интерпретировать и генерировать тексты на естественном языке. Несмотря на то что четвертая версия модели понимает 28 языков, включая малоресурсные валлийский язык и урду (близкий к хинди язык индоевропейской семьи), наилучшие результаты по-прежнему можно получить, используя для создания промптов (так называются фразы-запросы к модели) английский.
GPT-4 прошел проверку эффективности на множестве экзаменов — как академических, так и профессиональных. Порой работы модели превосходили результаты большинства параллельно тестируемых людей. Например, на смоделированном экзамене для адвокатов (Uniform Bar Examination) GPT-4 оказалась среди 10% лучших участников теста, в то время как ChatGPT оказался среди худших 10%. Кроме того, согласно данным технического отчета OpenAI, сгенерированные GPT-4 ответы нравились тестовой группе пользователей в 70,2% случаев чаще, чем ответы GPT-3.5. Впрочем, по словам самих создателей, разница между ответами от двух версий бота может показаться незаметной в процессе работы с интерфейсом.
Наиболее важная и интересная часть свежего релиза — мультимодальность, одновременная работа с разными форматами представления данных. GPT-4 умеет принимать на вход и текст, и изображения. Благодаря этому функционалу пользователь может отправить боту любую зрительную или языковую задачу. В частности, модель генерирует текстовые выходные данные, учитывая входные данные, состоящие из произвольно чередующихся текстов и изображений. В ряде доменов, включая текстовые документы с иллюстрациями, диаграммы или скриншоты, GPT-4 демонстрирует те же возможности, что и при вводе в нее только текста.
Модель может интерпретировать картинки и «понимать» шутки. Разумеется, не как человек в прямом смысле этого слова. Бот анализирует изображение и пытается сгенерировать наиболее ожидаемую от среднестатистического пользователя сети реакцию. Разработчики показали модели пост пользователя Reddit, который поделился с сообществом неоправданно большой зарядкой для мобильного телефона. На вопрос о том, почему фотографии могут быть смешными, модель ответила: «На изображении показана упаковка для адаптера Lightning Cable. Смартфон с разъемом VGA (большой синий 15-контактный разъем, обычно используемый для компьютерных мониторов), подключенный к порту зарядки с небольшим разъемом Lightning (используется для зарядки iPhone и других устройств Apple). Юмор на этом изображении исходит из абсурдности подключения большого устаревшего разъема VGA к маленькому современному порту для зарядки смартфона».
Важной задачей проекта была разработка инфраструктуры и методов оптимизации вычислительных мощностей. Это позволило создателям заранее предсказать определенные аспекты точности GPT-4 на основе моделей, обученных на менее чем 1/1000 вычислительных ресурсов GPT-4.
Несмотря на значительное улучшение качества работы нового «движка» по сравнению с предыдущими версиями, ряд фундаментальных проблем остается нерешенным. GPT-4 не умеет обращаться к внешней памяти, искать информацию в интернете и хорошо считать, а значит, часто «галлюцинирует», то есть очень правдоподобно генерирует неверную информацию. Кроме того, модель по-прежнему не знает ничего о том, что произошло в мире после сбора данных для ее обучения.
Закрытый «Открытый AI»
В феврале 2023 года OpenAI обнародовал новую стратегию развития и отказался от публикации архитектур своих разработок в открытом доступе. Получить API к «четверке» можно в двух случаях: для исследовательских целей компания предоставляет персональный доступ к модели по заявке в формате очереди, а разработчики могут получить доступ по подписке. Цена платного доступа составляет $0,03 за 1000 токенов-промпта и $0,06 за 1000 токенов результата. И тот, и другой объем равняются примерно 750 словам. Токены — это необработанный текст, например, слово «технологичный» будет разделено на токены «техно» и «логичный». Токены промпта — это части слов, переданные внутрь GPT-4, а токены результата — это сгенерированные моделью ответы. На данный момент доступ к коммерческому использованию модели ограничен для России.
Итак, помимо информации о метриках качества из отчета компании мы знаем, что GPT-4:
· Это «трансформерная» модель
· Обучена как на публичных данных из интернета, так и на приватных данных под лицензией создателей
· Была дообучена (fine-tuned) c помощью обучения с подкреплением от человеческой обратной связи
Информация об архитектуре и размере модели, использованных вычислительных ресурсах, обучающей выборке, протоколе обучения и другие технические характеристики полностью скрыты даже от получающих доступ к модели в исследовательских целях ученых.
Манвел Аветисян
https://www.forbes.ru/
Комментариев нет:
Отправить комментарий