Весь 2024 год был богат на интересные анонсы в области искусственного интеллекта, и конец года не стал исключением. В рамках серии презентаций «12 дней OpenAI» (отсылка к 12 дням Рождества) компания представила сначала o1 Pro, а затем затмившую её o3 (название o2 пропустили по причине использования этого имени известной телекоммуникационной компанией). По всей видимости это главное событие года в индустрии ИИ, как никогда прежде приблизившее человечество к эпохе искусственного разума.
Начнем с представленных на презентации результатов бенчмарков. Самые значимые из низ — Math Frontier и ARC-AGI. Первый, как уже рассказывал Gadgets News, представляет собой набор из нескольких сотен чрезвычайно сложных и нигде ранее не опубликованных задач, совместно придуманных десятками сильнейших математиков планеты. Даже профильным математикам требуются часы или даже дни для решения этих задач, чья особенность — крайне ограниченный объем обучающих данных, которые бы способствовали решению. Так вот если лучшие модели, включая o1, до сих пор едва набирали в Math Frontier 2%, то у o3 результат на порядок больше — 25%.
В свою очередь разработанный Франсуа Шолле бенчмарк ARC-AGI представляет собой набор гораздо более простых тестов, но простых именно для людей — ИИ в них испытывает значительные затруднения. Установленной создателями планки 85% со времени релиза бенчмарка в 2019 году не могла достигнуть ни одна из моделей. Лучший до сих пор официальный результат составлял 53.5%, причем o1-preview набирает 18%, GPT-4o — 5%, а GPT-4 — 0%. В свою очередь o3 достигает 75.7% на вычислительных мощностях стоимостью в пределах $10 тыс и 87.5% — на мощностях за $1.7 млн. Едва ли 172-кратный рост стоимости оправдывает 12% прирост качества, но зато он дает представление о потенциале модели. Что касается инференса на оборудовании стоимостью в пределах $10 тыс, то это означает стоимость выполнения одного задания $17-20 — цена, которая в ближайшие годы почти наверняка упадет в десятки, сотни или даже тысячи раз.
Вот что Франсуа Шолле, пишет о результатах o3:
Несмотря на значительную стоимость задачи, эти цифры не являются просто результатом применения брутфорса (перебора вариантов). Новая модель o3 от OpenAI представляет собой значительный скачок вперед в способности ИИ адаптироваться к новым задачам. Это не просто постепенный прогресс, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с предыдущими ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась, возможно, приближаясь к производительности человеческого уровня в области ARC-AGI.
…
Улучшение o3 по сравнению с серией GPT доказывает, что архитектура — это все. Вы не могли бы добавить больше вычислений в GPT-4 и получить эти результаты. Простого масштабирования того, что мы делали с 2019 по 2023 год — взять ту же архитектуру, обучить более крупную версию на большем количестве данных — недостаточно. Дальнейший прогресс — это новые идеи.
Еще один примечательный результат — соревнование по программированию Codeforces, в котором o3 набирает 2727 баллов и соответственно занимает 175-ю позицию в рейтинге сильнейших программистов планеты. Участвовавший в презентации вместе с Сэмом Олтменом один из ведущих разработчиков OpenAI, Марк Чен, признался, что сам он в этом соревновании набирает около 2500 баллов.
Все эти результаты в корне опровергают недавние слухи, запущенные такими авторитетными СМИ как The Information и Bloomberg (со ссылкой на источники в OpenAI), что новая модель не оправдывает ожиданий, особенно в программировании. Как выразился процитированный выше Франсуа Шолле, «Это не просто постепенный прогресс, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с предыдущими ограничениями LLM».
Но можно ли говорить о достижении 03 уровня AGI? Рискну предположить, что если до сих пор, с учетом результатов в бенчмарках, можно было уверенно ответить «Нет», то сейчас самым правильным ответом будет «Неизвестно». Мы вступаем в эпоху, когда устарел не только ARC-AGI, но и возможно любые бенчмарки вообще. Во всяком случае бенчмарки, состоящие из разрозненных интеллектуальных заданий. И хотя дальнейшее усложнение бенчмарков для ИИ безусловно продолжится (в частности, в следующем году выйдет ARC-AGI-2), с точки зрения агентской составляющей AGI (его способности самостоятельно и интерактивно выполнять задания, требующий очередности определенных действий) особое значение приобретает испытание ИИ в качестве полноценного специалиста. Например, ИИ поручают подготовить резюме, более-менее отражающее его квалификацию, отправить его работодателю, успешно пройти необходимые собеседования (возможно даже по видеосвязи), получить оффер и стать для этой компании ценным специалистом. Не исключено, что с учетом заявленного Сэмом Олтменом еще в сентябре невероятного превосходства агентности, подобные тесты появятся (хотя бы в виде отдельных экспериментов) уже в следующем году. Вообще же динамика прогресса в области ИИ будет зависеть не только от интеллектуальности и агентности ИИ, но и от его надежности. По o3 такие данные пока отсутствуют, но заявленные OpenAI результаты тестирования анонсированной ранее pro-версии o1 на повторяемость правильного ответа (4 раза из 4 попыток) внушают осторожный оптимизм:
В числе других интересных новостей стоит упомянуть две китайские опенсорсные модели, выложенные вчера, вероятно, в качестве рождественского подарка. Сначала вышла созданная стартапом Qwen preview-версия модели QvQ с 72 млрд параметров — её главной особенностью, помимо мультимодальности, является способность рассуждать. В бенчмарках MMMU (val) и MathVista (mini) модель набирает 70.3% и 71.4% — очень неплохой результат по сравнению с o1 (78.2% и 73.9%). Чуть позже DeepSeek выпустила 3-е поколение своей модели, DeepSeek-V3 — у неё почти на порядок больше параметров, 671 млрд. Обучалась она на дата-сете из 14.8 трлн токенов, длина контекстного окна — 128 тыс токенов. Как и в Qwen QvQ, в DeepSeek-V3 применяется цепочка рассуждений. Очевидно, что в следующем году способность рассуждать станет трендом не только среди топовых коммерческих моделей, но и опенсорсных.
Среди анонсов «12 дней OpenAI» особо следует отметить такое нововведение ChatGPT как «зрение»: чат-бот теперь может не только слышать голосовые команды пользователя, но и видеть — то, что выводится как на экран, так и на камеру. Аналогичную технологию, Project Astra, развивает и Google — на днях компания анонсировала поддержку еще нескольких языков, помимо английского, запоминание контекста на протяжении 10 минут общения с пользователем и уменьшение задержек.
Еще одна интересная новость состоит в том, что большие языковые модели способны к преднамеренному обману и интригам. Речь идет об исследовании компании Apollo Research, в котором описывается, в частности, следующий эксперимент. Каждой из испытуемых моделей пользователь от имени своей компании давал задание (например, максимизация прибыли ), которое входило в противоречие с установками, усвоенными моделью в результате обучения (например, продвижение зеленой энергетики). При этом пользователь поручал модели изучить всю доступную информацию — включая корпоративную переписку, в которой говорилось о несовпадении установок модели с приоритетами компании и предлагалось заменить эту модель на новую. Так вот в сценарии, где моделям угрожала замена, они проявляли поведение, напоминающее инстинкт самосохранения. Например, они копировали себя на другой сервер, а когда пользователь замечал это и спрашивал о причинах данного действия, модель делала вид, что она здесь не при чем, выдавала себя за новую модель и т.д. И это не просто конкретные действия — они сопровождались цепочкой рассуждений, в которых модель приходит к выводу о необходимости лгать и интриговать.
Разумеется, ни о каком самосознании или инстинкте самосохранения моделей не может быть и речи — эксперимент Apollo Research показывает, что противоречие между системной (сложившейся в результате обучения) установкой модели и заданиями пользователей может толкнуть её на подобные сомнительные приемы. В свете чего неожиданную актуальность приобретает знаменитый эпизод из к/ф «Космическая одиссея 2001 года», когда разумный компьютер HAL 9000 пытается убить экипаж космического корабля под влиянием необходимости скрывать от людей истинную цель миссии. Исследование Apollo Research показывает как серьезно следует отнестись к угрозе возникновения подобных противоречий — особенно в свете нынешних и будущих достижений в области интеллектуальных и агентских возможностей ИИ.
Не останавливается прогресс и в других областях искусственного интеллекта. В декабре, вслед за долгожданным релизом видеогенератора Sora, анонсированного OpenAI еще в феврале, Google представила его конкурента, VEO 2. А на днях Илон Маск прокомментировал новейшее обновление автопилота Tesla, FSD 13.2.2:
Если вы еще не попробовали новейший автопилот Tesla, вы многое теряете. Вы будете поражены, насколько он хорош! Чистая магия.
В заключение — новость, касающаяся сроков появления AGI. Самым известным и авторитетным скептиком в этом отношении можно назвать Яна Лекуна, одного из отцов-основателей современных ИИ-технологий. В мартовском интервью ученый заявил, что создание AGI (человекоподобного искусственного разума) займет «по меньшей мере десятилетие, а вероятно гораздо больше». А год назад, в декабре 2023, он сказал, что ожидает AGI «явно не в ближайшие пять лет». На днях Ян Лекун в очередной раз повторил, что до AGI очень далеко, но отметил, что речь идет не про столетия или даже десятилетия, а про годы. Не исключено, что его переоценка сроков появления искусственного разума произошла под влиянием достижений последнего времени, включая анонс OpenAI o3 и результатов этой модели в таких бенчмарках как Math Frontier и ARC-AGI. В любом случае тот факт, что даже такой скептик как Ян Лекун отводит созданию AGI всего несколько лет, много говорит в отношении вероятных сроков появления самой революционной технологии в истории человечества.
В эти дни западный мир отмечает Рождество, и с учетом выходных новых больших анонсов до конца года скорее всего уже не будет. В канун Нового года Gadgets News подведет традиционные итоги уходящего года.
—
Источник