Языковые модели (LLM): база для искусственного интеллекта

Иллюстрация: Luxe/Shutterstock.com

Наш рассказ о языковых моделях – данных, на базе которых строятся и работают системы искусственного интеллекта. Что это такое? Как они развивались до сих пор? Что достигнуто? Каких достижений ждать впереди?

Отличие мышления человека от машины

В 1950 году в философском журнале ‘Mind’ была опубликована статья под названием «Вычислительные машины и разум». Ее автор, британский криптограф Алан Тьюринг, предложил научной общественности эмпирический тест . Он придумал метод, который, по его мнению, должен определить, способен ли компьютер мыслить как человек. Точнее, можно ли, не видя собеседника, уверенно сказать, кто за ширмой – человек или компьютер?

Испытуемым в подобном тесте должен выступать человек. Он получает ответы в письменной форме, но не знает, кто именно написал ему текущее сообщение. Сможет ли он назвать, опираясь на полученный ответ, с кем он разговаривает в текущий момент? У него есть право на ошибку. Но если он будет ошибаться слишком часто, то сторонний рефери вынесет вердикт, что испытуемый не смог отличить машину от человека.

Прошло почти 70 лет, как появился другой, упрощенный вариант теста Тьюринга. Он был обнародован в 2018 году исследователем Джоном Маккоем в соавторстве с другими учеными из Массачусетского технологического института. Новый тест получил название ‘Minimal Turing Test’, проводился в два этапа и отличался максимально упрощенными правилами. Сначала участникам опроса (в нем приняло участие 1089 человек) предстояло назвать несколько слов, которые, с их точки зрения, могли безошибочно указывать на то, что они были произнесены человеком.

В результате получился довольно разношерстный список, а тoп-10 самых популярных ответов на них выглядел так: «любовь» (12,3%), «сострадание» (3%), «человеческий» (2,8%), «пожалуйста» (2,3%), «милосердие» (1,7%), «сопереживание» (1,6%), «эмоция» (1,3%), «робот» (1,2%), «человечество» (1,0%), «живой» (0,8%).

Второй этап был противоположен первому: из слов, отобранных на первом этапе, были составлены двухсложные конструкции (прилагательное + существительное), а опрошенные, зная, что часть вариантов составлена компьютером, должны были снова выбрать самые «человеческие» варианты.

Казалось бы, что слово «любовь» должно победить снова. Но опрошенные посчитали иначе: «самым человеческим» на этот раз стало слово “poop” (экскременты человека). Как? Почему? Объяснение этого парадокса достаточно логичное: попавшее в топ слово неявно нарушает табу на слова, принятые в обществе. Опрошенные сочли, что человек хочет дать им сигнал, что это именно он, а не компьютер. С их точки зрения, он дополнял слово эмоцией, причем запрещенность оказалась более значимой для выбора, чем очевидное слово «любовь».

Данный эксперимент показал, что одни и те же слова воспринимаются людьми по-разному и восприятие сильно зависит от контента. Если вы хотите разговаривать (и мыслить) как человек, то необходимо дополнять слова контекстом/эмоциями. Когда компьютер сообщает, то он просто передает смысл. А когда говорят (думают) люди, они сопровождают смысл эмоциями, отражающими отношение к передаваемому смыслу.

Мы рассказали об этом в начале нашего рассказа о языковых моделях не только как о феномене. Это открытие совпало с бумом стремительного роста искусственного интеллекта (ИИ), который выразился сейчас в достигнутом уровне создания больших языковых моделей (LLM).

Что такое LLM

Прежде чем рассказать, какие бывают языковые модели, остановимся на следующем вопросе: что такое язык человеческого общения? Интуитивно мы понимаем язык как основу: язык отражает способность человека к самовыражению и общению, он каким-то образом развивается в нем уже в раннем детстве и обогащается на протяжении всей жизни.

Особенностью компьютеров в их нынешнем понимании является то, что они не обладают такой естественной способностью к пониманию друг друга. Поэтому на первых этапах развития ИИ создание языковых моделей рассматривалось как получение некого подобия человеческого языка. Цель формулировалась следующим образом: развить у компьютеров способность к взаимному общению с себе подобными, как это делают люди.

Но уже на старте сразу стало понятно, что для реализации недостаточно создать новые алгоритмы. Необходимо оснастить компьютеры «знаниями». Их и стали называть «языковыми моделями» (Language Models).

Четыре основных этапа в развитии языковых моделей

Многие уже наслышаны о больших генеративных языковых моделях, но не все знают, что это такое и почему именно они стали теперь признаком уровня развития ИИ. Чтобы разобраться, потребуется рассказать, как происходило их развитие.

К настоящему моменту пройдены уже четыре стадии: статистические языковые модели (SLM), нейронные языковые модели (NLM), предварительно обученные языковые модели (PLM) и большие языковые модели (LLM). Расскажем о каждой из них подробней.

Статистические языковые модели

Статистические языковые модели (Statistical Language Models, SLM) получили свое название от статистических методов анализа – отдельного направления теоретической математики, которое активно развивалось в 1980–1990-е годы. Интуитивно было решено создавать языковые модели и обучать их на базе этих методов.

Чтобы придать словам форму и вложить в них смысл, понятный человеку в обыденном общении, их стали собирать в группы и цепочки. Человек пользуется аналогичными приемами: он выражает эмоции через междометия и прилагательные, передает смысл через существительные и предложения, для описания действий используются глаголы.

Для анализа цепочек слов был выбран математический аппарат, известный как «марковские цепи» или «цепочки Маркова». Для анализа исходные тексты стали делить на n-граммы – сочетания из двух (биграммы) или трех (триграммы) слов, для каждой пары рассчитывалась вероятность появления в более длинных словесных цепочках из обучающего текста. Одновременно с вероятностью появления оценивался также контекст. При генерации ответов производилась последовательная выборка n-грамм, опираясь на оценку запроса и его контекст.

Новые ИИ-модели быстро нашли применение для решения логических задач поиска, а также для обработки естественного языка (Natural Language Processing, NLP). Однако сразу выявились и недостатки: высокая зависимость модели SLM от размерности n-грамм.

Очевидно, что чем длиннее их последовательность, тем выше сходимость с оригинальным текстом, на котором производилось обучение. Это приводило к потере новизны создаваемого текста. Пытаясь справиться с возникшими трудностями, были разработаны разные стратегии для сглаживания зависимости, например метод отсрочки, или метод оценки Гуда-Тьюрига. Это помогало повысить качество результата, но не настолько, чтобы процесс считать идеальным.

Языковые модели (LLM): база для искусственного интеллекта. Рис. 1 — Иллюстрация: Red Vector/Shutterstock.com

Нейронные языковые модели

Как показали дальнейшие исследования, собрать осмысленный текст из коротких фраз как из заранее заготовленных кубиков не получается. Поэтому появилась новая концепция представления контекста. Для этого осуществлялось агрегирование связанных распределенных векторов слов. В результате возникли рекуррентные нейронные сети (Recurrent neural network, RNN), где связи между элементами образовывали направленную последовательность. Развитие их математики позволило вести обработку и осуществлять оценку генерируемых текстов.

Для развития методики отбора эффективных характеристик, отражающих смысл слов или предложений, был разработан единый подход к построению нейронных сетей при решении различных задач. Это направление получило название нейролингвистического программирования (Neuro-linguistic programming, NLP). Теоретические идеи, стоящие за НЛП, активно разрабатывались еще в 1970-х годах. Их создатели опирались на допущение, что существует определенная связь между неврологическими процессами, языком (лингвистическое) и паттернами поведения человека (программирование). Они верили, что если научиться использовать эти методы, то можно создать специальные техники, которые откроют необъятные возможности для влияния на людей и достижения желаемых целей. Однако строгих научных доказательств в пользу эффективности НЛП не было найдено. Систематические обзоры указывали, что в основе концепции лежат устаревшие представления об устройстве мозга. Поэтому подход НЛП к межличностному общению, развитию личности и психотерапии в конечном счете был признан псевдонаучным.

Тем не менее разработанные для НЛП идеи помогли инициировать процесс обучения языковых моделей. Это послужило значительным импульсом для развития ИИ. Созданные на этом этапе языковые модели стали называть «нейронными» (Neural Language Models, NLM).

Предварительно обученные языковые модели

Развитие математического аппарата для совершенствования языковых моделей продолжалось. Это привело к созданию новой архитектуры глубоких нейросетей, получившей название Transformer. Новая технология предназначалась для обработки текстов на естественном языке, его перевода и обобщения. Ее важным достоинством стало отсутствие требований к первоначальному упорядочиванию в оригинальных текстах. Это открыло огромные возможности по распараллеливанию процесса обработки. Языковые модели стали доступны для практического использования на существующем ИТ-оборудовании.

Созданные предварительно обученные языковые модели (Pre-trained Language Models, PLM) стали применять на крупномасштабных неразмеченных массивах данных. Получаемые контекстно зависимые представления слов оказались очень эффективными для выполнения типовых задач. Это вдохновило разработчиков на проведение большого количества последующих работ, которые развивали идею «предварительного обучения и тонкой настройки». Достижениями этого этапа стало создание таких архитектур, как CoVe, ELMo, OpenAI, GPT-2 и BERT.

Большие языковые модели

Возможно, вы заметили, что названия предыдущих моделей несли определенный «физический» смысл. В названии нового этапа развития – «Большие языковые модели» (Large Language Models, LLM) – акцент сделан на слове «большие». В чем секрет?

Действительно, именно масштаб исходных данных, на которых проводилось обучение, как оказалось, способен поднять ИИ на новый уровень. Крупные языковые модели нового поколения отражали эту новизну. В ходе исследований было обнаружено, что масштабирование уже известных PLM-моделей ведет к резкому повышению их производительности при выполнении прикладных задач – предварительное обучение как бы брало на себя часть будущей вычислительной нагрузки. Это позволило, работая с LLM, значительно быстрей получать результат.

В результате новизной модели GPT-3 стало то, что по сравнению с GPT-2 в ней резко – в 100 раз – возросло количество используемых параметров: с 1,5 млрд до 175 млрд. Обучение модели GPT-3 проходило на суперкомпьютере Microsoft Azure AI, специально построенном для OpenAI.

Российская компания «Яндекс» создала 100B-параметрическую языковую модель по типу GPT. Ее обучение заняло 65 дней на кластере из 800 видеокарт NVIDIA A100 и потребовало обработки 1,7 Тбайт онлайн-текстов, книг и бесчисленного множества других источников на английском и русском языках. Обновленный ИИ применяется теперь в работе сервиса «Алиса» и для Яндекс-поиска. После закрытия свободного доступа к GPT-3 обновленная языковая модель Yandex 100B YaLM стала самой большой в мире GPT-подобной нейросетью для английского и русского языков, которые доступны в свободном доступе.

Размерность языковой LLM-модели GigaChat, развитием которой занимается «Сбер», составляет 7 млрд параметров (GigaChat Lite) и 29 млрд параметров (GigaChat Pro).

Но развитие LLM в направлении наращивания их масштаба продолжается. Например, LLM-модель PaLM (Pathways Language Model), развитием которой занимается Google Research, имеет размерность 540 млрд параметров. Эта LLM-модель может учитывать данные одновременно на сотнях языков. Она позволяет переходить к решению более сложных прикладных задач.

Вместо послесловия

Мы коснулись только верхушки айсберга развития современных ИИ-систем, поскольку много интересных и важных вопросов осталось за кадром. До сих пор продолжается развитие алгоритмической части ИИ, наращивается масштаб применяемых LLC-моделей, поддержка ИИ находит отражение на доступных аппаратных средствах.

Что будет происходить с ИИ дальше? Куда пойдет развитие? Будет ли это связано с масштабированием для обучения новых языковых моделей? Какое прикладное значение могут иметь созданные LLM? Все эти вопросы ждут своего ответа.

Журнал IT Expert [№ 03/2024] Подписка на журналы

Опубликовано 22.02.2024

Искусственный интеллект AI Машинное обучение

Предыдущая
Интерфейс «сигнал мозга – компьютер» от Neuralink работает

Следующая
Sora и генерация видеоконтента от OpenAI

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30