luckyea77 (luckyea77) wrote,
luckyea77
luckyea77

Categories:

Google обучила языковую модель с триллионом параметров



Исследователи из Google разработали и испытали методы, позволяющие им обучать языковые модели, содержащие свыше 1,5 трлн параметров. У них получилась крупнейшая на сегодня модель, работающая в четыре раза быстрее, чем предыдущий рекордсмен компании — Т5-XXL. Экспериментальная модель Google почти в 10 раз превосходит по потенциалу и скорости обучения прорывной алгоритм GPT-3 от Open AI.

Параметры — важнейший элемент алгоритмов машинного обучения, особенно если речь идет о языковых моделях. Чем выше количество параметров, тем лучше справляется модель с генерацией текста. К примеру, у GPT-3, одной из самых крупных языковых моделей, 175 млрд параметров, поэтому она может проводить аналогии, создавать рецепты, писать стихи и кодировать.

Масштабное обучение — эффективный способ создания мощных языковых моделей. Простая архитектура, подкрепленная крупными наборами данных и большим количеством параметров, превосходит намного более сложные алгоритмы. Но эффективное, масштабное обучение — крайне ресурсоемкий процесс. Вот почему исследователи из Google разработали метод Switch Transformer, при котором используется только подкласс веса модели, или параметров, которые трансформируют входящие данные внутри модели, сообщает Venture Beat.

Switch Transformer основан на работе различных «экспертов» или моделей, специализирующихся на выполнении различных задач, внутри более крупной модели. Его новшество заключается в эффективном использовании умножения плотных матриц — математических операций, широко использующихся в языковых моделях. В режиме тренировки модели распределяют вес по нескольким устройствам, так что вес возрастает вместе с количеством устройств, но поддерживает поддающуюся управлению память и вычислительную нагрузку на каждом устройстве.

Во время эксперимента они обучили несколько различных моделей с помощью 32-ядерного тензорного процессора на базе данных из 750 Гб текстов, взятых с Reddit, Wikipedia и других источников. И дали модели задачу подставить отсутствующие 15% слов во фразах. По сравнению с менее крупной Switch-XXL новая модель не продемонстрировала «никакой нестабильности обучения», хотя и набрала чуть меньше баллов (87,7 по сравнению с 98,6) в тесте. Разработчики объясняют это непрозрачным отношением между качеством настройки, вычислительными требованиями и числом параметров.

При этом Switch Transformer достиг в 7 раз большей скорости предварительного обучения при том же объеме вычислительных ресурсов. В тесте, где нужно было переводить между более чем 100 различными языками, модель показала четырехкратное увеличение скорости по сравнению с базовой.

В дальнейшем исследователи планируют применять Switch Transformer для решения новых задач, в том числе, включающих работу с текстом и изображениями. Они полагают, что эта модель способна обеспечить преимущества в мультимодальном режиме.

Tags: искусственный интеллект
Subscribe

Posts from This Journal “искусственный интеллект” Tag

promo luckyea77 december 30, 15:00 8
Buy for 10 tokens
По этой ссылке можно скачать информационную базу для программы "1С:Предприятие". С помощью данной базы можно готовиться и сдавать экзамены по темам: - Электробезопасность - Основы промышленной безопасности А.1 - Специальные требования промышленной безопасности: Б 9.31. Эксплуатация опасных…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments