Создать контент, который привлечет внимание в социальных сетях, защитить себя от мошенников или распознать дипфейк — это только несколько направлений использования ИИ-алгоритмов. Никита Орлов, Head of Moscow AI Lab PicsArt, рассказал о том, как работают модели генерации естественного языка, чем могут быть опасны чат-боты и как искусственный интеллект развивает креативность.
Мы уже привыкли к словосочетанию «искусственный интеллект», к тому, что смартфон или телевизор предлагает нам фильмы или музыку, которые нам понравятся, а холодильник или умная колонка Alexa напоминает о том, что необходимо купить молоко или скоро начнется тот самый матч, который недавно обсуждали с друзьями.
Но это не значит, что возможности технологии исчерпаны или ограничены только простым бытом. Пандемия вызвала новый скачок в развитии ИИ и алгоритмов машинного обучения (ML), в том числе из-за резко изменившихся экономических условий и привычек людей. Потребление медиа резко возросло: помогла в этом социальная изоляция. Все это потребовало более персонализированного взаимодействия с клиентами, СМИ и сферой развлечений (M&E). Например, Netflix с помощью ИИ-алгоритмов смог не только сохранить качество потоковой передачи, но и существенно ее улучшить: платформа прогнозирует будущие потребности зрителей и размещает ресурсы в стратегически важных местах расположения серверов. За счет предварительного размещения видеоресурсов ближе к подписчикам пользователи могут транслировать высококачественное видео даже в часы пик. Но, безусловно, возможности искусственного интеллекта намного шире и практически не имеют границ: от передовых систем квантовых вычислений и медицинской диагностики до бытовой электроники и умных персональных помощников. Если сомневаетесь, спросите об этом «Алису» или Siri.
Эксперты считают, что 80% технологий, которые будут разработаны в ближайшие годы, будут основаны на ИИ-алгоритмах и ML. Количество и разнообразие приложений искусственного интеллекта продолжают расти, а исследователи и ученые постоянно находят новые способы их использования. Согласно исследованиям, уже сегодня 77% устройств, которые мы используем в жизни, имеют встроенный искусственный интеллект.
Распространение ИИ происходит быстрыми темпами как на уровне микросхем, так и на уровне программного обеспечения. Причем оба направления тесно связаны друг с другом. Такие производители, как NVIDIA, Intel и Qualcomm, активно улучшают «железо», что делает ИИ-системы более быстрыми и сложными. Это приводит к большей демократизации ИИ. Алгоритмы искусственного интеллекта могут применять все больше разработчиков ПО и корпоративных ИТ-сотрудников при работе с данными. Это уже отмечают многие поставщики облачных услуг: AWS, Azure, Google, Oracle и IBM. Они встраивают и расширяют свои предложения ИИ для развертывания общедоступных и гибридных облаков. В конечном итоге это означает большую доступность вычислительной мощности, фреймворков и алгоритмов, необходимых для применения ИИ ко всему: от умного динамика до мобильного устройства и программного обеспечения для корпоративных продаж и планирования.
Как ИИ работает с текстами и почему он помогает пожилым людям
Генеративные модели, работающие на основе разговорного ИИ, в эпоху пандемии стали как никогда востребованы. Причина проста — жизнь и работа на удаленке вызвала у людей запрос на персонализацию при использовании цифровых ресурсов. Такой опыт до недавнего времени мог создать только человек. Теперь ему на смену пришли чат-боты и технология обработки естественного языка (NLP).
Недавний отчет ResearchandMarkets показал, что глобальный рынок разговорного ИИ, как ожидается, вырастет с $4,8 млрд в 2020 году до $13,9 млрд в 2025-м.
Технология NLP позволяет имитировать человеческий разговор. А чат-боты, работающие на ее основе, сегодня один из самых востребованных способов персонализации и оптимизации расходов: их внедрение позволяет многим предприятиям сократить затраты до 90%. Но самая главная ценность разговорного ИИ состоит в том, что он обеспечивает персонализированное общение. Его можно обучить многоязычию или даже оказывать эмпатичную поддержку пользователю. Интеллектуальные чат-боты могут, например, помочь пожилым людям справиться с одиночеством. Осмар Зайане, эксперт по искусственному интеллекту из Университета Альберты, например, руководил проектом, цель которого заключалась в разработке чат-бота, который может имитировать динамичный разговор и обеспечивать социальное удовлетворение для пожилых людей, испытывающих одиночество.
Одна из самых эффективных языковых моделей — Transformer. В Google активно экспериментируют с использованием этого метода генерации текста. В начале этого года компания объявила, что ей удалось обучить модель, содержащую 1,6 трлн параметров. В апреле 2021 года рекорд Google побила исследовательская группа китайской компании Huawei, заявившая о создании китайского эквивалента GPT-3: модель на 750 Гб, получившая название PanGu-Alpha, содержит до 200 млрд параметров — на 25 млн больше, чем GPT-3, — и была обучена на 1,1 Тб электронных книг, энциклопедий, новостей, социальных сетей и веб-страниц.
Метод «редко активируемого», который применили в своих моделях Google и Huawei, объединяет несколько моделей внутри более глобальной, а также позволяет встроить стробирующую сеть, которая и решает, к какой модели обратиться в каждом конкретном случае.
Во время эксперимента исследователи ставили перед обучаемыми моделями задачу предсказывать слова в отрывках. При этом в тексте отсутствовало порядка 15% слов. Правда, в Google не отрицают, что использование ИИ для генерации текста все еще не до конца приспособлено к реальному миру. Прежде всего, из-за наличия предубежденностей и различных видов ксенофобии, которые вызывают у искусственного интеллекта стереотипность мышления. Например, ИИ-модель может поставить рядом со словом «женщина» прилагательное «непослушная» или посоветовать пациенту убить себя, как это было во время эксперимента французской компании Nabla.
Модель GPT-3, появившаяся в прошлом году, успешно справилась с тем, что раньше считалось исключительно человеческим фондом работы — она написала статью для The Guardian, в которой рассказала, почему ИИ не угрожает человечеству, а также научилась переводить тексты, отвечать на вопросы, сочинять стихи и прозу.
«Сбер» применил аналогичную методику для обучения языковой модели для своего ассистента. Модель обучали на русской литературе, дополняя ее знания датасетом с диалогами. Кроме того, в ассистента Джоя зашит механизм ранжирования, позволяющий ему выбирать наиболее интересные ответы. Причем Джой не выбирает заранее заготовленные реплики, он в режиме реального времени строит фразы. Поэтому общение с ним выглядит похожим на общение с человеком.
Где уже активно применяют алгоритмы искусственного интеллекта
Как ИИ помогает человеку создавать контент
ИИ-алгоритмы помогают человеку развивать свои таланты, креативность. То, в чем всегда упрекают машинные модели, — это в отсутствии возможности создать то, что не может сделать человек. Зато они легко позволяют человеку расширить свой простор для фантазии. В интернет-пространстве пользователи сейчас думают о том образе, который они преподносят людям, о контенте. Чтобы собрать как можно больше подписчиков, нужен качественный продукт, не похожий ни на что, и в то же время характерный для автора. В PicsArt мы активно применяем ИИ, чтобы пользователи могли ни в чем себя не ограничивать, работая с изображениями. Алгоритмы помогают нам вносить сложные изменения — например, изменять фон, удалять лишние объекты, улучшать качество изображений и менять их стиль. Это также позволяет нам улучшить общий пользовательский опыт.
Все метаданные, которые мы собираем, используются для непосредственного улучшения взаимодействия с пользователем. Это благоприятный цикл: обезличенные с соблюдением всех законов о персональной информации данные пользователей помогают улучшить наш продукт, лучший продукт увеличивает использование, а более активное использование генерирует больше данных, делая наш ИИ еще умнее. Этот цикл необходим для масштабного роста бизнеса, подобного нашему.
Кроме того, ИИ помогает пользователям PicsArt упростить их работу: для этого в сервисе реализованы системы поиска контента по тегам, рекомендации стикеров и поиск похожих изображений, который подбирает фото по самым часто встречающимся цветам или по описанию сюжета на изображениях. Есть модели, которые просто оценивают фотографии на похожесть.
Если говорить непосредственно о необычных способах работы с изображениями, то, конечно, это популярные сейчас обработки — превращение фото в мультик или аниме, наложение эффектов и визуальных решений, таких как Canvas, Sketch effect, Style transfer, Upscale или улучшение изображения по техническим и художественными критериям. Цель в любом случае одна — создать контент, который привлечет больше внимания.
Пользователям нравится, что они могут с помощью простых для использования инструментов делать из своих фотографий картины, похожие на работы великих художников. По сути, стать диджитал-художниками. Но и за этим стоит работа моделей глубокого обучения.
Для того, чтобы объяснить, как создаются такие модели, можно привести аналогию. Представьте себе ситуацию, когда вам дают две картинки: ваше фото и картину художника, а затем просят нарисовать фото, но при помощи красок и цветов с картины. Как бы вы это делали? Я бы, например, попробовал сделать набросок карандашом, а потом попытался раскрасить его в стиле художника, но при этом не забывая про сам набросок.
Один из арт-эффектов PicsArt — Canvas — на основе ИИ-алгоритмов подбирает к загруженной пользователем фотографии известную картину или скульптуру времен Античности, Средневековья или Ренессанса. С помощью технологии распознавания лиц арт-эффект создает сдвоенное изображение человека и произведения искусства. Для создания Canvas было проведено свыше 6 000 экспериментов с углом наклона и формами лица, чтобы добиться оптимального сочетания элементов. Для обучения нейросети потребовался датасет с более чем 2 000 произведений искусства.
Искусственный интеллект помогает и профессиональным фотографам, которым приходится обрабатывать сотни фотографий. ИТ-гигант Adobe в своем продукте Sensei использует движок на базе искусственного интеллекта. Он способен анализировать фотографии и сравнивать их с базой данных из тысяч профессионально отредактированных изображений. На основе этого анализа он грамотно рекомендует наиболее подходящие варианты редактирования и корректировки для вашего снимка.
Фоторедактор Luminar AI также использует ИИ, что видно прямо из его названия. Правда, некоторые пользователи считают подход редактора чересчур автоматизированным, но инструменты редактора, по заявлениям разработчиков, позволят ретушировать лица без трудных и требующих усидчивости операций, добавлять погодные условия на фото и подстраивать под них цвета и освещение. Модель Composition AI автоматически выравнивает изображения и предлагает кадрирование на основе рекомендаций по композиции и отзывов профессиональных фотографов.
Как ИИ определяет, что фото или видео — дипфейк
ИИ-алгоритмы породили дипфейки и теперь же сами с ними борются. Это направление — одно из приоритетных в кибербезопасности. Использование лиц или голосов топ-менеджеров — новый вид мошенничества. Но, в отличие от сложных технологий, таких как программы-вымогатели, атаки с дипфейками опираются на социальную инженерию: они полагаются на обман. По данным ZDnet, средний убыток по жалобе на такие атаки составляет $75 000. Убыток от вредоносного ПО на одну жалобу в среднем составляет $4 400. Вот почему исследователи из Центра будущих преступлений Дауэса при Университетском колледже Лондона оценили дипфейки с имитацией аудио- и видеоизображения человека как наиболее опасную криминальную угрозу, связанную с искусственным интеллектом.
История действительно играет злые шутки с разработчиками ИИ. Маниш Агравала из Стэнфорда два года назад участвовал в разработке технологии синхронизации губ, которая позволила видеоредакторам практически незаметно изменять слова говорящих. Инструмент мог легко вставлять слова, которые человек никогда не говорил, даже в середине предложения, или удалять слова, которые он сказал. Для невооруженного глаза и даже для многих компьютерных систем все выглядело органично.
Но эта технология создала огромные возможности для мошенников, политического шантажа и преступлений. Например, в России мошенники создали deepfake-копию основателя Flocktory и Dbrain Дмитрия Мацкевича. В течение почти получасового видео deepfake-Мацкевич рассказывал о платформе с новой системой заработка. Разумеется, домен, на который вела ссылка в этом видео, принадлежал киберпреступникам.
Поэтому спустя год после окончания разработки технологии синхронизации губ Агравала представили ИИ-алгоритм, умеющий обнаруживать дипфейки на видео. Программа точно определяет более 80% подделок, распознавая мельчайшие несоответствия между звуками, издаваемыми людьми, и формой их рта.
Но, по словам Агравала, долгосрочного технического решения для поиска и идентификации дипфейков не существует. Технологии по их созданию также не стоят на месте: уже сегодня при наличии достаточного количества образцов изображения лица и голоса человека создатель дипфейк-видео может заставить человека «сказать» что угодно.
Инструмент Агравала работает на основе ИИ-алгоритма, который ищет несоответствия между «виземами», или формами рта, и «фонемами», фонетическими звуками. В частности исследователи смотрели на рот человека, когда он издавал звуки «B», «M» или «P», потому что почти невозможно издать эти звуки, не закрыв губы плотно.
ИИ-алгоритмы продолжат активно развиваться, предлагая пользователям цифровых сервисов все больше возможностей: начиная от обеспечения безопасности и повышения качества медицины до занятий творчеством и голосовых помощников. Внедрение ИИ будет идти все активнее, а рынок развиваться.
В прошлом году OpenAI дал самый большой скачок в обработке естественного языка. Однако эта модель искусственного интеллекта требовала огромного количества вычислительных ресурсов. Microsoft планирует помочь OpenAI совместными усилиями использовать суперкомпьютеры компании для создания еще более мощных и надежных моделей ИИ. Скорее всего, больший упор будет сделан на ИИ, который также поможет оптимизировать и снизить энергопотребление этих требовательных к данным машин.
Google DeepMind, AI for Good by Microsoft, Facebook AI, Intel University Research & Collaboration Office (URC), NVIDIA AI и OpenAI — это лишь некоторые из самых известных компаний и организаций, которые проводят исследования в области ИИ. Они и помогут решить людям многие проблемы, связанные со здоровьем, бедностью, образованием, окружающей средой и всем остальным, что касается нашей жизни.
Источник
Journal information