
Нейросеть совершенствует свои навыки с каждым этапом обучения: программы учат самым сложным навыкам — творческим. Например составлять тексты алгоритм уже умеет, с рифмой и без, короткие и длинные, с фабулой и интересным сюжетом. Рассказываем, что может написать ИИ.
Что такое обработка естественного языка?
Обработка текстов на естественном языке — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках.
Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.
Задачи и ограничения
Теоретически, построение естественно-языкового интерфейса для компьютеров — очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным «миром кубиков» и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.
Понимание естественного языка иногда считают AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова «понимать» — одна из главных задач искусственного интеллекта.
Сложности понимания русского языка
Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т. д. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.
-Сложности с раскрытием анафор (распознаванием, что имеется в виду при использовании местоимений): предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.
-Свободный порядок слов может привести к совершенно иному толкованию фразы: «Бытие определяет сознание» — что определяет что?
-В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.
-В речи могут встретиться неологизмы, например, глагол «Пятидесятирублируй» — то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
-Правильное понимание омонимов — ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе «Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (кроме того, что лиса может быть рыжей, а лес — глухим, лес также может быть рыжим (характеристика, в данном случае обозначающая преобладающий цвет листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей, хотя и отчасти компенсируется морфологией — у прилагательных в данном предложении род явно разный).
Популярные задачи:
-Распознавание речи
-Анализ текста:
Извлечение информации,
Информационный поиск,
Анализ высказываний,
Анализ тональности текста,
Вопросно-ответные системы.
-Генерирование текста
-Синтез речи
Общая классификация:
-Категоризация текстов
-Классификация последовательностей символов:
-Распознавание именованных сущностей,
-Определение частей речи слов.
-Распознавание фраз
-Извлечение информации из текста
-Синтаксическая аннотация
-Семантическая аннотация
-Генерирование текста:
-Генерация текста на основе распознанной речи,
-Машинный перевод,
-Обобщение текста.
Как пишущий ИИ использует в работе?
-The Washington Post
В августе 2016 года The Washington Post впервые стало использовать бота Heliograf , который писал короткие новости об Олимпийских играх в Рио-де-Жанейро. Производительность «Гелиографа» впечатляла: бот генерировал новости быстрее, чем редактор успевал поставить задачу, а читатели не отличали автоматические заметки от написанных вручную.
-Bloomberg
Около 30% всех новостей Bloomberg сегодня создаются при помощи модуля Cyborg. Он генерирует их по шаблону: что произошло, когда, где, с кем, кто и как прокомментировал событие. Так экономятся затраты на репортеров, но совсем без них обойтись не получается. Cyborg — просто система автоматизации, а не продвинутый ИИ.
-Reuters
Международное агентство Reuters использует ПО News Tracer. Это инструмент прогнозирования с элементами ИИ, который оценивает появляющиеся в Твиттере истории на основе статистических и репутационных критериев. Бот проверяет свыше 700 млн твитов каждый день.
-The Guardian
Впервые искусственный интеллект вышел за пределы новостных заметок и стал генерировать аналитические статьи. В январе 2019 года The Guardian опубликовала первую историю, написанную искусственным интеллектом ReporterMate. Она была посвящена объемам пожертвований, собранным разными партиями в Австралии. Помимо текста, ИИ сгенерировал графики и составил рейтинг партий по итогам сборов.
Journal information