Ученые МГУ научились выявлять правдивые отзывы в Сети

Их исследование было представлено на Всероссийской конференции «Ломоносовские чтения-2023».

Как сообщается на сайте МГУ им. Ломоносова, ученые факультета вычислительной математики и кибернетики ВУЗа представили результаты анализа методов распознавания автоматически созданных текстов.

Интернет-отзывы оказывают на пользователей Сети огромное влияние. Порой сложно определить, реальный ли человек выразил свое мнение онлайн. После появления ChatGPT и подобных ему систем разработка методов, которые в автоматическом режиме могут проверять правдивость информации, стала как никогда актуальной. Возросла необходимость и разработки методов, позволяющих различать созданные ИИ и написанные человеком тексты.

По словам авторов исследования, на данный момент существует ряд работ по распознаванию автоматически порожденных текстов на английском языке. «Уникальность данной работы состоит в рассмотрении конкретного жанра текста (интернет-отзывов) и применения современных методов распознавания к текстам на русском языке», — отметила ассистент кафедры алгоритмических языков факультета ВМК МГУ Наталья Ефремова.

В качестве метода распознавания реальной письменной речи учеными МГУ была выбрана языковая модель ruRoBERTa, разработанная командой SberDevices специально для обработки русскоязычных текстов. Дополнительно ученые рассмотрели модель на основе LSTM (Long short-term memory, или «Долгая краткосрочная память») — особой разновидности математической модели, способной к обучению долговременным зависимостям. Она не требует значительных мощностей и подходит для задач с большими объемами данных.

Для анализа исследователи сформировали материал в четыре этапа: собрали данные на страницах товаров маркетплейсов (20 тысяч реальных отзывов), дообучили модели ruGPT-3 на полученных отзывах, сгенерировали искусственные отзывы с использованием дообученной модели (10 тысяч искусственных отзывов) и создали сбалансированный набор данных из 20 тысяч отзывов. Эти сведения были использованы для обучения и оценки качества работы моделей LSTM и RoBERTa.

По результатам, модель LSTM распознала автоматически созданные тексты в 82%, модель RoBERTa — 86%.

Ученые отмечают, что модели правильно выделяют отзывы, которые, на первый взгляд, кажутся реальными, при этом короткие отзывы (<40 символов) все еще тяжело «раскусить». «Мы предполагаем, что это связано с распространенностью некоторых общих фраз в отзывах, на которых обучалась модель. Они представляют сложности для распознавания», — подчеркнула ассистент кафедры.

Недавно созданную искусственным интеллектом песню выдвинули на премию «Грэмми». Она претендует на две номинации — «Песня года» и «Лучшая рэп-песня».

Олеся Маевская