«Впервые искусственный интеллект соревновался в грамотности с человеческим в рамках задачи диктанта, и создатель “Писца” (системы ИИ — прим. ТАСС) предполагал, что положительной оценки тот не получит — скорее всего, система допустит минимум орфографических ошибок, однако с расставлением знаков препинания вряд ли справится. Был сделан вывод: в тех местах, где “Писец” все слова услышал верно, он написал диктант хорошо — на границе между тройкой и четверкой. Такого результата его разработчики не ожидали», — говорится в сообщении.
Открытая система «Писец» продемонстрировала хорошие знания грамматики, но допустила ошибки в словах, которые услышала неверно. Разработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему.
Проверяла диктант, написанный искусственным интеллектом, старший преподаватель кафедры источниковедения литературы и древних языков Гуманитарного института НГУ Людмила Буднева. По ее словам, из 276 слов диктанта он пропустил шесть, пять из которых стояли в конце предложения, причем в этих случаях он не ставил точку, но следующее предложение начинал с заглавной буквы. Еще семь слов им было услышано неверно. «Например, вместо “наивысшего” искусственный интеллект написал “наявившего”. Другой пример словотворчества — “кальиончатых” вместо “клеенчатых”. Встретилось и неверно услышанное выражение “Читай — не хочу”. Вместо него написано “Считай, не хотите”, свидетельствующее и о проблемах с грамматикой», — пояснила Буднева.
Также у ИИ обнаружились проблемы в написании окончаний — «синями» (вместо «синими») и «портрет … гимназисткЕ» (правильно: «портрет … гимназистки»), что уже засчитывается за орфографическую ошибку.
О результатах
Один из разработчиков системы научный сотрудник Лаборатории прикладных цифровых технологий Иван Бондаренко сообщил, что результаты работы «Писца» оказались выше, чем прогнозировалось. «Изначально он разрабатывался год назад для автоматического стенографирования звукозаписей интервью или защит диссертаций. Соответственно, даже 20−30% ошибок в расшифрованных текстах — это уже тот уровень, который позволяет человеку гораздо быстрее подготовить чистовой текст стенограммы, чем если бы он писал его “с нуля”, прослушивая запись полностью самостоятельно. Но для диктанта 20% ошибок — это неприемлемо, это двойка. Поэтому в последнюю неделю перед “Тотальным диктантом” мы занимались адаптацией “Писца” к специфике диктанта, а также вносили в него принципиальные улучшения, основанные на результатах наших исследований за последний год», — пояснил Бондаренко.