Тестирование сервиса начнется в 2024 году, сообщила пресс-служба вуза.
Разработка позволяет получать семантические векторные представления (эмбеддинги) научных текстов на русском языке для решения таких прикладных задач как поиск и классификация научных данных, а также извлечение из массивов текстов определенных терминов. Нейросеть и набор тестовых задач (бенчмарк) опубликованы в открытом доступе. Данные для проекта предоставил, в частности, портал eLibrary.
«Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам. Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется уже в начале следующего года», — сообщил руководитель междисциплинарной группы проекта академик Алексей Хохлов, чьи слова приводит пресс-служба МГУ.
Работа проведена в рамках гранта междисциплинарной научно-образовательной школы МГУ «Математические методы анализа сложных систем». Опубликованная модель станет первой в планируемой авторами линейке. На следующих этапах они намерены создать модели большего масштаба для совершенствования результатов работы нейросетей.