Нет прорыва — нет премии: как оценивать работу DeepTech-исследователей

Каждый пятый «единорог» — это DeepTech, то есть технологические решения, требующие долгих научных исследований и чаще всего больших вложений. При этом инвесторы все еще с опаской относятся к таким проектам. Причина — в повышенных бизнес-рисках и сложности работы с научными командами: трудно не только подобрать и организовать ученых, но и оценить результаты их работы. А значит, неясно, как прогнозировать сроки проекта и мотивировать сотрудников. Генеральный директор Института AIRI и профессор «Сколтеха» Иван Оселедец разбирает, какими могут быть KPI у таких исследователей на примере ИИ-стартапов.

Отчет или прогресс

В классических стартапах и отделах исследований и разработок (R&D) успех часто оценивается с помощью понятных и прагматичных метрик: количества патентов, числа прототипов, скорости вывода продукта на рынок и процента успешных тестов. Однако в DeepTech все эти показатели не всегда раскрывают реальную картину. В наукоемких проектах, в частности в ИИ-стартапах, огромное количество времени и ресурсов уходит на предварительную работу с данными. И любая привязка к бизнес-метрикам, ориентированным на скорость и объем, с оценкой не поможет.

Не всегда работают и традиционные научные метрики, которые многие пытаются применять, невольно примеряя на себя роль академических организаций. Количество научных статей фиксирует исследовательскую активность. Часто статьи описывают гипотезы, которые не находят применения в бизнесе. Цитируемость может использоваться как показатель, но она скорее говорит о популярности темы, чем о реальном продвижении конкретного проекта.

Наукоемкие проекты — это симбиоз бизнес-показателей и data science метрик, которые зачастую не совпадают. Ключевое, что должна понимать административная команда, несмотря на то что любой бизнес заточен на извлечение прибыли, — значительная доля всех усилий команды регулярно будет уходить на фундаментальные и поисковые исследования. Не на старте, но всегда. Если в классических технологических разработках алгоритм прост и понятен — за НИР (научно-исследовательской работой) следуют НИОКР (научно-исследовательские и опытно-конструкторские работы), все движется поступательно — от TRL-1 до TRL-9 (уровни готовности технологии, согласно одной из метрик), то на переднем крае науки отсутствует гарантия, что последующие исследования не опровергнут саму техническую реализуемость проекта.

Одна из самых распространенных ошибок — наем ML-команды без конкретной бизнес-задачи. В результате такого фальстарта работа превращается в манипуляции с данными «ради данных». Начинать исследовательский аудит в DeepTech-проекте следует с оценки ценности продукта для клиентов, далее переходить к анализу качества и структуры данных. Например, методология CRISP-DM (Cross-Industry Standard Process for Data Mining) начинается с этапа Business Understanding — понимания потребностей пользователей и целей продукта.

Зеленый свет

Для оценки эффективности исследовательских команд в DeepTech важно сосредоточиться на метриках, которые не просто фиксируют результаты, но определяют, какое влияние работа оказывает на бизнес и научное сообщество.

Анализ влияния публикаций на науку через год-два

Вместо учета количества публикаций или самого факта выхода статьи, эффективнее обращать внимание на то, какой отклик она получила в комьюнити спустя год-два после выхода.

Если публикация не просто вызвала широкий резонанс и высокую цитируемость, а сохранила интерес сообщества на протяжении некоторого времени, это уже служит валидацией колоссального труда команды и высокой вероятности успешного технологического трансфера.

Сведение качественных характеристик с количественными

В области искусственного интеллекта дополнительным качественным параметром при работе с количественными характеристиками становятся рейтинги изданий и мероприятий — например, CORE, созданный Ассоциацией компьютерных исследований и образования Австралии. Так, мероприятия ранжируются с помощью букв от C до A, где наиболее престижным для исследователя становится участие в конференциях категории A* — ведущих событиях в своей области. Публикации на базе таких мероприятий — высшая награда, которая, кстати, учитывается и при получении научных степеней.

Протоколируемость каждого шага

Еще один значимый аспект, который особенно важен в DeepTech-среде — системность работы, протоколируемость и прозрачность. Речь идет о том, чтобы каждое действие исследовательской команды было задокументировано и впоследствии могло быть повторено другими участниками проекта. Такой подход делает исследования более понятными для всех заинтересованных сторон. Инвесторы и партнеры могут быть уверены, что вложенные средства идут на заявленную работу, подкрепленную подтвержденными данными.

В крупных компаниях, кстати, есть службы валидации, которых R&D-команды часто опасаются, так как они пытаются воспроизвести результаты исследований. Однако и этого недостаточно. Важно вести бэклог и детальную документацию о проделанной работе. Даже если на первый взгляд все выглядит хорошо, отсутствие системности может указывать на потенциальные проблемы.

Привлечение внешнего аудита

Бывает и нередко, что внедрению новой системы оценки препятствует сама команда Data Science. Решается это с привлечением внешнего аудита. Независимая проверка помогает взглянуть на процессы со стороны и найти зоны роста, которые не всегда видны изнутри. Если мы говорим об ИИ-стартапах, то достаточно взглянуть на модели, их код и способ отслеживания прогресса. Этого уже хватит, чтобы оценить уровень зрелости процессов. Если все разбросано по случайным недокументированным скриптам, обученным на неизвестных данных, или возникают вопросы о происхождении данных и процессе обучения моделей, это свидетельствует о низком уровне организации работы в команде.

Обратная связь с четким сроком на исправление ошибок

Наконец, важно не забывать про грамотную обратную связь. Вместо радикальных мер при недовольстве результатами лучше обозначить проблемы, уточнить ожидания и установить сроки для исправлений. Если проблема находится на уровне организации исследовательского процесса и разработки, а не упирается, например, в потребность менять постановку исследовательской задачи, ее вполне можно решить. Максимум — шесть месяцев, этого срока должно хватить на исправление принципов работы.

Мнение редакции может не совпадать с точкой зрения автора