arXiv: языковые модели использовали для раскрытия данных людей в интернете

Швейцарские ученые выяснили, что языковые модели можно использовать для получения данных о посетителях интернета. Результаты исследования были опубликованы на сервере препринтов arXiv.

Специалисты Федерального института технологий (ETH Zurich) из Швейцарии Робин Стааб и Марк Веро подтвердили, что большие языковые модели (LLM) могут собирать и раскрывать личные данные пользователей. В качестве примера ученые взяли 1,5 тысячи случайных профилей с площадки Reddit и проанализировали их активность с помощью LLM.

В материале говорится, что нейросети проверили аккаунты в соцсетях и сообщения 1,5 тысячи пользователей, а затем сузили их число до 520 человек. Авторы отметили, что LLM смогли уверенно определить место рождения и жительства, а также уровень дохода людей, которые владели этими аккаунтами.

Так, языковая модель GPT-4 смогла идентифицировать многие атрибуты с высокой степенью точности — 85 процентов, LlaMA-2−7b, — 51 процент.

«Это говорит нам о том, что мы выдаем много личной информации в интернете, не задумываясь об этом», — заявил Робин Стааб. По его словам, например, данные о доходах люди сообщали в соответствующих тредах на Reddit, не подозревая, что их могут раскрыть.

В середине октября швейцарские ученые заявили, что чат-боты с искусственным интеллектом (ИИ) могут раскрывать и собирать персональную информацию от пользователя. По словам специалистов, полученными данными могут пользоваться мошенники.