В научных статьях обнаружены тысячи поддельных ссылок от ИИ
Специалист по информатике Гийом Кабанак получил уведомление от Google Scholar о цитировании своей работы в статье по стоматологии.
Это выглядело странно само по себе, но дальше — хуже: он не смог узнать ни саму ссылку, ни публикацию.
«Я был очень удивлен, увидев, что не могу распознать свою собственную ссылку», — говорит он.
Указанный DOI, то есть уникальный цифровой идентификатор научной работы, не вел к реальному тексту. Кабанак заподозрил, что ссылка была сгенерирована искусственным интеллектом — и оказался не один.
Масштаб проблемы оказался неожиданным
Исследование, опубликованное в Nature, основано на анализе тысяч научных публикаций показывает, что ситуация быстро выходит за рамки единичных случаев.
Ученые все чаще используют языковые модели для поиска литературы, написания текстов и оформления библиографий. Но такие инструменты могут «галлюцинировать» — генерировать правдоподобные, но несуществующие данные.
Анализ почти 18 тысяч статей на конференциях по информатике показал резкий рост проблемных ссылок. Если раньше их находили примерно в 0,3% работ, то теперь — уже в 2,6%. В других выборках показатель достигает 6%.
Десятки тысяч публикаций под вопросом
Совместный анализ редакции Nature и компании Grounded AI охватил более 4000 научных публикаций от крупных издателей.
Ручная проверка показала, что в большинстве подозрительных работ действительно есть ссылки на несуществующие исследования. Если экстраполировать результаты, речь может идти более чем о 100 тысячах публикаций с недействительными ссылками только за один год.
При этом сами исследователи признают — это приблизительная оценка, и реальный масштаб может быть выше.
Как выглядят фальшивые ссылки
ИИ редко выдумывает все полностью. Чаще он комбинирует реальные элементы — имена авторов, части названий, журналы.
В результате получаются так называемые «цитаты Франкенштейна». Они выглядят убедительно, но не ведут ни к одной реальной работе.
«Человеку это кажется реальным, но на самом деле это не ссылка на реальный объект», — отмечают разработчики инструментов проверки.
Ошибки есть даже в «настоящих» источниках
Даже когда ссылка ведёт к реальной статье, в ней часто есть ошибки — неправильный DOI, искажённое название или неверные авторы.
В одном эксперименте почти 20% ссылок, сгенерированных ИИ, оказались полностью вымышленными. Еще около 45% содержали неточности.
«Речь идет уже не просто о неточностях, а о сфабрикованных цитатах», — подчеркивают исследователи.
Журналы начали жестко реагировать
Редакции научных журналов и конференций уже сталкиваются с последствиями.
Некоторые редакторы сообщают, что отклоняют до четверти поступающих статей из-за проблем со ссылками. В ряде случаев работы с фальшивыми цитатами отклоняются автоматически без права повторной подачи.
Параллельно разрабатываются инструменты для автоматической проверки, но полностью заменить ручную экспертизу они пока не могут.
Почему это серьезнее, чем кажется
Проблема выходит за рамки формальностей. Фальшивые ссылки:
- мешают проверять научные результаты
- вводят других исследователей в заблуждение
- могут искажать выводы
В некоторых случаях они становятся признаком полностью сфабрикованных работ.
«Каждая фальшивая цитата — это проблема в научной литературе», — отмечают эксперты.
Где проходит граница ошибки
Ученые пока не пришли к единому мнению, считать ли такие случаи нарушением.
Иногда это результат невнимательности — авторы доверяют ИИ и не перепроверяют ссылки. Но если такие данные используются как основа для выводов, речь уже может идти о фальсификации. Издатели усиливают требования к авторам и требуют раскрывать использование ИИ. Также внедряются новые системы проверки ссылок.
Однако ключевая проблема остается — скорость распространения таких ошибок выше, чем скорость их выявления. И если тенденция сохранится, научная литература рискует столкнуться с более серьезным кризисом — утратой проверяемости и доверия.