Специалист по информатике Гийом Кабанак получил уведомление от Google Scholar о цитировании своей работы в статье по стоматологии.
Это выглядело странно само по себе, но дальше — хуже: он не смог узнать ни саму ссылку, ни публикацию.
«Я был очень удивлен, увидев, что не могу распознать свою собственную ссылку», — говорит он.
Указанный DOI, то есть уникальный цифровой идентификатор научной работы, не вел к реальному тексту. Кабанак заподозрил, что ссылка была сгенерирована искусственным интеллектом — и оказался не один.
Исследование, опубликованное в Nature, основано на анализе тысяч научных публикаций показывает, что ситуация быстро выходит за рамки единичных случаев.
Ученые все чаще используют языковые модели для поиска литературы, написания текстов и оформления библиографий. Но такие инструменты могут «галлюцинировать» — генерировать правдоподобные, но несуществующие данные.
Анализ почти 18 тысяч статей на конференциях по информатике показал резкий рост проблемных ссылок. Если раньше их находили примерно в 0,3% работ, то теперь — уже в 2,6%. В других выборках показатель достигает 6%.
Совместный анализ редакции Nature и компании Grounded AI охватил более 4000 научных публикаций от крупных издателей.
Ручная проверка показала, что в большинстве подозрительных работ действительно есть ссылки на несуществующие исследования. Если экстраполировать результаты, речь может идти более чем о 100 тысячах публикаций с недействительными ссылками только за один год.
При этом сами исследователи признают — это приблизительная оценка, и реальный масштаб может быть выше.
ИИ редко выдумывает все полностью. Чаще он комбинирует реальные элементы — имена авторов, части названий, журналы.
В результате получаются так называемые «цитаты Франкенштейна». Они выглядят убедительно, но не ведут ни к одной реальной работе.
«Человеку это кажется реальным, но на самом деле это не ссылка на реальный объект», — отмечают разработчики инструментов проверки.
Даже когда ссылка ведёт к реальной статье, в ней часто есть ошибки — неправильный DOI, искажённое название или неверные авторы.
В одном эксперименте почти 20% ссылок, сгенерированных ИИ, оказались полностью вымышленными. Еще около 45% содержали неточности.
«Речь идет уже не просто о неточностях, а о сфабрикованных цитатах», — подчеркивают исследователи.
Редакции научных журналов и конференций уже сталкиваются с последствиями.
Некоторые редакторы сообщают, что отклоняют до четверти поступающих статей из-за проблем со ссылками. В ряде случаев работы с фальшивыми цитатами отклоняются автоматически без права повторной подачи.
Параллельно разрабатываются инструменты для автоматической проверки, но полностью заменить ручную экспертизу они пока не могут.
Проблема выходит за рамки формальностей. Фальшивые ссылки:
В некоторых случаях они становятся признаком полностью сфабрикованных работ.
«Каждая фальшивая цитата — это проблема в научной литературе», — отмечают эксперты.
Ученые пока не пришли к единому мнению, считать ли такие случаи нарушением.
Иногда это результат невнимательности — авторы доверяют ИИ и не перепроверяют ссылки. Но если такие данные используются как основа для выводов, речь уже может идти о фальсификации. Издатели усиливают требования к авторам и требуют раскрывать использование ИИ. Также внедряются новые системы проверки ссылок.
Однако ключевая проблема остается — скорость распространения таких ошибок выше, чем скорость их выявления. И если тенденция сохранится, научная литература рискует столкнуться с более серьезным кризисом — утратой проверяемости и доверия.