«Мы создаем платформу, которая помогает ученым»
Можно ли использовать блокчейн для рецензирования, что в РАН подразумевают под «цифровизацией науки», как будет развиваться Российский индекс научного цитирования (РИНЦ), как гонка за количеством цитирований разрушает научный мир, и как с помощью грантов можно предсказывать будущее, читайте в репортаже Indicator.Ru с форума «Цифровая наука – мировые тренды и "большие данные" в российском контексте», который организовали президиум РАН и компания Digital Science Россия. Форум проходит в Москве уже второй раз, и в этом году его принимало здание президиума Российской академии наук. С докладами на форуме выступили вице-президент РАН Алексей Хохлов, заместитель министра науки и высшего образования РФ Марина Боровская, генеральный директор Digital Science в России Игорь Осипов, а также лидеры российских компаний, занимающихся оценкой качества научных исследований и цифровой наукой, видные зарубежные лидеры цифровой инфраструктуры и научные издатели. Приветственные речи начались с того, что наука уже сегодня немыслима без цифровых технологий. Со-организатор форума вице-президент РАН Алексей Хохлов даже вспомнил, что раньше научные статьи приходилось набирать на машинке, а лично поговорить с коллегой с другого конца света можно было разве что на конференции раз в полгода. Сегодня личное присутствие не так важно – для общения есть Skype, ответить на сообщение в электронной почте можно хоть из леса, а научные журналы лишь ставят (или не ставят) на статьях знак качества, ведь опубликовать информацию и сделать ее общедоступной может каждый. Марина Боровская, заместитель министра науки и высшего образования, отметила важность цифровых хранилищ для научных коллекций, назвав оцифровку данных «попыткой систематизировать свой чердак», подразумевая, видимо, не только заросшие пылью институтские хранилища, но и голову. На открытии звучало много модных слов: цифровая инфраструктура, блокчейн, big data, цифровизация… Посмотрим, что за этими словами стоит. Денис Секиринский, представлявший научный блок Администрации президента РФ, кратко поприветствовал всех и предложил не тратить время и начать работу. Фантазии на конференции без галстуков Штефан фон Хольцбринк, владелец компании Holtzbrinck Publishing Group (которой принадлежат многие издательские дома, в том числе Nature, Springer, Scientific American, Macmillan, Die Zeit, и другие), говорил об открытости и объединении усилий в науке как единственном способе угнаться за стремительным прогрессом и сотнями тысяч ежегодных публикаций. Наука становится все более интернациональной, однако часто «максимальная открытость науки» и другие громкие слова становятся лишь «красивым фасадом, за которым ничего нет». «Россия – очень обширная страна, и ее наука – очень обширная тема, – заявил он, отмечая, что сложно выбрать, что сказать за 15 минут, выделенных на каждое выступление. – Но если вы говорите на конференции о науке и исследованиях более 15 минут, то 30% аудитории еще продолжат вас слушать, 50% потеряют нить повествования, а еще 20% погрузятся в эротические фантазии». Это не помешало ему начать издалека – с Клары Цеткин (которая была родом из его родного Штутгарта) и Берлинской стены, вспомнив всю историю взаимоотношений России и Германии за последние 100 лет, пока существует издательство, основанное в 1948 году его отцом, Георгом фон Хольцбринком. Клонил он к тому, что Германии надо сохранять дух сотрудничества, когда ей на пятки в конкурентной борьбе наступают США и Китай. Но одиночкам в этой гонке не уйти вперед, множество проблем требуют совместных решений, и, если удастся объединиться с Россией, плюсы могли бы ощутить обе страны. «Большие американские компании – Amazon, Google и Facebook – каждая вкладывают в исследования в пять раз больше денег, чем Общество имени Макса Планка, поэтому с точки зрения России и Европы объединение усилий было бы очень полезно для развития науки. Будущим будет управлять не одна страна, не одна компания, иначе как мы можем быть уверены, что прогресс и процветание наступили для всех», – считает он. И в этом будущем залогом успеха станут новые инструменты для лучшей экспертизы научных статей, прозрачность науки и открытость полученных данных. Немного открытости в саму конференцию предложил внести со-организатор форума Игорь Осипов, основатель и CEO Digital Science Russia, президент эндаумент фонда Дальневосточного федерального университета (ДВФУ). Встреча проходила в буквальном смысле в узком кругу – за круглым столом под лепными потолками Александринского дворца собрались выступающие и приглашенные гости, руководители РАН, университетов, крупных международных и российских компаний, научное и профильное государственное сообщество. «Давайте сделаем эту конференцию максимально неформальной, – предложил Осипов, аргументируя это тем, что экосистема digital science существенно меняет мир, уплощает пирамиду знаний, позволяет увидеть всю картину исследований – от грантов до публикаций и патентов – и трансформирует иерархию. – Представим, что это заседание одной кафедры, и все мы делимся идеями». И тут же предложил участникам избавиться от галстуков – символа формальности. Два или три человека последовали его примеру, остальные оглянулись на соседей по круглому столу и оставили галстуки на месте. Любовь к цифре и рейтинг, который нужен вчера Дэниэл Хук, приглашенный профессор квантовой физики Имперского колледжа Лондона, генеральный директор холдинга Digital Science и член Совета директоров ассоциации ORCID, не упустил возможности поиронизировать над всеобщей одержимостью индексами и рейтингами. «40,137 – таков был импакт-фактор Nature несколько лет назад, – начал он. – Мы любим такие цифры, потому что их легко считать, и они выглядят научно», – заявил он. Однако эта видимость бывает обманчива, так как цифрами трудно измерить вещи вроде эффективности изучения того, как расширяется Вселенная. Поэтому гонка за одними цитированиями разрушительна и для науки, и для системы ее оценивания. Что можно с этим сделать? – Улучшать существующие методы оценивания эффективности и придумывать новые. Так, в Dimensions предлагают рассматривать и анализировать исследования с точки зрения привлеченных и реализованных грантов. Это указывает на тренды в науке и даже позволяет делать предсказания, где нужно ожидать рост и грядущих открытий, а также как развитие одних областей будет подстегивать другие. Роман Гуринович, основатель и CEO sci.AI, рассказал о применении мега-big data в науке на примере одной из самых горячих тем современной биологии и медицины – болезни Альцгеймера. На эту тему выходят тысячи статей, и знание рассеяно по ним: где-то описаны молекулярные механизмы, где-то – клинические данные, где-то – информация об отдельных возможных лекарствах. «Потенциальное решение состоит из двух компонентов: один преобразует естественный язык статей в читаемый машиной "цифровой" формат, вторая часть, используя эти структурированные данные, может принимать вопросы ученого и, соответственно, отвечать на них, связывая определенные знания», – отметил Гуринович. При этом в биологии важна не только связь между данными, но и причинность. Поэтому применение мега-big data в биологии позволяет интерпретировать собственные экспериментальные результаты или строить модель будущего эксперимента, чтобы не тратить времени на уже сделанное другими. Обсуждал в своем докладе базы данных и заместитель директора ФИАН имени П.Н. Лебедева РАН Олег Иванов. Он отметил, что «работа с базами данных – это не искусственный интеллект, а правильное использование своего». И особенно бывают важны «сырые» данные – результаты различных замеров, вычислений, или куча роликов энцефалограмм, которые пылятся без дела в архивах институтов, могли бы служить для уточнения научной информации, проверки добросовестности автора статьи, тестирования новых методов аналитики. Базы данных позволяют вывести отчетность на следующий уровень, при помощи самоидентификации и сопоставления информации, не заполняя везде одно и то же (это можно было бы сделать, если соединить много баз данных, хотя и не сливая их в одно глобальное хранилище). Однако здесь, как выяснилось уже в обсуждении с участниками, глава проблема не в том, где хранить такие массивы информации, а в том, что институты часто сами не знают, какие данные хранятся в их недрах. Пока что нужно разбираться в завалах накопленных «сырых» данных и начинать сдавать вместе с отчетностью новые. Кроме того, после подтверждения данных и результатов исследований в научном сообществе институты, ученых, страны, направления можно рейтинговать – и, конечно, для всех этих рейтингов понадобятся свои подходы. «Когда у вас возникает какая-то задача, вам надо оперативно, быстро сделать рейтинг под нее. Как правило, этот рейтинг нужен еще вчера, это типичная ситуация, которая накладывает некоторые ограничения», – с улыбкой отметил Олег Иванов. Правда, открытый доступ ко всем материалам статьи, включая сырые данные, часто противоречит издательской политике, поскольку так могут быть потеряны или не учтены цитирования и упоминания – но эти юридические вопросы еще только предстоит решить. Токенизация науки и опыт Юга России Йорис ван Россум, основатель международных проектов Blockchain for Peer Review и Peerwith, предложил совместить идентификацию вклада конкретного ученого в базах данных с блокчейном. Токенизация науки могла бы снабдить все плоды исследовательской работы цифровой подписью. «Это сделало бы науку более прозрачной и воспроизводимой, – считает ван Россум. – Но зачем здесь использовать блокчейн? Это самый важный вопрос. Если мы не используем блокчейн, у нас есть центральный владелец базы данных. Вся власть, вся информация сконцентрировалась бы в его руках. Блокчейн позволяет отлеживать информацию, храня ее в самых разных местах, и следить, что случилось с конкретным ученым». Таким образом, при помощи блокчейна (в качестве цифровой идентификации) можно делиться данными, не переживая, что их кто-то присвоит, а также проводить peer review – рецензирование статей перед публикацией. После этого в программу немного неожиданно вписались два доклада от представителей российских вузов о своих проектах и успехах. Ирина Шевченко, ректор Южного федерального университета, рассказала о построении инфраструктуры цифровой науки и создании хранилища, которое объединяет данные научных организаций региона (Консорциум вузов Юга России), на основе технологий Digital Science. Другое направление работы в университете – картирование научных областей и подсчет скорости развития науки при помощи данных Dimensions (которые опираются на гранты). Например, в биологии за время, пока читался каждый доклад, в мире выходило примерно 250 статей. Андрей Белокопытный, проректор по учебной работе и подготовке кадров высшей квалификации Донского государственного технического университета, тоже поведал о создании цифрового образовательного пространства Ростовской области (сейчас в этом проекте участвуют более 600 образовательных организаций из 43 районов). Также он сообщил, что ДГТУ изучает применение цифровых технологий в сельском хозяйстве (учет и контроль температуры, давления, влажности, ветра, расчет оптимального количества удобрений), работает над проектами по созданию роя роботов, 3D-моделированию в строительстве и синхронизации светофоров для решения проблемы ростовских пробок. кроме того, в следующем году ДГТУ открывает 25 «цифровых» направлений магистратуры (например, «цифровой бухгалтерский учет»). Ректор ДГТУ тоже вставил словечко в выступление коллеги: он предложил собраться с теми же гостями, но с большим количеством ректоров, на площадке южных университетов, так как обсудить цифровизацию было бы полезно всем университетам. После них выступил Марк Ханнел, основатель проекта Figshare – репозитория, который позволяет хранить любые приложения к научным статьям в разных форматах, а также делиться ими. Он отметил, что хранение данных возможно как в «облачном» виде, так и локально, на серверах университетов. Когда-то сам ученый занимался стволовыми клетками, потратил выходные на съемку видео к статье, но видео не приняли в журнал. Это и вдохновило его на создание такой платформы. Сегодня Figshare работает с университетами и журналами, позволяет хранить изображения, видео, прочтенные последовательности геномов и так далее в разных местах, выбирая, сделать файлы общедоступными или нет – в общем, подстраивается под самые разные нужды. Недавно менее чем за год его компании удалось систематизировать научные данные 26 университетов в Южной Африке. Благодаря Figshare данные приобретают свой индекс API, и их принадлежность и цитирования можно отслеживать, представляя их в качестве отчетности и привлекая финансирование. «Мы не рекламируем Sci-Hub» «Мы говорим про большие данные. Раз данные большие, и количество ошибок большое. Есть какой-то процент неполной информации. Для миллиона статей еще можно как-то справиться, найти людей, которые что-то исправят. Когда мы говорим о сотнях миллионов, задача становится трудноисполнимой», – поставил перед слушателями проблему следующий докладчик, основатель РИНЦ Геннадий Еременко. А ведь в год в российских журналах выходит два миллиона публикаций. Понятно, что оценивать эффективность науки, основываясь на количестве таких разноуровневых публикаций, нельзя. А ведь для национальных и региональных индексов собрать информацию – лишь 20% успеха. 80% – это структурировать, проанализировать данные и принять решение. Поэтому ближайшее развитие РИНЦ будет включать следующие пункты: 1) максимальный охват разных типов публикаций, отдельные поисковые формы для диссертаций, статей и так далее; 2) улучшение качества и точности данных идентификации, ссылок; 3) создание национальных «полок» для всех публикаций из соседних стран; 4) интеграция РИНЦ с международными и российскими базами данными; 5) расширение возможностей системы. Под последним пунктом подразумевается расширение работы с ведущими исследователями в качестве экспертов: увы, искусственный интеллект пока что отличать хорошие публикации от плохих не научился, а чем меньше привлечено самих ученых мужей, тем больше мы «теряем культуру экспертной оценки». Правда, пока не до конца понятно, по каким критериям выбирать достойных экспертов (а ведь у нас с экспертизой и рецензированием научных журналов проблем немало). Ближе к завершению выступления Еременко сообщил, что РИНЦ договорился с крупнейшими международными платформами, включая Dimensions от Digital Science, о размещении публикаций российских издателей в цифровом виде. Детали проекта появятся в ближайшее время. Алексей Лутай, руководитель аналитических проектов РФФИ, посвятил свой доклад вполне академическому исследованию популярности российских статей на основании скачиваний в Sci-Hub и данных альтернативных метрик. Пользователи портала производят 500 тысяч загрузок в день, интересуясь в том числе и российскими переводными журналами (сегодня их существует 224). По его словам, данные о загрузке публикаций из Sci-Hub могли стать «дополнительной альтметрикой», уменьшая «серую зону» публикаций, о судьбе которых после их выпуска ничего не известно. Используя сразу четыре индекса (статистика скачивали через Sci-Hub, CrossRef- цитирования, количество читателей в MENDELEY, упоминания в соцсетях от Altmetric), можно полнее учесть влияние публикации на научный мир. Докладчик время от времени поглядывал на фон Хольцбринка, видимо, сам испугавшись производимого эффекта, а под конец даже добавил: «Нет, мы не рекламируем Sci-Hub, вы не подумайте». «Вместо цифровизации обсуждаем науку» Глава Центра моделирования данных Сколковского института науки и технологий профессор Максим Федоров сделал доклад о применении «больших данных» для прогнозирования и анализа развития прорывных направлений науки. Он обсудил примеры подобных исследований в области точного земледелия, полимерных композитов (в частности, арамидов – по заказу АО «Оргсинтез»), использования эффекта Капицы (скачка температуры на границе сред в разных агрегатных состояниях) и охлаждения новых суперкомпьютерных и радиоэлектронных систем. «Я считаю, что доклад, который прочитал Максим Федоров, идет вразрез с мнением физических наук, его вывод не соответствует действительности», – оспорила применение эффекта Капицы заместитель академика-секретаря отделения физических наук РАН Наталья Истомина. Ее вопросы и комментарии обрушились на докладчиков по всем фронтам в качестве претензий и к научной точке зрения, и к статистической оценке. Так, в физике не всегда рост количества статей отражает развитие науки, ведь известны случаи с «исчезновением» публикаций, когда их изымали и засекречивали. И это только свидетельствует в пользу актуальности темы. Грантовая же поддержка часто больше отражает политику, чем естественное развитие науки. К ректорам университетов (пренебрежительно названных «простите, ЮФУ») был и другой вопрос: странно создавать какую-то новую локальную сеть, когда наука международна. «Это наука, обсуждаем науку. Вместо цифровизации обсуждаем науку», – посетовал проректор ДГТУ. Но Максим Федоров нашел, что ответить: при обсуждении эффекта Капицы «речь шла о границах не твердых, а аморфных сред, где фононная теория не очень хорошо работает»; статистика – не панацея, никто не заменит человеческое участие в оценивали науки, но она привлекает внимание к интересным трендам. Разгорелась небольшая, но интенсивная дискуссия, смутившая иностранных гостей, слушавших эти споры через переводчика. Кажется, в какой-то момент они утратили нить повествования и стали растерянно водить глазами. Как в кулуарах признавались ван Россум и Ханнел, такая суровая критика сразу на двух уровнях (научном и статистическом) не характерна для западных конференций: британские исследователи не очень любят спорить прилюдно и скорее оставят мнение при себе. Однако критика и ответы на нее не переросли в ссору: конференция закончилась под обмен любезностями. «Я бы хотел контекстуализировать наш разговор – сказал в заключение Игорь Осипов. — Dimensions был разработан совместно с огромным сообществом экспертов, в том числе российских, которые приняли активное участие в создании платформы задолго до ее официального запуска в 2018 году. Мы не хотим предложить еще один индекс, мы создали платформу, которая помогает ученым видеть науку во всех срезах, связях и в режиме реального времени и на разных языках. О российских научных журналах и путях участия Российских издателей в Dimension уже говорил Геннадий Еременко. Со своей стороны, считаю, что крайне важно, чтобы наша страна была в правильном ключе представлена на мировой арене, а российские данные контролировались российскими участниками платформы, в том числе с возможностью локализации в России». Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще. Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.