Голос науки: как создается всемирное хранилище ядерной информации
В условиях избытка информации – и информации научной в частности, особое значение получают структурированные базы знаний, которые в наше время получают даже большее значение, чем научные журналы и сборники. Для специалистов по ядерной физике и энергетики такая база существует уже около полувека – это создаваемая под эгидой МАГАТЭ Международная ядерная информационная система - The International Nuclear Information System (INIS). О том, как она устроена, какое значение имеет для развития науки и как Россия участвует в ее работе мы беседуем с представителем по связи с ИНИС ( INIS Liaison Officer) от Российской Федерации, доцентом кафедры теоретической и экспериментальной физики ядерных реакторов НИЯУ МИФИ Юрием Волковым.
Интервью первоначально опубликовано в издании "Коммерсант"

Юрий Волков. Фото:А.Хомич
– Итак, что такое INIS?
– Это интересная международная инициатива. Собственно, основная задача МАГАТЭ – формировать коллегиальное мнение о мирном развитии атомной энергии. И в 1970 году была выдвинута инициатива со стороны СССР и США, что те публикации, которые касаются мирного использования атомной энергии, должны быть открыты и доступны. INIS была создана в 1970 году в соответствии с мандатом МАГАТЭ, предусматривающим необходимость «способствовать обмену научными и техническими сведениями о применении атомной энергии в мирных целях». С этого момента началась история INIS, появилась международная система ядерной информации, в которой собираются всевозможные публикации – но, естественно, только открытые.
– Речь идет о публикациях в научных журналах?
– Прежде всего это статьи в рецензируемых журналах, но, кроме того, в рамках INIS есть такое понятие, как «серая литература», включающая различные отчёты, материалы конференций – вплоть до жизнеописаний ученых, в общем, всё, что касается тематики ядерной науки и технологии, а это достаточно широкое понятие, начиная от физики ядерных реакторов, физики частиц, заканчивая геологией, добычей урана, захоронением ядерных отходов, это ядерная наука в самом широком смысле слова.
– Как устроен механизм пополнения этой базы?
– Прежде всего есть центральный секретариат INIS в штаб-квартире МАГАТЭ в Вене, который обеспечивает примерно 70% поступлений. Он берёт публикации у известных издательств, таких, как «Эльзивир», «Шпрингер» и так далее, и заносит их в базу ядерной информации. Часть информации о ней в INIS содержится в формате метаданных, то есть ты можешь посмотреть выходные данные этой публикации, но чтобы прочесть саму публикацию ты должен перейти на сайт издательства.
– То есть в базе остается только ссылка?
– Не только. Важно, что в INIS эта публикация будет проиндексирована и важное преимущество принятой системы индексирования в том, что она использует так называемый ядерный тезаурус. Тезаурус - это не просто сборник терминов, потому что в нем между терминами ещё простроены связи. Например, может быть выстроена связь: реактор – ядерное топливо – уран – уран-235-й и так далее. Всего тезарус насчитывает 32 тысячи терминов, и он переведён на восемь языков. Процесс индексирования заключается в том, что каждой публикации ставятся в соответствие ключевые слова согласно этому тезаурусу. И мы благодаря этому знаем, что данная публикация точно относится к той тематике, которая соответствует термину из тезауруса. И вот в этом как раз большая ценность. Кроме центрального Секретариата в странах-членах МАГАТЭ есть национальные отделения INIS, они собирают по странам информацию, которая не поступает в открытые источники, и прежде всего публикации на языке соответствующей страны - в нашем случае на русском. А кроме того, есть отдельные организации, загружающие в базу свою информацию, например, в России это Объединенный институт ядерных исследований в Дубне, который имеет собственного офицера по связи с INIS. Ну и, скажем ЦЭРН относится к числу таких организаций.
– В России – кто является главным поставщиком данных?
– Раньше этим занимался ЦНИИатомнинформ, а после его реорганизации в 2010 году этим стал заниматься Центр INIS в НИЯУ МИФИ. Я в нем работаю и назначен представителем по связи с INIS, в просторечии офицером по связи с INIS. . Например, я участвую в совещаниях, через меня транслируется различные рекомендации. Но, фактически основное руководство нами осуществляется в России Госкорпорацией «Росатом».
– Ну а если мы будем говорить не о том, кто загружает, а о том каковы те «основные точки», где рождаются сами ядерные знания, которые загружаются в систему?
– Секретариат INIS не ставит перед нами какие-то приоритеты. То есть у стран есть обязательства загрузить в базу некое минимальное количество публикаций, всё равно по каким направлениям. В основном от нас ждут материалов отраслевых и академических конференций. И журналы мы тоже загружаем, например, все выпуски «Вестника МИФИ». Но в основном, это, конечно, материалы конференций, потому что их часто даже не публикуют, а собирают тезисы, и они существуют только в виде PDF- файлов, это именно то, что называют «серой» литературой.
– Фактически ваша задача – загружать ту информацию, которую нельзя собрать просто по открытым научным журналам?
– Да, журнальные публикации секретариат собирает самостоятельно. Хотя, если говорить о российских журналах, то тут еще нужна отдельная работа, чтобы они ИЗДАТЕЛЬСТВА??? понимали ценность попадания в INIS.
– Вообще российские журналы попадают в поле зрения секретариата?
– Попадает то, что переведено на английский язык. Допустим, есть журнал «Атомная энергия», это один из основных журналов в ядерной отрасли – он свои статьи переводит полностью. Другие журналы, например «Вестник атомной науки и техники», они часть статей передают в журнал Physics of Atomic Nuclei, который собирает публикации по разным российским изданиям и публикует у себя с переводом на английский язык. Ключевой момент для секретариата – это должно быть на английском языке. То, что выходит на английском языке – сразу туда попадает. Многое из того, что публикуется на русском языке сопровождается переведёнными на английский язык аннотациями, в принципе, этого тоже достаточно. Но тут нужно договариваться с журналами, чтобы они эту систему поддерживали. Некоторые не хотят, возможно они стремятся, чтобы читатели приходили на их сайт и оттуда загружали.
– Велика ли доля российского контента в общем потоке, который попадает в эту базу?
– На Россию и СССР, который стоял у самых истоков INIS, приходится порядка трёхсот тысяч записей – это достаточно серьёзная цифра. В прошлом году мы загрузили порядка трёх тысяч. Хотя, есть страны, которые загружают и побольше, например США. В Америке все публикуется на английском языке, и секретариат это берёт автоматически.
– Имеет значение языковый барьер?
– Да, это, ключевой момент.
– По вашим наблюдениям, в какой степени востребована эта база данных со стороны научного и инженерного сообщества?
– Тут всё изменилось в последние годы. Исторически эта база данных была закрыта. Её не было в общем доступе. До 2010 года экземпляры базы данных распределялись по ограниченному кругу организаций на CD-дисках. Но после того, как ситуация поменялась, появился Google, и издательства стали выкладывать свои журналы в интернете, стало понятно, что надо быть открытыми. И с 2010 года это открытая база данных. Особенно это изменилось в последние годы, и если я вбиваю в Google запрос, касающийся моей области деятельности, допустим, физики реакторов, то где-то вторая-третья ссылка обязательно будет на INIS.
– В литературе к научной статье ссылка на INIS может заменить ссылку на научный журнал?
– Как правило, даже если мы статью посмотрели в этой базе, то в ссылке все равно берем ее исходные данные. Но для «серой» литературы это может быть.
– Как вы полагаете, для российского учёного попадание INIS — это свидетельство его научного статуса?
– B да, и нет. Конечно, попадание в INIS – свидетельство того, что эта публикация точно не мусорная, если она прошла в базу, то в ней нет какой-то откровенно недостоверной информации и нет информации не относящейся к этой рубрики – а в INIS двадцать семь рубрик. То есть она точно укладывается в одно из двадцати семи направлений ядерной науки. А с другой стороны, эта нерецензируемая система. То есть туда идут публикации не только из рецензируемых журналов. Это как бы огромная библиотека. И когда мы подаем заявку на грант или участвуем в каком-то конкурсе, то там важны публикации в РИНЦ или SCOPUS. Для учёного важно повышать количество публикаций именно в рецензируемых изданиях, и желательно в верхних квартилях. А INIS собирает всё. Но он серьёзно повышает видимость публикации. Это важно, потому что благодаря INIS можно получать доступ к старым публикациям, скажем, шестидесятых и семидесятых годов, когда проводилось много интересных экспериментов. Как раз тогда был бум развития исследовательских ядерных реакторов, и много интересных экспериментов было сделано, например, по материаловедению. Этих публикаций нет на сайтах журналов. И если эта публикация важна для кого какого-то исследователя, механизм следующий. Ученый обращается к офицеру INIS в своей стране, тот обращается ко мне напрямую или через секретариат. И я по мере возможности разыскиваю эту публикацию.
– INIS ведет работу по оцифровке старых публикаций?
– Такая работа ведется. Например, у нас есть хороший сайт по истории «Росатома», там много материалов по истории, как создавался атомный проект, там самые ранние публикации, там жизнеописания выдающихся деятелей атомной отрасли. Очень хорошее собрание материалов. Ну а вообще оцифровкой занимаются либо издательства, либо публичные библиотеки. Эта работа была до последнего момента, в общем-то, ручной. А если учитывать, что все материалы надо индексировать, то это была достаточно большая работа. И автоматизация этого процесса напрашивается. Сегодня те русскоязычные публикации, которые сопровождаются англоязычными аннотациями, в принципе доступны для автоматизированного ввода. У нас в центре INIS мы уже создаем системы автоматического индексирования на основе семантических технологий ИИ. Однако, необходимость в специалисте-человеке все равно остается. Критерием истинности всё-таки являются те люди, которые уже на протяжении долгих лет это делают, и делают это хорошо. Но тенденция идёт к тому, что этот процесс будет автоматизирован.
Беседовал Константин Фрумкин





