5 фактов о научном цитировании

августа

2019

Социолог Катерина Губа о том, как цитируют статьи и устаревает знание в разных науках

I. Первая база цитирований

Появление первой базы цитирований (сейчас Web of Science) относится к 1960-м годам, когда Юджин Гарфилд, преодолев скептицизм со стороны учёных и профессиональных библиотекарей, запустил первую версию — Science Citation Index. История гласит, что авторами идеи цитатной базы были юристы, которые к тому времени давно уже пользовались индексом Шепарда — сборником ссылок на судебные прецеденты. Один из бывших работников компании Shepard вышел на связь с молодым Гарфилдом, который тогда занимал младшую позицию в проекте по применению машинных методов к организации медицинской литературы. Но потребовалось время и предприимчивость, чтобы довести идею до первого продукта — в 1963 году вышел Science Citation Index (сначала только для генетики), в 1973 году — Social Science Citation Index.

Индекс создавали, чтобы помочь ученым оставаться в курсе существующей литературы. Лишь позже появилась идея, что он может пригодиться для оценки результативности научной работы. Во многих естественных науках накопление знаний происходит так быстро, что учёным приходится развивать специальные навыки, чтобы не упустить ни одной важной научной новости. В 1960-х ученые устраивали библиотечные дни, просматривая оглавления новых номеров журналов, читали препринты и рукописи, присланные им по почте коллегами. Менее популярны были специальные библиотечные указатели. Также учёные изучали списки процитированной литературы и изучали ссылки. Именно эта старая привычка легла в основу базы, представляющей хранилище записей о статьях со всеми ссылками и цитированиями.

Wouters P. 1999. Citation cultures. Amsterdam University

II. Оценка и устаревание научного знания

Со временем базы цитирования Scopus и Web of Science стали инструментами оценки научного знания. Учёные согласны, хотя с некоторыми оговорками, что подсчёт цитирований работает для оценки естественных наук, но для социальных и особенно гуманитарных дисциплин это не подходит. Библиометрические базы делают уклон в индексацию англоязычных журналов (в Web of Science сейчас ситуация меняется в связи с созданием региональных индексов, которые отдельно размещаются на тех же платформах, однако не входят в ядро базы, например Russian Index for Scientific Citing). Если статьи публикуются на других языках, то для цитатных баз они остаются невидимыми. Использование индексов подходит для дисциплин, в которых результаты работы появляются в виде англоязычных статей в индексируемых журналах, что более характерно для естественных наук: в их случае эта доля может достигать 85%, тогда как для социальных она, видимо, не доходит и до 50%.

В сравнении с естественными науками социальные исследования более локальны. Результаты не всегда публикуются на английском языке, что ограничивает их аудиторию местными читателями. У локального научного сообщества может быть своя повестка, которая мало согласуется с тем, что интересно международным изданиям. Наукометрические исследования, сравнивающие систему авторитетов в одной дисциплине по публикациям в локальном индексе и по публикациям в международных журналах, обнаруживают различия в том, какие темы выбираются и какие авторы цитируются. Так, польская, испанская или бразильская социология будет одной для внешней аудитории и совершенно другой для внутренней.

В социальных науках имеют значение не только статьи в журналах, но и книги. Еще исследования 1980-х годов показали, что в химии и физике ссылки на книги занимают 5–8%, а в случае социологии — 40%. Однако книги стали индексироваться только недавно, и происходит это не для всех изданий. Если ориентироваться только на статьи, то важная часть социальных наук упускается. К примеру, в социологии книги важны, так как доходят до широкого круга читателей, что реже происходит с научными статьями. Кроме того, в книгах публикуются результаты другого жанра, например больше этнографических исследований.

Социальные и естественные науки также различаются в практиках цитирования. В естественных науках новые исследования быстрее включаются в корпус знания — ссылки на новые статьи появляются довольно быстро. Для них считается важным и нужным сослаться на новые статьи, тогда как в социальных науках в принципе принято ссылаться меньше: списки литературы короче, а упомянутые в них работы необязательно самые свежие. Новые исследования могут годами не цитироваться, прежде чем их заметят (а могут и не заметить вовсе). К примеру, в социологии средний возраст ссылки равен 12,5 годам, а в биомедицине — 8 годам. В естественных науках знание устаревает так, что спустя 15 лет только небольшая доля статей продолжает получать ссылки, а в социальных науках такого быстрого устаревания не происходит. Есть разные мнения, какого размера должно быть цитатное окно — время, нужное для накопления ссылок. Исследователи предлагали сделать его в десять лет, подразумевая, что именно столько нужно времени, чтобы цитирования стали появляться. Однако понятно, что с точки зрения оценки результативности текущей работы это не имеет большого смысла.

Clemens E., Powell W., McIlwaine K., Okamoto D. 1995. Careers in print: books, journals, and scholarly reputations. American Journal of Sociology 101 (2), pp. 433–494.

Webster B.M. 1998. Polish sociology citation Index as an example of usage of national citation indexes in scientometric analysis of social science. Journal of Information Science 22 (1), pp. 19–32.

Glänzel W., Schoepflin U. 1999. A bibliometric study of reference literature in the sciences and social sciences. Information Processing and Management 35, pp. 31–44.

Hargens L. 2000. Using the literature: reference networks, reference contexts, and the social structure of scholarship. American Sociological Review 65, pp. 846–865.

Hicks D. 2004. The four literatures of social science. In: H. Moed et al., Handbook of Quantitative Science and Technology Research. Kluwer, pp. 473–496.

Nederhof A. 2006. Bibliometric monitoring of research performance in the social sciences and the Humanities. Scientometrics 66 (1), pp. 81–100.

Pineiro C., Hicks D. 2015. Reception of Spanish sociology by domestic and foreign audiences differs and has consequences for evaluation. Research Evaluation 24 (1), pp. 78-89.

III. Как цитируют в разных науках? в науке

База цитирований Гарфилда позволила посчитать, как цитируются (или не цитируются) статьи. В 1991 году в журнале Nature вышла статья с результатами, которые порадовали фанатов естественных наук, считающих социальные вовсе не науками. В статье Хэмилтон привел такие цифры: за четыре года после публикации 36,7% статей в физике остаются без цитирований, и это самая небольшая доля среди всех наук. Совсем иные цифры обнаружились для социальных наук: в политической науке 90%, в международных отношениях 82%, в лингвистике 79,8%, в антропологии 79,5%, в социологии 77,4% статей остаются непроцитированными. Из чего недвусмысленно был сделан вывод о том, что социальные и гуманитарные науки совершенно невостребованны.

Другие расчёты показывают не настолько ужасную картину: в выборке социологических статей 43% были процитированы в первый год после публикации, а после шести лет со дня публикации ссылки получили 83% статей. Возможно, Хэмилтон получил такие цифры, так как учитывал и те источники, которые почти никогда не цитируются: обращения редакторов, письма в редакцию, рецензии, комментарии к статьям. Более поздние подсчёты показали, что при цитатном окне в пять лет 27% статей естественных наук и 32% социальных останутся совсем без ссылок.

Многие статьи (хотя их и не так много, как считал Хэмилтон) даже спустя несколько лет после публикации не получают ни одной ссылки. Можно ли считать это большой проблемой для науки? Цитатное распределение по своей природе сильно скошено вправо: есть небольшое количество статей, которые собирают огромное количество ссылок, и множество статей, которые, наоборот, цитируются изредка или не цитируются вовсе. Сам хвост распределения во многом зависит от того, сколько в среднем ссылок появляется в статьях этой дисциплины (чем меньше библиография, тем больше непроцитированных работ). Однако форма распределения, сильно скошенная вправо, характерна для всех наук, и это вряд ли можно искусственно изменить. Кроме того, нельзя ставить знак равенства между прочитанной литературой и той, которая была процитирована. Часто места для цитирования всего, что прочитал автор, просто недостаточно, и в таком случае приходится выбирать.

Hamilton D. 1991. Research papers. Who's uncited now? Science 251 (4989), p. 25.

Seglen P. 1992. The skewness of science. Journal of the Association for Information Science and Technology 43 (9), pp. 628–638.

IV. Цитируемые статьи

Что способствует тому, что ссылка на статью появится в новом тексте? Определяющие факторы связаны с научными журналами, с особенностями самой статьи и с характеристиками авторов статьи. О влиятельном журнале знает больше авторов, а значит, и статьи цитируются чаще. Если статья размещается на первых страницах журнала, то она привлекает больше внимания, следовательно, может получить больше цитирований. Если в статье есть ссылки на другие высокоцитируемые работы, то такая статья может казаться более значимой, и её будут цитировать чаще. Кроме того, окупятся ссылки на иностранные источники (а вот на локальную литературу — нет), тогда как самоцитирование снизит внимание. Объём статьи также связан с количеством полученных в дальнейшем ссылок: чем длиннее статья и чем больше ссылок, тем чаще она цитируется. Статья в соавторстве также цитируется чаще, особенно если авторы из разных стран. Слишком длинные заголовки скорее не принесут дополнительных ссылок, а вот более сложный текст будет процитирован. Обзоры обычно привлекают больше внимания, чем эмпирические исследования.

Есть разные закономерности, однако особой теории, объясняющей, почему одни статьи цитируются чаще других, так и не появилось. Проблема состоит в том, что предсказывающие цитирования переменные, по всей видимости, являются не независимыми факторами, а косвенными мерами качества статьи. Например, то, что статья идёт самой первой в журнале, может быть результатом желания редактора поместить на первое место самый значимый текст, который и цитируется в дальнейшем больше других. Или если статья длиннее обычного, то, возможно, редактор посчитал её достаточно значимой, чтобы не обязывать автора сокращать текст, то есть размер статьи также выступает индикатором качества.

Van Dalen H., Henkens K. 2001. What makes a scientific article influential? The case of demographers. Scientometrics 50 (3), pp. 455–482.

Aksnes D. 2003. Characteristics of highly cited papers. Research Evaluation 12 (3), pp. 159–170.

Didegah F., Thelwall M. 2013. Which factors help authors produce the highest impact research? Collaboration, journal and document properties. Journal of Informetrics 7 (4), pp. 861–873.

V. Исследования науки

Цитатные базы используются не только как инструменты оценки, но и для решения задач в наукометрии и количественных исследованиях науки. В последнее время поднялся интерес к исследованиям науки, построенным на больших данных о публикациях и цитированиях. Направление Big science data даже имеет свой манифест, авторами которого являются социологи Джеймс Эванс и Джеймс Фостер. Количественные исследования науки держатся на доступности данных большого масштаба — главным образом публикаций и ссылок. От наукометрии их отличает то, что вместо метрик оценки научной результативности эти работы направлены на создание моделей, которые должны помочь более глубокому пониманию механизмов производства научного знания, и при этом вовсе не обязательно, чтобы исследования были прямо направлены на улучшение системы функционирования науки и способов оценки деятельности ученых. Опираясь на данные о публикациях и ссылках, можно найти ответы на самые разные вопросы.

Действительно ли 1960-е годы являются золотым веком в физике? Ответить на этот вопрос можно, если проанализировать 5 миллионов статей по физике и обнаружить, что в физике всплеск цитирований в период 1955–1965 годов был связан со ссылками на более ранний период, так что нельзя сказать, что именно статьи 1960-х заслужили особое внимание. В этот период в журналах начинает складываться практика внешнего рецензирования. Рецензенты стали указывать авторам на литературу по теме статьи, а авторы сами стали заранее продумывать, каким должен быть список литературы, и «укоренять» их — больше ссылаться, в том числе на статьи, которые уже были сравнительно давно опубликованы, что и вызывало всплеск в цитировании.

Каким образом можно на основе цитатных данных определить, кто станет будущим нобелевским лауреатом? Мазлумян и его коллеги проанализировали цитирования 124 нобелевских лауреатов. Практически для каждой фигуры можно обнаружить резкий скачок в цитированиях, что позволяет идентифицировать ключевую работу автора. В жизни лишь немногих учёных есть такие пики. Авторы обнаружили, что цитирования начинают прибывать после того, как ключевая работа привлекла заметное внимание, причём объём ссылок увеличивается не только за счёт многих авторов, которые цитируют главную работу учёного, но за счёт увеличения ссылок на его предшествующие работы. Они предлагают использовать фактор роста (boost factor), учитывающий внезапные изменения в характере цитирования работ, для поиска прорывных исследований и новых талантов.

Как можно определить, кто из нескольких авторов статьи внес основной вклад в исследование? Исследователи Шен и Барабаши предлагают опереться на догадку о том, что за признание ответственны другие учёные. Значит, нужно посмотреть, пишут ли соавторы другие статьи по этой теме и как они цитируются. Если в этой области больше статей одного из двух авторов, то и основной вклад за ним. Шен и Барабаши построили модель и проверили её на статьях в соавторстве нобелевских лауреатов. Оказалось, что алгоритм в четырёх из пяти случаев правильно определил, кто действительно заслуживает признания, то есть наиболее цитируемые по этой теме статьи были написаны будущими нобелевскими лауреатами.

Выбирают ли учёные менее рискованные стратегии в исследованиях, потому что опасаются не получить продвижения в университете? Научные статьи — это результат выбора автором стратегии, которая может быть связана с решением традиционных, шаблонных исследовательских проблем или же носить более амбициозный характер. Для авторов в биомедицине существует выбор, какими связями соединить химические элементы — традиционными или новаторскими. Такие выборы изучили на выборке в 6,5 миллионов аннотаций научных статей. Исследование показало, что учёные в целом выбирают более надёжные стратегии, которые гарантированно принесут продвижение по карьерной лестнице, но не приведут к прорыву в развитии науки.

Mazloumian A., Young H., Helbing D., Lozano S., Fortunato S. 2011. How citation boosts promote scientific paradigm shifts and nobel prizes. Plos One 6(5), pp. 1–6.

Evans J., Foster J. 2011. Metaknowledge. Science 331(6018), pp. 721–25.

Shen H., Barabási A. 2014. Collective credit allocation in science. Proceedings of the National Academy of Sciences 111 (34), pp. 12325–30.

Foster J., Rzhetsky A., Evans J. 2015. Tradition and innovation in scientists’ research strategies. American Sociological Review 80(5), pp. 875–908.

Sinatra R., Deville P., Szell M., Wang D., Barabási A. 2015. A century of physics. Nature 11(10), pp. 791–96.

Источник: Постнаука

Форма поиска

5 фактов о научном цитировании

Полезные ссылки