Документальные потоки и коммуникация
Тенденции развития основных видов документов
С развитием каждой цивилизации по мере усовершенствования ее языка и письменности вырабатывались и определенные типы документов, как по форме, так и по содержанию. Самые древние из дошедших до нас документов - клинописные плитки Месопотамии - датируются четвертым тысячелетием до н. э. От шумерской культуры того времени и ассиро-вавилонской, расцвет которой приходится на второе тысячелетие до н. э., сохранились сочинения в области астрономии, географии, истории, права, торговли. Наряду с небольшими глиняными плитками высотой в 2,5 см изготовлялись плитки высотой до 40 см, содержащие до 400 строк в 4 колонки с двух сторон. Основным недостатком этих глиняных книг, в течение тысячелетий обслуживавших культурные и научные потребности человека, была их громоздкость и недостаточная емкость. Отдельные произведения занимали до 10 плиток. Собрания, насчитывавшие десятки тысяч плиток (а до нас дошли остатки подобных библиотек), требовали огромных помещений.
Папирусный свиток - более компактная форма документа, позволявшая накапливать большие собрания произведений письменности. Начиная с третьего тысячелетия до н.э., в Египте изготовлялись именно такие книги. Текст на папирусном свитке располагался перпендикулярно его длине колонками от 25 до 45 строк. Хрупкость и недолговечность папируса обусловила незначительное число дошедших до нас образцов древнеегипетских документов (древнейший из них восходит к XVIII в. до н.э.). Это, главным образом, ритуальные "книги мертвых", извлекаемые археологами из пирамид и других захоронений.
У греков и римлян на протяжении долгого времени сведения (особенно научного характера) распространялись устным путем. Известно, что лишь после Аристотеля для этих целей стали широко применяться рукописи. До середины нашего века мы не располагали ни одним оригиналом времен античных классиков, часто столетия отделяют последнюю сохранившуюся копию от возможной даты написания текста. Исключение составляют лишь найденные во время второй мировой войны кумранские рукописи ("рукописи Мертвого моря"), датируемые первым веком н. э. Сведения о греческих и римских папирусах почерпнуты из малоазиатских и позднеегипетских образцов. Средняя длина свитка не превышала 10 м, ширина - 30 см.
Пергамент, изготовлявшийся из телячьих шкур, известен как материал для письма с III в. до н.э. Он позволял писать с двух сторон, был более долговечен, чем папирус, и обусловил переход к современной блочной форме книги - кодексу. Кодексы из папируса изготовлялись еще в первые века н.э., но к V в. были вытеснены пергаментным кодексом.
Кодекс - более емкая форма книги, чем свиток, он удобнее для записи больших текстов и для наведения справок. Пергаментные кодексы вплоть до XII в. были единственной формой книги в Европе. Основным их недостатком, препятствовавшим широкому распространению письменных документов, была дороговизна. Для одного экземпляра пергаментной книги требовались шкуры целого стада телят. На смену пергаменту пришла бумага, изобретенная в 105 г. в Китае. На Ближнем Востоке ее начали изготовлять с 751 г., а в XII в. через арабских завоевателей Испании она проникла в Европу.
Бумажная книга, значительно более дешевая, чем пергаментная, стала широко использоваться в научных и образовательных целях. Опыт нескольких тысячелетий развития письменных документов показывает, что их форма менялась главным образом под влиянием потребностей общества: документы становились все более емкими, удобными для использования и дешевыми. Именно эта тенденция развития средств, служивших для закрепления информации, привела к появлению бумажного книжного блока, который до нашего времени оставался основной материальной формой документа.
В XV в. стала повсеместно ощущаться потребность в новом способе изготовления документов. Рукописная книга перестала удовлетворять культурные и научные запросы общества по двум причинам. Во-первых, она изготовлялась слишком долго и требовала значительных затрат труда. Во-вторых, переписка текстов от руки не давала возможности получить большое число экземпляров идентичного содержания, так как копии одного и того же текста отличались друг от друга из-за искажений, вносимых переписчиками.
Именно к этому времени относится историческое изобретение в 1448 г. немецким ремесленником И. Гутенбергом книгопечатания подвижными литерами. Технические средства, которые легли в основу книгопечатания, - граверная и литейная техника и винодельческий пресс, преобразованный Гутенбергом в печатный станок, - были известны еще в античные времена. Однако лишь настоятельная потребность общества в быстром и точном механическом воспроизведении текстов вызвала к жизни это изобретение, совершенству которого мы не перестаем удивляться и основными принципами которого еще пока продолжаем пользоваться для размножения документов.
Мы знаем, что теперь появились технические средства, значительно повысившие наши возможности хранения больших массивов информации с быстрым доступом к любой единице этой информации. Речь идет о компактных оптических дисках, используемых в качестве внешней памяти компьютера (CD - Compact Disc). В этой области прогресс происходит так быстро, что рискованно приводить какие-либо точные данные. Но объем одного диска измеряется гигабайтами, т. е. миллиардами страниц текста, время записи и считывания одной страницы не превышает долей секунды, а поиск и выдача информации по запросу в электронной библиотеке занимает секунды. Выведенные на экран тексты и изображения можно изменять по мере необходимости. Эти новые средства используются столь активно, что успешно конкурируют с традиционными.
Различные виды документов возникали в разное время и на протяжении последних столетий и даже десятилетий претерпевают значительную эволюцию. Книга существует уже несколько тысячелетий, описание изобретений - полтысячелетия, научный журнал -350 лет, а журнальная статья в ее настоящем виде - 100-150 лет. Типология документов также существенно меняется. До последнего времени наиболее важным считалось деление научных документов на опубликованные и непубликуемые. Еще несколько десятилетий назад идеи и факты признавались введенными в оборот только после их опубликования, означавшего широкое распространение и официальную регистрацию документов, в которых они содержались.
Для информационной деятельности это разграничение менее существенно, так как, во-первых, в неопубликованных документах содержится много ценной информации, опережающей сведения, которые появляются в публикациях, а, во-вторых, новые средства репродуцирования делают это разграничение очень условным. Такие научные документы, считающиеся обычно непубликуемыми, как отчеты, диссертации, переводы, часто распространяются в сотнях и даже тысячах экземпляров.
Информатика выдвинула на первый план деление документов на первичные и вторичные. Деление это также очень условно и приблизительно, поскольку оно главным образом относится к самой информации, а не к документам, в которых она содержится. Считается, что в первичных документах отражаются непосредственные результаты познания, а во вторичных - результаты аналитико-синтетической переработки информации, содержащейся в первичных документах. Однако исторически сложившаяся система научных документов такова, что многие из них содержат одновременно и результаты научных исследований, и переработку прежних сведений, содержавшихся в ранее опубликованных документах. Примером могут служить и статьи в научных журналах, и монографии, и учебники, и особенно - справочная литература.
Тем не менее, деление это удобно, так как позволяет характеризовать различные потоки документов в информационной деятельности. Мы придерживаемся его в информатике, считая первичными те документы и издания, в которых преимущественно содержатся новые сведения или новое осмысление известных идей и фактов, а вторичными - те документы и издания, в которых содержатся сведения о первичных документах. С учетом сделанных оговорок к первичным документам и изданиям можно отнести большинство книг (за исключением справочников), журналы, газеты и другие сериальные издания, описания изобретений, стандарты, отчеты, диссертации, переводы, а ко вторичным - справочники и энциклопедии, обзоры, реферативные журналы, библиотечные каталоги, библиографические указатели и картотеки.
Специальные исследования показали, что две трети всех информационных потребностей специалистов удовлетворяются через журналы. Журналом мы будем называть периодическое (сериальное) издание, регулярно публикуемое в течение одного года выпусками, одинаково оформленными и содержащими статьи или иные материалы научно-технического или общественно-политического содержания, а также произведения художественной литературы. В журналах содержится новейшая информация, освещаются последние достижения науки и техники. Журналы появились, как уже сказано, триста пятьдесят лет назад: точной датой этого события считается 5 января 1665 г., когда был опубликован первый номер французского еженедельника "Журнал ученых", который дал название этому виду периодических изданий.
Основным назначением этого журнала, предопределившим характер научных журналов на 150 лет вперед, стало оповещение о новых книгах по всем отраслям науки, литературы и искусства, однако с особым вниманием к естественным наукам и технике. Для раскрытия содержания книг в то время широко пользовались прямыми заимствованиями и цитатами из текста. Вначале научная хроника играла в журнале второстепенную роль, постепенно все больше места в нем стали занимать сообщения об экспериментах в области естественных наук и вновь открытых явлениях природы. Оригинальные статьи в течение всего XVIII в. публиковались в журналах редко. Обычно они принадлежали крупным ученым и имели традиционно-условную форму писем одного ученого к другому: так было принято сообщать о научных открытиях в предшествующие эпохи.
Начиная с XIX в. журнал становится основным источником научной информации. В нашем столетии установилась исключительно важная практика упоминания в каждой журнальной статье всех научных работ, которые использовались при ее написании. Однако рост числа журналов, их недостаточная профилированность, быстрое старение опубликованных в них материалов привели к тому, что уже с 30-х гг. прошлого века журнал как источник информации стал подвергаться критике ученых. Они выдвинули множество проектов замены научных журналов другими средствами распространения знаний. В их основе лежит предложение вместо издания журналов депонировать разрозненные статьи в специальных отраслевых центрах и отражать их в реферативных журналах.
Закономерности роста и старения
С развитием информатики наступил новый этап в изучении научных публикаций, поскольку основное внимание стали уделять закономерностям, характеризующим внутреннюю связь изданий с развитием науки, количественные зависимости между числом публикаций и показателями роста науки. Закономерности эти связаны со структурой и свойствами научной информации, но проявляются несколько иначе и могут быть достаточно точно измерены.
Выяснилось, что для числа авторов, публикующих определенное количество работ в течение своей жизни, числа журналов, ежегодно публикующих определенное количество статей, числа публикаций, содержащих определенное количество ссылок на другие публикации, существует общая закономерность распределения.
"Они следуют тому же типу распределения, который характеризует соотношение миллионеров и бедняков в условиях высокоразвитой капиталистической экономики: огромная доля богатств находится в руках узкого круга богачей, а небольшой остаток - в руках несметного множества мелких производителей. Является ли точная форма распределения логарифмической, экспоненциальной, описывается ли она законом Ципфа или обратной квадратной функцией - это предмет особого рассмотрения в каждом отдельном случае" [5].
Это означает, что большинство авторов за всю жизнь публикуют лишь одну или две статьи, тогда как небольшая группа авторов отличается плодовитостью, публикуя по несколько десятков или даже сотен работ. По большей части прекращают выходить в свет периодические издания, успевшие выпустить несколько годовых комплектов, тогда как небольшое число давно выходящих изданий публикует львиную долю всех статей. Примерно половина опубликованной литературы обязана такому числу авторов или журналов, которое составляет квадратный корень общего их количества.
Рост литературы выражается в непрерывном увеличении числа новых названий вновь появляющихся изданий и публикаций. Широко распространенное представление об экспоненциальном росте основных видов литературы справедливо лишь для ее суммарного количества, причем без учета старения. Реальной моделью такого представления могут служить крупные научные библиотеки, комплектующие литературу по широкому профилю и выполняющие функции архивного хранения литературы. Но если нас интересует ежегодный прирост новой литературы, то приходится быть более осторожными в оценках.
Статистика мирового книжного рынка за последние полстолетия показывает, что число ежегодно выпускаемых на рынок книг увеличивается в арифметической прогрессии, а именно на несколько десятков тысяч названий, и достигает ныне 3 млн. Справедливость требует заметить, что это все выходящие книги - тех, которые поступают в продажу, существенно меньше. Если бы было возможно учесть заказные, бесплатные, ведомственные, учебно-методические и другие издания ограниченного распространения, то приведенные цифры были бы более точными. Следует также иметь в виду, что книги, содержащие научную информацию, составляют четверть от общего их числа.
Подсчет числа журналов значительно сложнее, так как они, в отличие от книг, все время находятся в процессе изменений. Журналы возникают, прекращаются, сливаются, дробятся, меняют название, издателей, периодичность. По мнению специалистов, на каждые три новых журнала один перестает выходить. Наиболее достоверные сведения о числе выходящих журналов можно получить из "Международной библиографии периодических изданий", выходящей под именем Констанции Ульрик. В последнем издании этого справочника зарегистрировано около 200 тыс. названий журналов, из которых около 50% падает на издания по общественным и гуманитарным наукам, 40% составляют журналы по точным, естественным и прикладным наукам и лишь 10% - литературно-художественные и общественно-политические журналы.
Старение публикаций заключается в том, что они с увеличением своего "возраста" теряют ценность как источники информации и все меньше используются специалистами. Степень этого использования можно устанавливать при помощи учета цитирования. В данном случае стареет не сама информация, а содержащие ее публикации, поскольку в свежих работах эта информация может быть "упакована" более плотно вместе с новой.
Для измерения скорости старения публикаций американские ученые Р. Бартон и Р. Кеблер предложили в 1960 г. меру, названную периодом полужизни публикаций, по аналогии с показателем скорости распада радиоактивных веществ. Период полужизни публикаций - это время, в течение которого была опубликована половина всей используемой в настоящее время литературы по какой-либо отрасли или предмету. Например, если этот период равен 5, то это значит, что 50% всех процитированных в текущем году по данному предмету работ не старше пяти лет. Ниже приводятся данные разных авторов о периодах полужизни публикаций в различных отраслях науки:
Биомедицина 3,0 | Химия 8,1 |
Физика 4,6 | Государство и право 8,2 |
Металлургия 4,6 | Ботаника 10,0 |
Хим. технология 4,8 | Математика 10,5 |
Социология 5,0 | Геология 11,8 |
Машиностроение 5,2 | География 16,0 |
Физиология 7,2 | История 16,3 |
Достоверность приведенных цифр зависит от величины выборки цитирования, от типа и характера публикаций, поэтому даже в пределах одной науки данные разных авторов могут существенно расходиться. Но дело не только в этом. В 70-е и 80-е гг. прошлого века проблема старения литературы подверглась интенсивным исследованиям, в результате которых ее понимание стало сильно отличаться от концепции периода полужизни. Начало этому пересмотру положил М. Лайн, который ввел в расчет характеристики старения литературы темпы ее экспоненциального роста. Сущность того, что произошло в трактовке старения, как всегда ярко выразил Д. Прайс.
"В течение нескольких лет после публикации спрашиваемость статьи или ее относительная цитируемость уменьшается крайне медленно (по параболе, если считать по логарифмам прошедших лет). Даже через столетие возможность цитирования уменьшается только на порядок. Большинство ссылок падает на работы последних лет потому, что этих работ большинство, и очень сомнительно, чтобы это вызывалось эффектом немедленности, связанным с быстрым старением..." [6].
Этой проблеме до сих пор и у нас, и в ряде зарубежных стран посвящается много серьезных работ, которые убеждают в том, что частота использования определенной совокупности литературы одного года издания меняется очень медленно. Использование публикаций, определяемое по их цитированию или на основе запросов читателей, отражает не только старение литературы, но и ее рост.
Для теоретиков информатики и историков науки важно учитывать старение литературы в чистом виде, для информаторов и библиотекарей период полужизни служит важным практическим показателем и продолжает широко использоваться. Следует также иметь в виду, что цитируются далеко не все научные публикации. Половина статей в определенной области в текущем году, как правило, не упоминается, а еще 40 % цитируется лишь один раз (обычно самим автором). Таким образом, активный исследовательский фронт, т. е. число работ, цитируемых более одного раза в году, на порядок меньше корпуса опубликованной литературы.
Оценка значимости (влиятельности) ученых и журналов
Распространенная оценка продуктивности научной деятельности основывается на абсолютных показателях общего числа опубликованных научных работ и/или библиографических ссылок на них. Однако такая оценка, как правило, носит односторонний характер. Общее число статей в действительности оценивает лишь публикационную активность научного работника, но не учитывает значимости публикаций, того информационного вклада, который они вносят в науку. Общее число ссылок на работы автора не учитывает возможности большого числа ссылок только на некоторые из его работ, написанные притом в соавторстве. Этот показатель дает неоправданный приоритет цитирующим обзорным работам перед исследовательскими. В этих случаях показатель также не оценивает реального вклада ученого в науку.
Чтобы устранить указанные ограничения, можно считать только число значимых статей, установив для их значимости критерий определенного числа ссылок на них. Но такой критерий произволен и субъективен, поскольку он должен быть разным в разных науках и для разных возрастных категорий ученых. Можно было бы ограничиться подсчетом числа только наиболее цитируемых статей, но и этот абсолютный критерий обладает недостатками предыдущего. Кто и как будет устанавливать порог наибольшей цитируемости?
Индексы цитирования могут относительно адекватно отражать результативность научной деятельности, если они опираются на объективную выборку журналов. Хотя самые известные из них Science Citation Index фирмы Thomson Reuters и Scopus фирмы Elsevier претендуют на статус международных, первый из них отражает мнение и практику американских, а второй - европейских ученых.
Для оценки и сравнения результативности научной деятельности российских ученых необходимо дождаться полной готовности Национального российского индекса цитирования (РИНЦ), который разрабатывается с 2005 г. Научной электронной библиотекой (НЭБ). Основные задачи, которые решает этот проект, - создание информационно-поисковой системы по публикациям российских ученых, единого их реестра, инструментария для статистического анализа отечественной науки, эффективной системы навигации в массиве научной информации.
Названный проект является не единственной отечественной инициативой по созданию указателя библиографических ссылок. Другим подобным проектом является Указатель Российского фонда фундаментальных исследований (РФФИ). Начиная с 1992 г. РФФИ является основной организацией, финансирующей фундаментальные научные исследования на конкурентной основе. Источником данных для Указателя РФФИ является база данных, в которой содержится информация о поданных конкурсных заявках на исследовательские проекты и результатах их выполнения. В отличие от РИНЦ, в этом указателе учитываются и иноязычные публикации (около 40% от общего числа). Почти половину вводимых публикаций составляют журнальные статьи. Общее число отечественных и зарубежных журналов, в которых публикуются эти статьи, превышает 5 тыс. наименований, из которых 40% представлены в Journal Citation Report (JCR) фирмы Thomson- Reuters.
По данным, которые подсчитывают названные учреждения, вычисляют и показатели значимости (влиятельности) и быстроты отклика (оперативности) научных журналов, получивших названия Impact factor и Immediacy index. Влиятельность конкретного журнала в определенном году вычисляется как отношение числа ссылок этого года в других журналах на статьи нашего журнала, опубликованные за два предыдущих года, а оперативность - на статьи, опубликованные в том же году. По этим показателям корректируется комплектование периодики научных библиотек и ПРНД ученых, публикующих статьи в журналах.
Введенные в JCR показатели "Impact factor" и "Immediacy index" являются тонкими количественными оценками научного статуса журнала, отражающими, по сути, качество работ, публикуемых в журнале, через оценку двух аспектов журнала - продуктивности (числа опубликованных в нем работ) и цитируемости (количества ссылок на него, т.е. его используемости учеными).
Impact factor можно рассматривать как показатель влиятельности журнала (обозначим его ), который рассчитывается как отношение числа ссылок, которые получил журнал в текущем году на статьи, опубликованные в этом журнале в предшествующие два года, к числу статей, опубликованных в этом журнале в эти же два предшествующих года.
Immediacy index можно рассматривать как показатель быстроты отклика на журнал. Этот показатель равен отношению числа ссылок, полученных журналом на статьи текущего года, к числу статей, опубликованных в нем в том же году.
Любые количественные показатели при оценке научной деятельности могут служить лишь формальными данными для содержательной интерпретации, поскольку они не учитывают индивидуальных особенностей мыслительной работы ученого и национальных традиций сложившейся системы информационной коммуникации. Вместе с тем, эти данные позволяют корректировать субъективную оценку значимости отдельных ученых, научных коллективов и даже сравнивать интеллектуальную деятельность разных стран.
Закон рассеяния статей конкретной тематики по журналам
Еще одним важным свойством научных публикаций является их рассеяние. Закон рассеяния научных статей в журналах был открыт в 1934 г. С. Бредфордом, который в 1948 г. дал ему следующую формулировку [8]:
"Если научные журналы расположить в порядке убывания числа помещенных в них статей по какому-либо заданному предмету, то в полученном списке можно выделить ядро журналов, посвященных непосредственно этому предмету, и несколько групп или зон, каждая из которых содержит столько же статей, что и ядро. Тогда числа журналов в ядре и в последующих зонах будут относиться как ".
В соответствии с этим законом журналы по продуктивности можно сгруппировать так, чтобы они как бы образовали три зоны. Включенные в каждую такую зону журналы содержали бы одну треть публикаций по данному предмету, помещенных во всех этих журналах.
Первая, ядерная зона содержит публикации из небольшого числа самых продуктивных журналов - . Вторая зона содержит публикации из большего числа журналов средней продуктивности - , а третья зона - из еще большего числа журналов с низкой продуктивностью, . Тогда в соответствии с рассматриваемым законом
где является коэффициентом рассеяния, т. е. величиной для данного предмета и времени постоянной.
Другими словами, если совокупность всех публикаций по какому-либо вопросу принять за целое, то в специальных журналах данного профиля (число которых невелико) помещается лишь одна треть этих публикаций. Вторая треть статей по данному вопросу оказывается опубликованной в значительно большем числе тематически родственных (смежных) журналов. Последняя треть этих публикаций рассеяна в огромном числе периодических изданий, в которых появление статей данной тематики трудно предвидеть, так как эти издания имеют широкий профиль или общенаучный характер.
За годы, прошедшие со времени открытия этого закона, проведены сотни исследований с целью проверки его истинности и поиска для него строгого математического выражения. Они показали, что закон этот выполняется только при определенных условиях, когда предмет или тема четко сформулированы, учитываются все релевантные документы в полном перечне изданий и строго ограничено время выхода этих изданий.
Последнее условие имеет особый смысл, так как закон этот характеризует рассеяние в определенный момент. Он является частным случаем более общего распределения, описываемого законом Ципфа. Дж. Ципф установил, что если к достаточно большому тексту составить список всех встретившихся в нем слов и расположить их в порядке убывания частоты встречаемости в данном тексте, то для любого слова произведение его порядкового номера (ранга) на эту частоту есть постоянная величина, имеющая одинаковое численное значение в данном тексте. Этому закону подчиняется распределение не только слов во всех языках мира, но и других явлений социального характера: ученых по числу опубликованных ими работ, городов по численности населения, людей по размерам дохода и даже биологических родов по числу входящих в них видов.
Закон Бредфорда отражает одно из свойств открытой социальной системы, каковой и является научная литература по предмету, а именно - стабильность ее иерархической структуры. Некоторое отличие этого закона от ципфовского распределения объясняется спецификой периодических изданий как формы квантования научной литературы. Эти издания обладают большой инерционностью: изменения в их профилях и номенклатуре происходят значительно медленнее, чем в содержании статей, которые непосредственно отражают все процессы в науке и технике.
Закон рассеяния публикаций имеет большое практическое значение. Из него следует, что охват всех публикаций по какой-либо отрасли или предмету не может быть обеспечен, если ограничиться просмотром лишь профильных журналов и журналов по родственной тематике - для этого приходится просматривать значительную часть научно-технических журналов. Этот закон учитывается при организации национальных информационных систем. Он позволяет решить ряд практических задач информационной деятельности:
- определять число журналов, которые обеспечивают тот или иной процент всех публикаций по какой-либо отрасли или предмету;
- составлять списки журнальных публикаций по теме с гарантированной степенью полноты;
- оценивать полноту библиографических списков журнальных публикаций;
- комплектовать журнальные фонды при фиксированных ассигнованиях;
- вычислять длину полок, необходимых для хранения фонда журналов.