Вы здесь
Леонов М.В.
Опыт автоматизации поиска персональных данных студентов Московского университета за 1813–1917 гг. по документам ЦГА Москвы
История и практика архивного дела и делопроизводства
УДК 930.25+004
Базы данных (БД) и другие электронные информационные ресурсы, созданные на основе архивных документов, уже стали привычными инструментами как историков, так и пользователей-любителей в поиске необходимой для их исследований информации. Однако создание БД – процесс затратный, требующий от архивных учреждений знаний, времени и финансирования. К тому же по сей день остаются справедливыми замечания историка-архивиста И.Н. Киселева о нехватке информации об уже реализованных и планируемых проектах по созданию архивных онлайн-ресурсов[1]. Поэтому в лаборатории вычислительного практикума и информационных систем факультета вычислительной математики и кибернетики (ВМК) МГУ им. М.В. Ломоносова уже более десяти лет выполняются работы по цифровизации собственными силами отдельных документальных собраний[2]. Облегчение труда специалистов предметных областей благодаря грамотно спроектированным БД является одной из главных задач программирования. Их разработка входит в программу обучения на факультете ВМК, а студенческие историко-архивные исследования (как предметная область) служат прекрасным полигоном для овладения профессиональными навыками. Один из реализуемых факультетом проектов по созданию БД связан с архивом Московского общества испытателей природы[3], другой – с фондом «Московский университет» (Ф. 418), хранящимся в Центральном государственном архиве города Москвы (ЦГА Москвы)[4]. В настоящей статье представлены результаты работы по второму проекту.
Предыстория его такова: автору данной статьи по просьбе коллег и директора Ботанического сада МГУ В.С. Новикова пришлось разыскивать сведения о нескольких десятках студентов XIX в., учившихся на разных факультетах Императорского Московского университета (ИМУ). Постепенно приобретаемый опыт приводил к мысли о необходимости автоматизировать этот увлекательный, но трудоемкий процесс, поскольку фонд университета отличается значительным объемом – 211 904 ед. хр. (503 описи) за 1796–1917 гг. Это уникальный источник данных как для исследования многочисленных проблем истории университетского образования в России, так и для генеалогических поисков, интерес к которым постоянно растет. Правда, документов «допожарного» времени, т. е. до 1812 г., в фонде очень мало. Хорошо документированный период (в отношении студентов и преподавателей университета) начинается с 1833 г., когда министром народного просвещения становится С.С. Уваров.
Отсканированные около трех лет назад описи (до настоящего времени не все) доступны на сайте ЦГА Москвы; их также можно просматривать в читальном зале и вести поиск нужной. Все они построены по структурно-хронологическому принципу. Например, описи 1–72 включают дела канцелярии Совета университета начиная с 1832 г., но найти фамилию обучавшегося по описям практически невозможно. Лишь в описях канцелярии по студенческим делам за 1872–1885 гг. списку дел предшествуют алфавитный именной и предметный указатели с перечнем номеров дел, по которым проходят упомянутые в них фамилия или тема. Начиная с 1886 г. алфавитного указателя нет, приведен лишь список номеров и однотипных дел «О принятии в студенты…» с указанием фамилии и имени до 1906 г., а за 1907–1917 гг. – еще и отчества.
Справочной информации по фонду немного. В первую очередь к ней относится «Предисловие к фонду», написанное, по-видимому, в 1960-х гг. сотрудником архива Вакаринцевой. Сравнительно недавно появился справочник А.М. Феофанова[5], но он охватывает только первые семь десятилетий работы университета, т. е. по 1825 г., и никаких рекомендаций для поиска персональных данных не содержит. Поэтому главными задачами проекта являлись упрощение поиска информации о тех, кто в 1813–1917 гг. обучался в ИМУ, и воссоздание соответствующих имматрикуляционных списков[6]. Последнее имеет самостоятельное значение для истории и престижа Московского университета.
Исходя из того, что большинство описей, содержащих данные о студентах, упорядочены по году поступления в университет, в качестве одной из модельных задач была выбрана разработка информационных систем по книгам, которые издавались университетом на протяжении ряда лет в виде списков студентов. Списки давались приложениями к «Отчетам о состоянии и действиях Императорского Московского университета» за конкретный академический год[7] в разделе «Именная ведомость…», а потом печатались отдельными книгами, называвшимися «Алфавитными списками студентов…»[8]. Первая была выпущена за 1842/43 акад. г., потом за 1845/46–1850/51 акад. гг. Затем выпуск прервался до 1872/73 акад. г. (исключение составил 1865 г.). В последующем книги выходили практически регулярно, и начиная с 1872/73 акад. г. лакун почти нет. Важно отметить, что алфавитными списками книги до 1865 г. назвать нельзя, поскольку фамилии сгруппированы по факультетам и курсам, а не в общей алфавитной последовательности. Книга и список-приложение в «Именной ведомости…», относящиеся к одному периоду, не повторяют друг друга ни по формату, ни даже по перечню фамилий. Как правило, в «Именной ведомости…» приведено большее число персон, а также данных по ним.
Именно эти книги можно считать ключом для поиска дел в фонде 418, но они уже давно стали библиографической редкостью. По словам заведующей отделом редких книг Научной библиотеки МГУ И.Л. Великодной, эти издания долгое время являлись самыми востребованными в читальном зале.
Значительное количество «Алфавитных списков студентов…» и «Отчетов о состоянии и действиях Императорского Московского университета…» хранится в Научной библиотеке МГУ, Российской государственной библиотеке (РГБ), в библиотеке ЦГА Москвы, но ни в одной из них нет полного комплекта этих источников. Заметим, что в справочнике П.А. Зайончковского[9] указаны не все изданные книги. Там нет, например, «Алфавитного списка студентов за 1891/92 акад. г.», который нам удалось разыскать в библиотеке ЦГА Москвы. Отдельные экземпляры «Алфавитных списков студентов…» являются не только антикварными, но и уникальными: некоторые из них снабжены рукописными пометами, исправлениями и дополнениями, сделанными, скорее всего, инспекторами ИМУ. Таковы экземпляры, принадлежащие РГБ.
Параллельно с инициативной оцифровкой «Алфавитных списков студентов…» и разработкой экспериментальных БД постепенно накапливался опыт традиционного поиска архивной информации по конкретным персонам. Для периода с 1872 по 1917 г. он не был сложным. На этом хронологическом отрезке дела о принятии в университет фактически представляют собой личные дела студентов. Состав их в самом полном варианте таков: прошение на имя ректора о зачислении с указанием факультета, аттестат либо свидетельство зрелости (для получивших среднее образование экстерном), выписка из метрической книги о рождении и крещении, свидетельство о приписке к призывному участку, справка о прививке от оспы, свидетельства о прослушанных курсах, об окончании университета, диплом. Для лиц из духовного сословия к прошению о зачислении прилагались выписка из клировых ведомостей о службе отца, для детей чиновников – выписка из формуляра о службе родителя, от одной до четырех фотографий. Усложняет поиск, особенно для распространенных фамилий, то, что до 1907 г. в заголовках дел отчества не указывались. (В «Алфавитных списках студентов…» отчества в основном не приводились до начала 1890-х гг.)
Для облегчения первичного поиска данных нами были подготовлены таблицы, позволяющие узнать номер описи с документами о студенте по году его поступления в университет. Но если в указанных описях нужную фамилию найти не удалось, это не значит, что шансов на положительный результат нет. В фонде имеется серия описей под общим названием «Испытательная комиссия», содержащих данные о результатах соответствующих испытаний на всех четырех факультетах (историко-филологическом, медицинском, физико-математическом, юридическом) и сведения из некоторых других документов. Например, в описи 462 с не вполне информативным названием «Юридический факультет. 1837 г.» кроме всего прочего находятся дела с копиями документов об окончании гимназий с 1848 по 1851 г.
Таблицы соответствия года поступления студента в ИМУ номеру описи хотя и могут облегчить поиск, но гарантии успешного результата не дают. Это касается как поступивших и учившихся до 1872 г. (особенно тех, кто перед этим пребывал в другом университете или академии), так и иных категорий студентов, одна из которых – «оставленные для приготовления к профессорскому званию». К ним относится, например, Алексей Бутягин, впоследствии ректор Московского университета[10]. Описи составлялись на протяжении многих лет и с разной степенью подробности. В некоторых алфавитных указателях присутствуют фамилии студентов даже тогда, когда их нет в заголовках дел! Но это скорее исключение[11]. Типичную разбросанность персональных данных по фонду можно проиллюстрировать на примере Аполлона Михайловича Редкина, впоследствии поэта и орловского вице-губернатора, учившегося в 1820-х гг. Сведения о нем находятся в делах трех описей: деле «О принятии в студенты Аполлона Редкина» 1823 г.[12], деле «Об определении студента Редкина в число канцелярских служащих кремлевской экспедиции» 1826 г.[13], деле «Об увольнении от университета Аполлона Редкина» 1827 г.[14] При поиске данных о студенте 1830-х гг. ельчанине Николае Петровиче Данилове, естествоиспытателе, охотнике, писателе и враче, сначала удалось обнаружить дело о доставке диплома о лекарском звании Николаю Данилову в г. Елец Орловской губернии[15] и лишь потом – «Дело о принятии в университет студента Харьковского университета Николая Данилова»[16].
Дела студентов 1860–1870-х гг. содержат, как правило, лишь первичные документы, требовавшиеся при поступлении. Но есть и исключения. Например, дело Совета ИМУ о принятии в 1870 г. в студенты Петра Маевского, впоследствии известного ботаника-флориста, и об окончании им в 1874 г. курса[17] вполне можно считать личным делом, так как кроме прошения принять в университет там присутствуют основные документы всей его студенческой биографии: аттестат об окончании гимназии, свидетельство о прививке от оспы, послужной список отца, аттестат об утверждении в степени кандидата после окончания университета и даже письмо из Варшавского учебного округа о том, что Маевский по окончании курса наук в ИМУ состоит на службе в Институте сельского хозяйства и лесоводства в Новой Александрии Люблинской губернии.
Итак, опыт традиционного поиска персоналий по фонду 418 с учетом возможностей и специфики факультета ВМК привел нас к идее разработки не единой БД студентов ИМУ, а серии годичных баз данных. Дело в том, что создание единой БД по стандартным канонам труднодостижимо, поскольку данные по студентам в списках различных лет (от 1834 до 1917 г.) имеют сильно отличающийся, по выражению П.А. Зайончковского, «репертуар»[18], а это означает, что приводить набор атрибутов БД к общему знаменателю не только трудоемко, но и нецелесообразно. Кроме того, в списках встречаются многочисленные сокращения, непонятные порой даже историкам. Таким образом, подготовка данных для компьютерного ввода без потерь значимой информации требует большого объема хотя и технического, но довольно квалифицированного труда.
Выбор поэтапного подхода к компьютеризации сильно различающихся по форме списков по академическим годам вполне естественен. Плюсы такого решения можно аргументировать и другими причинами. Во-первых, необходимо было предусмотреть распараллеливание работ по проекту, учитывая как огромный объем технических данных, так и необходимость консультирования у специалистов по истории. Во-вторых, важно было относительно быстро получить реальный результат, имеющий самостоятельное значение, т. е. создать прототип работающей системы. В‑третьих, принятое разделение на отдельные БД дает возможность в порядке эксперимента безболезненно для других компонентов проекта расширять некоторые годичные БД дополнительными сведениями, например из личных дел студентов, хранящихся в том же ЦГА Москвы (как в фонде 418, так и в других, особенно в фонде 459 «Канцелярия попечителя Московского учебного округа»). Почти каждую такую БД можно рассматривать как источник сведений по истории России соответствующего периода.
Один из первых результатов – информационная система по студентам 1901/02 акад. г.[19] Кроме полей, содержащих данные из первоисточника, БД имеет также «интегральные» поля, которые историк-исследователь при необходимости заполняет для собственного анализа. Такие поля предусмотрены для вероисповедания, социального происхождения, места рождения. Пользователь-специалист может с их помощью нужным для своих целей образом укрупнять значения первоначальных полей.
Сформулированный после этого эксперимента метод решения был нами назван разработкой конфедеративной БД[20]. Ее концепция заключается в следующем. Имеется совокупность достаточно независимых (в нашем случае годичных) БД, каждая со своим набором таблиц. Помимо того, есть общий пользовательский интерфейс (программная оболочка), позволяющий по некоторым атрибутам получать ответы на запросы по всем БД «конфедерации». Реализуется также общий набор процедур и утилит, что дает возможность обновлять интегрированный список основных данных (из годичных БД), который и служит источником для запросов пользователя. Единственное при этом требование – присутствие во всех элементах «конфедерации» нескольких обязательных атрибутов (в нашем случае – год источника данных, фамилия и имя студента). На ранних этапах проекта использовался термин «федеративная база данных», но от него пришлось отказаться: в настоящее время он является фактически синонимом понятия распределенной БД, в которой особую роль играет скорость доступа к данным. По нашему мнению, термин «конфедеративная база данных» вполне оправдан для решения задач, аналогичных рассматриваемой нами.
Кроме детальной БД по 1901/02 акад. г. была разработана экспериментальная система по 1887/88 акад. г. Принципиальное ее отличие от предыдущей в том, что распознаванию с редактированием был подвергнут не весь текст, а только фамилии, имена и год рождения. При фиксации фамилии из списка визуализируется соответствующая страница книги. Ясно, что при подобной организации автоматическая статистическая обработка затруднительна, зато экономится время на подготовку данных для такой системы.
В настоящее время ведется обработка данных по второй трети XIX в., а также работа над общей программной оболочкой, под «крышей» которой будут интегрироваться уже созданные годичные базы данных и те, что появятся в дальнейшем. К моменту написания статьи подготовлены в виде годичных БД или пакетов для ввода в систему проекта данные по следующим академическим годам: 1836/37, 1847/48, 1849/50, 1850/51, 1856/57, 1858/59–1861/62, а также по 1887/88, 1901/02 и 1912/13. Сведения из этих БД уже вошли в ряд работ по воронежскому и елецкому краеведению[21].
В проекте в разные годы принимали активное участие студенты факультета ВМК В.А. Белов, М.А. Егоренкова, В.В. Козырев, С.А. Пенкин, А.Д. Чикмарев, а также инженер С.В. Белова. Большой вклад в работувнесли историки МГУ А.С. Орлов и В.П. Пушков.
Что касается методики оцифровки списков студентов, то в ней выделяются три основных этапа. Первый – постраничное фотографирование исходного справочника, второй – набор текста в заранее подготовленный шаблон в таблице Excel, третий – загрузка обработанных данных в БД. Заметим, что первоначально на втором этапе пробовали использовать автоматическое распознавание текста, однако затем от этого отказались. Нецелесообразность способа обусловлена специфичностью текста документов, существенная часть которых – имена собственные, нередко с сокращениями. При таких исходных данных результаты автоматического распознавания требовали для финальной обработки больше усилий, чем простой набор текста вручную. Нередко приходилось сталкиваться с неточностями, неоднозначностью и ошибками в оригинальных записях, особенно в сокращениях географических и административно-территориальных наименований, а также одних и тех же терминов. Например, в документах, касающихся одного воронежского студента, его социальное происхождение обозначено буквой «К.». Означала ли она происхождение из казаков, крестьян или купцов, непонятно. К счастью, удалось найти его личное дело и выяснить расшифровку сокращения (оказалось, что он из крестьян). Явные опечатки в годе рождения иногда удавалось исправлять, обращаясь к списку предыдущего или следующего года.
Также подчас было непросто расшифровать сокращения наименований учебных заведений: ведь то, что для чиновника, составлявшего справочник в 1899 г., было очевидно, сейчас может представлять загадку. Так, трудно догадаться, что сокращение «Ст. Ал. г.» означает Старобельскую Александровскую гимназию. Еще один пример: после долгих поисков (но не в Интернете, а в первоисточниках – метрических книгах) удалось установить, что означает «Место рождения» у студента «Липин. у.». Оказалось, что это село Межировская Слободка Литинского уезда Подольской губернии.
Подобные погрешности и опечатки понятны: чиновники – составители списков и типографские наборщики далеко не всегда были грамотными и внимательными. Некоторое количество опечаток осталось и у нас. Поэтому мы не спешим в организации доступа через Интернет к созданным БД, но с учетом постоянного интереса к этой информации создали «электронное справочное бюро», доступное пока лишь по электронной почте (imu.history@cs.msu.ru). В перспективе планируется создать страницу проекта на сайте факультета ВМК МГУ.
[1] См.: Киселев И.Н. Российские архивы онлайн: детство, отрочество… // Информ. бюл. Ассоциации «История и компьютер». 2014. № 42: материалы XIV конф. АИК. С. 170.
[2] Леонов М.В., Орлов А.С. Опыт создания баз данных по истории Московского университета // Актуальные проблемы Российской цивилизации и методики преподавания истории. Саратов, 2013. С. 216–224.
[3] См.: Леонов М.В. Архив Московского общества испытателей природы на пути в цифровую эпоху // Отечественные архивы. 2019. № 3. С. 27–33.
[4] См.: Леонов М.В. Базы данных на студентов Московского университета середины XIX – начала XX века как инструмент архивных поисков // Документальное наследие России: проблемы теории и практики. К 100-летию государственной архивной службы России. М., 2018. C. 168–171.
[5] Феофанов А.М. Студенты Московского университета второй половины XVIII – первой четверти XIX века: биобиблиогр. слов. М., 2013.
[6] От слова «имматрикуляция» (лат.) – внесение в список студентов.
[7] Начало академического года фиксировалось Уставом университета: с 1833 г. он начинался 22 июля, с 1863 г. – 15 августа, с 1884 г. – 20 августа.
[8] См., напр.: Алфавитный список студентов Императорского Московского университета за 1901/02 академический год. М., 1901.
[9] Справочники по истории дореволюционной России: библиогр. указ. 2-е изд., пересмотр. и доп. / науч. рук., ред. и вступит. ст. П.А. Зайончковского. М., 1978.
[10] ЦГА Москвы. Ф. 418. Оп. 79. Д. 1928 (Испытательная комиссия физико-математического факультета. Алексей Бутягин).
[11] См.: Там же. Оп. 461. Д. 3 (Журнал заседаний физико-математического отделения). Л. 95 (Прошение Михаила Павлова о зачислении в студенты физмата).
[12] Там же. Оп. 120. Д. 397.
[13] Там же. Оп. 123. Д. 205.
[14] Там же. Оп. 97. Д. 15.
[15] Там же. Оп. 6. Д. 61.
[16] Там же. Оп. 103. Д. 200.
[17] Там же. Оп. 39. Д. 266.
[18] Справочники по истории дореволюционной России… С. 416.
[19] См.: Леонов М.В., Пенкин С.А., Егоренкова М.А. Информационная система по студентам Московского университета 1901/02 учебного года // Программные системы и инструменты. 2012. № 13. C. 147–151.
[20] См.: Леонов М.В., Баула В.Г., Козырев В.В. Конфедеративная база данных по студентам Московского университета до 1917 года // Вестн. Моск. ун-та. Сер. 15 «Вычислительная математика и кибернетика». 2014. № 4. С. 34–36.
[21] См., напр.: Леонов М.В. Электронный биографический архив: елецкие математики и естествоиспытатели // Вестн. Елецкого гос. ун-та. 2016. Вып. 37. С. 63–68; Он же. Базы данных по студентам Московского университета как источник для воронежского краеведения // Из истории Воронежского края: сб. ст. / отв. ред. А.Н. Акиньшин. Воронеж, 2017. Вып. 24. C. 39–51; Он же. База данных по студентам Московского университета 1907/08 учебного года // Там же. 2018. Вып. 25. C. 46–67.
Список литературы
-
Леонов М.В. Базы данных на студентов Московского университета середины XIX – начала XX века как инструмент архивных поисков // Документальное наследие России: проблемы теории и практики. К 100-летию государственной архивной службы России. М., 2018. C. 168–171.
-
Леонов М.В., Баула В.Г., Козырев В.В. Конфедеративная база данных по студентам Московского университета до 1917 года // Вестн. Моск. ун-та. Сер. 15 «Вычислительная математика и кибернетика». 2014. № 4. С. 34–36.
-
Леонов М.В., Орлов А.С. Опыт создания баз данных по истории Московского университета // Актуальные проблемы Российской цивилизации и методики преподавания истории. Саратов, 2013. С. 216–224.
-
Леонов М.В., Пенкин С.А., Егоренкова М.А. Информационная система по студентам Московского университета 1901/02 учебного года // Программные системы и инструменты. 2012. № 13. C. 147–151.