Сначала читаем документ в pdf-файле
Осмысляем структуру прочитанного текста.
Вначале мы видим археографический заголовок, т.е. информацию о том, что это за документ. Этот тип данных обычно называют метаданными. Это данные про сам документ, помогающие его идентифицировать, и про то, как документ представлен в том издании, по которому мы оцифровываем наш материал (Акты социально-экономической истории… или АСЭИ)
Итак,
- 7_ _ -- это номер документа в томе
- [1392-1427]_ _-- это дата создания документа, установленная учеными, поэтому она примерная и в скобках.
- Данная Вас. Бор. Копнина Троицкого м-ря иг. Никону на дер. Казановскую, в Радонеже, близ м-ря -- это заглавие, присвоенное издателем, реферирующее содержание документа
- Список сер. XVIв. -- это описание документа, который напечатан в издании
- Кн. 518 л.543 об. -- это сокращенный архивный шифр, по которому можно найти список в хранилище.
- Потом идет сам текст документа: Святой Троици в дом. Се яз, Василей Борисовичь, дал есми игумену Никону с братьею деревню Костянтинову Казанова. А подписал яз, Василей, сию грамоту. А у даные печать.
- Список з даной -- это самоназвание документа, являющееся частью его текста
Шпаргалка по разметке отдельным файлом вот тут.
Создаем TEI документ и выделяем в нем две части: TEI-Header (там мы сложим наши метаданные) и собственно TEXT. В xml документе все наши размышления оформляются в виде комментариев с помощью такой разметки
<!-- >
Такую разметку компьютерная программа, работающая с xml, читать не будет, и мы можем туда писать все, что нам нужно, чтобы было понятней, что мы делаем.
<?xml version="1.0" encoding="UTF-8"?><!-- здесь мы говорим, что мы делаем документ формата xml>
<TEI><!-- наш документ имеет теги стандарта TEI, поэтому наш главный корневой тег, откуда все потом ветвится - TEI, и мы сразу ставим такой же закрывающий тег в конце документа >
<teiHeader><!-- мы открыли раздел метаданных и сейчас с помощью нижнего тега отделим этот раздел от основного текста>
7
[1392-1427] –Данная Вас. Бор. Копнина Троицкого м-ря иг. Никону на дер. Казановскую, в Радонеже, близ м-ря.
Список сер. XVIв.
Кн. 518 л.543 об.
Список с даной.
</teiHeader><!-- мы уже сразу закрыли раздел метаданных>
<text><!-- а вот тут мы обозначили, что дальше пошел сам текст документа, и закрыли текст в самом конце>
Святой Троици в дом. Се яз, Василей Борисовичь, дал есми игумену Никону с братьею деревню Костянтинову Казанова.
А подписал яз, Василей, сию грамоту.
А у даные печать.
</text><!-- текст закончился, и мы закрыли его соответствующим тегом>
</TEI><!--этот тег мы поставили еще в начале, он закрыл наш TEI документ >
Расставляем теги в TEI HEADER. Там будет и информация из описания документа в издании, и служебная информация о том, кто работал с файлом, необходимая для нашего курса и вашей оценки по нему (кто делал оцифровку и откуда брал документ)
<teiHeader><!-- этот тег у нас уже есть, а закрывающий его тег проставлен на прошлом этапе>
<fileDesc><!-- сначала опишем файл документа, который у нас получается>
<titleStmt><!-- title statement - сюда запишем все, что имеет отношение собственно к документу, который содержится в нашем файлу>
<title>Данная Вас. Бор. КопнинаТроицкого м-ря иг. Никону на дер.Казановскую, в Радонеже, близ м-ря.</title><!-- это название документа в АСЭИ - издании, который мы оцифровываем>
<p>Список сер. XVIв. Кн. 518 л.543 об..</p><!-- эта информация нам пока не нужна, и мы просто ставим тег абзаца, чтобы ее сохранить на будущее>
<idno>7</idno><!-- это номер документа, как он есть в томе АСЭИ, который мы оцифровываем>
<date from=”1392" to=”1427”>1392-1427</date><!-- это дата создания документа, мы переводим ее в формат, который понимает машина. Тогда мы сможем создавать более сложные запросы с ограничением по времени. Даты будут выражены через атрибуты нашего тега (внимание, не забудьте кавычки для значения атрибутов). Но мы все равно сохраняем и то обозначение даты, которое есть в АСЭИ. Это нужно для того, чтобы мы могли полностью воспроизвести наш оцифрованный источник >
Примеры:
1. Если у нас временной период обозначен как “ок. 1460-х - 70-х гг.”, то оформляем так: <date from="1460" to="1470">. Далее указываем все как в тексте: “ок. 1460-х - 70-х гг."
Получается: <date from="1460" to="1470">ок. 1460-х - 70-х гг.</date>2/
2. Если указана конкретная дата, например, 1471 г. декабря 6, то пишем <date when=«1471-12-6»>. Если дня и/или месяца нет, то ставим дефисы на их месте. Пример: <date when=«1471--»>.
</titleStmt><!-- мы закончили сбор всех сведений о самом документе и закрываем тег title statement, обратите внимание на то, как он пишется>
<respStmt><!--здесь мы напишем имя ответственного за того, кто работал с документам, по мере разметки документов, перечисление сфер ответственности будет увеличиваться >
<persName>Иван Иванов</persName><!-- впишите сюда ваше имя>
<resp>Исправление ошибок распознавания, создание TEI документа</resp><!-- перечислите, что вы делали >
</respStmt><!-- мы все сказали о том, кто работал с документом и закрыли тег responsibility statement>
</fileDesc><!-- и мы все сказали, что хотели, об этом файле - что это за файл и кто его подготовил. Не забудьте закрыть этот тег. >
<sourceDesc><!-- Мы напишем, откуда мы взяли этот документ, но не будет давать полного библиографического описания>
<title>АСЭИ. Т. 1. С. 29</title><!--это упрощенное название нашего издания с томом и страницей, на которой расположена грамота >
<sourceDesc><!-- мы описали источник и закрыли тег >
</teiHeader><!-- мы еще на первом этапе закрыли тег teiheader и отделили метаданные от основного текста>
Проверить правильность (валидность) синтаксиса XML можно с помощью какого-нибудь онлайн-инструмента -- например, вот этого.
-
Инструкция по формулярному анализу отдельным файлом вот тут.
-
Шпаргалка по формулярному анализу с примерами вот тут.
-
Финальное распределение текстов вот тут.
-
Источник, I том Актов социально-экономической истории Древней Руси, в формате pdf вот тут.
Во всех документах необходимо отмечать упоминания лиц (<pers>), географических объектов (<place>) и** институций **(<inst>, в случае АСЭИ это будут в основном монастыри и церкви). Однако упоминания лиц без имен (отец, господин), а также упоминания лиц, почитаемых в христианстве (Богородица), выделять в качестве персоналий нецелесообразно.
Важно учитывать, что древнерусское личное имя отличалось по структуре от современного. У человека могло быть много имен (Иван Волк Меньшой), среди которых встречались как календарные (их давали в церкви по месяцеслову и они похожи на современные), так и некалендарные (мирские, по современным меркам они напоминают прозвища — Третьяк, Голова); строгих правил, какие имена и в каком количестве использовать в какой ситуации, не существовало — только общие соображения. Вместо отчества, как правило, использовалась описательная конструкция (Юрьев сын), причем могло быть указано имя как отца, так и других родственников (Петров брат, Третьяков братанич [племянник] и т.п.); в частности, у замужних женщин и вдов имя отца заменялось именем мужа, иногда в сопровождении отчества последнего (Иванова жена, Петрова вдова Юрьевича). Родовое прозвание (прототип современной фамилии) указывалось не всегда и могло состоять из нескольких частей (Василий Борисов сын Сабуров Хромого).Грамматически родовое прозвание могло согласовываться с именем отца или мужа (Иван Третьяков сын Захарьина, Марья Петрова жена Константиновича Ряполовского).
Если при названии объекта или институции присутствуют **родовые определения **(город, деревня, пустошь, озеро, река, болото, мох, камень, монастырь и т.п.), они включаются в тэги <place> и <inst>. Аналогичным образом, в тэг <pers> включаются титулы (князь).
**Метафорические именования институций **(дом Пресвятой Троицы) рассматриваются наравне с обычными. Если метафорическое и обычное именования помещены рядом, так, что между ними нет других слов (в дом Пречистой в Кириллов монастырь) тэг <inst> используется один раз.
Для старорусского языка было обычно **повторение предлогов **(в монастырь в Кириллов, у Ивана у Петрова сына у Долгополова). Для единообразия открывающие тэги надо ставить перед первым предлогом (т.е. в <inst>монастырь в Кириллов<inst> — неправильно, <inst>в монастырь в Кириллов<inst> — правильно). Но если предлог один, то его надо оставить вне тэга (<place>по реку Шексну</place> — неправильно, по <place>реку Шексну</place> — правильно).
- Не должно быть элементов вне тегов!
- Теги, обозначающие части акта, не могут быть вложены друг в друга!
- Знаки препинания не отделяются тегом от слова!
_<inv> _
В классических западных документах это фраза вроде «Во имя Отца, и Сына, и Святого Духа». Русская практика (которой, впрочем, придерживались далеко не все писцы) — рисовать в начале документа крест.
<intit>
В этом элементе указывается лицо (или лица), от которых исходит документ. В русской традиции, как правило, перед именем помещается формула Се яз… («Этим я, имярек, сделал то-то и то-то»), которая также включается в тэг. Документ может исходить от многих лиц — все их имена заключаются в один тэг <int>.
<inscr>
В этом элементе указывается лицо (или) лица, которым документ адресован: От игумена Никифора старцу Исакию.
<sal>
Актовые источники выросли из «обычных» писем, где рядом с обращением естественным образом шло приветствие. Нечто в этом роде встречается в договорных грамотах Великого Новгорода, новгородские экземпляры которых, как правило, начинаются словами «Благословение от владыки [имярек], поклон от посадника [имярек], и от тысяцкого, и от всех старейших, и от всех меньших и от всего Новгорода» (на что князь в своем экземпляре отвечает «Поклон от князя от [имярек] к отцу ко владыке»). Однако для северо- восточных грамот XIV–XV вв. соблюдение формы писем не характерно, так что тэг, скорее всего, не пригодится.
<ar>
Документ может содержать преамбулу (в дипломатике — аренгу). Она бывает двух видов. Первый — это указание на высшие силы, ради милости которых совершается описываемое далее действие (Пречистыя ради Богородцы, Всемилостивейшего ради Спаса и т.п.). Второй — описание факторов, которые повлияли на появление документа, в т.ч. распоряжений (по слову [имярек]) и согласований с властью (доложа князя/боярина [имярек]).
<prom>
Promulgatio — это объявление о факте совершения того или иного юридически значимого действия, без конкретного описания его причин, характера и условий, которые излагаются в следующих трех элементах: пожаловал есми Нифонта игумена Кирилова монастыря с братьею. (Обратите внимание, что глагол пожаловал есми в этой конструкции имеет только одну группу дополнений, отвечающую на вопрос кого? Чем именно пожаловал — вынесено в следующую фразу, грамматически независимую от приведенной, и это есть определяющий признак promulgatio.) По мнению С.М. Каштанова [1988, с. 187], для актов Северо-Восточной Руси самостоятельное promulgatio не характерно, и тэг будет нужен редко.
<narr>
Narratio — детальное описание событий, которые вызвали появление документа. Для русских документов XIV narratio не характерно, к концу XV в. — возникает и «обычно» представляет собой «пересказ челобитий тех юридических или физических лиц, которым или в интересах которых выдается документ» [Там же]. Если предыстория у документа долгая и запутанная (например, он завершает сложную, многоходовую тяжбу), narratio оказывается весьма пространным.
<disp>
Этот элемент включает в себя распоряжения по сути излагаемого в акте решения, в т.ч. перечисление объектов, над которыми совершается сделка, их характеристики (если речь идет о деревнях и землях — детальное описание границ) и условия использования. По мере развития правовой системы и мастерства канцеляристов, объемы dispositio растут и оно обогащается новыми формулировками, учитывающими новые нюансы излагаемых отношений. С другой стороны, чем лучше поставлено канцелярское дело, тем сильнее тяга писцов использовать в dispositio типовые формулировки — это дает ощутимую экономию сил при составлении каждого отдельного документа.
_<sanc> _
Санкции — это последствия, которые, по мысли составителя документа, должны постигнуть человека, нарушившего условия сделки. Как и narratio с dispositio, sanсtio может быть весьма пространным. Поскольку составители документов были людьми религиозными, то в качестве санкций могли упоминаться как наказания, налагаемые властями здесь и теперь (а быти ему от меня, князя, в казни), так и кары высших сил, которые преследовали виновника не только в этой жизни, но и в будущей (не буди на тебе милости божии и пречистые Богородици и чюдотворца Кирила и моего благословения в сем веце и в будущем).
<corr>
Документ должен был нести на себе признаки, позволяющие удостовериться в его подлинности. Это могли быть данные о свидетелях, присутствовавших при заключении сделки (а на отводе были…), или знавших о ней (а на то послуси…), указание имени писца- составителя грамоты (А грамоту писал поп Ефим), печати и подписи (рукоприкладства); последние иногда помещались на обороте (затыльи) грамоты. Если с грамоты снималась копия, подписи и печати не перерисовывались, а описывались (а у грамоты печать…, а на затыльи пишет…). Все эти сведения составляют элемент, называемый в дипломатике corroboratio.
_<dat> _
В этот элемент входит указание на дату и место составления документа, помещаемое до или после сведений об удостоверяющих признаках документа.
<appr>
Поскольку актовые источники выросли из писем, в них мог сохраняться и такой элемент письма, как заключительное благопожелание (далекий предок современных Искренне Ваш,Best и т.п.). Впрочем, для русской дипломатики использование apprecatio не характерно, так что и тэг, скорее всего не пригодится.
Посмотреть т.н. "диффы" можно, установив плагин EasyDiff для Sublime или Compare для Notepad++, но проще всего воспользоваться каким-нибудь онлайн-сервисом -- например, вот этим.