Skip to content

Latest commit

 

History

History
222 lines (144 loc) · 26.5 KB

seminar-4.md

File metadata and controls

222 lines (144 loc) · 26.5 KB

Разметка и TEI

Анализ текста

Сначала читаем документ в pdf-файле

Осмысляем структуру прочитанного текста.

Вначале мы видим археографический заголовок, т.е. информацию о том, что это за документ. Этот тип данных обычно называют метаданными. Это данные про сам документ, помогающие его идентифицировать, и про то, как документ представлен в том издании, по которому мы оцифровываем наш материал (Акты социально-экономической истории… или АСЭИ)

Итак,

Разметка структуры документа

Шпаргалка по разметке отдельным файлом вот тут.

Создаем TEI документ и выделяем в нем две части: TEI-Header (там мы сложим наши метаданные) и собственно TEXT. В xml документе все наши размышления оформляются в виде комментариев с помощью такой разметки

<!-- >

Такую разметку компьютерная программа, работающая с xml, читать не будет, и мы можем туда писать все, что нам нужно, чтобы было понятней, что мы делаем.

<?xml version="1.0" encoding="UTF-8"?><!-- здесь мы говорим, что мы делаем документ формата xml>

<TEI><!-- наш документ имеет теги стандарта TEI, поэтому наш главный корневой тег, откуда все потом ветвится - TEI, и мы сразу ставим такой же закрывающий тег в конце документа >

<teiHeader><!-- мы открыли раздел метаданных и сейчас с помощью нижнего тега отделим этот раздел от основного текста>

7

[1392-1427] –Данная Вас. Бор. Копнина Троицкого м-ря иг. Никону на дер. Казановскую, в Радонеже, близ м-ря.

Список сер. XVIв.

Кн. 518 л.543 об.

Список с даной.

</teiHeader><!-- мы уже сразу закрыли раздел метаданных>

<text><!-- а вот тут мы обозначили, что дальше пошел сам текст документа, и закрыли текст в самом конце>

Святой Троици в дом. Се яз, Василей Борисовичь, дал есми игумену Никону с братьею деревню Костянтинову Казанова.

А подписал яз, Василей, сию грамоту.

А у даные печать.

</text><!-- текст закончился, и мы закрыли его соответствующим тегом>

</TEI><!--этот тег мы поставили еще в начале, он закрыл наш TEI документ >

Header

Расставляем теги в TEI HEADER. Там будет и информация из описания документа в издании, и служебная информация о том, кто работал с файлом, необходимая для нашего курса и вашей оценки по нему (кто делал оцифровку и откуда брал документ)

<teiHeader><!-- этот тег у нас уже есть, а закрывающий его тег проставлен на прошлом этапе>

<fileDesc><!-- сначала опишем файл документа, который у нас получается>

<titleStmt><!-- title statement - сюда запишем все, что имеет отношение собственно к документу, который содержится в нашем файлу>

<title>Данная Вас. Бор. КопнинаТроицкого м-ря иг. Никону на дер.Казановскую, в Радонеже, близ м-ря.</title><!-- это название документа в АСЭИ - издании, который мы оцифровываем>

<p>Список сер. XVIв. Кн. 518 л.543 об..</p><!-- эта информация нам пока не нужна, и мы просто ставим тег абзаца, чтобы ее сохранить на будущее>

<idno>7</idno><!-- это номер документа, как он есть в томе АСЭИ, который мы оцифровываем>

<date from=”1392" to=”1427”>1392-1427</date><!-- это дата создания документа, мы переводим ее в формат, который понимает машина. Тогда мы сможем создавать более сложные запросы с ограничением по времени. Даты будут выражены через атрибуты нашего тега (внимание, не забудьте кавычки для значения атрибутов). Но мы все равно сохраняем и то обозначение даты, которое есть в АСЭИ. Это нужно для того, чтобы мы могли полностью воспроизвести наш оцифрованный источник >

Примеры:

1. Если у нас временной период обозначен как “ок. 1460-х - 70-х гг.”, то оформляем так: <date from="1460" to="1470">. Далее указываем все как в тексте: “ок. 1460-х - 70-х гг."

Получается: <date from="1460" to="1470">ок. 1460-х - 70-х гг.</date>2/

2. Если указана конкретная дата, например, 1471 г. декабря 6, то пишем <date when=«1471-12-6»>. Если дня и/или месяца нет, то ставим дефисы на их месте. Пример: <date when=«1471--»>.

</titleStmt><!-- мы закончили сбор всех сведений о самом документе и закрываем тег title statement, обратите внимание на то, как он пишется>

<respStmt><!--здесь мы напишем имя ответственного за того, кто работал с документам, по мере разметки документов, перечисление сфер ответственности будет увеличиваться >

<persName>Иван Иванов</persName><!-- впишите сюда ваше имя>

<resp>Исправление ошибок распознавания, создание TEI документа</resp><!-- перечислите, что вы делали >

</respStmt><!-- мы все сказали о том, кто работал с документом и закрыли тег responsibility statement>

</fileDesc><!-- и мы все сказали, что хотели, об этом файле - что это за файл и кто его подготовил. Не забудьте закрыть этот тег. >

<sourceDesc><!-- Мы напишем, откуда мы взяли этот документ, но не будет давать полного библиографического описания>

<title>АСЭИ. Т. 1. С. 29</title><!--это упрощенное название нашего издания с томом и страницей, на которой расположена грамота >

<sourceDesc><!-- мы описали источник и закрыли тег >

</teiHeader><!-- мы еще на первом этапе закрыли тег teiheader и отделили метаданные от основного текста>

После разметки структуры документа и оформления хедера получиться должно вот так

Проверить правильность (валидность) синтаксиса XML можно с помощью какого-нибудь онлайн-инструмента -- например, вот этого.

Формулярный анализ

  • Инструкция по формулярному анализу отдельным файлом вот тут.
  • Шпаргалка по формулярному анализу с примерами вот тут.
  • Финальное распределение текстов вот тут.
  • Источник, I том Актов социально-экономической истории Древней Руси, в формате pdf вот тут.

Именованные сущности

Во всех документах необходимо отмечать упоминания лиц (<pers>), географических объектов (<place>) и** институций **(<inst>, в случае АСЭИ это будут в основном монастыри и церкви). Однако упоминания лиц без имен (отец, господин), а также упоминания лиц, почитаемых в христианстве (Богородица), выделять в качестве персоналий нецелесообразно.

Важно учитывать, что древнерусское личное имя отличалось по структуре от современного. У человека могло быть много имен (Иван Волк Меньшой), среди которых встречались как календарные (их давали в церкви по месяцеслову и они похожи на современные), так и некалендарные (мирские, по современным меркам они напоминают прозвища — Третьяк, Голова); строгих правил, какие имена и в каком количестве использовать в какой ситуации, не существовало — только общие соображения. Вместо отчества, как правило, использовалась описательная конструкция (Юрьев сын), причем могло быть указано имя как отца, так и других родственников (Петров брат, Третьяков братанич [племянник] и т.п.); в частности, у замужних женщин и вдов имя отца заменялось именем мужа, иногда в сопровождении отчества последнего (Иванова жена, Петрова вдова Юрьевича). Родовое прозвание (прототип современной фамилии) указывалось не всегда и могло состоять из нескольких частей (Василий Борисов сын Сабуров Хромого).Грамматически родовое прозвание могло согласовываться с именем отца или мужа (Иван Третьяков сын Захарьина, Марья Петрова жена Константиновича Ряполовского).

Если при названии объекта или институции присутствуют **родовые определения **(город, деревня, пустошь, озеро, река, болото, мох, камень, монастырь и т.п.), они включаются в тэги <place> и <inst>. Аналогичным образом, в тэг <pers> включаются титулы (князь).

**Метафорические именования институций **(дом Пресвятой Троицы) рассматриваются наравне с обычными. Если метафорическое и обычное именования помещены рядом, так, что между ними нет других слов (в дом Пречистой в Кириллов монастырь) тэг <inst> используется один раз.

Для старорусского языка было обычно **повторение предлогов **(в монастырь в Кириллов, у Ивана у Петрова сына у Долгополова). Для единообразия открывающие тэги надо ставить перед первым предлогом (т.е. в <inst>монастырь в Кириллов<inst> — неправильно, <inst>в монастырь в Кириллов<inst> — правильно). Но если предлог один, то его надо оставить вне тэга (<place>по реку Шексну</place> — неправильно, по <place>реку Шексну</place> — правильно).

Структурные элементы акта

  • Не должно быть элементов вне тегов!
  • Теги, обозначающие части акта, не могут быть вложены друг в друга!
  • Знаки препинания не отделяются тегом от слова!

Invocatio

_<inv> _

В классических западных документах это фраза вроде «Во имя Отца, и Сына, и Святого Духа». Русская практика (которой, впрочем, придерживались далеко не все писцы) — рисовать в начале документа крест.

Intitulatio

<intit>

В этом элементе указывается лицо (или лица), от которых исходит документ. В русской традиции, как правило, перед именем помещается формула Се яз… («Этим я, имярек, сделал то-то и то-то»), которая также включается в тэг. Документ может исходить от многих лиц — все их имена заключаются в один тэг <int>.

Inscriptio

<inscr>

В этом элементе указывается лицо (или) лица, которым документ адресован: От игумена Никифора старцу Исакию.

Salutatio

<sal>

Актовые источники выросли из «обычных» писем, где рядом с обращением естественным образом шло приветствие. Нечто в этом роде встречается в договорных грамотах Великого Новгорода, новгородские экземпляры которых, как правило, начинаются словами «Благословение от владыки [имярек], поклон от посадника [имярек], и от тысяцкого, и от всех старейших, и от всех меньших и от всего Новгорода» (на что князь в своем экземпляре отвечает «Поклон от князя от [имярек] к отцу ко владыке»). Однако для северо- восточных грамот XIV–XV вв. соблюдение формы писем не характерно, так что тэг, скорее всего, не пригодится.

Arenga

<ar>

Документ может содержать преамбулу (в дипломатике — аренгу). Она бывает двух видов. Первый — это указание на высшие силы, ради милости которых совершается описываемое далее действие (Пречистыя ради Богородцы, Всемилостивейшего ради Спаса и т.п.). Второй — описание факторов, которые повлияли на появление документа, в т.ч. распоряжений (по слову [имярек]) и согласований с властью (доложа князя/боярина [имярек]).

Promulgatio

<prom>

Promulgatio — это объявление о факте совершения того или иного юридически значимого действия, без конкретного описания его причин, характера и условий, которые излагаются в следующих трех элементах: пожаловал есми Нифонта игумена Кирилова монастыря с братьею. (Обратите внимание, что глагол пожаловал есми в этой конструкции имеет только одну группу дополнений, отвечающую на вопрос кого? Чем именно пожаловал — вынесено в следующую фразу, грамматически независимую от приведенной, и это есть определяющий признак promulgatio.) По мнению С.М. Каштанова [1988, с. 187], для актов Северо-Восточной Руси самостоятельное promulgatio не характерно, и тэг будет нужен редко.

Narratio

<narr>

Narratio — детальное описание событий, которые вызвали появление документа. Для русских документов XIV narratio не характерно, к концу XV в. — возникает и «обычно» представляет собой «пересказ челобитий тех юридических или физических лиц, которым или в интересах которых выдается документ» [Там же]. Если предыстория у документа долгая и запутанная (например, он завершает сложную, многоходовую тяжбу), narratio оказывается весьма пространным.

Dispositio

<disp>

Этот элемент включает в себя распоряжения по сути излагаемого в акте решения, в т.ч. перечисление объектов, над которыми совершается сделка, их характеристики (если речь идет о деревнях и землях — детальное описание границ) и условия использования. По мере развития правовой системы и мастерства канцеляристов, объемы dispositio растут и оно обогащается новыми формулировками, учитывающими новые нюансы излагаемых отношений. С другой стороны, чем лучше поставлено канцелярское дело, тем сильнее тяга писцов использовать в dispositio типовые формулировки — это дает ощутимую экономию сил при составлении каждого отдельного документа.

Sanctio

_<sanc> _

Санкции — это последствия, которые, по мысли составителя документа, должны постигнуть человека, нарушившего условия сделки. Как и narratio с dispositio, sanсtio может быть весьма пространным. Поскольку составители документов были людьми религиозными, то в качестве санкций могли упоминаться как наказания, налагаемые властями здесь и теперь (а быти ему от меня, князя, в казни), так и кары высших сил, которые преследовали виновника не только в этой жизни, но и в будущей (не буди на тебе милости божии и пречистые Богородици и чюдотворца Кирила и моего благословения в сем веце и в будущем).

Corroboratio

<corr>

Документ должен был нести на себе признаки, позволяющие удостовериться в его подлинности. Это могли быть данные о свидетелях, присутствовавших при заключении сделки (а на отводе были…), или знавших о ней (а на то послуси…), указание имени писца- составителя грамоты (А грамоту писал поп Ефим), печати и подписи (рукоприкладства); последние иногда помещались на обороте (затыльи) грамоты. Если с грамоты снималась копия, подписи и печати не перерисовывались, а описывались (а у грамоты печать…, а на затыльи пишет…). Все эти сведения составляют элемент, называемый в дипломатике corroboratio.

Datum

_<dat> _

В этот элемент входит указание на дату и место составления документа, помещаемое до или после сведений об удостоверяющих признаках документа.

Apprecatio

<appr>

Поскольку актовые источники выросли из писем, в них мог сохраняться и такой элемент письма, как заключительное благопожелание (далекий предок современных Искренне Ваш,Best и т.п.). Впрочем, для русской дипломатики использование apprecatio не характерно, так что и тэг, скорее всего не пригодится.

Примеры разметки

Сравнение двух вариантов одного текста

Посмотреть т.н. "диффы" можно, установив плагин EasyDiff для Sublime или Compare для Notepad++, но проще всего воспользоваться каким-нибудь онлайн-сервисом -- например, вот этим.