Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

language@ident im Basisformat: DTABf = ISO 639-3 vs. TEI-Forderung = IANA #103

Open
cthomasdta opened this issue Jun 30, 2021 · 9 comments

Comments

@cthomasdta
Copy link
Member

cthomasdta commented Jun 30, 2021

Hierher kopiert mit Einverständnis der Absenderin:

Am 30.06.2021 um 10:55 schrieb Saric, Sanja (sanja.saric@uni-graz.at):

im Zuge unserer Arbeit an einer Briefedition haben wir bemerkt, dass laut dieser Empfehlung https://www.deutschestextarchiv.de/doku/basisformat/mdProfileDesc.html im Attribut „ident“ des Elements „language“ ISO 639-3 anzugeben ist. Die TEI erfordert hier jedoch IANA https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-teidata.language.html. Ist das eine absichtliche Abweichung, die wir befolgen sollten, oder etwas, was in näherer Zukunft aktualisiert wird?

@cthomasdta
Copy link
Member Author

cthomasdta commented Jun 30, 2021

[…] Die TEI erfordert hier jedoch IANA https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-teidata.language.html. […]

Was mich nun erstmal irritiert ist, dass bei Einbinden des tei_all-Schemas an dieser Stelle (wenn man also den Wert in /TEI/teiHeader/profileDesc/langUsage/language/@ident erstmal leer lässt) die Fehlermeldung lautet

value of attribute "ident" is invalid; must be an RFC 3066 language identifier

@cthomasdta
Copy link
Member Author

cthomasdta commented Jun 30, 2021

Eine präferierte Struktur und vollständigere Attribut-Wert-Kombi (aus einer DTABf-SG-Diskussion dazu) wäre an dieser Stelle im /TEI/teiHeader/profileDesc:

<langUsage>
   <language xml:lang="deu" ident="deu">Deutsch</language>
   <language xml:lang="eng" ident="deu">German</language>
</langUsage>

nach der Liste http://www.iana.org/assignments/language-subtag-registry/language-subtag-registry müssten die Werte also "en" und "de" lauten, sofern sie nicht noch noch genauer spezifiert werden sollen und können.[¹]

Dazu von Frank Wiegand, wiederum mit seinem Einverständnis hierher kopiert:

Am 30.06.2021 um 12:13 schrieb Frank Wiegand:

es wäre sehr sinnvoll, @xml:lang und @ident in einem Rutsch neu durchzusehen und die DTABf-Guidelines und ggfls. das Schema entsprechend anzupassen.

2 Punkte dazu:

  1. @xml:lang ist kein TEI-Ding, sondern liegt in Händen des W3C:
    https://www.w3.org/TR/xml/#sec-lang-tag -- und dieser Wert muss BCP 47 sein:
    + https://datatracker.ietf.org/doc/html/rfc4646
    + https://datatracker.ietf.org/doc/html/rfc4647

  2. @ident ist ein TEI-Ding, und soll auch BCP 47 sein:
    + https://datatracker.ietf.org/doc/html/rfc4647
    + https://datatracker.ietf.org/doc/html/rfc5646

Die Liste ist hier: http://www.iana.org/assignments/language-subtag-registry/language-subtag-registry

Damit wären wir bei:
+ "de" : German

[¹] Für "Frühneuhochdeutsch" gibt's sowohl in BCP 47 als auch in ISO 639-3 nichts spezielles.

Außerdem [d.h. außer im teiHeader] spielt das Thema @xml:lang noch eine Rolle [im <text>-Bereich, nämlich] in <foreign>: https://www.deutschestextarchiv.de/doku/basisformat/fremdsprachlMaterial.html. Auch hier stimmt die Doku dann wohl nicht. Und auch bei anderen Elementen, wo das erlaubt ist, z. B. <quote>. Wahrscheinlich alles, wo in der Doku "639-3" vorkommt.

@tboenig
Copy link
Contributor

tboenig commented Jun 30, 2021

Mit ISO 639-3 sind weit mehr Sprachen abgedeckt. Aus diesem Grund bin ich nicht dafür, dass der Empfehlung der TEI gefolgt wird. Auch wenn in ISO 639-3, die ein oder andere Sprache fehlt, wie im Fall "Frühneuhochdeutsch".

Bei der Wahl von ISO 639-2 ergibt sich zum Beispiel mit: Bairisch, Ostoberdeutsch ein Problem, es fehlt in dieser Liste. In http://www.iana.org/assignments/language-subtag-registry/language-subtag-registry findet sich ein entsprechender Eintrag: "bar", der in ISO 639-3 dokumentiert ist. In diesem Fall spricht das eher für ISO 639-3.

@cthomasdta
Copy link
Member Author

cthomasdta commented Jun 30, 2021

Mit ISO 639-3 sind weit mehr Sprachen abgedeckt. Aus diesem Grund bin ich nicht dafür, dass der Empfehlung der TEI gefolgt wird. Auch wenn in ISO 639-3, die ein oder andere Sprache fehlt, wie im Fall "Frühneuhochdeutsch".

Guter Punkt (+ "Frühneuhochdeutsch" fehlt ja auch in der IANA-Liste, so dass deren Fehlen in ISO 639-3 zumindest nicht zum Pluspunkt für IANA wird).

Zwei Rückfragen dazu:

  1. Wo sehe ich, dass das eine TEI-Empfehlung ist? (was du und auch Frank dann zurecht hervorheben)
  2. Verstehst du die o.g. Validierungs-Meldung "attribute "ident" is invalid; must be an RFC 3066 language identifier"? Ist das nochmal eine andere Liste oder was?

@haoess
Copy link
Contributor

haoess commented Jun 30, 2021

Wo sehe ich, dass das eine TEI-Empfehlung ist? (was du und auch Frank dann zurecht hervorheben)

Nee, hier ist bei mir muss identisch mit soll.

Verstehst du die o.g. Validierungs-Meldung "attribute "ident" is invalid; must be an RFC 3066 language identifier"? Ist das nochmal eine andere Liste oder was?

Woher Deine Fehlermeldung genau kommt (im RNG steht sie nicht, evtl. TEI-oXygen-Framework, alte Version oder ganz was anders), weiß ich nicht, aber https://datatracker.ietf.org/doc/html/rfc3066 sagt:

Obsoleted by: 4646, 4647

@SanjaSaric
Copy link

Danke fürs Posten des Issues, Christian! Ich kann jetzt nur noch ergänzen, dass diese Fehlermeldung bei mir im Oxygen nicht vorkommt und vermute, dass du dein TEI-Framework updaten musst.

@burki
Copy link
Collaborator

burki commented Jun 30, 2021

Die TEI is ja deutlich älter als BCP 47 (letzteres soweit ich sehe von 2005), so dass dies evtl. erst im Nachhinein präzisiert wurde (leider geht die Wayback-Machine der Seite nur bis 2008: https://web.archive.org/web/20080924130042/http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-language.html).
Für mich scheint das ein Fall für ein 2.0 Release von DTABF, wenn man "alte Zöpfe" (in diesem Fall ISO 639-3) zugunsten von BCP 47 abschneiden kann.

@cthomasdta
Copy link
Member Author

Danke fürs Posten des Issues, Christian! Ich kann jetzt nur noch ergänzen, dass diese Fehlermeldung bei mir im Oxygen nicht vorkommt und vermute, dass du dein TEI-Framework updaten musst.

Hm, danke für den Hinweis. Habe grad neu installiert (oXygen XML Editor 23.1), Fehlermeldung bleibt dieselbe. Ich muss mal schauen, wo das geht.

@cthomasdta
Copy link
Member Author

cthomasdta commented Jun 30, 2021

Die TEI is ja deutlich älter als BCP 47 (letzteres soweit ich sehe von 2005), so dass dies evtl. erst im Nachhinein präzisiert wurde (leider geht die Wayback-Machine der Seite nur bis 2008: https://web.archive.org/web/20080924130042/http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-language.html).
Für mich scheint das ein Fall für ein 2.0 Release von DTABF, wenn man "alte Zöpfe" (in diesem Fall ISO 639-3) zugunsten von BCP 47 abschneiden kann.

Ok, also lassen wir es mal offen zur Diskussion beim nächsten Treffen.

Nochmals zur Dokumentation Matthias' Punkt:

Mit ISO 639-3 sind weit mehr Sprachen abgedeckt. Aus diesem Grund bin ich nicht dafür, dass der Empfehlung der TEI gefolgt wird.

Ich lese das, so wie Sanja auch in ihrer ursprünglichen Frage, nicht als Empfehlung der TEI, sondern als Vorgabe der TEI. Dann wären wir also in dem Punkt mit ISO 639-3 nicht TEI-konform.

Zwei Optionen:

  1. DTABf(-Doku und wohl auch die Verarbeitung an verschiedenen Punkten) umstellen auf BCP 47 bzw. IANA
  2. Disukussion auf der TEI-L starten (vorher Archiv und TEI-GitHub-Issues durchforsten),
    a) wieso das so strikt gesehen wird und
    b) ob nicht zumindest optional auch ISO 639-3 erlaubt werden könnte.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants