Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update gemäß neuester Destatis-Version #41

Open
acka47 opened this issue Apr 17, 2024 · 9 comments · May be fixed by #43
Open

Update gemäß neuester Destatis-Version #41

acka47 opened this issue Apr 17, 2024 · 9 comments · May be fixed by #43
Assignees

Comments

@acka47
Copy link
Member

acka47 commented Apr 17, 2024

Die dafür nötigen Dateien wurden bereits in das Repo destatis-schluesseltabellen kopiert. Es handelt sich um folgende drei csv-Dateien:

Wir sollten versuchen, das Verfahren zumindest teilweise zu automatisieren.

  • Zumindest eine automatische Generierung der diffs zwischen zwei Versionen wäre gut (auf csv- wie RDF-Ebene), um dies dann intellektuell vergleichen zu können.
  • Falls möglich, könnten wir das Verfahren zur Generierung der jeweiligen SKOS-Version komplett automatisieren, um es reproduzierbar zu machen.
@acka47 acka47 changed the title Update der Systematik gemäß neuester Destatis-Version Update gemäß neuester Destatis-Version Apr 17, 2024
@acka47 acka47 moved this to 🔖 Ready in Metadatengruppe May 13, 2024
@oellers
Copy link
Member

oellers commented Jun 28, 2024

Eventuell relevante Links im Kontext einer automatischen Generierung:

maipet added a commit that referenced this issue Jul 8, 2024
@maipet maipet linked a pull request Jul 8, 2024 that will close this issue
@maipet
Copy link

maipet commented Jul 9, 2024

Änderungen zwischen der derzeit verwendeten und der aktuellsten Version
changed_labels.csv
deprecated_notations.csv
new_notations.csv

@acka47
Copy link
Member Author

acka47 commented Jul 9, 2024

Danke @maipet . Ich packe das mal für den direkten Überlick hier rein.

Veränderte Labels

(aus changed_labels.csv)

Notation Neues Labels Altes Label
030 Interdisziplin. Studien (Schwerpunkt Rechts-, Wirtschafts- und Sozialwissenschaften) Interdisziplinäre Studien (Schwerpunkt Rechts-, Wirtschafts- und Sozialwissenschaften)
040 Interdiszipl. Studien (Schwerpunkt Kunst, Kunstwissenschaft) Interdisziplinäre Studien (Schwerpunkt Kunst, Kunstwissenschaft)
049 Interdisziplin. Studien (Schwerpunkt Naturwissenschaften) Interdisziplinäre Studien (Schwerpunkt Naturwissenschaften)
073 Judaistik/Hebräisch Judaistik/Hebräisch
120 Nordistik/Skandinavistik (Nord. Philologie, Einzelsprachen a.n.g.) Nordistik/Skandinavistik (Nordische Philologie, Einzelsprachen a.n.g.)
122 Orientalistik, Altorientalistik Orientalistik/Altorientalistik
137 Romanistik (Romanische Philologie, Einzelsprachen a.n.g.) Romanistik (Roman. Philologie, Einzelsprachen a.n.g.)
153 Südslawisch (Bulgarisch, Serbokroatisch, Slowenisch usw.) Südslawisch (Bulgarisch, Serbokroatisch Slowenisch usw.)
182 Intern. Betriebswirtschaft/Management Internationale Betriebswirtschaft/Management
186 Lernbereich Naturwissenschaft/Sachunterricht Lernbereich Naturwissenschaften/Sachunterricht
232 Gesundheitswissenschaften/-management Gesundheitswissenschaft/-management
32 Psychologie Studienbereich Psychologie
41 Pharmazie Studienbereich Pharmazie
50 Zahnmedizin Studienbereich Zahnmedizin
70 Wirtschaftsingenieurwesen mit ingenieurwissenschaftlichem Schwerpunkt Studienbereich Wirtschaftsingenieurwesen mit ingenieurwissenschaftlichem Schwerpunkt
31 Wirtschaftsingenieurwesen mit wirtschaftswissenschaftlichem Schwerpunkt Studienbereich Wirtschaftsingenieurwesen mit wirtschaftswissenschaftlichem Schwerpunkt
67 Raumplanung Studienbereich Raumplanung
02 Evangelische Theologie, -Religionslehre Evang. Theologie, -Religionslehre
03 Katholische Theologie, -Religionslehre Kath. Theologie, -Religionslehre
04 Philosophie Studienbereich Philosophie
27 Sozialwesen Studienbereich Sozialwesen
40 Chemie Studienbereich Chemie
42 Biologie Studienbereich Biologie
75 Bildende Kunst Studienbereich Bildende Kunst
08 Altphilologie (klassische Philologie), Neugriechisch Altphilologie (klass. Philologie), Neugriechisch
05 Geschichte Studienbereich Geschichte
71 Informatik Studienbereich Informatik
30 Wirtschaftswissenschaften Studienbereich Wirtschaftswissenschaften

Entfernte Notationen

(aus deprecated_notations.csv)

Notation Label
241 Kerntechnik/Kernverfahrenstechnik
237 Mathematische Statistik/Wahrscheinlichkeitsrechnung

Neue Notationen

(aus new_notations.csv)

Notation Label
041 Sonstiges Orientierungsstudium
196 Studienkolleg
290 Sonstige Fächer
15 Zentrale Einrichtungen (ohne klinikspezifische Einrichtungen)
20 Zentrale Einrichtungen der Hochschulkliniken (nur Humanmedizin)
83 Außerhalb der Studienbereichsgliederung
10 Außerhalb der Studienbereichsgliederung/Sonstige Fächer

@acka47
Copy link
Member Author

acka47 commented Jul 9, 2024

Es gibt ein Problem, das wir auf unserer Seite beheben und ggf. auch an Destatis melden sollten: Bei der neuen Version ist etwas kaputt, weil eine neue top-level Klassifikationsstelle mit der bereits anderweitig genutzten Notation 10 vergeben wurde.

Wir haben ihr vorerst eine andere Notation (00) vergeben.

Ein aktueller SkoHub Build der neuen Version ist hier: https://skohub.io/dini-ag-kim/hochschulfaechersystematik/heads/41-UpdateDestatis/w3id.org/kim/hochschulfaechersystematik/scheme.html

maipet added a commit that referenced this issue Sep 9, 2024
maipet added a commit that referenced this issue Sep 9, 2024
maipet added a commit that referenced this issue Sep 11, 2024
Delete unused, duplicate notation 10 (label "Außerhalb der Studienbereichsgliederung/Sonstige Fächer")
acka47 added a commit that referenced this issue Sep 11, 2024
maipet added a commit that referenced this issue Oct 21, 2024
maipet added a commit that referenced this issue Oct 25, 2024
@lummerland
Copy link
Contributor

Es gibt ein Problem, das wir auf unserer Seite beheben und ggf. auch an Destatis melden sollten: Bei der neuen Version ist etwas kaputt, weil eine neue top-level Klassifikationsstelle mit der bereits anderweitig genutzten Notation 10 vergeben wurde.

Wir haben ihr vorerst eine andere Notation (00) vergeben.

Ein aktueller SkoHub Build der neuen Version ist hier: https://skohub.io/dini-ag-kim/hochschulfaechersystematik/heads/41-UpdateDestatis/w3id.org/kim/hochschulfaechersystematik/scheme.html

Gerade Mail an destatis verschickt:

Sehr geehrte Damen und Herren,

bei der Durchsicht der aktuellen Fachbereichssystematik ist uns eine möglicherweise problematische Überschneidung aufgefallen. Zwei unterschiedliche Fachbereiche wurden mit derselben systematischen Nummer (10) versehen:

  • Anglistik, Amerikanistik
  • Außerhalb der Studienbereichsgliederung

Dies stellt insbesondere aus technischer Perspektive eine Herausforderung dar, da die systematischen Nummern als eindeutige Identifikatoren für maschinenlesbare Links verwendet werden. Durch die Vergabe identischer Nummern entstehen gleichlautende Links, wodurch eine eindeutige Unterscheidung der beiden Fachbereiche nicht mehr möglich ist. Wir würden gerne wissen, ob es sich hierbei um einen unbeabsichtigten Fehler handelt oder ob wir einen bestimmten Aspekt der Nummernsystematik nicht berücksichtigt haben.

Für eine Klärung dieser Frage wären wir Ihnen sehr dankbar.

Besten Dank im Voraus für Ihre Antworten!
Mit freundlichen Grüßen

@lummerland
Copy link
Contributor

@acka47 @maipet Antwort von destatis:

Sie haben Recht, sowohl die von Ihnen genannte "Anglistik, Amerikanistik" als auch " Außerhalb der Studienbereichsgliederung" sind jeweils mit der 10 nummeriert. Allerdings handelt es sich bei der "Anglistik, Amerikanistik" um einen Studienbereich und bei "Außerhalb der Studienbereichsgliederung" um eine Fächergruppe, es sind also unterschiedliche Hierarchieebenen, weshalb dies unproblematisch ist. 

In unserer Abbildung haben wir die Ebenen leider nicht berücksichtigt, wodurch der Fehler zustandekommt. Die ganzen IDs zu ändern dürfte nun schwierig werden, Was wäre denn ein sinnvoller Weg damit umzugehen?

@acka47
Copy link
Member Author

acka47 commented Oct 31, 2024

Naja, wir stimmen ja ganz klar nicht damit überein, dass das unproblematisch ist, aber ich spreche natürlich nur aus unserer Nutzungsperspektive. Wenn Destatis die Notationen immer nur mit klarem Bezug auf eine Hierarchieebene benutzt, dann funktioniert das. Ich könnte mir aber durchaus vorstellen, dass wir nicht die einzigen sind, bei denen das Probleme macht. Schade, dass es Destatis offenbar nicht interessiert, dass Nachnutzende Probleme mit dieser Umsetzung haben.

Und es ist ja nicht so, dass Destatis nu die drei Ebenen einzeln publiziert, dann könnte ich die Argumentation verstehen. Schaut man sich das PDF der Gesamtsystematik an, sieht man, dass das die einzige Doppelung ist. Das zeigt, dass bis dato Wert auf eindeutige Notationen innerhalb der Gesamtsystmatik gelegt wurde (was auch sinnvoll und richtig ist).

Wie damit umgehen? Zunächst würde ich bei Destatis nochmal nachhaken und etwas Ähnliches schreiben wie hier:

  • Es ist eben nicht unproblematisch für Nachnutzende. Wir haben klar die Probleme geschildert.
  • Es bricht mit einer etablierten Praxis bei der Vergabe von Notationen, an die sich Destatis bisher gehalten hat.
  • Wenn Destatis Interesse an einer leichten (Nach)Nutzung der Systematik hat, sollten sie das nochmal überdenken und konstruktive Hinweise auf Probleme nicht einfach abbügeln.
  • Wir sind gerne bereit, zukünftig vor Veröffentlichung einer neuen Version Feedback zu geben.

maipet added a commit that referenced this issue Nov 18, 2024
Add dct:source and dct:licence to fix build warnings
@lummerland
Copy link
Contributor

Heute nochmal an die destatis geschrieben:

Sehr geehrte Damen und Herren,

ich beziehe mich auf eine E-Mail von Ihnen vom 30.10.2024 mit dem Betreff "Erläuterungen zur Fächersystematik: hier Anglistik, Amerikanistik, Statistisches Bundesamt, GZ 517865 / 789169".

Wir in der OER Metadatengruppe der DINI AG KIM möchten nochmal betonen, dass die doppelte ID-Vergabe massive Probleme für Nachnutzende verursachen kann. Ihre Erklärung überzeugt uns leider nicht. Man kann zwar argumentieren, dass wir bei ja die vollständigen Pfad-IDs zur Kennzeichnung der Fächer nutzen könnten (z.B. Fächergruppe-ID + Studienbereichs-ID), das hätte aber schon früher zu Problemen geführt, da diese IDs sich durch Umstrukturierungen in der Systematik hätten mit verändern müssen. Außerdem wurde bisher bei der Klassifikation immer auf eindeutige und unveränderliche Notationen geachtet. Aus unserer Sicht stellt die jetzige Dopplung der ID 10 einen Bruch mit dieser Praxis dar.

Die Eindeutigkeit von Kennziffern ist eine grundlegende Voraussetzung für eine zuverlässige Datenverarbeitung und -analyse. Bei der Verwendung der Systematik in Datenbanken, Auswertungssystemen und Forschungsprojekten führt eine nicht-eindeutige ID zu Problemen. In unserer maschinenlesbaren Version der Systematik ist der Studienbereich "Anglistik, Amerikanistik" unter der URI https://w3id.org/kim/hochschulfaechersystematik/n10 erreichbar und wird so auch bereits vielfach verwendet. Dieser URI müsste nun auch für die neue Fächergruppe gelten, was nicht geht. Wir haben uns vorerst mit der "0" beholfen (https://w3id.org/kim/hochschulfaechersystematik/n0), das sollte aber keine Dauerlösung sein.

Unser Anliegen ist es, Datennutzenden eine zuverlässige Grundlage zu bieten. Wir würden Sie daher dringend bitten, unsere Bedenken noch einmal zu prüfen. Gerne stehen wir Ihnen für konstruktive Gespräche zur Verfügung und bieten an, bei zukünftigen Versionen bereits im Vorfeld Feedback zu geben.

Wir würden uns über weiteren Austausch zu diesem Thema sehr freuen.

Mit besten Grüßen
Manuel Kummerländer

maipet added a commit that referenced this issue Dec 6, 2024
@acka47 acka47 linked a pull request Dec 9, 2024 that will close this issue
@lummerland
Copy link
Contributor

Heute nochmal an die destatis geschrieben:

Sehr geehrte Damen und Herren,
ich beziehe mich auf eine E-Mail von Ihnen vom 30.10.2024 mit dem Betreff "Erläuterungen zur Fächersystematik: hier Anglistik, Amerikanistik, Statistisches Bundesamt, GZ 517865 / 789169".
Wir in der OER Metadatengruppe der DINI AG KIM möchten nochmal betonen, dass die doppelte ID-Vergabe massive Probleme für Nachnutzende verursachen kann. Ihre Erklärung überzeugt uns leider nicht. Man kann zwar argumentieren, dass wir bei ja die vollständigen Pfad-IDs zur Kennzeichnung der Fächer nutzen könnten (z.B. Fächergruppe-ID + Studienbereichs-ID), das hätte aber schon früher zu Problemen geführt, da diese IDs sich durch Umstrukturierungen in der Systematik hätten mit verändern müssen. Außerdem wurde bisher bei der Klassifikation immer auf eindeutige und unveränderliche Notationen geachtet. Aus unserer Sicht stellt die jetzige Dopplung der ID 10 einen Bruch mit dieser Praxis dar.
Die Eindeutigkeit von Kennziffern ist eine grundlegende Voraussetzung für eine zuverlässige Datenverarbeitung und -analyse. Bei der Verwendung der Systematik in Datenbanken, Auswertungssystemen und Forschungsprojekten führt eine nicht-eindeutige ID zu Problemen. In unserer maschinenlesbaren Version der Systematik ist der Studienbereich "Anglistik, Amerikanistik" unter der URI https://w3id.org/kim/hochschulfaechersystematik/n10 erreichbar und wird so auch bereits vielfach verwendet. Dieser URI müsste nun auch für die neue Fächergruppe gelten, was nicht geht. Wir haben uns vorerst mit der "0" beholfen (https://w3id.org/kim/hochschulfaechersystematik/n0), das sollte aber keine Dauerlösung sein.
Unser Anliegen ist es, Datennutzenden eine zuverlässige Grundlage zu bieten. Wir würden Sie daher dringend bitten, unsere Bedenken noch einmal zu prüfen. Gerne stehen wir Ihnen für konstruktive Gespräche zur Verfügung und bieten an, bei zukünftigen Versionen bereits im Vorfeld Feedback zu geben.
Wir würden uns über weiteren Austausch zu diesem Thema sehr freuen.
Mit besten Grüßen
Manuel Kummerländer

Folgende Antwort bekommen:

Wir bedauern, dass unsere vorherige Antwort noch nicht zielführend für Sie gewesen ist. 
Uns verwundert Ihre Aussage, dass es sich nun um einen Bruch mit der Praxis handeln soll. Beziehen Sie sich diesbezüglich auf die Fächersystematik des Statistischen Bundesamtes?
Wenn dem so ist, möchten wir Sie darauf hinweisen, dass bereits seit dem Wintersemester 2001/2022 sowohl die Fächergruppe 10 als auch der Studienbereich 10 existieren. Daher fand kein Bruch mit der Praxis statt, vielmehr ist dies seit jeher unser praktiziertes Vorgehen.
 
Wie von uns im Oktober mitgeteilt, können wir Ihre Bedenken nicht teilen, da es sich um unterschiedliche Hierarchieebenen handelt und somit auch um unterschiedliche Merkmale im Datensatz, daher ist auch die praktizierte Vergabe der Merkmalsausprägungen unproblematisch.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: 🔖 Ready
Development

Successfully merging a pull request may close this issue.

4 participants