Qualitätssicherung durch Datenkuration

Jeder Daten- und Softwaresatz auf DaRUS durchläuft einen Datenkurationsprozess, der die Qualität und Anschlussfähigkeit sichert.

Qualitätskriterien im Kurationsprozess

Jeder Datensatz durchläuft einen formalen Qualitätssicherungsprozess, im Rahmen dessen das DaRUS-Team Daten, Metadaten und Lizenz prüft und gemeinsam mit den Autor:innen überarbeitet und erweitert, um die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Nachnutzbarkeit der Daten, Software und Workflows zu sichern. 

Verständlichkeit

Ist die Struktur des Datensatzes ausreichend beschrieben? Wird für Nachnutzer klar, welche Dateien des Datensatzes welche Rolle innehaben?

  • Prüfung der beschreibenden Metadaten (Description, Notes) und Datei-Metadaten (Ordnerstruktur, Datei-Beschreibungen) auf strukturgebende und  -erklärende Elemente

Ist der Inhalt des Datensatzes ausreichend beschrieben? Gibt es Angaben zum Kontext der Entstehung der Daten, dem betrachteten Forschungsgegenstand und  - falls zutreffend - der erhobenen Größen?

  • Prüfung der beschreibenden Metadaten (Description), der Prozess- und Engineering-Metadata, der verlinkenden Metadaten und beschreibender Dateien auf inhaltlich erklärende Elemente
  • Übernahme von unstrukturierten Informationen (z.B. aus README files) in strukturierte Metadatenfelder

Sind längere Texte in den beschreibenden Metadatenfeldern (Description, Notes) ausreichend strukturiert, dass Sie leicht aufzunehmen und zu nutzen sind?

  • Verwendung von HTML-Elementen, um Links anklickbar zu machen, Aufzählungen zu strukturieren und Textumbrüche sichtbar zu machen
  • Prüfung auf Rechtschreibung und konsistente Schreibweise

Interoperabilität

Sind bei der Angabe von Personen und Publikationen persistente Identifier angegeben?

  • Ergänzung von ORCID oder GND-Nummer bei Autoren
  • Ergänzung von DOIs bei Publikationen

Sind in den Angaben zur Sacherschließung (Schlagwörter, Fachklassifikation) Terme aus kontrollierten Vokabularen, Terminologien oder Systematiken verwendet?

  • Verlinkung von Schlagworten mit kontrollierten Vokabularen (anhand von fachspezifischen Ontologieportalen wie die Terminologie-Services der NFDI-Konsortien, Wikidata und bibliothekarischen Klassifikationen wie LCSH, GND)

Gehört der Datensatz zu einer Textpublikation? Hängt er mit weiteren Datenpublikationen zusammen?

  • Verknüpfung mit Text- und Datenpublikationen auf mensch- und maschinenlesbare Art und Weise über persistente Identifier (in der Regel DOI) im Sinne eines PID-Graphen

Lösen alle verwendeten Links auf und weisen zu einer gültigen Ressource?

  • Prüfung aller vorhandenen Links

Nutzbarkeit

Sind Angaben vorhanden, welche Schritte übernommen werden müssen, um die Daten im Datensatz zu reproduzieren?

Sind die enthaltenen Datengrößen mit den verwendeten Einheiten dokumentiert (z.B. durch Angabe in den Engineering Metadata, als Beschreibung oder als README)? Liegen die tabellarischen Daten in einem einheitlichen Archivformat (wie .csv, .hdf5) vor, für das ein Previewer vorhanden ist?

  • Prüfung der Dateien auf tabellarische Daten
  • Unterstützung bei der Konvertierung in Archivformate
  • Prüfung der Datei-Metadaten 

Beinhaltet der Datensatz Source-Code einer Forschungssoftware oder Code-Bestandteile

  • Angaben zur verwendeten Programmiersprache, zu Abhängigkeiten oder weiterführenden Informationen im CodeMeta-Metadatenblock prüfen
  • Archivierung und Verlinkung des Codes mit Software Heritage, falls die Software auch in einem öffentlich zugänglichen Software-Repository vorliegt
  • Prüfung der vergebenen Lizenz auf Kompatibilität
  • Unterstützung bei der Rückverlinkung von Code Repositories auf den Datensatz

Sind Angaben zu verwendeten Methoden, Instrumenten, Umgebungen und Software vorhanden?

  • Prüfung und ggf. Ergänzung der beschreibenden Prozessmetadaten

Archivfähigkeit

Sind die Daten in einem offenen, langfristig lesbaren und/oder in der Community gängigen Dateiformat gespeichert?

  • Unterstützung bei der Konvertierung von proprietären Formaten in Archivformate (z.B. csv-Dateien oder hdf5 für tabellarische Daten, TIFF für Bilder, pdf für Dokumentente)
  • Vorbereitung der Daten für die optimale Nutzung mit Previewern

Ist eine langfristig erreichbare Kontaktadresse angegeben?

  • Prüfung der angegebenen Kontaktadresse(n)
  • Empfehlung für geeignete Kontaktadressen (Funktionsadressen, langfristg beschäftigte Mitarbeitende)

Rechtliche Sicherheit

Ist eine existierende und korrekt verlinkte Lizenz vergeben?

  • Beratung bei der Auswahl einer geeigneten Lizenz für die enthaltenen Daten (z.B. CC-Lizenzen für Daten oder Software-Lizenzen für Software)?
  • Prüfung auf vorhandene Lizenzinformationen und Lizenzkonflikte

Die Hinweise des DaRUS-Teams stellen keine Rechtsberatung dar.

Deutet der Titel und/oder die Beschreibung darauf hin, dass die Daten/Software möglicherweise der Exportkontrolle unterliegen?

Die Hinweise des DaRUS-Teams stellen keine Rechtsberatung dar.

Legen Titel, Beschreibung und/oder Daten nahe, dass die Daten einen Personenbezug haben? Falls ja, ist geklärt und im Privacy Metadatenblock dokumentiert, ob die Daten ausreichend anonymisiert/pseudonymisiert und zur Veröffentlichung freigegeben wurden?

  • Prüfung der Dateien und Metadaten
  • Ggf. Weiterleitung an die zentrale Datenschutzstelle Zendas

Die Hinweise des DaRUS-Teams stellen keine Rechtsberatung dar.

Zum Seitenanfang