Zum Textbeginn - [Accesskey + 1] Zur Navigation - [Accesskey + 2] Zur Marginalspalte - [Accesskey + 3]

Navigation

lokaler Servicebereich (Marginalspalte)

Seiteninhalt/Textbeginn

Beispieldatensatz

Unser Beispieldatensatz erlaubt es Nutzungsberechtigten SQL-Skripte zu erstellen, um Versorgungsdaten zu analysieren. Die Skripte müssen in einer Oracle 11g-R2-Umgebung lauffähig sein und den Programmcode-Regeln entsprechen. Sie sind mit dem Antrag bei uns einzureichen. Die Skripte werden anhand formaler und inhaltlicher Kriterien geprüft. Freigegebene Skripte führen wir auf den Versorgungsdaten (DaTraV-Daten) aus. Die dadurch erzeugte Ergebnismenge passen wir ggf. an, damit sie den datenschutzrechtlichen Anforderungen genügt. Erst dann wird Ihnen die Ergebnismenge in geeigneter Form zur Verfügung gestellt.

Struktur und Konstruktionsvorgaben

Der Beispieldatensatz wurde entsprechend der folgenden Vorgaben konstruiert

  • Um Redundanz zu vermeiden und den erforderlichen Speicherplatz zu begrenzen, umfasst der Beispieldatensatz nur die Ausgleichsjahre 2009 - 2012.
  • Es gibt gleich viele Versicherte pro Geschlecht und Ausgleichjahr.
  • Es gibt gleich viele Versicherte in jeder der folgenden 11 Altersgruppen: (00 - 10, 11 - 20, 21 - 30, 31 - 40, 41 - 50, 51 - 60, 61 - 70, 71 - 80, 81 - 90, 91 - 100, > 100)
  • Dazu wurde allen Versicherten eines von 11 Geburtsjahren so zugeordnet, dass jedes Geburtsjahr bezogen auf das dem Ausgleichsjahr vorausgehende Jahr in eine der genannten 11 Altersgruppen fällt.
  • Jeder fiktive ICD-Kode kommt gleich oft pro Geschlecht und Ausgleichsjahr vor.
  • Alle fiktiven ICD-Kodes kommen pro Ausgleichsjahr und Altersgruppe mindestens zweimal vor, einmal für Männer und einmal für Frauen.
  • Die fiktiven ICD-Kodes decken den kompletten Kode-Raum von A00.0 bis Z99.9 ab (es sind also alle derzeit gültigen Kodes als Untermenge enthalten).
  • Die fünf Qualifikatoren der Diagnosesicherheit (V = Verdachtsdiagnose, Z = Zustand nach betreffender Diagnose, A = ausgeschlossene Diagnose, G = gesicherte Diagnose, 0 = sonstige) sind pro Geschlecht und Altersgruppe gleichverteilt.
  • Die PZN wird aufgrund ihrer Ausprägungsvielfalt beginnend mit dem Startwert 46 für jedes Geschlecht getrennt inkrementell hochgezählt. Jede so kalkulierte PZN kommt damit genau einmal pro Geschlecht, also insgesamt zweimal vor.
  • Die Leistungsausgaben sind ebenfalls fiktiv.
  • Alle Versicherte haben ein überjähriges Pseudonym.
  • Es gibt Versicherte, die die Krankenkasse gewechselt haben.

Aus den Konstruktionsvorgaben folgt

  • Die Inhalte und Verteilungen von Merkmalen im Beispieldatensatz sind rein fiktiv.
  • Der Beispieldatensatz kann nicht für die Generierung von inhaltlichen Annahmen über die DaTraV-Daten verwendet werden.
  • Der Beispieldatensatz kann nicht zur Prüfung der Angemessenheit der von Ihnen gewählten Methodik genutzt werden.
  • Anhand des Beispieldatensatzes können Sie Ihre Skripte nur syntaktisch prüfen. Diese syntaktische Prüfung ist notwendig, um die Lauffähigkeit Ihres Skriptes vor der Einreichung zu prüfen.
  • Der Beispieldatensatz ist in seinem Umfang begrenzt. Der Beispieldatensatz enthält aufgrund seiner vorgegeben Größe von 2 GB per Webdownload die Ausgleichsjahre 2009 - 2012. Damit sind nicht alle aktuell vorliegenden und zukünftigen Ausgleichsjahre im Beispieldatensatz enthalten. Aufgrund der gewählten Strukturvorgaben sind die Daten pro Ausgleichsjahr bis auf wenige Merkmale wie z.B. SA%_BERICHTSJAHR und SA%_AUSGLEICHSJAHR identisch. Deshalb macht es keinen Sinn, gleichartige Daten für alle vorhandenen Ausgleichsjahre fortlaufend zu duplizieren. Falls ein benötigtes Ausgleichsjahr nicht im Beispieldatensatz enthalten ist, kann dieses per Umbenennung (Suchen & Ersetzen Funktion) aus den vorhandenen SQL-Schema Dateien und CSV-Daten erzeugt werden. Die Anzahl der vorliegenden Ausgleichsjahre im Originaldatensatz erweitert sich jedes Jahr mit jeder neuen Datenlieferung durch das BVA. Welche Ausgleichsjahre aktuell in den DaTraV-Daten vorliegen, können Sie der Startseite des Informationssystems Versorgungsdaten des DIMDI sowie der Datensatzbeschreibung entnehmen.
Warum wurde der Beispieldatensatz nach einfachen Regeln konstruiert?

Der Beispieldatensatz wurde nach einfachen Regeln konstruiert um bei Aufnahme des Pilotbetriebs zumindest syntaktische Tests von Skripten zu ermöglichen.

Warum beinhaltet der Beispieldatensatz nur rein fiktive Daten?

Der Beispieldatensatz beruht nicht auf den Einzeldatensätzen der Versicherten, da diese von der Datenaufbereitungsstelle grundsätzlich nicht herausgegeben werden dürfen (§ 5 (4) DaTraV). Zudem ist die Re-Identifizierung von Versicherten auszuschließen (§ 303c SGB V).

Wird es zukünftig einen inhaltsorientierten Beispieldatensatz geben?

Ein inhaltsorientierter Beispieldatensatz ist in Planung. So wurden in Zusammenarbeit mit der TMF und Vertretern der nutzungsberechtigten Institutionen Anforderungen an einen inhaltsorientierten Beispieldatensatz und denkbare Bereitstellungsformen diskutiert. Die derzeitige Rechtslage erlaubt es nicht, eine unveränderte Stichprobe, welcher Größe auch immer, als Beispieldatensatz bereitzustellen. Diese müsste, damit sie bereitgestellt werden kann, zuvor vollumfänglich anonymisiert werden. Dazu wären u.a. die zeitlichen und damit die inhaltlichen Bezüge zwischen den Einzeldaten sehr weitgehend zu zerstören. Um dies zu vermeiden, könnte ein modellbasierter Beispieldatensatz konstruiert werden, der zumindest wesentliche zeitliche und damit inhaltliche Bezüge repräsentieren kann. Beides ist aufwendig. Die konkreten Vorbereitungen zur Bereitstellung eines inhaltsorientierteren Beispieldatensatzes werden anlaufen, wenn

  • die für 2016 geplante Änderung der Datentransparenzverordnung vollzogen wurde und damit klar ist, ob sich die Rechtgrundlage und / oder der Zuschnitt der Daten ändert und
  • die erforderlichen Personalressourcen zur Verfügung stehen.
Beispieldatensatz herunterladen

DaTraV-Beispieldatensatz (ZIP, ca. 2,2 GB, via FTP)