Die Datensatzbeschreibung erläutert die Struktur der vom Informationssystem Versorgungsdaten für die Analyse vorgehaltenen Routinedaten der Gesundheitsversorgung (DaTraV-Daten).

Strukturelle Beschreibung der DatraV-Daten

Die Daten unseres Informationssystems liegen in einer Oracle-Datenbank (11g R2) vor. Sie sind in Form von Tabellen (Satzarten) organisiert. Die Datensatzbeschreibung führt pro Tabelle (Satzart) die Feldnamen, Datentypen und Schlüsselwerte auf und erläutert diese.

Anhand der Beschreibung können Sie prüfen, ob eine Analyse der DaTraV-Daten im Kontext Ihrer spezifischen Fragestellung erfolgversprechend ist. Sie können zudem auf Basis der Beschreibung und des ergänzend bereitstehenden Beispieldatensatzes Programme zur Auswertung der DaTraV-Daten im Rahmen der Datenfernverarbeitung entwickeln. Zunächst steht Ihnen für Analysen SQL (Oracle 11g R2) und SAS (9.4 64bit) zur Verfügung.

In der Aufbauphase des Informationssystems müssen wir die Datenbankstruktur ggf. noch optimieren und die Datensatzbeschreibung entsprechend aktualisieren. Die aktuelle Datei entspricht daher dem derzeitigen Stand der Umsetzung (Stand: 15.11.2018).

Beispieldatensatz

Unser Beispieldatensatz erlaubt es Nutzungsberechtigten SQL-Skripte zu erstellen, um Versorgungsdaten zu analysieren.

DaTraV-Beispieldatensatz (ZIP, ca. 2,2 GB)

Die Skripte müssen in einer Oracle 11g-R2-Umgebung lauffähig sein und den Programmcode-Regeln entsprechen. Sie sind mit dem Antrag bei uns einzureichen. Die Skripte werden anhand formaler und inhaltlicher Kriterien geprüft. Freigegebene Skripte führen wir auf den Versorgungsdaten (DaTraV-Daten) aus. Die dadurch erzeugte Ergebnismenge passen wir ggf. an, damit sie den datenschutzrechtlichen Anforderungen genügt. Erst dann wird Ihnen die Ergebnismenge in geeigneter Form zur Verfügung gestellt.

Struktur und Konstruktionsvorgaben

Der Beispieldatensatz wurde entsprechend der folgenden Vorgaben konstruiert:

  • Um Redundanz zu vermeiden und den erforderlichen Speicherplatz zu begrenzen, umfasst der Beispieldatensatz nur die Ausgleichsjahre 2009 - 2012.
  • Es gibt gleich viele Versicherte pro Geschlecht und Ausgleichjahr.
  • Es gibt gleich viele Versicherte in jeder der folgenden 11 Altersgruppen: (00 - 10, 11 - 20, 21 - 30, 31 - 40, 41 - 50, 51 - 60, 61 - 70, 71 - 80, 81 - 90, 91 - 100, > 100)
  • Dazu wurde allen Versicherten eines von 11 Geburtsjahren so zugeordnet, dass jedes Geburtsjahr bezogen auf das dem Ausgleichsjahr vorausgehende Jahr in eine der genannten 11 Altersgruppen fällt.
  • Jeder fiktive ICD-Kode kommt gleich oft pro Geschlecht und Ausgleichsjahr vor.
  • Alle fiktiven ICD-Kodes kommen pro Ausgleichsjahr und Altersgruppe mindestens zweimal vor, einmal für Männer und einmal für Frauen.
  • Die fiktiven ICD-Kodes decken den kompletten Kode-Raum von A00.0 bis Z99.9 ab (es sind also alle derzeit gültigen Kodes als Untermenge enthalten).
  • Die fünf Qualifikatoren der Diagnosesicherheit (V = Verdachtsdiagnose, Z = Zustand nach betreffender Diagnose, A = ausgeschlossene Diagnose, G = gesicherte Diagnose, 0 = sonstige) sind pro Geschlecht und Altersgruppe gleichverteilt.
  • Die PZN wird aufgrund ihrer Ausprägungsvielfalt beginnend mit dem Startwert 46 für jedes Geschlecht getrennt inkrementell hochgezählt. Jede so kalkulierte PZN kommt damit genau einmal pro Geschlecht, also insgesamt zweimal vor.
  • Die Leistungsausgaben sind ebenfalls fiktiv.
  • Alle Versicherte haben ein überjähriges Pseudonym.
  • Es gibt Versicherte, die die Krankenkasse gewechselt haben.

Aus den Konstruktionsvorgaben folgt:

  • Die Inhalte und Verteilungen von Merkmalen im Beispieldatensatz sind rein fiktiv.
  • Der Beispieldatensatz kann nicht für die Generierung von inhaltlichen Annahmen über die DaTraV-Daten verwendet werden.
  • Der Beispieldatensatz kann nicht zur Prüfung der Angemessenheit der von Ihnen gewählten Methodik genutzt werden.
  • Anhand des Beispieldatensatzes können Sie Ihre Skripte nur syntaktisch prüfen. Diese syntaktische Prüfung ist notwendig, um die Lauffähigkeit Ihres Skriptes vor der Einreichung zu prüfen.
  • Der Beispieldatensatz ist in seinem Umfang begrenzt. Der Beispieldatensatz enthält aufgrund seiner vorgegeben Größe von 2 GB per Webdownload die Ausgleichsjahre 2009 - 2012. Damit sind nicht alle aktuell vorliegenden und zukünftigen Ausgleichsjahre im Beispieldatensatz enthalten. Aufgrund der gewählten Strukturvorgaben sind die Daten pro Ausgleichsjahr bis auf wenige Merkmale wie z.B. SA%_BERICHTSJAHR und SA%_AUSGLEICHSJAHR identisch. Deshalb macht es keinen Sinn, gleichartige Daten für alle vorhandenen Ausgleichsjahre fortlaufend zu duplizieren. Falls ein benötigtes Ausgleichsjahr nicht im Beispieldatensatz enthalten ist, kann dieses per Umbenennung (Suchen & Ersetzen Funktion) aus den vorhandenen SQL-Schema Dateien und CSV-Daten erzeugt werden. Die Anzahl der vorliegenden Ausgleichsjahre im Originaldatensatz erweitert sich jedes Jahr mit jeder neuen Datenlieferung durch das BVA. Welche Ausgleichsjahre aktuell in den DaTraV-Daten vorliegen, können Sie der Startseite Versorgungsdaten entnehmen.

Warum wurde der Beispieldatensatz nach einfachen Regeln konstruiert?

Der Beispieldatensatz wurde nach einfachen Regeln konstruiert um bei Aufnahme des Pilotbetriebs zumindest syntaktische Tests von Skripten zu ermöglichen.

Warum beinhaltet der Beispieldatensatz nur rein fiktive Daten?

Der Beispieldatensatz beruht nicht auf den Einzeldatensätzen der Versicherten, da diese von der Datenaufbereitungsstelle grundsätzlich nicht herausgegeben werden dürfen (§ 5 (4) DaTraV). Zudem ist die Re-Identifizierung von Versicherten auszuschließen (§ 303c SGB V).

Wird es zukünftig einen inhaltsorientierten Beispieldatensatz geben?

Ein inhaltsorientierter Beispieldatensatz ist in Planung. So wurden in Zusammenarbeit mit der TMF und Vertretern der nutzungsberechtigten Institutionen Anforderungen an einen inhaltsorientierten Beispieldatensatz und denkbare Bereitstellungsformen diskutiert. Die derzeitige Rechtslage erlaubt es nicht, eine unveränderte Stichprobe, welcher Größe auch immer, als Beispieldatensatz bereitzustellen. Diese müsste, damit sie bereitgestellt werden kann, zuvor vollumfänglich anonymisiert werden. Dazu wären u.a. die zeitlichen und damit die inhaltlichen Bezüge zwischen den Einzeldaten sehr weitgehend zu zerstören. Um dies zu vermeiden, könnte ein modellbasierter Beispieldatensatz konstruiert werden, der zumindest wesentliche zeitliche und damit inhaltliche Bezüge repräsentieren kann. Beides ist aufwendig. Die konkreten Vorbereitungen zur Bereitstellung eines inhaltsorientierteren Beispieldatensatzes werden anlaufen, wenn

  • das derzeit laufende Projekt zur Erarbeitung eines Risikomodells und Analysen zu einem inhaltsorientierten Beispieldatensatz abgeschlossen ist
  • die für 2016 geplante Änderung der Datentransparenzverordnung vollzogen wurde und damit klar ist, ob sich die Rechtgrundlage und / oder der Zuschnitt der Daten ändert und
  • die erforderlichen Personalressourcen zur Verfügung stehen.

 

Regionaldaten

Im Informationssystem Versorgungsdaten liegen seit dem 22.06.2015 regionale Angaben für die Berichtsjahre 2009 und 2010 in Form des amtlichen Gemeindeschlüssels vor.

Mit Hilfe der Regionaldaten können z.B. regionale Unterschiede als Einflussfaktoren in Analysen betrachtet werden.

Der Gemeindeschlüssel wird in der Satzart SA999 bereitgestellt. Der Gemeindeschlüssel setzt sich aus den folgenden drei Angaben SA999_GS_LAND, SA999_GS_RB und SA999_GS_KREIS zusammen.

Möchte man aus diesen drei Angaben den 5-stelligen Gemeindeschlüssel selbst berechnen, kann man in PL/SQL folgende Formel verwenden:
SA999_GS := (SA999_GS_LAND * 1000 + SA999_GS_RB * 100 + SA999_GS_KREIS)

Tabelle: Felder in der Satzart SA999

Feldname Inhalt Anzahl der Stellen Datentyp
SA999_PSID Überjähriges Pseudonym 19 CHAR
SA999_GS Amtlicher Gemeindeschlüssel 5 NUMBER
SA999_GS_LAND Bundesland 2 NUMBER
SA999_GS_RB Regierungsbezirk 1 NUMBER
SA999_GS_KREIS Kreis 2 NUMBER

 

Die o.g. Felder und Details zu weiteren Satzarten finden Sie in der Datensatzbeschreibung.

Durch die Änderung des §303 b Sozialgesetzbuch V zum 01.08.2014 können wir die DaTraV-Daten, wie vielfach gewünscht, um Regionalkennzeichen ergänzen. Da Regionaldaten für die Jahre 2009 und 2010 beim BVA vorlagen, konnten wir diese von dort beziehen und einspielen.

Im ersten Halbjahr 2015 wurde vom GKV-Spitzenverband in Zusammenarbeit mit dem BVA und uns das Verfahren zur Lieferung weiterer Regionaldaten an das BVA definiert.

Die Regionaldaten werden von den gesetzlichen Krankenkassen verschlüsselt an den GKV-Spitzenverband geliefert und können nur durch uns entschlüsselt werden. Damit wird u.a. sichergestellt, dass weder der GKV-Spitzenverband noch das BVA die Regionaldaten der Versicherten einsehen können.

In der ersten Hälfte des Jahres 2016 wurden erstmals die Postleitzahlen der Versicherten von den gesetzlichen Krankenkassen gezogen und über den GKV-Spitzenverband und das BVA an uns geliefert. Aufgrund des Zeitverzugs von 4 Jahren bei der Lieferung der Versorgungsdaten werden somit im Jahr 2020 erstmals regionsbezogene Auswertungen ab dem Berichtsjahr 2016 möglich sein.

Bei regionalen Auswertungen sind besondere Datenschutzaspekte zu berücksichtigen. Regionale Angaben erhöhen das Re-Identifikationsrisiko, da wir alle in der Regel recht detaillierte Kenntnis von Regionen haben oder diese leicht erwerben können. Aus Datenschutzsicht ist eine Auswertung auf einer höheren regionalen Ebene (z.B. Land) der Auswertung auf einer niedrigen Ebene (z.B. Kreis) vorzuziehen Deshalb bitten wir Sie um eine Begründung, wenn Sie eine Auswertung unter Einbeziehung der Regionalkennzeichen beantragen, falls sich dies nicht direkt aus der Fragestellung und dem wissenschaftlichen Hintergrund ergibt.

Bitte beachten Sie, dass wir uns derzeit in der Abstimmung mit der BfDI befinden, in welcher Form bzw. Detailtiefe Regionaldaten in Ergebnismengen enthalten sein dürfen und welche Voraussetzungen hierfür gelten. Die hier erforderlichen Vorgaben dürften sich am besten anhand von konkreten Anträgen diskutieren und festlegen lassen. Von daher bitten wir Sie sich von den derzeit noch bestehenden Unwägbarkeiten bezüglich der Auswertungsmöglichkeiten der Regionaldaten nicht abschrecken zu lassen und einfach Ihren Antrag zu stellen.

Weitere Informationen zum Gemeindeschlüssel finden Sie im Gemeindeverzeichnis bei Destatis.