Was sind Metadaten?
Einfach ausgedrückt sind Metadaten Daten über andere Daten. Sie beschreiben sämtliche relevanten Aspekte der Datenplattform einer Organisation, verbinden Systeme und Domänen miteinander und sind entscheidend für die Bereitstellung von Erkenntnissen, Kontrollierbarkeit und Effizienz. Metadaten ermöglichen es, Daten zu klassifizieren und auszuzeichnen, sodass auf sie zurückgegriffen werden kann und sie gemeinsam genutzt werden können. Sie erfassen und bewerten die Qualitätsaspekte (Korrektheit, Vollständigkeit, Aktualität) von Daten, unterstützen die Bereitstellung von Sicherheitsrichtlinien, ermöglichen ein Verständnis der Datenflüsse, geben Informationen über die Datenherkunft und liefern ein Mittel zur Überwachung der Datennutzung. Wie ist dies möglich? Metadaten beinhalten umfassende Informationen:
Technologiebezogene Metadaten: Diese beschreiben Datenspeicherungen, Infrastruktur und verknüpfen Daten mit technischen Plattformen
Semantischen Metadaten: Zeigen Beziehungen und Abhängigkeiten zwischen anderen und verknüpfen Daten untereinander
Analyse-Metadaten: Beziehen sich auf Berichte, Modelle, Analysewerkzeuge und verknüpfen Daten mit Analysen.
Die Bedeutung des Metadaten-Managements für Unternehmen
In einem Unternehmen dienen Metadaten verschiedenen Zielen:
die Beschreibung von Daten
die Bereitstellung von Berichten, Taxonomie und Ontologie
sowie die Katalogisierung von Daten, um diese auffindbar zu machen.
Dadurch werden Metadaten nicht nur für die technischen sondern auch die geschäftlichen Abteilungen bedeutend: Metadaten sollen Brücken bauen zwischen technischen Datenbeschreibungen und sinnvollen geschäftlichen Informationen, Daten verständlich machen, das Rückgrat für die Datendemokratisierung bilden und als Grundbaustein für Daten-Self-Service-Architekturen dienen.
Die Verwaltung dieser Metadaten ist deshalb eine Schlüsselaktivität, um Daten effizient zu nutzen und in der Lage zu sein, fundierte Geschäftsentscheidungen zu treffen.
Evolution des Metadaten-Managements
Ursprünglich waren die Probleme, die das Metadaten-Management versucht zu lösen, in der Vergangenheit nicht so vordringlich. Hochgradig strukturierte Daten, überwiegend Schema-on-write-Ansätze (d. h. Definition der Datenstruktur, bevor in die DB geschrieben wird), eine zentrale Architektur, homogene Datenstrukturen, stabile Prozesse und bevorzugt eine Stapelverarbeitung machten Metadaten leicht zu bewältigen und gleichzeitig sehr statisch.
Dies hat sich über die letzten zehn Jahre radikal verändert. Die Strategien des Metadaten-Managements, die auf der Grundlage früherer Erfahrungen entwickelt worden waren, konnten bereits bei der Einführung von Data Lakes kaum mit der Entwicklung Schritt halten. Wir konnten erleben, wie sich die Einstellung vollständig veränderte und Homogenitätskonzepte ganz aufgegeben wurden. Was nun folgte, waren nicht-homogene Daten, eine Vielzahl an Datenquellen, mit vielfältigen Strukturen und Datentypen – und Schema-on-read (ein agiler Ansatz, bei der das Schema erst bei der Nutzung der Daten definiert wird) bereitete den Weg für modernere Metadaten-Management-Lösungen.
Eine Unmenge an spezifischen Lösungen wurde entwickelt. Manche waren auf die Katalogisierung spezialisiert, andere auf die Entdeckbarkeit oder den Datenfluss, wieder andere waren zwar voll ausgebildete Lösungen, jedoch mit relativ geringer (Anbieter-) Anwendungsmöglichkeit.
Auswirkungen der neuen Metadaten-Management-Strategien
Was haben all diese Ansätze gemeinsam? Sie konnten nicht die Versprechungen erfüllen, insbesondere weil diese Lösungen übermässig auf manuelle Pflege angewiesen waren. Jemand musste die Fehlerfreiheit von Datenkatalogen anpassen, die Compliance überprüfen, die Nutzungskontrolle steuern und viele weitere Aktivitäten überwachen. Der Umstieg auf verteilte Data Lakes, auch bekannt als Data Mesh, vertiefte das Problem noch weiter. Die Akzeptanz von Domain-Driven Design (DDD) in Datenplattform-Architekturen, mit beschränkten Kontexten und verteilten Domänen, machte offensichtlich, wie schwierig es einerseits ist, dies überhaupt zu erreichen, und wie wesentlich es andererseits ist, unternehmensweit teilbare Daten von hoher Qualität bereitzustellen.
Heute beobachten wir eine weitere Veränderung. Unbegrenzte, nie endende Datenströme erobern sämtliche Geschäftsprozesse in der Fertigungsindustrie, dem Finanzwesen, dem Versicherungswesen, Gesundheitswesen und weiteren Branchen. Die Verarbeitung von Streams und Stream Analytics verkürzen die Zeit zwischen der Nachfrage und Bereitstellung von Informationen. Sie bietet einen Weg, die Leistung zu steigern und herkömmliche, periodische Stapel-Operationen durch (annähernd) Echtzeit-Operationen zu ersetzen.
Beispiele für die heutige Dynamik von Daten:
verteilte und sich weiterentwickelnde Domänen
hochgradig nicht-homogene Datenplattformen
grosse Vielfalt an Daten und Datenquellen
Bedarf an Informationen in Echtzeit,
eine Vielzahl an unterschiedlichen Technologien
Insgesamt machen sie das sogenannte passive Metadaten-Management unbrauchbar für moderne Architekturen.
Wir benötigen einen neuen Weg, Metadaten zu verwalten
Wie in diesem Blog-Beitrag erklärt, handelt es sich bei Metadaten um Daten über andere Daten. Da sich Daten in den letzten Jahren sehr stark verändert haben und wesentlich dynamischer, umfangreicher und komplexer geworden sind, haben auch Metadaten ein neues Niveau erreicht. Dies macht es erforderlich, dass wir auch die Art unseres Umgangs mit ihnen verändern. Um Daten auch weiterhin auf sinnvolle Weise zu beschreiben, zu katalogisieren und zu visualisieren, damit sie für Geschäftszwecke verständlich sind, ist ein neuer, fortschrittlicherer Ansatz notwendig. Ein Ansatz, der den heutigen Anforderungen an Geschwindigkeit, Volumen und Struktur von Daten gerecht wird.
Im nächsten Beitrag schauen wir uns daher verschiedene Ansätze an, mit denen dieser neuen Herausforderung begegnet wird, und wir erklären, was aktives Metadaten-Management ist.
Pawel Wasowicz
Pawel lebt in Bern und ist unser Head of Data Engineering. Er hilft unseren Kunden, durch optimale Nutzung der neuesten Trends, bewährter Technologien und seiner jahrelangen Erfahrung auf diesem Gebiet das meiste aus Ihren Daten zu machen.