Benutzerspezifische Werkzeuge
Sie sind hier: Startseite Lexikon Informations-, Daten- und Wissensmanagement Datenmanagement Daten Normalisierung

Normalisierung

Eines der Hauptanliegen beim Datenbankentwurf und -betrieb ist die möglichst redundanzfreie Speicherung von Informationen, um somit Probleme bei deren Erfassung und Handhabung zu vermeiden. Die Normalisierung stellt dies auf formaler Ebene sicher, indem Abhängigkeiten auf Attributebene analysiert und eliminiert werden.

Definition Normalformen

Unter dem Begriff Normalisierung wird die Ausrichtung einer Datenbasis im Sinne eines gutmütigen Verhaltens einer Datenbank verstanden, indem die Datenbasis so strukturiert wird, dass während des Datenbankbetriebes kein anormales Verhalten beim Einfügen, Löschen oder Ändern eines Datensatzes (sogenannte Einfüge-, Lösch- und Änderungsanomalien) auftritt. Darunter versteht man, dass z.B. mit dem Löschen einer Information zu A auch die letzte Information zu B gelöscht wird, obwohl diese noch benötigt wird. Um das zu verhindern, werden bei der Normalisierung die Abhängigkeiten der Attribute einer Relation untereinander untersucht und für jede Relation eine einzige funktionale Beziehung der Attribute untereinander zugelassen. Grundlage der Normalisierung sind das Relationenmodell [Codd 1970] und die Normalformen, die in den 1970er Jahren aufgestellt worden sind. Basis der Normalformen bilden verschiedene Formen von Abhängigkeiten, die sukzessive mit jeder Normalform ausgeschlossen werden.

1. Normalform

Die erste Normalform bezieht sich zunächst auf die äußere Form eines Attributs und fordert, dass jedes Attribut atomar sein muss [Kent 1983, S. 120], d.h. in einem Datensatz darf pro Attribut immer nur ein Wert stehen und keine Werteliste. Diese Forderung sorgt dafür, dass in einer Datenbasis ausschließlich strukturierte Daten vorliegen, die ein einfaches Retrieval ermöglichen.

2. Normalform

Die zweite Normalform befasst sich mit der Minimalität des Primärschlüssels einer Relation. Sie besagt, dass jedes Attribut einer Relation vollfunktional vom Primärschlüssel abhängig sein muss [Codd 1972, S. 43], d.h. es darf kein Attribut aus dem Primärschlüssel entfallen, ohne dass der Primärschlüssel seine Identifikationseigenschaft bezüglich aller anderen Attribute verliert. Falls eine solche Minimalität des Primärschlüssels nicht vorliegt, handelt es sich bei der betrachteten um eine aus mindestens zwei Relationen zusammengesetzte Relation. Zur Herstellung der zweiten Normalform wird die Relation deshalb gemäß der Abhängigkeiten in verschiedene Relationen aufgeteilt.

3. Normalform

Die dritte Normalform verbietet sogenannte transitive Abhängigkeiten. Eine solche transitive Abhängigkeit liegt vor, wenn in einer Relation R ein Attribut A vom Primärschlüssel nur mittelbar über ein anderes, Nicht-Primärschlüsselattribut abhängt. [Codd 1972, S. 46-50] Dieses andere Nicht-Primärschlüsselattribut bestimmt dann bereits Attribut A vollfunktional, so dass diese funktionale Beziehung in eine weitere Relation ausgelagert werden kann. Würde das nicht geschehen, könnten bestimmte Informationen bzgl. A nur in Abhängigkeit der Daten aus R gespeichert werden, obwohl sie davon nicht bestimmt werden.

Boyce-Codd-Normalform

Da festgestellt wurde, dass die dritte Normalform bestimmte Anomalien nicht beseitigen kann, wurde sie durch durch die sogenannte Boyce-Codd-Normalform konkretisiert. Diese fordert, dass alle Attribute bzw. Attributkombinationen einer Relation, die ein anderes Attribut funktional bestimmen, sich auch als Primärschlüssel der gesamten Relation eignen müssen. [Codd 1974, S. 1018]

4. Normalform

Mit Hilfe der vierten Normalform werden sogenannte mehrwertige Abhängigkeiten ausgeschlossen. Diese liegen vor, wenn zu einem gegebenen Attributpaar (X,Y) das Attribut Z nur von X aber nicht von Y bestimmt wird. [Fagin 1977, S. 267] Eine mehrwertige Abhängigkeit kann somit nur innerhalb eines mindestens aus drei Attributen bestehenden Primärschlüssels vorkommen und tritt im Prinzip dann auf, wenn zwei Relationen A und B künstlich zu einer Relation C zusammengefaßt worden sind, wobei A und B im Primärschlüssel jeweils mindestens eine Übereinstimmung (Attribut X) und einen Unterschied (Attribute Y bzw. Z) besitzen. Um in eine solche Relation C alle Daten korrekt einzutragen, müssten beim Einfügen einer Information i.d.R. mehrere Datensätze angelegt werden (Einfügeanomalie).

5. Normalform

Die fünfte und letzte Normalform schließt die sogenannten Verbundabhängigkeiten aus. Eine Verbundabhängigkeit liegt dann vor, wenn eine Relation R sich in verschiedene Projektionen vollständig zerlegen läßt. Dies ist sicherlich mit jeder Relation möglich. Problematisch ist jedoch, wenn diese Zerlegung nicht auf den Attributen beruht, die sich als Primärschlüssel der Relation eignen. Deshalb fordert die fünfte Normalform, dass jede Verbundabhängigkeit in einer Relation eine Folge ihrer Schlüsselkandidaten ist. [Fagin 1979, S. 265-267]

Liegen alle Relationen einer Datenbasis in fünfter Normalform vor, so spricht man von einer normalisierten Datenbasis. In der Praxis wird aber aus Performanzgründen oftmals auf eine vollständig normalisierte Datenbasis verzichtet. Es wird zumindest versucht, die dritte Normalform einzuhalten, wobei selbst darauf an manchen Stellen verzichtet wird. So werden in den meisten Datenbanken z.B. die Postleitzahlen zusammen mit den Attributen Ort, Strasse und Hausnummer in einer Relation mit einem anderen Primärschlüssel gespeichert, obwohl Ort, Strasse und Hausnummer die PLZ eindeutig bestimmen und somit eine transitive Abhängigkeit zwischen dem Primärschlüssel und der PLZ besteht.

Literatur

Codd, E.F.: A Relational Model of Data for Large Shared Data Banks. In: Communications of the ACM, Vol. 13 (1970), No. 6, S. 377-387.

Codd, E.F.: Further Normalization of the Data Base Relational Model. In: Randall J. Rustin (Hrsg.): Data Base Systems, Courant Computer Science Symposia Series, Vol. 6, Englewood Cliffs, N.J. 1972, S. 33-64.

Codd, E.F.: Recent Investigations in Relational Data Base Systems. In: Proc. IFIP Congress, Stockholm u.a. 1974, S. 1017-1021.

Fagin, R.: Multivalued Dependencies and a New Normal Form for Relational Data Bases. In: ACM Transactions on Data Base Systems, Vol. 2 (1977), No. 3, S. 262-278.

Fagin, R.: Normal Forms and Relational Database Operators. In: Proc. 1979 ACM SIGMOD International Conference on Management of Data, Boston, Massachusetts, 1979, S. 153-160.

Kent, W.: A Simple Guide to Five Normal Forms in Relational Database Theory. In: Communications of the ACM, Vol. 26 (1983), No. 2, S. 120-125.

Lackes, R.; Siepermann, M.: Wohlstrukturiertheit von Daten in betrieblichen Informationssystemen. In: wisu das wirtschaftsstudium, 32. Jg., Heft 6/2003, S. 787-794.

Autoren


 

Prof. Dr. Richard Lackes, Technische Universität Dortmund, Wirtschafts- und Sozialwissenschaftliche Fakultät, Lehrstuhl für Wirtschaftsinformatik, Vogelpothsweg 87, 44227 Dortmund

Autoreninfo


 

Dr. Markus Siepermann, Technische Universität Dortmund, Wirtschafts- und Sozialwissenschaftliche Fakultät, Lehrstuhl für Wirtschaftsinformatik, Vogelpothsweg 87, 44227 Dortmund

Autoreninfo


Zuletzt bearbeitet: 26.09.2013 13:45
Letzter Abruf: 18.08.2017 18:20
Artikelaktionen