🥇Die Wahrheit zuerst: Warum Systeme basierend auf der Datenbankstruktur entworfen werden sollten

Hallo, Habr!

Wir setzen unsere Erforschung des Themas fort Java und Spring, einschließlich auf Datenbankebene. Heute möchten wir Ihnen erläutern, warum bei der Gestaltung großer Anwendungen die Struktur der Datenbank, nicht der Java-Code, entscheidend sein sollte, wie dies umgesetzt wird und welche Ausnahmen es von dieser Regel gibt.

In diesem etwas verspäteten Artikel erkläre ich, warum ich denke, dass das Datenmodell in einer Anwendung in den meisten Fällen "von der Datenbank aus" und nicht "von den Möglichkeiten von Java" (oder einer anderen Programmiersprache, mit der Sie arbeiten) entworfen werden sollte. Wenn Sie den zweiten Ansatz wählen, begeben Sie sich auf einen langen Weg voller Schmerzen und Herausforderungen, sobald Ihr Projekt zu wachsen beginnt.

Dieser Artikel basiert auf einer Frage, die auf Stack Overflow gestellt wurde.

Interessante Diskussionen auf reddit in den Bereichen /r/java und /r/programming.

Code-Generierung

Ich war wirklich überrascht, dass es eine so kleine Gruppe von Nutzern gibt, die sich über die Tatsache empören, dass jOOQ ernsthaft auf die Codegenerierung angewiesen ist. Niemand hindert Sie daran, jOOQ so zu verwenden, wie Sie es für richtig halten, und niemand zwingt Sie zur Codegenerierung. Aber standardmäßig (wie im Handbuch beschrieben) funktioniert die Arbeit mit jOOQ so: Sie beginnen mit einem (vererbbare) Datenbankschema, führen dessen Reverse Engineering mit dem jOOQ-Codegenerator durch, um so eine Reihe von Klassen zu erhalten, die Ihre Tabellen repräsentieren, und dann schreiben Sie typensichere Abfragen an diese Tabellen:

	for (Record2 record : DSL.using(configuration)
//   ^^^^^^^^^^^^^^^^^^^^^^^ Typinformationen stammen aus 
//   dem generierten Code, auf den sich die
//   folgende SELECT-Anweisung bezieht

       .select(ACTOR.FIRST_NAME, ACTOR.LAST_NAME)
//           vvvvv ^^^^^^^^^^^^  ^^^^^^^^^^^^^^^ generierte Namen
       .from(ACTOR)
       .orderBy(1, 2)) {
    // ...
}

Der Code wird entweder manuell außerhalb des Builds oder manuell bei jedem Build generiert. Zum Beispiel kann eine solche Regenerierung sofort nach Datenbankmigration mit Flyway, die sowohl manuell als auch automatisch durchgeführt werden kann..

Generierung von Quellcode

Mit diesen Ansätzen zur Code-Generierung – sowohl manuell als auch automatisch – sind verschiedene Philosophien, Vorteile und Nachteile verbunden, die ich in diesem Artikel nicht im Detail erörtern möchte. Im Grunde genommen geht es bei generiertem Code darum, dass er es ermöglicht, in Java jene 'Wahrheit' zu reproduzieren, die wir als gegeben akzeptieren, sei es innerhalb oder außerhalb unseres Systems. In gewisser Weise leisten Compiler, die Bytecode, Maschinencode oder eine andere Art von Code aus den Quellcodes generieren, dasselbe – wir erhalten eine Darstellung unserer 'Wahrheit' in einer anderen Sprache, unabhängig von den spezifischen Gründen.

Es gibt eine Vielzahl solcher Code-Generatoren. Zum Beispiel, XJC kann Java-Code basierend auf XSD- oder WSDL-Dateien generieren.Das Prinzip ist immer dasselbe:

Es gibt eine gewisse Wahrheit (intern oder extern) – beispielsweise eine Spezifikation, ein Datenmodell usw.
Wir benötigen eine lokale Darstellung dieser Wahrheit in unserer Programmiersprache.

Es ist oft sinnvoll, eine solche Darstellung zu generieren, um Redundanz zu vermeiden.

Typen-Provider und Annotationenverarbeitung

Hinweis: Ein weiterer, modernerer und spezifischerer Ansatz zur Codegenerierung für jOOQ bezieht sich auf die Nutzung von Typen-Providern, so wie sie in F# umgesetzt sind.In diesem Fall wird der Code vom Compiler während des Kompilierungsprozesses generiert. In Form von Quellcode existiert dieser Code grundsätzlich nicht. In Java gibt es ähnliche, wenn auch weniger elegante Werkzeuge – diese sind die Annotation-Prozessoren, zum Beispiel, Lombok.

In gewissem Sinne geschieht hier dasselbe wie im ersten Fall, mit der Ausnahme:

Sie sehen den generierten Code nicht (vielleicht erscheint diese Situation für einige nicht so abweisend?).
Sie müssen garantieren, dass Typen bereitgestellt werden können, das heißt, 'Wahrheit' muss immer verfügbar sein. Das ist einfach im Falle von Lombok, das 'Wahrheit' annotiert. Etwas komplizierter wird es mit Datenbankmodellen, deren Funktion auf einer ständig verfügbaren, aktiven Verbindung beruht.

Was ist das Problem bei der Codegenerierung?

Neben der komplexen Frage, wie man die Codegenerierung am besten startet – manuell oder automatisch –, muss auch erwähnt werden, dass es Menschen gibt, die der Meinung sind, dass die Codegenerierung überhaupt nicht notwendig ist. Die am häufigsten gehörte Begründung für diese Sichtweise ist, dass es dann schwierig ist, die Build-Pipeline einzurichten. Ja, das ist in der Tat eine Herausforderung. Es entstehen zusätzliche infrastrukturelle Kosten. Wenn Sie gerade erst mit einem bestimmten Produkt beginnen (sei es jOOQ, JAXB oder Hibernate usw.), benötigt die Einrichtung der Entwicklungsumgebung Zeit, die Sie lieber in das Erlernen der API investieren würden, um später davon profitieren zu können.

Wenn die Kosten für das Verständnis der Funktionsweise des Generators zu hoch sind, dann wurde in der API tatsächlich schlecht an der Benutzerfreundlichkeit des Code-Generators gearbeitet (was sich später als auch schwierig für die Benutzeranpassung herausstellt). Die Benutzerfreundlichkeit sollte die oberste Priorität für jede solche API haben. Aber das ist nur ein Argument gegen die Code-Generierung. Ansonsten ist es absolut notwendig, die lokale Darstellung interner oder externer Wahrheiten vollständig manuell zu erstellen.

Viele werden sagen, dass sie keine Zeit dafür haben. Ihre Fristen für das Super-Produkt brennen. Irgendwann werden wir die Montagebänder überarbeiten, dazu bleibt Zeit. Ich antworte ihnen:

Original, Alan O’Rourke, Audience Stack

Aber in Hibernate / JPA ist es so einfach, Code „für Java“ zu schreiben.

In der Tat. Für Hibernate und seine Nutzer ist das sowohl Segen als auch Fluch. In Hibernate kann man einfach ein paar Entitäten schreiben, so wie:

	@Entity
class Book {
  @Id
  int id;
  String title;
}

Und fast alles ist bereit. Nun ist es die Aufgabe von Hibernate, die komplexen „Details“ zu generieren, wie genau diese Entität in DDL Ihres SQL-Dialekts definiert wird:

	ERSTELLEN TABLE book (
  id INTEGER PRIMARY KEY GENERATED ALWAYS AS IDENTITY,
  title VARCHAR(50),
 
  CONSTRAINT pk_book PRIMARY KEY (id)
);
 
ERSTELLEN INDEX i_book_title ON book (title);

… und wir beginnen, die Anwendung zu starten. Eine wirklich tolle Möglichkeit, schnell loszulegen und verschiedene Dinge auszuprobieren.

Aber warten Sie. Ich habe geschummelt.

Wird Hibernate tatsächlich die Definition dieses benannten Primärschlüssels anwenden?
Wird Hibernate einen Index in TITLE erstellen? – Ich weiß genau, dass wir ihn brauchen werden.
Wird Hibernate diesen Schlüssel in der Identity-Spezifikation als identifizierend festlegen?

Wahrscheinlich nicht. Wenn Sie Ihr Projekt von Grund auf neu entwickeln, ist es immer praktisch, die alte Datenbank einfach abzulehnen und eine neue zu generieren, sobald Sie die erforderlichen Annotationen hinzugefügt haben. So wird die Entität Book letztendlich folgendermaßen aussehen:

	@Entity
@Table(name = "book", indexes = {
  @Index(name = "i_book_title", columnList = "title")
})
class Book {
  @Id
  @GeneratedValue(strategy = IDENTITY)
  int id;
  String title;
}

Cool. Neu generieren. Wieder einmal wird es in diesem Fall zu Beginn sehr einfach sein.

Aber später müssen Sie dafür bezahlen.

Früher oder später müssen Sie in die Produktion gehen. Genau dann wird ein solches Modell nicht mehr funktionieren. Denn:

Im Produktionsbetrieb können Sie nicht mehr einfach die alte Datenbank fallen lassen und von Grund auf neu beginnen. Ihre Datenbank wird zu einer veralteten Version.

Von nun an werden Sie DDL-Migrationsskripte, beispielsweise mithilfe von Flyway, schreiben müssen.Was passiert dann mit Ihren Entitäten? Sie können entweder manuell Anpassungen vornehmen (was Ihren Arbeitsaufwand verdoppelt), oder Sie lassen Hibernate für Sie neu generieren (wie hoch ist die Wahrscheinlichkeit, dass das generierte Ergebnis Ihren Erwartungen entspricht?). In jedem Fall haben Sie verloren.

Sobald Sie in die Produktion übergehen, benötigen Sie Hotfixes. Diese müssen sehr schnell in die Produktion gebracht werden. Da Sie sich jedoch nicht vorbereitet haben und keine reibungslose Pipeline für Ihre Migrationen eingerichtet haben, müssen Sie alles wild patchen. Und dann schaffen Sie es nicht, alles richtig zu machen. Und beschuldigen Hibernate, denn immer ist jemand anders schuld, nur nicht Sie…

Stattdessen hätte man von Anfang an alles ganz anders gestalten können. Zum Beispiel hätte man runde Räder an das Fahrrad montieren können.

Zuerst die Datenbank

Die wahre "Wahrheit" über das Schema Ihrer Datenbank und die "Souveränität" darüber liegt innerhalb der Datenbank. Das Schema wird ausschließlich in der Datenbank selbst definiert und nirgendwo anders, und jeder Kunde hat eine Kopie dieses Schemas. Daher ist es vollkommen sinnvoll, die Einhaltung des Schemas und seiner Integrität direkt in der Datenbank durchzusetzen – dort, wo die Informationen gespeichert sind.
Das ist eine alte, beinahe abgedroschene Weisheit. Primär- und Sekundärschlüssel sind gut. Fremdschlüssel sind gut. Einschränkungen zu überprüfen ist gut. Aussagen – gut.

Und das ist noch nicht alles. Wenn Sie Oracle verwenden, möchten Sie wahrscheinlich angeben:

In welchem Tabellenraum sich Ihre Tabelle befindet
Welchen PCTFREE-Wert sie hat
Wie groß der Cache in Ihrer Sequenz (hinter der ID) ist

Vielleicht ist das alles in kleinen Systemen nicht wichtig, aber man muss nicht auf den Übergang zu "Big Data" warten – man kann bereits viel früher von den vom Anbieter bereitgestellten Optimierungen für die Datenspeicherung profitieren, wie die oben genannten. Keine der ORM-Frameworks, die ich gesehen habe (einschließlich jOOQ), bietet Zugriff auf das vollständige Spektrum der DDL-Optionen, die Sie möglicherweise in Ihrer Datenbank verwenden möchten. ORM bieten einige Werkzeuge, die beim Schreiben von DDL helfen.

Aber letztendlich wird ein gut gestaltetes Schema manuell in DDL geschrieben. Jeder generierte DDL ist lediglich eine Annäherung daran.

Wie sieht es mit dem Client-Modell aus?

Wie oben erwähnt, benötigen Sie auf dem Client eine Kopie des Schemas Ihrer Datenbank, ein Client-View. Es ist unnötig zu erwähnen, dass dieses Client-View mit dem tatsächlichen Modell synchronisiert werden muss. Wie erreichen Sie das am besten? Mit einem Code-Generator.

Alle Datenbanken stellen ihre Metainformationen über SQL bereit. So können Sie alle Tabellen aus Ihrer Datenbank in verschiedenen SQL-Dialekten abrufen:

	-- H2, HSQLDB, MySQL, PostgreSQL, SQL Server
SELECT table_schema, table_name
FROM information_schema.tables
 
-- DB2
SELECT tabschema, tabname
FROM syscat.tables
 
-- Oracle
SELECT owner, table_name
FROM all_tables
 
-- SQLite
SELECT name
FROM sqlite_master
 
-- Teradata
SELECT databasename, tablename
FROM dbc.tables

Diese Abfragen (oder ähnliche, je nachdem, ob auch Sicht, materialisierte Sichten und tabellarische Funktionen berücksichtigt werden müssen) werden ebenfalls über einen Aufruf ausgeführt DatabaseMetaData.getTables() aus JDBC oder über das Meta-Modul jOOQ.

Aus den Ergebnissen solcher Abfragen lässt sich relativ einfach eine klientenspezifische Darstellung Ihres Datenbankmodells generieren, unabhängig davon, welche Technologie auf Ihrer Client-Seite verwendet wird.

Wenn Sie JDBC oder Spring verwenden, können Sie eine Reihe von String-Konstanten erstellen.
Wenn Sie JPA verwenden, können Sie die Entitäten selbst generieren.
Wenn Sie jOOQ verwenden, können Sie das jOOQ-Meta-Modell generieren.

Je nachdem, welche Funktionen Ihre Client-API (z. B. jOOQ oder JPA) bietet, kann das generierte Meta-Modell wirklich umfangreich und detailliert sein. Nehmen wir zum Beispiel die Möglichkeit von impliziten Joins, die in jOOQ 3.11 eingeführt wurde., die auf generierten Metainformationen zu den Beziehungen zwischen Ihren Tabellen basiert.

Jetzt führt jede Änderung in der Datenbank automatisch zu einem Update des Client-Codes. Stellen Sie sich beispielsweise Folgendes vor:

ALTER TABLE book RENAME COLUMN title TO book_title;

Möchten Sie diese Arbeit wirklich zweimal machen? Auf keinen Fall. Wir halten einfach DDL fest, führen es durch Ihre Build-Pipeline und erhalten das aktualisierte Entity:

@Entity
@Table(name = "book", indexes = {
 
  // Haben Sie darüber nachgedacht?
  @Index(name = "i_book_title", columnList = "book_title")
})
class Book {
  @Id
  @GeneratedValue(strategy = IDENTITY)
  int id;
 
  @Column("book_title")
  String bookTitle;
}

Oder die aktualisierte jOOQ-Klasse. Die meisten DDL-Änderungen beeinflussen auch die Semantik, nicht nur die Syntax. Daher kann es sinnvoll sein, im kompilieren Code zu sehen, welcher Code durch die Änderungen in Ihrer Datenbank betroffen sein könnte.

Die einzige Wahrheit

Unabhängig von der verwendeten Technologie gibt es stets ein Modell, das die einzige Quelle der Wahrheit für ein bestimmtes Teilsystem darstellt – oder zumindest sollten wir dieses Ziel anstreben, um das Chaos im Unternehmen zu vermeiden, wo die „Wahrheit“ überall und nirgendwo gleichzeitig existiert. Alles könnte viel einfacher sein. Wenn Sie lediglich XML-Dateien mit einem anderen System austauschen, nutzen Sie einfach XSD. Werfen Sie einen Blick auf das INFORMATION_SCHEMA-Meta-Modell von jOOQ im XML-Format:
https://www.jooq.org/xsd/jooq-meta-3.10.0.xsd

XSD ist gut verständlich.
XSD kennzeichnet den XML-Inhalt sehr präzise und ermöglicht die Validierung in allen Client-Sprachen.
XSD verfügt über eine gute Versionierung und bietet umfangreiche Abwärtskompatibilität.
XSD kann mithilfe von XJC in Java-Code übersetzt werden.

Der letzte Punkt ist wichtig. Bei der Kommunikation mit externen Systemen über XML-Nachrichten möchten wir sicherstellen, dass unsere Nachrichten gültig sind. Das lässt sich sehr einfach mit JAXB, XJC und XSD erreichen. Es wäre absolut verrückt zu glauben, dass wir bei einem "Java-zuerst"-Ansatz, bei dem wir unsere Nachrichten als Java-Objekte erstellen, diese irgendwie sinnvoll nach XML abbilden und zur Verwendung in ein anderes System senden können. XML, das auf diese Weise generiert wird, wäre von sehr schlechter Qualität, schlecht dokumentiert und schwer weiterzuentwickeln. Sollte ein solcher Schnittstelle ein Service Level Agreement (SLA) zugrunde liegen, würden wir es sofort ruinieren.

Ehrlich gesagt passiert genau das ständig mit JSON-APIs, aber das ist eine andere Geschichte, beim nächsten Mal werde ich mich darüber aufregen…

Datenbanken: das ist dasselbe

Wenn Sie mit Datenbanken arbeiten, verstehen Sie, dass sie alle im Grunde ähnlich sind. Eine Datenbank besitzt ihre Daten und muss das Schema verwalten. Alle Modifikationen am Schema sollten direkt in DDL umgesetzt werden, damit die einzige Wahrheit aktualisiert wird.

Wenn die Quelle aktualisiert wird, müssen auch alle Kunden ihre Modellkopien aktualisieren. Einige Kunden könnten in Java mit jOOQ und Hibernate oder JDBC (oder sogar allen zusammen) geschrieben sein. Andere könnten in Perl geschrieben sein (da bleibt nur, ihnen viel Glück zu wünschen), und wieder andere in C#. Das spielt keine Rolle. Das Hauptmodell befindet sich in der Datenbank. Durch ORM generierte Modelle sind oft von minderer Qualität, schlecht dokumentiert und schwer weiterzuentwickeln.

Machen Sie daher keine Fehler. Begehen Sie von Anfang an keine Fehler. Arbeiten Sie, basierend auf der Datenbank. Erstellen Sie eine Bereitstellungspipeline, die automatisiert werden kann. Integrieren Sie Code-Generatoren, um Ihr Datenbankmodell bequem kopieren und an die Clients übergeben zu können. Und hören Sie auf, sich über Code-Generatoren zu sorgen. Sie sind gut. Mit ihnen werden Sie produktiver. Sie müssen nur von Anfang an etwas Zeit in ihre Einrichtung investieren – und schon erwarten Sie Jahre gesteigerter Produktivität, die die Geschichte Ihres Projekts prägen werden.

Noch nicht danken, später.

Erklärung

Zur Klarheit: Dieser Artikel propagiert keineswegs, dass das gesamte System (d.h. das Fachgebiet, die Geschäftslogik usw.) sich nach dem Modell Ihrer Datenbank richten sollte. In diesem Artikel erkläre ich, dass der Client-Code, der mit der Datenbank interagiert, basierend auf dem Modell der Datenbank handeln sollte, sodass das Modell der Datenbank nicht als "First-Class" im Client selbst reproduziert wird. Eine solche Logik befindet sich normalerweise auf der Datenzugriffsebene in Ihrem Client.

In den nach wie vor gelegentlich anzutreffenden Zwei-Schichten-Architekturen könnte ein solches Systemmodell die einzige Möglichkeit darstellen. Allerdings erscheint mir in den meisten Systemen die Datenzugriffsebene als eine "Subsystem", die das Modell der Datenbank kapselt.

Ausnahmen

Jede Regel hat Ausnahmen, und ich habe bereits erwähnt, dass der Ansatz, die Datenbank als primär zu betrachten und den Quellcode zu generieren, manchmal ungeeignet sein kann. Hier sind ein paar solcher Ausnahmen (es gibt wahrscheinlich noch weitere):

Wenn das Schema unbekannt ist und es geöffnet werden muss. Zum Beispiel sind Sie ein Anbieter eines Tools, das den Nutzern hilft, sich in jedem Schema zurechtzufinden. Uff. Das geht hier ohne Codegenerierung. Aber dennoch – die Datenbank steht an erster Stelle.
Wenn das Schema zur Laufzeit generiert werden soll, um eine bestimmte Aufgabe zu lösen. Dieses Beispiel scheint eine etwas ausgefallene Version des Musters zu sein. Entity-Attribut-Wert, d.h., Sie haben wirklich kein klar definiertes Schema. In diesem Fall kann man oft nicht einmal sicher sein, dass eine relationale Datenbank geeignet ist.

Ausnahmen sind von Natur aus außergewöhnlich. In den meisten Fällen, die mit der Nutzung von relationalen Datenbanken verbunden sind, ist das Schema im Voraus bekannt, es befindet sich innerhalb der Datenbank und stellt die einzige Quelle der 'Wahrheit' dar, während alle Clients Kopien davon erwerben müssen, die von ihm abgeleitet sind. Idealerweise sollte dabei ein Codegenerator verwendet werden.

Quelle: habr.com