Big Data für die Automobientwicklung.
Big Data

Big Data in der Automobilentwicklung

Vernetzung und verteilte Datenanalyse eröffnen neue Wege, Sensordaten von Fahrzeugen auszuwerten und Änderungen zeitnah ins Testfahrzeug zu deployen.
Ein einziges Testfahrzeug liefert heute pro Stunde bis zu 1 Terabyte an Daten. Wer mehrere Fahrzeuge parallel einsetzt, muss demnach täglich Daten im mehrstelligen Petabyte-Bereich verarbeiten. Zukünftig werden auch vernetzte sowie autonom fahrende Autos das Datenvolumen enorm ansteigen lassen. Was Mess- und Kontrolleinheiten in Testfahrzeugen oder Sensoren, Steuergeräte und Aktoren an Big Data erzeugen, müssen Autohersteller möglichst zeitnah auswerten. Denn die Analyseergebnisse fließen in die Weiterentwicklung der Fahrzeuge ein. Zudem werden für die Absicherung Millionen von Testkilometern nicht nur physisch, sondern vermehrt auch virtuell gefahren: auch dazu bieten Daten eine wichtige Grundlage.

Entwicklungsprozesse verkürzen

Die Automobilindustrie steht vor der Herausforderung, große Datenmengen während der Entwicklung zusammenführen und in möglichst kurzer Zeit analysieren zu müssen. Während der Fahrt erfasst eine „Logger“ auf Festspeichern (Solid State Disks) die Daten, die am Ende des Arbeitstages ausgelesen und in die Auswertungssoftware eingespeist werden. Die Analyseergebnisse sollen bereits nach wenigen Stunden vorliegen, um vor der nächsten Testfahrt kritische Fehler beheben zu können und nächste Tests vorzubereiten. So lassen sich Entwicklungsprozesse verkürzen und Kosten senken. Klassische Datenverbindungen sind jedoch nicht darauf ausgelegt, die riesigen Datenmengen aus global verstreuten Testgebieten schnell zusammenzufügen. Klassische Analysearchitekturen und Übertragungstechniken kommen aufgrund des Datenvolumens an ihre Belastungsgrenze.

Code to Data

Die heute üblichen Bandbreiten, die insbesondere bei Fahrzeugtests global zur Verfügung stehen müssen, reichen für den schnellen Datendurchsatz nicht aus – egal ob 4G-Mobilfunknetzte, WLAN, VPN oder Ethernet. Stattdessen sollten Automobilhersteller Daten möglichst nah am Entstehungsort vorverarbeiten und nur die Ergebnisse zentral zusammenführen und analysieren. Die Fähigkeit, große Datenmengen in der Nähe eines Prüfstandes oder direkt auf dem Fahrzeug zu analysieren, wird immer wichtiger. Aufgrund der schieren Menge an Testdaten und des zunehmenden Bedarfs an virtuellen und physischen Tests wird das Co-Design von Workloads und der zugrunde liegenden Plattform sowie die Auswahl einer geeigneten Topologie zu einem Muss.
Nur durch geschickte Wahl und Platzierung von Infrastruktur und Algorithmen lässt sich der Aufwand für die Analyse von Big Data erheblich reduzieren. Dafür bieten sich drei ergänzende Ansätze an: die Datenlokalität (code to data), die hochskalierbare und parallele Verarbeitung der Daten (parallel code) und die Abstimmung der Hardware auf die Software (codesign). Durch das Code-to-Data-Prinzip bringen wir nicht die Daten zu den Algorithmen, sondern senden den Code, der ein weitaus geringeres Volumen hat, zu den Daten. Dadurch wird eine Parallelisierung ermöglicht und der Haupt-Thread für die weitere Verarbeitung freigegeben. Zudem wird der Analyse-Code dort ausgeführt, wo die Daten entstehen. Nur die Ergebnisse der Auswertung werden über die üblichen Verbindungen zur zentralen Analyse geschickt. Dies beschleunigt den Analysevorgang um ein Vielfaches und senkt die Kosten. Kommunikation ist immer kosten- und zeitintensiv, da sie sich nicht verdichten lässt. Weniger Datenübertragung bedeutet weniger Energieverbrauch und weniger Kosten – und das ist ein entscheidender Vorteil.

Integrierte Entwicklungs- und Simulationsplattform

Nicht nur die Überbrückung von Distanzen, sondern auch von Systemgrenzen wird entscheidend, um Simulationen effizient durchzuführen, ohne Daten und Orchestrierungscode zu duplizieren. Die Re-Simulation muss nahtlos von numerischen zu physikalischen Simulationen auf HIL's und Testbeds erfolgen. Übergreifende Orchestrierung und durchgängige semantische Modelle bilden die Grundlage für eine solche integrierte Entwicklungs- und Simulationsplattform. Die nahtlose Einbettung von Entwicklungs- und Testpipelines durch die Optimierung von Datenflüssen reduziert Zeit und Kosten, erzielt dabei jedoch dieselben Ergebnisse.
Technologisch gesehen ist auch das Auslesen von Daten eine besondere Herausforderung. Signaldaten lassen sich bis dato nur schlecht komprimieren und effizient interpretieren, da sie sich nicht in handlichere Ausschnitte teilen lassen. Dann könnten viele Rechner parallel die Einzelteile auswerten und ein weiterer Rechner die Ergebnisse daraufhin zusammenfügen. Mit einem ganzen Rechnerstapel (Cluster) und parallel arbeitender Software liegt das Ergebnis nach wenigen Sekunden vor.
Doch ein solches Verfahren konnte in der Automobilentwicklung bisher nicht angewandt werden, da maschinelle Signale variable, situationsabhängige Codierungen verwenden. Klassische Dekodierungsverfahren stoßen dabei an ihre Grenzen und skalieren nicht im benötigten Ausmaß. Das parallel arbeitende, softwarebasierte Signal­verarbeitungs­verfahren (Big Data Signal Processing) von T-Systems dekodiert und normalisiert Logger- und Tracefiles aus den Fahrzeugen. Die Signalkanäle (Traces, Videos, Logs etc.) können rekombiniert, gefiltert und rekodiert werden – und bleiben dabei horizontal skalierbar.  Ein nicht uninteressanter Nebeneffekt ist die verlustfreie Kompression für Kanäle mit geringer Änderungsrate (z.B. Flags). Die Lösung sorgt für ein rasantes und komprimiertes Abspeichern und Verarbeiten von Testdaten, auch in der Cloud. Das Big Data Signal Processing kann ohne Informationsverlust Daten dekodieren, komprimieren, rekombinieren, verschneiden, filtern, mathematische Operatoren anwenden - und das gleichzeitig auf allen Rechnerkernen eines bereitgestellten Clusters. Die in der Praxis erzielte Geschwindigkeit ist damit 40-mal höher als bei bisherigen Verfahren. Die gespeicherte Datenmenge schrumpft parallel je nach gemessenen Kanälen auf bis zu zehn Prozent des ursprünglichen Volumens.

Einfache Datenanalyse, Machine Learning oder KI

Neben dem Thema Geschwindigkeit stellt sich im Zusammenhang mit der Analyse von großen Datenmengen auch die Frage nach der Qualität der Analyse. So bekommen heute selbst einfache Analysealgorithmen gern den KI-Stempel aufgedrückt. Dabei handelt es sich bei maschinellem Lernen, der aktuell am meisten genutzten Form der Datenanalyse, meist ausschließlich um Korrelation von Daten. Ein Algorithmus erkennt Muster und Gesetzmäßigkeiten in den Lerndaten. Das sogenannte „Lernen“ basiert auf der Errechnung bedingter Wahrscheinlichkeiten, hat also mit Intelligenz nichts zu tun, auch wenn die erzielten Resultate beeindruckend sind. Interessant ist allerdings zu sehen, wie viele Aufgabe basierend auf Assoziation schon gelöst werden können.
Für maschinelle Intelligenz sollten aber Werkzeuge genutzt werden, die kausales Denken ermöglichen, also Modelle, welche die Entscheidungen auch nachvollziehbar machen. Die Qualität der Analyse lässt sich in drei Schritten verbessern: Der einfachste Level ruft rein statistische Beziehungen auf. Ein einfaches Beispiel: Die Tatsache, dass ein Kunde ein schwarzes Auto kauft, erhöht die Wahrscheinlichkeit, dass er auch schwarze Ledersitze haben will. Bedingte Wahrscheinlichkeiten lassen sich durch Auswertung großer Datenmengen errechnen und stellen eine Assoziation zwischen zwei Beobachtungen her. Auf der Stufe der Intervention geht es darum, nicht nur zu sehen, was ist, sondern auch die Frage nach dem Warum zu beantworten: Hat der Kunde schwarze Ledersitze gekauft, weil er ein schwarzes Auto gekauft hat? Die oberste Ebene ist die kontrafaktische Ebene: Was würde passieren, wenn man den Preis verdoppeln würde? Solche Fragen können nicht allein aus den Korrelationen der Verkaufsdaten beantwortet werden, da sie eine Änderung des Kundenverhaltens als Reaktion auf die neue Preisgestaltung mit sich bringen.
Durch Kenntnisse der datengenerierenden Prozesse – oder durch kausale Modelle – lässt sich so etwas wie Maschinenintelligenz konstruieren und funktionsfähige Objekte erzeugen, die nachvollziehbare Aktionen auslösen. Sogenannte „Black Box“ Algorithmen, die rein auf Korrelation basieren, entziehen sich einer Kommunikation über deren inneren Entscheidungsvorgang. Erst die Verwendung kausaler Inferenz mit entsprechenden kausalen Modellen ermöglicht Transparenz bei automatisierter Analyse.

Simulation und Absicherung

Ständig wachsende Datenmengen zu analysieren erfordert einen hohen Automatisierungsgrad. Automatisierung meint hier, dass ein System ohne ständigen Eingriff eines Operators auskommt. Aktuelle Standards helfen, manuelle Übersetzungsschritte einzusparen, um den Entwicklungsprozess zu beschleunigen: ausführbare Modellbeschreibungen lösen so deskriptive Modellierung ab. Auf diese Art kodierte Modelle erfüllen also einen doppelten Zweck – als Dokumentation und als Grundlage für Simulationen.
Um eine funktionszentrierte Entwicklung von Fahrzeugen und Komponenten zu ermöglichen, bedarf es einer nahtlosen Koppelung digitaler Modelle und physikalischen Simulationen („HIL“, „SIL“, „MIL“, „Prüfstand“), um zeitnah neue oder geänderte Fahrzeugfunktionen zu testen und zu simulieren. Diese Verbindung digitaler und physikalischer Ressourcen (Co-Simulation) wird durch standardisierte Protokolle und Simulationsframeworks, einer systemübergreifenden Orchestrierung sowie einem parallel skalierbaren Persistenzlayer ermöglicht. Um den Entwicklungsprozess also nicht durch Datentransport zu verzögern, werden Simulationen auch geo-verteilt ausgeführt. Parallel dazu erfolgt asynchron die Datenzentralisierung, um retrospektive Simulationen auf Basis eines konsolidierten Datenbestandes ausführen zu können.
Entwicklungsingenieure versehen auffällige Sequenzen mit Markierungen, damit sie für spätere Re-Simulationen wiederverwendet werden können. Neue Software-Versionen werden dadurch zeitnaher an das Fahrzeug zurückgesendet. Dieselbe Fahrsequenz muss wiederholt werden, bis die Steuerungs-Software auf dem Fahrzeug fehlerfrei funktioniert. Um diesen Prozess zu beschleunigen, erfolgt die Analyse der Daten auf geoverteilten Clustern. Entwicklungsteams können dadurch die Resultate der Auswertung unabhängig von der Datenlokalität zeitnah einsehen.

Weitere Beiträge