Wenn es um digitale Transformation geht, rückt ein Thema für viele Industrieunternehmen besonders in den Fokus: der Umgang mit bestehenden Produktinformationen. Datenblätter, technische Spezifikationen und Produktkataloge liegen oft nur gedruckt oder in Formaten wie PDF, Excel oder Word vor – in Formaten also, die in modernen Content-Management-Systemen und anderen digitalen Kanälen schwer zu verarbeiten sind. Denn damit sich Produktdaten effizient nutzen lassen, werden sie in digitaler und strukturierter Form benötigt.

Obwohl Industrieunternehmen in Sachen Digitalisierung laut verschiedener Studien einen Vorsprung vor anderen Branchen haben, gibt es auch hier viele, die die Digitalisierung ihrer Produktinformationen aus Zeit- und/oder Kostengründen verschieben. Kein Wunder, in manchen Unternehmen liegen Tausende technische Unterlagen, deren Informationsgehalt und damit Werte digital nicht genutzt werden können. Diese Bestandsdaten manuell – d. h. von Menschenhand – für die digitale Nutzung aufzubereiten, ist aufgrund der Datenmengen kaum möglich. Nun liegt der Gedanke nahe, die Aufbereitung mithilfe von digitalen Technologien zu automatisieren und damit zu vereinfachen. Die zu digitalisierenden Ausgangsdokumente stellen Maschinen jedoch ebenfalls vor Herausforderungen.

Technische Unterlagen sind primär für menschliche Leserinnen und Leser geschrieben, enthalten Ungenauigkeiten, Ungereimtheiten und sind strukturell unterschiedlich aufgebaut. Menschen haben keine Probleme, mit solchen Informationen umzugehen, denn sie haben die dafür nötigen kognitiven Fähigkeiten, können abstrahieren und adaptieren. So intelligent die maschinelle Datenverarbeitung heute auch ist, heterogene Bestandsdokumente sind auf diesem Wege oft schwer auswertbar.

Softwarelösung für die Automatisierung

Wie die intelligente Softwarelösung Content42 diesem Problem begegnet, soll an einem Beispiel aus der Praxis erklärt werden. Ziel war es, Produktdaten aus zahlreichen Word-, Excel- und PDF-Dokumenten mit technischen Spezifikationen standardisiert in ein neues PIM-System zu migrieren. Die automatisierte Aufbereitung solcher Daten ist aus verschiedenen Gründen anspruchsvoll. Dazu zählen die Unterschiedlichkeit der Datenformate sowie deren unstrukturierte Form. So finden sich Daten zum selben Thema beispielsweise nicht nur in unterschiedlichen Dokumenten, sondern auch in unterschiedlichen Aggregationsstufen. Befinden sich relevante Daten zum selben Thema mal im Fließtext, mal in Tabellen, stellt auch dieser heterogene Dokumentaufbau eine Hürde dar.

Da C42 beliebige strukturierte und unstrukturierte Quellformate verarbeitet, sind weder die Vielfalt noch die Struktur der Daten ein Problem. Alle Dokumente wurden an das Contentsystem übergeben und von diesem in eine NoSQL-Datenbank eingelesen. Auf Basis eines generischen grundlegenden Regelsets konnte C42 Vorschläge für technische Regeln zur Extraktion der relevanten Daten generieren. Grundsätzlich lassen sich die so erzeugten Regeln in folgende drei Kategorien einteilen:

  • Identifizieren (findet die entsprechende Stelle mit den Daten im Dokument)
  • Extrahieren
  • Formatieren (transformiert die Daten in ein Format, das für alle Dokumente gleich ist)

Mit diesen Regeln ließen sich alle relevanten Daten extrahieren. Da das System natürliche Sprache durch Natural-Language-Processing-Technologie verstehen und verarbeiten kann, ist es in der Lage, das Produkt, den Sachverhalt und damit auch die relevanten Kontexte ohne zusätzliche Metadaten zu erkennen. Aus Gründen der Qualitätssicherung wurden die generierten technischen Regeln manuell geprüft und – wo nötig – optimiert.

Wie könnte eine technische Regel aussehen?

Die Beispielbilder zeigen, wie unterschiedlich die technischen Daten zweier ähnlicher Produkte ursprünglich aussahen. Beim einen handelte es sich um ein Excel-, beim anderen um ein Word-Dokument. Darüber hinaus sind Werte mit und ohne Einheit und die Temperaturangaben in gänzlich verschiedener Art eingetragen worden. Wie gesagt: Für die kognitiven Fähigkeiten eines Menschen keine Herausforderung, für ein Computerhirn aber schwer verständlich. Soll nun das Produktmerkmal »Leuchtmittel vorhanden« extrahiert werden, dann könnte man die technischen Regeln für diese Aufgabe wie folgt in Worte fassen:

  • »Suche eine H1-Überschrift, die Technische Daten enthält.« (Weil nach solchen Überschriften im Beispiel-Dokument immer eine Tabelle folgt.)
  • »Suche nun eine direkt nachfolgende Tabelle.«
  • »Suche in der Tabelle die Zelle, die Leuchtmittel vorhanden enthält.« (Weil der Wert rechts daneben im Beispiel immer der relevante Inhalt ist.)
  • »Prüfe, ob es in der Zelle rechts von Leuchtmittel vorhanden eine Checkbox gibt.«

Falls ja:

  • »Extrahiere den Wert in der Zelle rechts von Leuchtmittel vorhanden nur, wenn die Checkbox links des Wertes gecheckt ist.« (Um nur gültige Inhalte zu extrahieren.)
  • »Ist die Checkbox links des Wertes nicht gecheckt, prüfe die Checkbox der Zelle rechts neben der aktuellen Zelle.«
  • »Ist diese Checkbox gecheckt, extrahiere den Wert.«

Falls nein:

  • »Extrahiere den Wert in der Zelle rechts von Leuchtmittel vorhanden.«

Alle technischen Daten, die C42 aufgrund eigens generierter Regeln wie dieser im Beispiel als relevant erkannt hat, wurden extrahiert und dem Anwender über ein eigenes Frontend zur Verfügung gestellt. Neben der Darstellung bietet das Frontend noch die Möglichkeit, die Daten bei Bedarf in unterschiedlichen Formaten (z. B. XML, Excel, CSV usw. ) herunterzuladen.

Fazit

Bei TANNER beschäftigen sich Fachleute schon lange intensiv mit den datengetriebenen Herausforderungen, vor die der digitale Wandel Unternehmen in technischen Branchen stellt. Insbesondere für den Umgang mit Bestandsdaten und ihre Integration in die digitale Welt gibt es praktische Lösungen. So lassen sich mit dem intelligenten Contentsystem C42 relevante Informationen schnell und hochautomatisiert aus Bestandsdaten extrahieren und weiterverarbeiten, und zwar ohne etwas an den Ursprungsdaten zu ändern. Für die manuelle Datenaufbereitung wäre erfahrungsgemäß wenigstens der 10-fache Aufwand notwendig. C42 unterstützt vielfältige Digitalisierungsprojekte in der Technischen Dokumentation von der Nutzung als Dokumentationsportal bis zu der als Klassifizierungstool. Nicht umsonst wurde die intelligente Software in Anlehnung an Douglas Adams‘ Supercomputer benannt.