Das Programm

Check-In

Veranstaltungsraum: Hörsaal 011 (Nobelstraße 10)

Begrüßung

durch Prof. Dr. Mathias Hinkelmann (Prorektor der Hochschule der Medien)

Einführung in Machine Learning und exemplarischer Projektablauf

In diesem Vortrag gehen wir auf die Grundbegriffe des Machine Learning ein. Anhand eines Anwendungsbeispiels meiner Abschlussarbeit, in Kooperation mit Thales und parsQube, werde ich einen allgemeinen Arbeitsprozess für das Aufsetzen von Machine Learning-Verfahren darstellen. Dabei werde ich auf folgende essentielle Schritte eingehen: Problemeingrenzung, Datenvorverarbeitung, Modellierung und Evaluation.

Deep Learning im Natural Language Processing

Mit Natural Language Processing (NLP) sollen Maschinen natürlich gesprochene oder geschriebene Sprache verstehen können. Spracherkennung, Dokumentklassifikation, Stimmungsanalyse, Named Entity Recognition und die maschinelle Übersetzung sind typische NLP-Anwendungen.

In den letzten Jahren wurde die Genauigkeit dieser Anwendungen im Wesentlichen durch zwei Ansätze enorm gesteigert: Zum einen können mit Word-Embeddings Wörter entsprechend ihrer semantischen und syntaktischen Korrelation effizient modelliert werden. Zum anderen können mit tiefen neuronalen Netzen komplexere Sprach- und Klassifikationsmodelle gelernt werden, als mit herkömmlichen Verfahren des maschinellen Lernens.

Dieser Vortrag vermittelt einen Überblick, wie Word-Embeddings und tiefe neuronale Netze für die Lösung oben genannter NLP-Anwendungen integriert werden können.

Pause

Im Foyer stehen Getränke und Häppchen zur Stärkung bereit.

Verschlagwortung von E-Books mit Hilfe von Machine Learning-Verfahren

Schon seit vielen Jahren werden Maschinenlernverfahren zur Kategorisierung von Texten eingesetzt, man denke etwa an Spamfilter im E-Mail-Bereich. Funktioniert so etwas auch mit längeren Texten, z. B. ganzen Büchern, und wenn ja: wie gut sind die Ergebnisse, die sich erzielen lassen?

In diesem Vortrag wird eine Untersuchung vorgestellt, welche aus E-Books "maschinenlernbare" Daten extrahiert und anschließend eine automatische Abbildung auf Warengruppen anstrebt. Ein besonderes Augenmerk wird dabei auf Verfahren gelegt, die sich für das Maschinenlernen mit Texten in natürlicher Sprache bewährt haben. Mit Naïve Bayes und Supportvektormaschinen werden zwei ML-Algorithmen, die für die Klassifikation von Texten besonders häufig verwendet werden, kurz vorgestellt. Dabei wird auf mathematische Formeln und Informatiker-Lingo verzichtet, denn es soll gezeigt werden, dass die Grundprinzipien auch für Laien verständlich sind.

Machine Learning und Natural Language Processing in Infrastrukturprojekten aus der Informationswissenschaft

In diesem Vortrag werden Anwendungen von Machine Learning und NLP aus drei von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekten präsentiert:

 

Infolis

In diesem abgeschlossenen Projekt ging es um die Erkennung von Referenzen auf Forschungsdaten in wissenschaftlichen Veröffentlichungen.

 

Linked Open Citation Database

In diesem Projekt werden Methoden zur effizienten Erstellung einer Zitationsdatenbank entwickelt, bei der an verschiedenen Stellen Machine Learning zum Einsatz kommt. Aus dem Projekt heraus wird auch zum Thema "Scitorics" geforscht, der Analyse von rhetorischen Aspekten wissenschaftlicher Publikationen, insbesondere im Kontext einer Zitation.

 

FID Jüdische Studien / JudaicaLink

In diesem Projekt wird ein Knowledge Graph entwickelt, der Daten aus verschiedenen Quellen, insbesondere auch enzyklopädischen Volltexten zusammenführt und zur Verbesserung der Recherche, aber auch für weitere Forschungsprojekte zum Einsatz kommt.

Mittagspause

Semantisches Roundtripping für interne Prozesse & unternehmensübergreifende Datenintegration

Dieser Vortrag beleuchtet die Anwendung von semantischen Technologien auf unternehmensinterne Datensätze. Wir nennen diesen Ansatz "Semantisches Roundtripping" und stellen vier spezifische Aspekte vor.

Erstens konzentrieren wir uns auf die semantische Verarbeitung von XML-Datensätzen unter Verwendung von format-erhaltender Anreicherung. Zweitens achten wir darauf, bestehende XML-basierte Workflows nicht zu unterbrechen. Frühere Industrieprojekte, die versucht haben, die Welt der semantischen Technologien und XML zu überbrücken, haben gezeigt, dass der Aufwand für die Anpassung eines bestehenden Workflows ein Killer-Argument gegen den Einsatz semantischer Technologien in einem realen Industrieszenario sein kann. Drittens ist eine wesentliche Motivation für unsere Arbeit die unternehmensübergreifende Integration von Daten. Mit herkömmlichen Data-Warehousing-Ansätzen ist dies nur schwer zu erreichen. Daher nutzen wir Linked Data als Mittel zur sekundären Informationsmodellierung und Datenintegration. Schließlich zielen wir auf XML-basierte Formate und Workflows, die den Kern der bestehenden Geschäftsprozesse in den beteiligten Unternehmen bilden. Diese Unternehmen beschäftigen sich tagtäglich mit hochspezifischen Workflows und Datenformaten. Nur so ist ein Roundtripping bei der Anwendung semantischer Technologien möglich.

Wie wird Machine Learning die Welt von A2A/B2B-Schnittstellen-Design,
-Anpassung & -Mapping verändern?

Heutzutage werden die Schnittstellen bzw. API-Standards für den Geschäftsdatenaustausch noch manuell und in Silos entwickelt. Da diese oftmals nicht 100% den eigentlichen Anforderungen genügen, müssen diese mühselig und wiederrum manuell den eigentlichen Geschäftsanforderungen angepasst, erweitert bzw. mit anderen Schnittstellen gemappt werden, weil andere Anwendungen nicht das gleiche Format, die gleiche Semantik oder auch Struktur verstehen. Diese Aufgabe erfordert ein sehr tiefgreifendes Wissen auf der geschäftsorientierten Ebene, aber die heutigen technischen Integrationslösungen bieten hierfür keine richtige Antwort.

In diesem Vortrag stellt Gunther Stuhec einen Machine Learning-Ansatz vor, wie dieses sogenannte "Domänenwissen" für die Anpassung, Erweiterung und das Mappen von Schnittstellen gesammelt und mittels eines intelligenten Vorschlagswesens angeboten werden kann, sodass damit die eigentlichen Anforderungen wesentlich schneller umgesetzt werden können. Dies erfolgt rein auf der semantischen, agnostischen Ebene und bietet dadurch die Möglichkeit, dass diese angepassten Schnittstellen zwecks Integration in verschiedene Syntaxformate wie XML, XSLT, JSON, etc. generiert werden können. Das Ziel dieses neuen Ansatzes ist, dass man insbesondere möglichst schnell und flexibel über die Erstellung der Spezifikation von Schnittstellen/Mappings die entsprechenden technischen Integrationsartefakte für Konvertierung, Mapping und Validierung erhält und somit das Integrationsbusiness insgesamt beschleunigt.

Pause

Im Foyer stehen Getränke und Häppchen zur Stärkung bereit.

Zertifizierung zum XML-Hersteller 2019

Manuel Montero zieht ein Fazit des ersten Durchlaufs der Zertifizierung zum XML-Hersteller, der im März diesen Jahres erfolgreich gestartet wurde. In enger Zusammenarbeit mit dem mediacampus Frankfurt und vielen weiteren namenhaften Kooperationspartnern aus der Verlags- und Publishing-Branche wurde diese in Deutschland einmalige, berufsqualifizierende Zertifizierung für Hersteller im Bereich XML von data2type aufgebaut. Außerdem gibt er einen Ausblick auf den zweiten Durchlauf, der im Februar 2019 starten soll.

Einsatzmöglichkeiten von Künstlicher Intelligenz in der Verlags- und Medienbranche

Der Vortrag zeigt Einsatzmöglichkeiten von KI-gestützten Verfahren in der Verlags- und Medienbranche anhand von Fallbeispielen. Basierend auf Interviews mit Verlagen und Dienstleistern und weiteren Recherchen wird versucht, die vielfältigen Anwendungsfälle zu kategorisieren und, soweit zu so einem frühen Zeitpunkt möglich, Best Practice-Erfahrungen zu teilen.

Ende der Veranstaltung

Moderation:

Manuel Montero (data2type GmbH), Mehrschad Zaeri (parsQube GmbH) und Prof. Dr. Marko Hedler (Hochschule der Medien).