Übersicht über die Gesamtarchitektur
Der Architekturansatz von WisNetGrid basiert auf den verteilten Datenquellen des D-Grid. Aufbauend auf dieser Datenschicht wird eine Verwaltungsebene etabliert, die die höherwertigen Dienste zur Wissensverwaltung und -generierung, zur Dienstverwaltung und zur Daten- und Informationssuche zusammenfasst. Im D-Grid gibt es keine einheitliche Verfahrensweise um Daten und Metadaten zu organisieren. Unterschiedliche Nutzergruppen im D-Grid verfolgen unterschiedliche Ansätze und Zielstellungen und ein einheitlicher Zugang ist nicht vorgesehen. In WisNetGrid wird die Anbindung heterogener Datenquellen über eine generalisierte Datenzugriffsschicht realisiert. In der Verwaltungsebene wird sichergestellt, dass übergeordnete Dienste (z.B. Suche, Wissensextraktion oder Workflow-Generierung) durch den generalisierten Datenzugriff auf eine einheitliche Weise in einem gemeinsamen Namensraum agieren können. Dies erlaubt eine Entkopplung höherwertiger Dienste von der heterogenen Datenebene und darüber hinaus bleibt eine unabhängige Verwaltung der Datenquellen möglich. Die Verwaltungsebene regelt die Art und Weise, wie Dienste der Wissensgenerierung und andere Mehrwertdienste den Datenzugriff realisieren, aber auch wie die Speicherung von Wissensinhalten vorgenommen wird.

-
Abbildung 1: Übersicht über die funktionale Architektur von WisNetGrid
Datenanbindung
Im diesem Arbeitspaket wird die Grundlage für einen einheitlichen Zugriff auf unterschiedliche und heterogen verteilte Datenquellen gelegt. Durch die Schaffung eines eintheitlichen Namensraumes kann ein Nutzer auf Daten aus unterschiedlichen Speichersystemen zugreifen, Suchanfragen durchführen oder neue Daten oder Wissensinformationen ablegen. Dabei werden sowohl dedizierte Grid-Middlewares als Zielsysteme unterstützt (UNICORE, iRODS...), als auch generelle Datensysteme (Datenbanken, Dateisysteme …) oder Web-basierende Quellen.

Abbildung 2: Komponenten des Service-Bus der Datenanbindung.
Um die Anbindung zu Realisieren, wurde ein Service-Bus aufgebaut (siehe Abbildung 2), der folgende Hauptaspekte umsetzt:
-
Einfacher Zugriff auf heterogene Datenquellen
-
Umsetzung verschiedener Sicherheitsaspekte auf unterschiedlichen Speichersystemen
-
Einfache Erweiterbarkeit des Systems um neue Komponenten
Der Service-Bus führt in einem globalen Namensraum als Vermittler Anfrage-Klienten, Dienste, externe Datenquellen und Grid-Ressourcen zusammen. Durch die Nutzung eines universellen Protokolls (WebDAV) wird auf unterschiedliche Datenquellen zugegriffen. Diese sind über Quellen-spezifische Adapter in den globalen Namensraum eingebunden. Parallel zu den Daten-Adaptern werden speziell angepasste Adapter zu den Grid-Middlewares verwendet. Dieses System erlaubt die einfache Erweiterung um neue Adapter.
Derzeit sind eine Reihe von Adaptern zu unterschiedlichen Speichersystemen realisiert bzw. in der Entwicklungsphase. Dazu gehören Adapter für die Grid-Middlewares UNICORE und iRODS, sowie einer Metadatenspeicherung basierend auf Stellaris. Weiterhin sind Adapter zu Datenbanksystemen (PostgreSQL, MySQL) und dem TextGrid Daten-Repository realisiert und weitere befinden sich in der Planungsphase.
Verwaltungsebene
Die Verwaltungsebene fasst alle Komponenten zum Informations-, Dienst- und Wissensmanagement zusammen. Die Informationsverwaltung stellt Dienste zum Umgang mit Daten und Metadaten zur Verfügung. Dabei wird über die gleiche Schnittstelle auf vorhandene Datenquellen zugegriffen. Die Komponente zur Informationsspeicherung realisiert die Speicherung von Daten und Metadaten, Metadatenschemas und Wissensinhalten (Ontologien), hierbei soll also nicht nur die Datenmanipulation auf den externen Datenquellen möglich sein, sondern auch neu generierte Informationen der Wissensgenerierung oder die Informationen zur Bereitstellung neuer Dienste oder Dienstkompositionen abgelegt werden können. Bei der Speicherung neuer Inhalte ist dabei die richtige Handhabung der Nutzerrechte notwendig. Die Rechtedelegation wird dabei über die Komponenten des Service-Bus der Datenanbindung gewährleistet.
Das Metadaten-Management verwaltet Metadaten zu angebundenen Daten. Für Daten, die über kein eigenes Management verfügen, lässt sich eine optionales Metadaten-Management realisieren. Darüber hinaus lassen sich auch die Metadaten zur Informationsspeicherung der höherwertigen Dienste, wie Suche und Wissensgenerierung, verwalten. WisNetGrid entwickelt ein System zur Verwaltung verschiedener Metadaten-Schemas. Dieses beinhaltet eine Versionierung von Schemas und erlaubt somit eine lange Nutzbarkeit der verwalteten Daten und Metadaten. Metadatensätze werden im RDFS-Format geschrieben, sofern sie von WisNetGrid verwaltet werden. Als eine Möglichkeit wurde der Metadatenspeicherdienst Stellaris als Backend-Version implementiert. Die Art der Speicherung lässt sich aber anpassen, so dass beispielsweise auch iRODS als Speichermedium von den Communitys verwendet werden kann. Um Metadatensätze für höherwertige Dienste nutzbar zu machen, wird ein Index darauf erstellt. Dies erlaubt es eine effiziente Suche auf Metadatensätzen durchführen zu können.
Das Dienstmanagement, oder Dienstverzeichnis, ist eine weitere Kernkomponente der Verwaltungsebene. Das Dienstverzeichnis beruht auf der Verwaltung von Dienstbeschreibungen, die alle in WisNetGrid verfügbaren Dienste charakterisieren. Für eine hinreichende Beschreibung von Web-Diensten unterschiedlicher Anbieter bzw. Communitys stellt WisNetGrid eine eigens dafür angepasste semantische Dienstbeschreibungssprache zur Verfügung (siehe auch Deliverable 3.2.2). Es werden nicht nur die Eigenschaften der Dienste beschrieben (statische Aspekte), sondern es lässt sich zu jedem atomaren Dienst der ausführbare Prozess (dynamische Aspekte) definieren. Somit ist es ebenfalls möglich, eine Beschreibung zu einer aus atomaren Diensten zusammengesetzten Dienstkette (workflow) zu erstellen. Die Erfassung der Eigenschaften von Diensten erlaubt die Nutzung dieser Dienstmetadaten durch andere Dienste, wie beispielsweise durch die Dienstsuche.
Die Ontologieverwaltung stellt einen Basisdienst zur Speicherung, Löschung oder Modifizierung von Ontologien dar. Der Nutzer kann beispielsweise eine Ontologie zur Verarbeitung auswählen, beispielsweise wenn neu extrahierte Fakten aus zuvor ausgewerteten Dokumenten in die Wissensbasis (Ontologie) eingepflegt werden sollen. Dabei wird er durch die Einsicht in die Ontologiemetadaten unterstützt, die eine genaue Charakterisierung über die verwendete Ontologie möglich machen. Attribute wie Erstelldatum, Verfasserinformationen, einen Beschreibungstext und weitere Angaben aus dem OMV (Ontology Metadata Vocabulary) werden hierfür zugrunde gelegt. Als Format für die abzuspeichernden Ontologien wird ein Standard des W3C verwendet – OWL (Web Ontology Language). OWL bietet unterschiedliche Versionen (Lite, DL, Full), die unterschiedlichen Einschränkungen unterliegen. Die Ontologieverwaltung soll alle drei Ausprägungen akzeptieren. Eine weitere Aufgabe der Ontologieverwaltung ist die Bereitstellung der Ontologie-Metadaten, um eine einfache und effiziente Suche auf Ontologien zu ermöglichen. Weiterhin lassen sich extrahierte Informationen zum Aufbau eines Indexes nutzen, um eine inhaltsbasierende Suche zu realisieren.
Eine weitere wichtige Komponente der Verwaltungsebene ist die Nutzerverwaltung. Diese umfasst neben der Nutzerauthentifizierung und Rechtedelegation auch Komponenten zur Speicherung nutzerspezifischer Daten. Dadurch ist es möglich ein Nutzerprofil zu erstellen, um Mehrwertdienste mit diesen Daten zu versorgen. Dadurch lässt sich z.B. ein Benachrichtigungstool realisieren, dass den Benutzer nach Wunsch automatisch informiert, wenn ein neuer Dienst aus einem von ihm angegebenen Klasse von Diensten verfügbar ist. Weiterhin lassen sich Angaben hinterlegen, die während der Suche ausgewertet werden können, oder beim Wissensmanagement beispielsweise zur Speicherung von nutzereigenen Ontologien Verwendung findet.
Wissensgenerierung und Mehrwertdienste
Als Mehrwertdienste werden jene Dienste zusammengefasst, die direkt vom Nutzer angesprochen werden und somit den eigentlichen erkennbaren Mehrwert darstellen. Diese sind die Suchdienste zum Auffinden von Informationen, Diensten und Wissensinhalten und im weiteren Sinne auch die Dienste der Wissensgenerierung.
Der Kern der Wissensgenerierung ist die Wissensextraktion, die durch eine automatisierte Vorverarbeitung, Umwandlung, Anreicherung und Analyse aufbauend auf der Datenebene zusätzliche Informationen gewinnt. Dabei wird unter Ausnutzung eines vorgegebenen Musters automatisch nach Beziehungen zwischen Begrifflichkeiten gesucht, die diesem Muster entsprechen. Eine konkrete Formulierung dieses Musters, beispielsweise in einem Text, wird als Musterinstanz bezeichnet. Eine erkannte Verknüpfung wird als Dreierbeziehung (triplet) und somit als Fakt abgespeichert. Weiterhin kann eine konkrete Textstelle bzw. Position des Vorkommens mit angegeben werden. In diesem Falle spricht man von einem Mustervorkommen. Im ersten Schritt der Wissensgenerierung werden Musterinstanzen auf Datenebene gefunden. In einem zweiten Schritt werden aus den Musterinstanzen Fakten extrahiert, die unabhängig von der Musterdefinition eine Repräsentation des zugrunde liegenden Wissensinhaltes darstellen. Die Reasoner-Komponente der Faktenanalyse vergleicht in einem weiteren Schritt die gefundenen Fakten mit denen in der Wissensbasis und stellt den Abgleich her. Die Speicherung der ermittelten Fakten erfolgt in der Zielontologie und unter Einbindung des Ontologieverzeichnisses zur Verwaltung der gespeicherten Ontologien. Eine vollständige Übersicht über die Architektur der Wissensextraktionsdienste findet sich in Deliverable D2.3.1 "Architektur des Gesamtsystems für Wissensextraktionsdienste und ihrer Schnittstellen" (siehe Downloadbereich unter Publikationen).
Die zugrunde liegenden Muster lassen sich semantisch erweitern, so dass für unterschiedliche Vorkommen des gleichen Faktes in anderen Variationen die gleiche Begrifflichkeit zugeordnet werden kann. So lassen sich die verschiedenen Vorkommen von Personen in Orten auf den gleichen Fakt zurückführen, auch wenn unterschiedliche Ausdrucksweisen in verschiedenen Dokumenten benutzt wurden. Beispielsweise lässt sich die Textstelle „Einstein wurde in Ulm geboren.“ auf das allgemeine Muster „X geborenIn Y“ zurückführen und ebenso kann durch die semantische Entsprechung das äquivalente Muster bei der Textstelle „Einstein kam zur Welt in Ulm“ zum gleichen Fakt führen. Das vermeidet zum einen die Aufnahme vieler Mehrdeutigkeiten in die Wissensbasis, zum anderen erzielt man eine Erhöhung der Erkennungsrate für neue Fakten. Dies setzt natürlich eine breite Definition der Muster voraus. Muster können wiederverwertet werden und somit ist eine ständige Erweiterung der Musterbasis möglich. Durch den automatischen Ansatz der Wissensextraktion können auch zuvor analysierte Daten wiederholt mit einer erweiterten Musterbasis analysiert und somit die Faktenlage verbessert werden. Die Organisation der Musterdefinitionen, bzw. der Musterbasis im Allgemeinen, wird ebenfalls in Ontologien realisiert. Das hat den Vorteil, für unterschiedliche Themengebiete verschiedene Musterbasen bereithalten zu können. Es ist aber auch möglich, verschiedene Ontologien mit Musterdefinitionen zu kombinieren, um eine breite Musterbasis für Analysen bereitzustellen.
WisNetGrid stellt verschiedene Suchdienste zur Verfügung, die auf unterschiedlichen Ebenen arbeiten. Es werden verschiedene Varianten einer Suche nach Schlüsselwörtern, Metadaten oder einer Kombination aus beiden angeboten. Durch den generalisierten Informationszugriff ist für diese Dienste die gleiche Schnittstelle zur Informationsverwaltung verantwortlich. Der Nutzer gibt beispielsweise ein Schlüsselwort in die Suchmaske ein und die Suche gibt eine Liste von Dokumenten in Form von Links zurück, für die der Nutzer Zugriffsberechtigung hat. Die einfache Schlüsselwortsuche kann mit Metadaten angereichert werden, wenn beispielsweise nur Dokumente berücksichtigt werden sollen, die nach einem vorgegebenen Erstelldatum angelegt worden sind.
Ein weiterer neuer Ansatz ist die Suche in Wissensinhalten, also die Suche nach Fakten in Ontologien. Dabei wählt der Nutzer eine oder mehrere Ontologien als Suchbasis aus und die Anfrage wird in SPARQL als Freitext ermöglicht. Zur Erleichterung der Gestaltung der Suchanfrage ermöglicht das Nutzerinterface auch die Angabe von Variablen oder Schlagworten in den Feldern der SPARQL-Anfrage. Als Suchantwort der Anfrage erhält der Benutzer eine Liste von Fakten, die den formulierten Anforderungen genügen und in den angefragten Ontologien enthalten sind. Darüber hinaus kann die Anfrage auch an die Ontologieschlussfolgerung gestellt werden. In diesem Modus wird in aus den Ontologien abgeleitetem Wissen gesucht. Darunter sind solche Informationen zu verstehen, die aus den Ontologien aus logischen Verknüpfungen und Schlussfolgerungen abgeleitet werden können.

