Genomprojekt

Über das Projekt

Teilvorhaben

Die Arbeitsschritte gliedern sich formal in folgende Teilvorhaben:

TV 1

Konzeption und Erstellung einer Basislemmaliste der neuhochdeutschen Standardsprache

TV 2

Klassifizierte Varietäten-Lemmalisten
semasiologische Vernetzung
Erkundungsmodul onomasiologische Vernetzung

TV 3.1

Klassifizierung von Varianz auf der Grundlage der Basislemmaliste
Erstellung von Ontologien
Quantitativer Vergleich ausgewählter Objekte und Prozesse

TV 3.2

Informatische und technologische Konzepte für Organisation, Speicherung und Visualisierung der Daten; Koordination Grid-Technologie

TV 1 Basislemmaliste der neuhochdeutschen Standardsprache

Während die deutsche "Standardsprache" sich an einer geltenden Norm – zum Teil aus den Bereichen Lexikographie und Orthografie – orientiert, weisen andere Varietäten eine wesentlich höhere Varianz auf. Insbesondere für sprachhistorische und dialektale Varietäten besteht daher die Notwendigkeit, einen übergreifenden Lemmabezug zu schaffen. Dieser kann durch ein neuhochdeutsches Metalemma hergestellt werden, das als Schnittstelle alle synchronen und diachronen Varianten vernetzt. Für die Gewinnung potentieller Metalemmata wird eine Basislemmaliste des Standardneuhochdeutschen benötigt. Als Datengrundlage hierfür wird aus dem Deutschen Referenzkorpus - DeReKo des Instituts für Deutsche Sprache eine Basislemmaliste besonders frequenter, lemmatisierter Wörter erstellt. Angaben zur Wortklasse und Frequenz können dabei in das Metalemma überführt werden und die Zuordnung der Varietätenlemmata erleichtern. Die übergreifende "Metalemmaliste" soll so angelegt sein, dass das Phänomen des sprachlichen Wandels auf der Form- und Bedeutungsseite systematisch und vollständig beschrieben werden kann.
Die Umsetzung erfolgt auf der Grundlage einer XML-basierten Datenbank nach aktuellen Standards der Kodierdung von Lexikoneinträgen (TEI P5). Die Metalemmaliste ist dynamisch und netzartig konzipiert, so dass immer neue Teilbereiche, Verzweigungen und Ontologien angedockt werden können. Die Lemmaliste der neuhochdeutschen Standardsprache spielt dabei eine prominente Rolle, da sie die Netzstruktur organisiert und den semasiologischen Zugriff auf sämtliche Varietäten erlaubt.

TV 2 Klassifizierte Varietäten-Lemmalisten

In diesem Teilprojekt werden Lemmalisten aus digital vorhandenen (Spezial-)Wörterbüchern extrahiert. Dies sind im einzelnen:

Deutsches Wörterbuch der Brüder Grimm
Joachim Heinrich Campe: Wörterbuch der deutschen Sprache
Bennecke/Müller/Zarncke: Mittelhochdeutsches Wörterbuch
Matthias Lexer: Mittelhochdeutsches Handwörterbuch
Findebuch zum mittelhochdeutschen Wortschatz
Pfälzisches Wörterbuch
Rheinisches Wörterbuch
Wörterbuch der elsässischen Mundarten
Wörterbuch der deutsch-lothringischen Mundarten
Ökonomische Enzyklopädie von J. G. Krünitz
Goethe-Wörterbuch
Wörterbuch zu Bonaventuras Nachtwachen
Wörterbuch zu den Substantiven in Grass "Unkenrufe".
Wörterbücher zum Luxemburgischen (werden vom luxemburgischen Kooperationspartner Prof. Gilles bearbeitet)

Dabei werden nicht allein die Lemma-Ansätze und ggf. Lemmavarianten, sondern auch soweit als möglich entsprechende Symptomwerte (Raum, Zeit, Textsorte etc.) zur Klassifizierung des Lemmas berücksichtigt. Umfang und Qualität der Symptomwerte sind sowohl in den verschiedenen Wörterbüchern als auch für jedes Lemma durchaus unterschiedlich. So sind beispielsweise die verschiedenen Wörterbücher des Mittelhochdeutschen Verbunds bereits untereinander verknüpft und darüber hinaus noch nach Zeit, Raum und Textsorte klassifiziert. Demgegenüber können aus anderen Wörterbüchern kaum mehr als Lemma und Wortklassenangabe extrahiert werden. Diese Heterogenität muss bei Extraktion ebenso wie bei der Konzeption der Visualisierung der Ergebnisse berücksichtigt werden. Diese Varietäten-Lemmalisten werden mit der Basis-Lemmaliste nach semasiologischen Kriterien verknüpft, indem die Methoden aus TP3 zur Anwendung gelangen; die Ergebnisse der Vernetzung und damit die angewandten Methoden werden laufend philologisch überprüft. Dem Verknüpfungsergebnis wird ferner ein Statusmarker mitgegeben, der die Qualität der Vernetzung bzw. das Vernetzungsverfahren beschreibt (z. B. Verweis aus der Buchversion übernommen, symmetrisch erzeugt, mit Verfahren X erzeugt, philologisch geprüft; s. Wörterbuchnetz).

Erkundungsmodul: Erprobung semantischer Vernetzung

Im Rahmen dieses Teilprojektes werden automatische Verfahren konzipiert und implementiert, mit deren Hilfe die semasiologische Vernetzung der Wörterbuchdaten um eine semantische Ebene ergänzt werden kann. Anhand abstrakter Datenmodelle aus vergleichbaren Teildisziplinen der Informatik (Netzwerke, Graphalgorithmen, Information Retrieval) werden die in den Wörterbuchdaten aufgrund der SGML/XML-Kodierungen erkennbaren Mikrostrukturen der einzelnen Artikel statistisch bewertet und als Maß für die Ähnlichkeit der Inhalte definiert. Die Vernetzung der Wörterbücher erfolgt dabei auf der informationstheoretischen Datenstruktur eines Graphen, dessen Knoten den einzelnen Artikeln und dessen Kanten den zwischen den Artikeln eingerichteten Verweisen entsprechen. Zur Berechnung der Verweise wird aufgrund von inversen und relativen Dokumentenhäufigkeiten eine Gewichtung aller im Testkorpus enthaltenen Wortformen vorgenommen. Ein nach den Gewichten sortierter Vektor der Wortformen dient schließlich als Vergleichsgrundlage, um die Ähnlichkeiten zwischen zwei Wörterbuchartikeln zu bestimmen. Im Falle von Realien (z. B. Pflanzen- und Tiernamen oder Werkzeugbezeichnungen) können auf diese Art bereits sehr gut inhaltliche Beziehungen ermittelt werden.¹
Es hat sich aber auch gezeigt, dass dieser erste Ansatz in vielerlei Hinsicht entscheidend verbessert werden kann, indem dem Verfahren zusätzliche Informationen zur Verfügung gestellt werden. So basiert es in seiner jetzigen Form auf einem exakten Vergleich der Vektorelemente, d. h. bereits leicht unterschiedlich vorliegende Wortformen, die von derselben Grundform abstammen, führen zu einem "mismatch". Um dies zu vermeiden, sind verschiedene Erweiterungen denkbar. So könnte der Vergleich auf lemmatisierten, d. h. direkt auf den Grundformen, erfolgen, was aber im Falle von Wörtern älterer Sprachstufen nur mit relativ großem Aufwand realisiert werden kann. Mit weniger Aufwand verbunden wäre ein Vergleich auf Basis von "Stemming-Algorithmen", wobei die einzelnen Wortformen auf ihre "Stämme" zurückgeführt werden. Allerdings existieren für das Deutsche hier nur bedingt gut funktionierende Algorithmen. Möglich wäre auch der Vergleich auf Basis von approximativen Verfahren, indem beispielsweise die Ähnlichkeit zweier Wortformen über die Anzahl der gemeinsam enthaltenen n-Gramme (Zeichenketten bestehend aus jeweils n aufeinanderfolgenden Zeichen des Wortes) bestimmt wird. Zu den approximativen Verfahren zählen hier auch Algorithmen aus dem Bereich der Informatik, in denen unterschiedliche Distanzmaße für die Differenz zwischen Zeichenketten zugrundegelegt (z. B. Levinshteindistanz, Hammingdistanz) und entsprechend auf Texte übertragen werden können.

TV 3.1 Modellierung, Algorithmen, "Grammatik der Varianz", Ontologien

Teilprojekt 3 erarbeitet auf der Basis der bereits öffentlich zugänglichen Datenbestände einer Ontologie der Prozesse, die Varianz auf genomischer Ebene erzeugen. Eine Ontologie ist eine formale Spezifikation von Konzepten einer Domäne und den Beziehungen zwischen diesen. Diese Ontologie deckt sowohl innerartliche Varianz als auch Varianz zwischen Genomen verschiedener Spezies ab. Wesentlicher Bestandteil der Ontologie sind die Methoden und Kriterien, die zur Identifikation dieser Prozesse verwendet werden. Die Ontologie wird in Protégé entwickelt, um sie der wissenschaftlichen Gemeinschaft über die OBO Foundry zur Verfügung stellen zu können. Parallel dazu wird mit der gleichen Methodik eine Ontologie der Varianz der Sprache erstellt. Im zweiten Schritt werden die beiden Ontologien aufeinander gemappt. Dies ermöglicht zum einen die saubere Identifikation von Gemeinsamkeiten und Unterschieden. Zum anderen wird hier direkt offensichtlich, welche Methode aus der einen Domäne nützlich und anwendbar für die andere Domäne ist, da die beiden Ontologien auch Methoden enthalten. Ziel ist es, eine gemeinsame Ontologie für die grundlegenden Konzepte zu entwickeln, in die die domänenspezifischen Aspekte integriert werden. Basierend auf diesen Ergebnissen soll dann an Beispielprojekten die Entstehung und Verbreitung von Varianz an einzelnen Beispielen im Detail untersucht werden und zugrundeliegende Gesetzmäßigkeiten identifiziert und quantifiziert werden. Der Fokus eines ersten Projektes liegt hier auf den Einzel-Nukleotid-Polymorphismen (SNPs). Dies sind Varianten, die in mindestens einem Prozent der Bevölkerung gefunden werden, also scheinbar wenig Einfluss auf die Gesundheit des Trägers haben, obwohl sie die Sequenz eines codierten Proteins ändern können (coding SNPs, cSNPs). Da diese Varianten nicht unabhängig voneinander vererbt werden können (linkage disequilibrium) finden sich Korrelationen zwischen verschiedenen SNPs. Die Identifikation dieser Korrelationen ist ein Ziel des HapMap Projektes.

TV 3.2 Technik: Visualisierung, Gridifizierung, Modellierung der Vernetzung

Dieses Teilprojekt soll die effiziente Verarbeitung und Speicherung der Daten organisieren, die Konzepte von Genomik und Sprachwissenschaft zusammenführen und für die adäquate Präsentation der Daten sorgen. Zentrale Aspekte bilden hierbei die Schaffung von Transparenz bei Recherchen und der Ausgabe der Ergebnisse, sowie die Visualisierung von Beziehungen und Vernetzungen.
Über die EDV-Philologie wie die Projektpartner in Mannheim und Trier ist dabei gewährleistet, dass die Daten und die Resultate in das BMBF-geförderte TextGrid-Projekt integriert werden können und über TextGrid auch anderen Grid-Partnern mit vergleichbarer Problemlage zur Verfügung stehen. Ferner liefert das Teilprojekt die Grundlagen für die Kodierung, Speicherung und Visualisierung der Ergebnisse.

¹ Matthias Darda: Erstellung einer Algorithmenbibliothek zum automatischen und interaktiven Suchen sinngleicher Artikel in einem Wörterbuchkorpus. Diplomarbeit, Fachhochschule Trier – Standort Brikenfeld, März 2005.

letzte Änderung: 21.11.2014 - 11:52:45