TEI Dictionaries

Der vorliegende Eintrag soll einen Leitfaden für die Basiskodierung von Wörterbuchartikeln mit TEI P5 darstellen. Anhand einiger praktischer Beispiele soll ein Überblick über eine mögliche Kernkodierung gegeben werden.

Einführung[edit]

Schema erstellen mit Roma[edit]

Ein Schema oder eine DTD zur Wörterbuchkodierung kann mit Hilfe von Roma erstellt werden. Roma ist eine Anwendung zur Erstellung von P5-kompatiblen Schemas und Dokumentationen und ist in einer Online-Version verfügbar.

Dabei kann eine ODD-Spezifikation ^[1] in eine DTD oder ein Schema in der gewünschten Zielsprache (RELAX NG oder W3C Schema) transformiert werden. Hierzu wird unter http://tei.oucs.ox.ac.uk/Roma/ der Menüpunkt Open existing customization gewählt und das entsprechende ODD-Dokument geladen. Im nächsten Schritt kann die Spezifikation entweder weiter modifiziert werden (beispielsweise durch das Hinzufügen oder Entfernen einzelner Element) oder direkt in ein Schema oder eine DTD transformiert werden. Unter dem Menüpunkt Schema kann das gewünschte Format gewählt und das Schema fertig gestellt werden.

Roma ermöglicht aber auch die direkte Erstellung eines Schemas oder einer DTD mit Hilfe des Menüpunktes Build schema. Im nächsten Schritt können unter Modules die gewünschten TEI-Module nach Belieben zusammengestellt werden, sowie einzelne Elemente je nach Bedarf hinzugefügt oder auch entfernt werden. So wird man beispielsweise für ein Schema zur Wörterbuchkodierung, den bereits voreingestellten und empfohlenen TEI-Modulen noch das Modul dictionaries hinzufügen. Unter Schema wird schließlich wieder das gewünschte Format gewählt und die DTD oder das Schema wird erstellt.

Der Wörterbucheintrag[edit]

Die Grundstruktur eines Wörterbucheintrages besteht im Allgemeinen aus zwei Teilen:

Das Stichwort
Die Bedeutungsangabe(n)

Diese werden jeweils in eigenen Blöcken kodiert. Hinzu kommen meist noch grammatische Angaben und gegebenenfalls weitere Informationen wie beispielsweise Verwendungsweise, etymologische Angaben, etc. Die einzelnen Wörterbucheinträge werden jeweils mit <entry> kodiert.

Die Basis für die Kodierung eines Wörterbucheintrages sieht also wie folgt aus:

    <entry>			 
     <form/>  
     <sense/>
    </entry>

Musterkodierungen: wie kodiere ich ...[edit]

... das Stichwort?[edit]

Das Stichwort eines Wörterbuchartikels wird mit <form> kodiert.

Zum Stichwort gehörige Informationen werden ebenfalls innerhalb des <form>-Blocks zusammengefasst. Bei diesen Informationen kann es sich beispielsweise um grammatische Angaben handeln:

 <form type="lemma">
  <form type="headword">
   <orth>Abändern</orth>
  </form>, 
  <gramGrp>
   <pos value="verb">
    v.
   </pos>
  </gramGrp>
 </form>

Es können jedoch auch Angaben zur Orthographie, Aussprache, Silbentrennung, etc. kodiert werden:

 <form type="headword">
  <orth>Abarbeiten</orth>
 </form>

Mögliche Elemente:

Orthographie <orth>
Aussprache <pron>
Trennungsmöglichkeit <hyph>
Silbentrennung <syll>
Betonung <stress>

... die Bedeutungsangabe(n)?[edit]

Die Wortbedeutung wird mit <sense> kodiert. Hat ein Wort mehrere Bedeutungen, wird jede Bedeutung in einem eigenen Block erfasst. Die Bedeutungsangaben werden mit Hilfe des Attributs n nummeriert.

   <sense>
    <sense n="1">I) 
        ... 
      <sense n="1.1">1)<def>Ein wenig ändern, anders einrichten.</def></sense>
        ... 
      <sense n="1.2">2) ... </sense>
        ...
    </sense>
    <sense n="2">II)
        ...
    </sense>
   </sense>

Die verschiedenen Arten von Bedeutungsangaben werden unterschiedlich kodiert:

Definitionen werden mit <def> kodiert

     <entry>
       ...
      <form type="headword">
       <orth>Abarbeiten</orth>
      </form> 
       ... 
       <def type="paraphrase">Durch Arbeit losbringen ... </def>
       ...
     </entry>

Beispiele und Übersetzungen werden mit <cit> kodiert. Durch das Attribut type wird markiert ob es sich um ein Beispiel oder um eine Übersetzung handelt. Der Text selbst wird mit oder <quote> kodiert. Wenn eine Quellenangabe vorliegt, wird <quote> verwendet, die Quelle wird in einem <bibl> - Element (unstrukturiert) oder einem <biblStruct> - Element (strukturiert) spezifiziert.

→Für Beispiele wird <cit type=“example“> verwendet

      <entry>
       <form type="headword">Abändern</form> 
           ... 
        <cit type="example">
         In diesem Aufsatze muss noch manches abgeändert werden.
        </cit>
      </entry>

Beispiel mit Quellenangabe:

      <entry>
        ...
       <form type="headword">Abändern</form> 
        ... 
        <cit type="example">
         <quote>«Die Farbe des Gesieders scheint bei dem Kampfhahn eben so abzuändern,
          wie bei dem Hausgeflügel.« quote>
         <bibl>
          <author n=“#Funke“>Funke.</author>
         </bibl>
        </cit>
        ...
      </entry>

→Für Übersetzungen wird <cit type=“translation“> verwendet

Andere Arten von Bedeutungsangaben (z. B. Synonyme) werden mit <def> kodiert

     <entry>
       ...
      <form type="headword">
       <orth>Abartig</orth>
      </form>
       ...
       <def type="synonym">abartend</def>,
       <def type="synonym">abgearted</def>,
       ...
    </entry>

Auch innerhalb von <sense> können Angaben zur Grammatik mit Hilfe von <gramGrp> kodiert werden.

... grammatische Angaben?[edit]

Grammatische Angaben zu einem Wort werden unter <gramGrp> zusammengefasst. Sie können sowohl im <form>-Block als auch im <sense>-Block vorkommen, um die entsprechende Verwendung zu beschränken.

Informationen zur Wortklasse und zu Unterkategorien werden mit Hilfe der Elemente <pos> und <subc> kodiert:

  <entry>   
   <form type="lemma">
    <form type="headword">Abändern</form>, 
    <gramGrp>
     <pos value="verb">
      v.
     </pos>
    </gramGrp>
   </form>
   <sense>
    <sense n="1">I)
     <gramGrp>
      <pos value="verb"/>
      <subc value="transitive">
       trs.
      </subc>
     </gramGrp>
     ...
    </sense>
    ...
   </sense>
  </entry>

Zur Kodierung von Genus, Numerus und Kasus stehen die Elemente <gen>, <number> und <case> zur Verfügung:

  <entry> 
   ... 
   <form type="lemma">
    <gramGrp>
     <pos value="noun"/>
     <gen value="f"/>
    </gramGrp>
    Die<form type="headword">Abänderung</form>
   </form> 
   ... 
  </entry>

  <gramGrp>
   <case value="genitiv"/>
   <number value="singular"/>
  </gramGrp>

Die Person, die Zeit und der Modus werden durch <per>, <tns> und <mood> kodiert:

  <gramGrp>
   <per value="2"/>
   <number value="singular"/
   <tns value="present"/>
   <mood value="indicative"/>
  </gramGrp>

Zur Verfügung stehen außerdem noch die Elemente <colloc> und <iType>, mit denen Kollokationen und die Flexionsklasse markiert werden können.

... Ableitungen, Komposita, Redewendungen, etc.?[edit]

Ableitungen, Komposita oder Redewendungen zu einem Stichwort können als verwandte Einträge mit <re> als Eintrag innerhalb eines <entry> kodiert werden.

  <entry> 
   <form type="lemma">
    <form type="headword">Abändern</form>
      ...
   </form>  
      ... 
     <re>
      <form type="lemma">
       <gramGrp>
        <pos value="noun"/>
        <gen value="f"/>
       </gramGrp>
       Die<form type="headword">Abänderung</form>.
      </form> 
     </re>
      ... 
  </entry>

... etymologische Angaben?[edit]

Angaben zur Etymologie werden mit <etym> kodiert.

Die Elemente <lang>, <mentioned> und <gloss> dienen der genaueren Erläuterung der Herkunft, zusätzlich kann auch noch das Element <date> Verwendung finden.

... Verwendungsweise, Erklärungen, Kommentare?[edit]

Die Verwendungsweise von Wörtern und sonstige Kennzeichnung werden durch <usg>

  <entry>
   ... 
    <def>die alte Benennung aller großer Raubvögel, besonders aber des Adlers, </def>die noch 
    <usg type="geo">in N. D.</usg> üblich ist und 
    <usg type="style">bei Dichtern</usg>
    vorkömmt. 
   ...
  </entry>

und <lbl>

   <lbl type="wordformation">Verkleinerungswort</lbl>

kodiert.

Kommentare und Erklärungen werden mit <note> kodiert:

  <entry>
   <form type="lemma">
    <form type="headword">Abändern</form>
     ...        
   </form>
   <sense>
       ...
       <note> Wenn in der Kanzleisprache abändern für 
       aufheben oder widerrufen gebraucht wird, 
       so ist dies ein Mißbrauch.</note>
       ... 
   </sense>
  </entry>

... Verweise und Querverweise?[edit]

Innerhalb des Wörterbucheintrages wird häufig eine verkürzte Version des Stichworts verwendet. Diese Verweise auf das Stichwort werden mit <oRef> (Verweis auf die orthographische Form) oder mit <oVar> (Variante der orthographischen Form) kodiert.

   <entry>
        ...
     <form type="determiner">
      <orth>Der</orth>
     </form>
     <form type="headword">
      <orth>Lachbaum</orth>
     </form>
        ...
     <form type="determiner">
      <orth>die</orth>
     </form>
     <form type="headword">
      <orth> 
       <oVar><oRef/>-bäume</oVar>
      </orth>
     </form>
        ...              
   </entry>

Querverweise werden unter <xr> zusammengefasst und je nach Bedarf mit <ref> bzw. <ptr> kodiert:

   <sense>
     ... 
     <xr>
      <lbl type="reference">s.</lbl>
      <ref target="#Aalmutter">Aalmutter</ref>
     </xr>
     ...
   </sense>

Notes[edit]

↑ ODD steht für "One Document does it all". Es handelt sich dabei um ein einfaches TEI XML-Dokument, das ein Schema in Form von TEI-Modulen und möglichen Modifikationen definiert.

Links[edit]

[1] ODD steht für "One Document does it all". Es handelt sich dabei um ein einfaches TEI XML-Dokument, das ein Schema in Form von TEI-Modulen und möglichen Modifikationen definiert.

[1]