Qualitätskontrolle mit memoQ (2): Terminologie-Extrahierung

Eine der wenigen Sachen, die ich an dem doch eher benutzerunfreundlichen CAT-Programm across schätze (eher: geschätzt habe), ist die Möglichkeit, nach Abänderung des als Standard eingestellten Arbeitsablaufs die am häufigsten vorkommenden Begriffe aus den Übersetzungsdateien zu extrahieren, die betreffenden Begriffe zu übersetzen und in die Termdatenbank zu übertragen. Ganz schwach kann ich mich daran erinnern, diese Funktion bereits 2007 auf der memoQ-Mailingliste angeregt zu haben – damals gab es noch die memoQ-Version 2.2, und Gabor Ugray rief sogar mal an, als das Programm hakte (er spricht übrigens auch Deutsch).

In der aktuellen memoQ-Version 5.0 ist es nun soweit. Allerdings muss man – im Vergleich zu across – zugeben, dass Kilgray diese Funktion in ihrem Programm deutlich durchdachter und komplexer angelegt haben.

Besonders hervorzuheben sind:

  • Extrahierung jederzeit möglich (also unabhängig von Workflows)
  • Extrahierung aus Übersetzungsdokumenten, Live Docs und Translation Memories
  • Aufteilung der Extrahierungsabläufe in Sitzungen, die unterbrochen und wieder aufgenommen werden können
  • Koordinierung mit Termdatenbanken
  • Auswahl und/oder Erstellung vordefinierter und angepasster Stoppwortlisten
  • Definition von Mindestvorkommen, Wortlängen, Trennzeichen usw.

Terminologie mit memoQ

Nach Rückgriff auf die integrierte, vordefinierte Stoppwortliste für Englisch sieht das Ergebnis wie folgt aus.

Terminologie mit memoQ (1)

Wie unschwer zu erkennen ist, geht es in diesem Text primär um Luftqualität (es gibt immer noch um diesen Text). Wir können diese Liste nun nach den verschiedenen Spalten sortieren (hier zum Beispiel „$“, was für den „Score“ steht, im nachfolgenden Bild dagegen nach „#“ – Vorkommen).

Dabei ist es sehr angenehm, im Fenster links unten die entsprechenden Segmente ansehen zu können. Die Statusleiste bietet zudem einen Überblick des Extrahierungsvorgangs. Nun ist es sicher so, dass man seine Termdatenbanken eher ergänzen als jedes Mal neu erstellen will. Daher lassen sich selbstverständlich auch die vorhandenen Datenbanken einbinden. Dies sieht beispielsweise so aus (die Sortierung auf dieser Abbildung erfolgt nach Anzahl der Vorkommen):

Terminologie mit memoQ (2)

Jeder einzelne „Kandidat“ kann nun bearbeitet, akzeptiert, abgelehnt oder als Stoppwort hinzugefügt werden.

Man mag sich sicherlich fragen, ob und wozu diese Extrahierung von Begriffen gut sein soll. Diese Funktion erfüllt mehrere Aufgaben bzw. bietet mehrere attraktive Möglichkeiten:

  • Erstellen einer fach- oder kundenspezifischen Termdatenbank aus verschiedenen Dokumenten Arten (Dokumente, LiveDocs, TMs)
  • vereinheitlichte Terminologie wird von Beginn an gefördert (sofern die Termdatenbank bei der Übersetzung dann auch verwendet und berücksichtigt wird) – diese Funktion ist gerade bei der gemeinsamen Arbeit mehrerer Übersetzer nicht zu unterschätzen
  • schnelleres Arbeiten (weil weniger Tipparbeit)
  • stärkere Trennung von Terminologierecherche und Übersetzung als eigenständige Arbeitsschritte
  • (gegebenenfalls) schnelleres Erfassen eines oder mehrerer Texte
  • Korrektur vorhandener (externer) Termdatenbanken oder Translation Memories
  • schnellere Rückfragen an den Kunden bei abweichender oder widersprüchlicher Terminologie
  • bei Verwendung der Fragmentierung bei der Vorübersetzung wird deren Qualität unter Umständen deutlich verbessert

Die Extrahierung ist übrigens auch in der Test- und Basisversion 4free enthalten.

# · 18. November 2011, 22:23 · 464 Wörter
Kategorie(n): · Tags: , , ,
1 Kommentar(e) · Kommentieren!

Kommentar

Kommentieren

Formatierung mit Textile: *Fett* – _kursiv_ – bq. <blockquote> – Link setzen durch "Linktext":http://www... oder URL einsetzen.
Kein HTML. Kein Spam. Keine Werbung – danke.

Name

E-Mail (optional & hidden)

Web

Kommentar