Qualitätskontrolle mit memoQ (2): Terminologie-Extrahierung

Eine der wenigen Sachen, die ich an dem doch eher benutzerunfreundlichen CAT-Programm across schätze (eher: geschätzt habe), ist die Möglichkeit, nach Abänderung des als Standard eingestellten Arbeitsablaufs die am häufigsten vorkommenden Begriffe aus den Übersetzungsdateien zu extrahieren, die betreffenden Begriffe zu übersetzen und in die Termdatenbank zu übertragen. Ganz schwach kann ich mich daran erinnern, diese Funktion bereits 2007 auf der memoQ-Mailingliste angeregt zu haben – damals gab es noch die memoQ-Version 2.2, und Gabor Ugray rief sogar mal an, als das Programm hakte (er spricht übrigens auch Deutsch).

In der aktuellen memoQ-Version 5.0 ist es nun soweit. Allerdings muss man – im Vergleich zu across – zugeben, dass Kilgray diese Funktion in ihrem Programm deutlich durchdachter und komplexer angelegt haben.

Besonders hervorzuheben sind:

  • Extrahierung jederzeit möglich (also unabhängig von Workflows)
  • Extrahierung aus Übersetzungsdokumenten, Live Docs und Translation Memories
  • Aufteilung der Extrahierungsabläufe in Sitzungen, die unterbrochen und wieder aufgenommen werden können
  • Koordinierung mit Termdatenbanken
  • Auswahl und/oder Erstellung vordefinierter und angepasster Stoppwortlisten
  • Definition von Mindestvorkommen, Wortlängen, Trennzeichen usw.

Terminologie mit memoQ

Nach Rückgriff auf die integrierte, vordefinierte Stoppwortliste für Englisch sieht das Ergebnis wie folgt aus.

Terminologie mit memoQ (1)

Wie unschwer zu erkennen ist, geht es in diesem Text primär um Luftqualität (es gibt immer noch um diesen Text). Wir können diese Liste nun nach den verschiedenen Spalten sortieren (hier zum Beispiel „$“, was für den „Score“ steht, im nachfolgenden Bild dagegen nach „#“ – Vorkommen).

Dabei ist es sehr angenehm, im Fenster links unten die entsprechenden Segmente ansehen zu können. Die Statusleiste bietet zudem einen Überblick des Extrahierungsvorgangs. Nun ist es sicher so, dass man seine Termdatenbanken eher ergänzen als jedes Mal neu erstellen will. Daher lassen sich selbstverständlich auch die vorhandenen Datenbanken einbinden. Dies sieht beispielsweise so aus (die Sortierung auf dieser Abbildung erfolgt nach Anzahl der Vorkommen):

Terminologie mit memoQ (2)

Jeder einzelne „Kandidat“ kann nun bearbeitet, akzeptiert, abgelehnt oder als Stoppwort hinzugefügt werden.

Man mag sich sicherlich fragen, ob und wozu diese Extrahierung von Begriffen gut sein soll. Diese Funktion erfüllt mehrere Aufgaben bzw. bietet mehrere attraktive Möglichkeiten:

  • Erstellen einer fach- oder kundenspezifischen Termdatenbank aus verschiedenen Dokumenten Arten (Dokumente, LiveDocs, TMs)
  • vereinheitlichte Terminologie wird von Beginn an gefördert (sofern die Termdatenbank bei der Übersetzung dann auch verwendet und berücksichtigt wird) – diese Funktion ist gerade bei der gemeinsamen Arbeit mehrerer Übersetzer nicht zu unterschätzen
  • schnelleres Arbeiten (weil weniger Tipparbeit)
  • stärkere Trennung von Terminologierecherche und Übersetzung als eigenständige Arbeitsschritte
  • (gegebenenfalls) schnelleres Erfassen eines oder mehrerer Texte
  • Korrektur vorhandener (externer) Termdatenbanken oder Translation Memories
  • schnellere Rückfragen an den Kunden bei abweichender oder widersprüchlicher Terminologie
  • bei Verwendung der Fragmentierung bei der Vorübersetzung wird deren Qualität unter Umständen deutlich verbessert

Die Extrahierung ist übrigens auch in der Test- und Basisversion 4free enthalten.

18. November 2011, 22:23 · Kommentar/e · Kategorien & · Tags , , ,

Qualitätskontrolle mit memoQ (1): QA

Weil an anderer Stelle auf ErrorSpy hingewiesen und dieses Angebot getestet und kritisch gewürdigt wurde, habe ich mich bemüßigt gefühlt, das – ohnehin täglich genutzte – QA-Modul in memoQ stichprobenartig zu vergleichen.

Dazu haben wir die gleiche TM wie eben dort einem nur halbwegs „scharf geschalteten“ QA unterzogen. Die QA-Einstellungen umfassen nicht weniger als sechs Registerkarten: Segmente und Benennungen, Zahlen(-format), Interpunktion, „Leerzeichen, Großbuchstaben, Zeichen“ und schließlich Inline-Tags. Dabei können außerordentlich komplexe Funktionen genutzt werden.

Zu den m. E. erwähnenswerten Funktion gehören:

  • Überprüfung auf konsistente Übersetzung (auf Wunsch in beide Richtungen)
  • Terminologieprüfung (auch auf „verbotene“ Begriffe)
  • Länge der Übersetzung (im Verhältnis zum Quelltext bzw. absolute maximale Länge)
  • Zahlenformat (auch jeweils sprachspezifisch)
  • Leerzeichen vor/nach Satzzeichen
  • gleiches Satzzeichen am Segmentende
  • Leerzeichen (doppelte Leerzeichen, Leerzeichen am Segmentende)
  • verbotene Zeichen

Das Ergebnis beim Starten der QA nimmt sich in unserem Beispiel zunächst so aus:

Diese Übersicht (86 Fehler) ermöglicht eine schnelle Bearbeitung und weist dennoch eine ausreichende Detailtiefe auf (siehe rechts oben). Diese Liste lässt sich auch im HTML-Format exportieren, was dann wie folgt ausschaut:

Dabei gilt: Lieber einen ‘false positive’ sehen als einen Fehler übersehen. Der QA-Assistent findet ohnehin nur bestimmte Fehler, die in einem automatisierten Raster hängenbleiben (was gerne vergessen wird). Es ist übrigens erschreckend, wie viele Fehler ein offiziell übersetztes EU-Dokument enthält (so wird “35 times” zu “siebenmal” übersetzt).

Für den Alltag geht es auch ein wenig einfacher: Bei entsprechenden QA-Einstellungen werden diese Fehler nämlich bereits im Editorfenster markiert und lassen sich durch eine gefilterte Ansicht (indem man nur Fehler und nicht unterdrückte Warnungen anzeigen lässt) auf einen Blick anzeigen.

Fazit: So gesehen braucht man ErrorSpy nicht wirklich, zumal memoQ durch seine Kompatibilität zu Trados 2007/2009, Wordfast und Transit so etwas wie der Softwarefelsen in der Brandung ist. Sicher mag es Fälle geben, in denen ErrorSpy dem QA-Assistenten von memoQ ebenbürtig oder überlegen ist. Es ist ohnehin immer gut, wenn es mehrere konkurrierende Produkte in einem Bereich gibt. Andernfalls hätte es im TEnT- bzw. CAT-Bereich in den letzten Jahren nicht die Entwicklung gegeben, die wir (auch und gerade beim vorgeblichen Marktführer) beobachten konnten. Von daher soll dies kein Kurzverriss von ErrorSpy sein, sondern es sollten die Möglichkeiten einer softwaregestützten Qualitätskontrolle aufgezeigt werden.

7. November 2011, 21:03 · Kommentar/e [7] · Kategorien & · Tags , ,

CodeZapper

Das Word-Makro CodeZapper ist in der verbesserten Version 2.6.11 erschienen. Dieses Makro “säubert” Word-Dateien von überflüssigem Ballast, der jedem Übersetzer aus CAT-Programmen wie Trados, memoQ, Wordfast Pro in Form so genannter Tags bekannt ist (gemeint sind hier überflüssige Tags, die anders als Formatierungstags o. ä. keine wirkliche Funktion haben).

CodeZapper kostet ab sofort 20 EUR (vorherige Versionen waren kostenlos), ist aber wirklich jeden einzelnen Cent wert.

10. Februar 2011, 20:42 · Kommentar/e [1] · Kategorien & · Tags , , , , ,

Gebrauchsanweisung für Übersetzer?

Klar, so etwas gibt es auch schon.

Quand vous partez au travail, il est assis à son bureau devant son ordinateur. Quand vous revenez du travail, il est toujours assis devant son ordinateur. Alors que vous avez enchaîné réunions, travail et déjeuner d’affaires, votre conjoint vous donne l’impression que le temps s’est arrêté chez vous. Ce n’est pas le cas. Seulement, il faut savoir que le traducteur dispose d’une étonnante capacité à passer de nombreuses heures dans la même position.

Noch Fragen?

6. Februar 2011, 22:34 · Kommentar/e · Kategorien & · Tags , , ,

Metatexis 3.0

Als neue Funktionen bzw. Verbesserungen werden u. a. genannt:

  • Schnellere Suche & Navigation
  • Schnellerer Datenbankimport und -export
  • Ribbon für Word 2007/2010
  • Echtzeit-Statistik (Anzeige des Übersetzungsfortschritts)
  • Import-Filter für TRADOS Studio-TMs and -Dokumente (SDLite, sdlxliff) (nur in Version “NET/Office”)
  • Unterstützung des TBX-Standards
  • Automatisches Kopieren von Zahlen mit automatischer Anpassung des Zahlenformats
  • Verbesserte Nachbearbeitungsfunktion

Okay, so weit, so gut. Immerhin ist es bei der Version 3.0 nicht mehr erforderlich, Word im Admin-Modus zu betreiben, das hatte irgendwie etwas von Windows 95 oder 98. Und die Ribbon-Unterstützung für Word 2007 ist optisch gut umgesetzt. Allerdings hat eine Testinstallation von Metatexis 3 sowohl meine Office-Installation als auch in erster Linie eine elementare Funktion (Rechtschreibprüfung) in Mitleidenschaft gezogen (vulgo: zerschossen). Wenn ich Metatexis jedes Mal deaktivieren muss, um die Rechtschreibprüfung zu starten, ist das schlichtweg alles andere als optimal … Die Probleme mit Office sind u. U. auch auf Unverträglichkeiten mit den Add-Ins von Trados 2007, Abbyy und DNS zurückzuführen. Ach ja: Metatexis für Mac gibt es leider immer noch nicht.

Für Metatexis sprechen in erster Linie der relativ niedrige Preis (39 bis 139 EUR netto, wobei nur die teuerste Version professionellen Ansprüchen gerecht wird) sowie die eventuell möglichen Vorteile des Metatexís Server, der für Bildungsinstitute, Schulen und Hochschulen kostenlos ist, dessen Preis ansonsten jedoch im Dunkeln bleibt.

2. November 2010, 09:26 · Kommentar/e · Kategorien & · Tags , ,

Anaphraseus 2.0

Anaphraseus unter Windows XP Das Programm Anaphraseus ist präzise formuliert eine (versuchte) Portierung des CAT-Programms Wordfast Classic (das mit Microsoft Office funktioniert) auf OpenOffice. Oder besser gesagt, es ist ein Versuch, dies zu erreichen, denn Anaphraseus – immerhin schon mit einem vergleichsweise langen Wikipedia-Artikel “geadelt” – bietet lange noch nicht so viele Funktionen wie ehedem Wordfast.

  • Der Aufbau ist einfach, beinahe selbsterklärend, und grundsätzlich ist die Anwendung – profan formuliert eine OpenOffice-Erweiterung – schnell (aber Geschwindigkeit ist immer relativ). OpenOffice wird um eine Werkzeugleiste ergänzt (siehe Grafik), wobei jeder Befehl auch mithilfe eines Menüs und einer Tastenkombination ausgeführt werden kann. Ebenso wie die Anwendung schnell ist die Fülle an Funktionen eher begrenzt. Konkordanzsuche z. B.? Nicht wirklich.
  • Plattformübergreifend – genauso wie OmegaT, Wordfast, Cafetran, Heartsome, Swordfish. Sehen wir einmal von den verhärmten Dogmatikern ab, die nur auf Linux setzen, ist diese plattformübergreifende Verwendung wohl in erster Linie für Mac-User interessant. Dieser Markt wird immer noch stiefmütterlich behandelt – sieht man einmal von Kilgray ab, das immerhin “offiziell” Support für memoQ unter Parallels anbietet.
  • Veraltetes Konzept: Selbst SDL und Wordfast (Pro) gehen inzwischen den Weg der zweisprachigen Tabellenansicht. Übersetzung von Excel-Tabellen? PowerPoint-Präsentationen? Keine reelle Chance (theoretisch mit bestimmten Tools schon).
  • Wenige Einstellungen kann man als Vor- oder Nachteil abwägen. Wir sind hier gemein und nennen es einen Nachteil, weil Übersetzer lieber an Dutzenden Stellrädchen ihrer Software drehen und keineswegs narrensichere Anwendungen benötigen.
  • Anaphraseus ist für ein komplexeres Layout ungeeignet, weil die OO-basierte Funktion dieses garantiert zerschießt. Man mag ja Anhänger des ‘Open Source’-Gedanken sein, der Kunde allerdings bestimmt nicht, wenn er nach Rückgabe der Übersetzung eine geschlagene Stunde braucht, um das ursprüngliche Layout wieder herzustellen.
  • Die Terminologiedatenbank kann programmintern erweitert, aber nicht bearbeitet werden. Aber auch ein Eintrag in die Datenbank – einer Textdatei – macht es erforderlich, zuerst den Begriff aus der Quellsprache und dann den Zielbegriff in ein Dialogfeld einzutippen. Etwas umständlich ist das schon …
  • Unter Mac OS X landet der Cursor bei der Öffnung des neuen Segments immer zwei Teilen zu tief. So wird das nichts. Und wer im Dokument hin- und herscrollt, dem wird gerne mitgeteilt, dass nichts mehr zu tun sei, obwohl immer noch unübersetzte Segmente vorhanden sind.
  • Kompatibel ist das Programm – das heißt das Format von TM und TB – in erster Linie zu Wordfast. Einschränkungen werden zwar erwähnt, aber nicht weiter erklärt. Der zweisprachige Text, der vor dem Entfernen des Ausgangstextes gespeichert wird, ist darüber hinaus zumindest mit memoQ kompatibel, und wahrscheinlich auch mit den meisten anderen CAT-Programmen, die mit diesem Format umzugehen verstehen – Trados 2009 gehört nicht dazu ….

Wer Anaphraseus verwenden mag, sollte dieses tunlichst nur bei simpel formatierten Fließtexten machen. Ob eine Oberfläche in Word wie bei Wordfast oder Metatexis (bei dessen Entwicklung sich derzeit scheinbar kaum noch etwas tut) besser oder vielleicht kreativer sein soll als die modernere Tabellenansicht, sei mal dahingestellt. Anaphraseus ist – ich wiederhole es gerne – der gutgemeinte Versuch eines Wordfast-Clones (und neben OmegaT das einzige ernsthafte ‘Open Source’ CAT-Tool), ohne aber an die Funktionsvielfalt von Wordfast heranzureichen. Und es steckt (noch) arg in den Kinderschuhen. So oder so steht und fällt dieses niedliche CATähnlich wie OmegaT – mit der bei komplexer Gestaltung begrenzten Kompatibilität zwischen OpenOffice und Microsoft Office.

Update: Marc Prior hat mich inzwischen zu Recht darauf hingewiesen, dass OmegaT natürlich in der Lage ist, XML-basierte Dateien wie z. B. auch *.docx (MS Office 2007) ohne jeden Umweg über OpenOffice einzulesen und nach erfolgter Übersetzung zu exportieren.

5. August 2010, 13:27 · Kommentar/e · Kategorien & · Tags , , , , , , ,

memoQ 4.2

memoQ - die Projektansicht Bereits seit Anfang des Jahres ist memoQ in der Version 4.0 erhältlich, mittlerweile auch in der Version 4.2. memoQ ist ein Softwareprogramm zur compouterunterstützten Übersetzung – nennen wir es doch einfach CAT-Tool. An anderer Stelle wurde bereits früher Version 2.2 rezensiert. Auch diese Kritik bezieht sich auf memoQ translator pro – die Version für Einzelbenutzer – und nicht auf die aufwendigere Serverversion.

  • memoQ 4.2 verfügt über eine Exportfunktion als zweisprachiges RTF, die – ich übertreibe ja gerne – ein absoluter Höhepunkt ist. Dokumente lassen sich in dieses Format exportieren und in Microsoft Word (mit dem Duden-Korrektor) oder (optimalerweise) ausgedruckt korrigieren. Dazu gibt es auch die Möglichkeit, für jedes Segment ein Kommentarfeld auszufüllen. dieser Kommentar wird nach dem Korrekturdurchgang zusammen mit den korrigierten Segmenten importiert. Durch diese Korrektur können “saubere”, zumindest aber gepflegtere TMs gewährleistet werden. Bei den ersten Versionen von 4.2 kam es noch zu Problemen, wenn das RTF mit OpenOffice geöffnet und bearbeitet wurde (weder der Quelltext auf der linken Seite noch die Nummerierung dürfen geändert werden). Außerdem bleiben nicht immer alle Quelltextsegmente von der Rechtschreibprüfung ausgenommen, das ist recht ärgerlich. Ebenso ist ein Re-Import oder Update nur im ursprünglichen memoQ-Projekt möglich. Unterm Strich bietet nun auch memoQ mit dieser Funktion etwas, was ehedem ein Alleinstellungsmerkmal von DéjàVu war.
  • Bessere Projektübersicht und -verwaltung in der Freelancer-Version. Etwas unglücklich ist die nicht konsistente Oberfläche, wenn ein Projekt geöffnet ist und ein anderes, älteres Projekt öffnet.
  • Das Dashboard in memoQ öffnet neben einer Liste der letzten Projekte auch einen Newsfeed. Es informiert zuden darüber, ob die aktuelle Version verwendet wird. Diese Lösung ist insgesamt angenehmer und besser als bei den Versionen 2.x und 3.x.

Ein geöffnetes Projekt in memoQ 4.2

  • Der Import und Export als vollständiges Projekt (mit allem, also auch TM und TB) ist seit 4.0 nicht mehr möglich. Stattdessen muss man auf andere bilinguale Formate (doc oder mbd) ausweichen, oder eben die Serverversion erstehen, um “Handoff Packages” erstellen zu können. Das bedeutet also unter Umständen, dass man einem Kollegen neben dem dokument noch eine exportierte TM und TB zusenden muss. Das ist kein Beinbruch, aber umständlich.
  • Mit Version 4.2 werden auch Terminologie-Plugins eingeführt, die einen Anschluss an Online-Wörterbücher ermöglichen. Bislang ist dies nur EuroTermBank, mit bislang fast gar keinen Konfigurationsmöglichkeiten. Es wird empfohlen, das Plugin zu deaktivieren oder – muss es denn sein – die Option “Nur exakte Treffer” auszuwählen, wird man doch andernfalls mit Treffern überschüttet.
  • Die Optionen sind nun kompakter gestaltet, dafür aber umständlicher in der Bedienung. Bevor man eine Ressource ändert, muss man zunächst eine Kopie dieser Ressource anlegen. Immerhin ist das ein narrensicheres Verfahren, falls man hinterher doch lieber wieder die Standardeinstellungen verwenden möchte.
  • Die Rechtschreibprüfung mit Hunspell ermöglicht eine Korrektur bei Eingabe. Jedes (vermeintlich) falsch geschriebene Wort wird wie in einer Textverarbeitung mit einer roten Wellenlinie gekennzeichnet. Mit der optionale Rechtschreibprüfung von MS Office funktioniert das leider nicht. Zudem lassen sich verschiedene Auslasslisten definieren und für jedes Projekt aktivieren.
  • Eine fundamentale Funktion der ansonsten pflegeleichten und auch flexiblen TB-Verwaltung fehlt. Zwar kann die Terminologiefunktion wunderbar zwischen Groß- und Kleinschreibung unterscheiden – womit zum Beispiel einem Begriff oder einer Abkürzung “TEST” in Großbuchstaben eine andere Übersetzung zugeschrieben werden kann als dem Wort “Test” (und mit Prä- und Suffixen geht sogar noch viel mehr). Aber weit häufiger ist der Fall, dass ein Begriff sowohl in Groß- als auch in Kleinschreibung verwendet wird – hier zum Beispiel “TEST”, “Test” und “test”, und genau das geht mit der Standardeinstellung von memoQ nicht. Dies bedeutet, dass man anstelle von Ctrl-Q den Befehl Ctrl-E eingeben muss und in einem Auswahlmenü etwas ändern muss. Gut, das ist jetzt ein Luxusproblem, aber es ist ärgerlich. Und es nervt. Es würde ja ausreichen, jeweils die letzte Einstellung der TB zu speichern.
  • Unter der Haube hat sich seit unserer letzten Besprechung natürlich unglaublich viel getan, das heißt zum Beispiel verbesserte und neue Importfilter (Office 2007, Adobe InDesign CS4), AutoSuggest-Funktion und und und.

Grundsätzlich beschreitet Kilgray mit memoQ weiterhin den richtigen Weg. Die Benutzeroberfläche wurde in den letzten Jahren auch bei Wordfast (Pro) und SDL Trados 2009 eingeführt. Hinzu kommt ein weiterhin sehr aktiver und bemühter Support (‘bemüht’ im positiven Sinne des Wortes) – vor allem über die Mailingliste, aber auch individuell per E-Mail. Interessant wird noch das Terminologie-Plugin und die zukünftigen Möglichkeiten, dieses Werkzeug auf die eigenen Bedürfnisse fein abzustimmen.

Dieser kurze Artikel ist natürlich subjektiv und legt den Schwerpunkt auf die Aspekte und Funktionen, die für mich wichtig sind bzw. im Arbeitsalltag am häufigsten verwendet werden. Disclaimer: Ich habe in den letzten Jahren mehrfach kleinere Aufträge für Kilgray durchgeführt.

29. Juli 2010, 22:01 · Kommentar/e [2] · Kategorien & · Tags , , ,


Ältere Beiträge dieser Kategorie