Betrifft
Software | Version |
---|---|
Acrolinx Server | 4.3, 4.4, 4.5, 4.6, 4.7, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 2018.10 |
Die Termextraktion (Term Harvesting) wird vom Acrolinx Sprachenteam konfiguriert. Dabei werden Termextraktionsregeln zu bestimmten Regelsets Ihrer Sprachressourcen hinzugefügt.
Jedes Mal, wenn Benutzer eine Prüfung mit einem Regelset durchführen, das Termextraktionsregeln enthält, wird ein Termextraktionsbericht generiert.
Sie können Acrolinx Server jedoch auch entsprechend konfigurieren und so genauer festlegen, wann diese Berichte erstellt werden.
Sie können die Sprachkonfigurationen zu folgenden Zwecken aktualisieren:
-
Benutzern die Möglichkeit geben, die Termextraktion über die Prüfoptionen der Plug-ins zu aktivieren oder zu deaktivieren.
Tipp: Standardmäßig ist die Option Neue Terme in den Prüfeinstellungen der Plug-ins deaktiviert.
-
Serveradministratoren die Möglichkeit geben, über das Benutzerrecht
Termextraktion ausführen
festzulegen, welche Benutzer die Termextraktion ausführen dürfen.
Tipp: Standardmäßig wird das Benutzerrecht Termextraktion ausführen vom Server deaktiviert.
So konfigurieren Sie die Termextraktion
Konfigurieren des Erscheinungsbilds von Termextraktionsberichten im CSV-Format
Der Acrolinx Server erstellt einen Termextraktionsbericht in den Formaten OLIF und CSV, wenn Sie eine Prüfung auf neue Terme durchführen. Sie können die Kodierung und die Einstellung der Trennzeichen konfigurieren, um zu gewährleisten, dass die CSV-Dateien korrekt angezeigt werden.
Die CSV- und OLIF-Versionen des Termextraktionsberichts werden im Ausgabeverzeichnis des Servers gespeichert:
<INSTALL_VER>\server\www\output\TH\<SPRACH_ID>
Die OLIF-Versionen des Termextraktionsberichts enthalten eine Verknüpfung zur CSV-Version.
Die folgende Tabelle enthält Informationen über die standardmäßigen CSV-Einstellungen, die immer dann angewendet werden, wenn keine Eigenschaften konfiguriert sind.
Eigenschaft | Beschreibung | Standardwert |
---|---|---|
termHarvestCsv.encoding | Dateicodierung | utf-16 |
termHarvestCsv.elementDelimiter | Spalten-Begrenzungszeichen | ; |
termHarvestCsv.recordDelimiter | Zeilen-Begrenzungszeichen | \n (Zeilenumbruch) |
termHarvestCsv.contextDelimiter |
Kontext-Begrenzungszeichen.
Der Kontext ist der Satz, in dem der neue Term gefunden wurde. Jede Zelle kann mehrere Kontexte enthalten. |
\n (Zeilenumbruch) |
termHarvestCsv.textDelimiter | Text-Begrenzungszeichen | " |
Damit die CSV-Datei korrekt in Excel angezeigt wird, wird empfohlen, die Datei nicht direkt zu öffnen, sondern den Textimport-Assistenten zu verwenden. Die Standardkodierung UTF-16 ist in diesem Assistenten jedoch nicht verfügbar. Wenn Sie die Standardkodierung UTF-16 verwenden und gewährleisten möchten, dass die CSV-Datei korrekt in Excel angezeigt wird, können Sie die Datei mit einem Doppelklick öffnen.
Wenn Sie die CSV-Version des Termextraktionsberichts öffnen, wird eine Bytereihenfolgemarke als erstes Zeichen in der ersten Zelle der Datei angezeigt. Löschen Sie diese Bytereihenfolgemarke, wenn Sie die Datei in den Terminologiemanager oder eine andere Anwendung importieren möchten.
Sie können die standardmäßigen Begrenzungszeichen mit jedem druckbaren Zeichen in UTF-8-Kodierung ersetzen. Verwenden Sie keine Steuerzeichen oder Backslashes, damit die volle Kompatibilität gewährleistet bleibt.
So konfigurieren Sie das Erscheinungsbild von Termextraktionsberichten im CSV-Format
POS-Abkürzungen im Term Harvesting CSV-Bericht
Der Part-of-Speech-Tagger verwendet das Penn Treebank Tag-Set, das in der folgenden Tabelle dargestellt ist:
Tag | Beschreibung | Beispiel |
---|---|---|
CC | Coordinating conjunction´ | and, or, but |
CD | Cardinal number | 28 |
DT | Determiner | the |
EX | Existential there | there |
FW | Foreign word | |
IN | Preposition or subordinating conjunction | by |
JJ | Adjective | bright |
JJR | Adjective, comparative | smaller |
JJS | Adjective, superlative | smallest |
LS | List item marker | |
MD | Modal | must |
NN | Noun, singular, or mass | house |
NNS | Noun, plural | houses |
NNP | Proper noun, singular | Peter |
NNPS | Proper noun, plural | |
PDT | Predeterminer | |
POS | Possessive ending | 's |
PRP | Personal pronoun | she |
PRP$ | Possessive pronoun | my |
RB | Adverb | slowly |
RBR | Adverb, comparative | |
RBS | Adverb, superlative | |
RP | Particle | |
SYM | Symbol | |
TO | to | to |
UH | Interjection | |
VB | Verb, base form | be, have, do, specify, write |
VBD | Verb, past tense | was/were, had, did, specified, wrote |
VBG | Verb, gerund, or present participle | being, having, doing, specifying, writing |
VBN | Verb, past participle | been, had, done, specified, written |
VBP | Verb, non-3 rd person singular present | am/are, have, do, specify, write |
VBZ | Verb, 3rd person singular present | is, has, does, writes |
WDT | Wh-determiner | |
WP | Wh-pronoun | who |
WP$ | Possessive wh-pronoun | whose |
WRB | Wh-adverb | |
$, | Comma | , |
$. | Dot, Exclamation Mark, Question Mark, … | ? |
$ : | Colon, Semicolon, Ellipsis | ; |
$( | Open Parenthesis (, Open Bracket [, Open Curly Brace { | ( |
$) | Close Parenthesis ), Close Bracket ], Close Curly Brace } | ) |