Betrifft
Software | Version |
---|---|
Acrolinx Server | 4.7 |
Wenn Sie eine frühere Version haben, können Sie hier eine archivierte Version dieses Artikels herunterladen. |
Serverseitige Extraktion ist der Prozess, den Server so zu konfigurieren, dass er die Textextraktion anstelle der Plug-ins vornimmt. Serverseitige Extraktion ist hilfreich, wenn es in individuellen Acrolinx-Integrationen nicht möglich ist, die Extraktionseinstellungen über die Benutzeroberfläche zu konfigurieren. Die serverseitige Extraktion wird zum Beispiel von Acrolinx-Integrationen für Rich-Text-Editoren wie CKEditor verwendet.
Sie definieren serverseitige Extraktionseinstellungen, indem Sie CSD-Dateien zu Ihrer Serverinstallation hinzufügen und die Sprachkonfigurationsdatei aktualisieren.
So konfigurieren Sie die serverseitige Extraktion:
Kontextsegmentierungsdefinitionen (CSDs)
Wozu dienen CSDs?
CSDs geben Acrolinx Anweisungen, wie Text aus einem bestimmten Dokument extrahiert werden soll. Diese Anweisungen fallen in zwei grundlegende Kategorien: Segmentierung und Filtern.
Bei der Prüfung von HTML- oder XML-Dateien bestimmen die Einstellungen in einer CSD-Datei die Segmentierungsregeln.
Die CSD enthält die folgenden Einstellungen:
- die Dokumenttypen, die mit den definierten Segmentierungseinstellungen verknüpft sind
- Sentence-Break-Elemente
- No-Break-Elemente
- Elemente, die bei Prüfungen ein- oder ausgeschlossen werden
- Attribute mit Werten, die geprüft werden sollen
Benennung und Speicherort von CSD-Dateien
CSDs sind in Dateien mit dem folgenden Format enthalten:
<DATEINAME>.properties .
- %ACROLINX_CONFIGURATION_ROOT%\data\csd\ unter Windows.
- $ACROLINX_CONFIGURATION_ROOT/data/csd/ auf Unix-basierten Betriebssystemen.
Acrolinx wird mit einigen vorinstallierten CSDs geliefert. Diese finden Sie in Ihrem Installationsverzeichnis am folgenden Speicherort:
- <INSTALL_DIR>\data\csd\
Erstellen und Aktualisieren von CSDs
So erstellen oder aktualisieren Sie eine CSD-Datei:
Konfigurieren von übereinstimmenden Kriterien und allgemeinen Einstellungen für eine CSD
Übereinstimmende Kriterien
Die Eigenschaften in einer CSD fallen in zwei Hauptkategorien: die übereinstimmenden Kriterien und die eigentlichen Extraktionseinstellungen.
Eine CSD ist normalerweise für einen bestimmten Dokumenttyp bestimmt. Sie können zum Beispiel eigene CSDs für Hilfetexte und Lokalisierungsdateien anlegen. Dabei verwenden Sie übereinstimmende Kriterien, um die passenden Dokumente mit Ihrer CSD zu matchen. Normalerweise reicht es aus, wenn Sie zwei oder drei übereinstimmende Kriterien definieren.
Verwenden Sie die folgende Tabelle, um zu entscheiden, welche übereinstimmenden Kriterien Ihren Anforderungen am besten entsprechen.
Einstellung | Beschreibung | Werte |
---|---|---|
csd_name | Ein Name, mit dem Sie CSDs auseinanderhalten können, wenn Sie die Protokolldateien bezüglich des CSD-Verhaltens prüfen. |
Ein eindeutiger und einmaliger Name.
Sie können Ihrer CSD einen beliebigen Namen geben, zum Beispiel: csd_name=CSD for Me
|
version |
Eine interne Versionsnummer, die anzeigt, wie neu die CSD ist.
Der Server nutzt diese Information, um zu erkennen, ob die CSD alt oder neu ist. |
Eine Zahl. In diesem Fall die Zahl
1
.
Geben Sie die Zahl
1
folgendermaßen ein:
version=1
Fertig. |
dtd.type | Beschreibt den Typ der Datei, die geprüft wurde. Das Format kann text, html oder xml sein. |
Einer der folgenden Werte:
HTML, XML
oder
WORD_XML
Wenn Sie zum Beispiel XML-Dateien Einstellungen zuweisen, geben Sie den Bezeichner dtd.type so ein: dtd.type=XML
|
dtd.source_reference |
Der Speicherort der Datei oder Dateien, für die die CSD gelten soll.
Der Server untersucht den vollständigen Pfad zur geprüften Datei. Dieser Pfad wird von den Acrolinx Plug-ins übermittelt. Sie können diese Eigenschaft verwenden, wenn keine anderen Informationen verfügbar sind, um den Dateityp zu identifizieren. |
Ein Dateipfad oder ein Pfadmuster als regulärer Ausdruck.
Damit zum Beispiel die CSD auf alle DITA-Dateien im Verzeichnis „user-guides“ angewendet wird, geben Sie die Eigenschaft folgendermaßen ein: dtd.source_reference=.*/user-guides/.*.dita
Wenn Sie mehrere Verzeichnisse wie „user-guides“ und „faqs“ haben, trennen Sie diese mit dem OR-Operator „
|
“:
dtd.source_reference=.*/user-guides/.*.dita|.*/faqs/.*.dita
VORSICHT:
Bei komplexeren regulären Ausdrücken müssen Sie einige Dinge beachten. Lesen Sie hierzu den Abschnitt zu
regulären Ausdrücken in übereinstimmenden Kriterien
.
|
dtd.language |
Die Sprache der Prüfung, wie sie vom Acrolinx-Plug-in angezeigt wird.
Sie können diese Eigenschaft verwenden, um die Extraktionseinstellungen je nach der Sprache des geprüften Textes zu ändern. Ein mögliches Szenario wäre, dass Sie ein multilinguales XML-Format wie TMX prüfen. Sie möchten die Teile der Datei berücksichtigen, die mit der Prüfsprache übereinstimmen. |
Ein Shortcode für die Sprache besteht meist aus zwei Buchstaben, zum Beispiel „en“ oder „de“.
Für deutsche Segmente in einer TMX-Datei geben Sie die Eigenschaft zum Beispiel so ein: dtd.language=de
In derselben CSD würden Sie die
Eigenschaft inclusion elements
so konfigurieren:
inclusion_elements=<tuv lang=de>
|
dtd.client_signature |
Die Signatur, die ein Acrolinx-Plug-in bei der Authentifizierung an den Server sendet.
Sie können diesen Bezeichner für individuelle Acrolinx-Integrationen wie zum Beispiel CMS-Integrationen verwenden, die keinen Kurznamen des Plug-ins senden.
VORSICHT:
Verwenden Sie dieses übereinstimmende Kriterium nur, wenn kein anderes Kriterium funktioniert.
Wenn Sie die Signatur als übereinstimmendes Kriterium verwenden, findet die CSD nur dann eine Übereinstimmung, wenn Autoren mit einem bestimmten Editor prüfen. Die Verwendung von Signaturen ist nur dann sinnvoll, wenn der Dokumenttyp ausschließlich über den Editor identifiziert werden kann. |
Ein Signaturstring.
Um zum Beispiel einer Acrolinx-Integration mit der Signatur „xmF0YZzgQ233lY2tlcg“ Einstellungen zuzuweisen, geben Sie das Element clientSignature so ein: dtd.client_signature=xmF0YZzgQ233lY2tlcg
|
dtd.public_id |
Die Public ID eines XML-Dokumenttyps. |
Ein Public ID-String.
Um zum Beispiel DITA Concepts Einstellungen zuzuweisen, geben Sie den Bezeichner publicId so ein: dtd.public_id=-//OASIS//DTD DITA Concept//EN<
|
dtd.system_id |
Die System ID eines XML-Dokumenttyps. |
Ein System ID-String.
Um zum Beispiel DITA Concepts Einstellungen zuzuweisen, geben Sie den Bezeichner systemId so ein: dtd.system_id=concept.dtd
|
dtd.root_element |
Das Basiselement eines XML- oder HTML-Dokuments. Sie können diesen Bezeichner zum Beispiel für einfache XML-Dokumente verwenden, die keine Dokumenttypdefinition oder kein Schema haben. |
Ein Elementname.
Um zum Beispiel XML-Dateien, die mit dem Element <product> beginnen, Einstellungen zuzuweisen, geben Sie das Element rootElement so ein: dtd.root_element=product
Diesen Bezeichner können Sie auch verwenden, um HTML-Dateien Einstellungen zuzuweisen. Das Basiselement für HTML-Dokumente ist immer html . |
dtd.schema |
Der Name eines XML-Dokumentschemas. |
Ein Schema-Name.
Um zum Beispiel Einstellungen zu XML-Dateien zuzuweisen, die das Schema „notes“ verwenden, geben Sie das Element schemaName so ein: dtd.schema=notes.xsd
|
Verwenden von regulären Ausdrücken in übereinstimmenden Kriterien
Als Wert für übereinstimmende Kriterien können Sie einen regulären Ausdruck eingeben. Reguläre Ausdrücke sind besonders für das Kriterium dtd.source_reference nützlich, weil Sie mit ihnen mehrere Dateispeicherorte definieren können.
Wenn Sie reguläre Ausdrücke eingeben, müssen Sie daran denken, die Syntax für reguläre Ausdrücke im Java-Stil zu verwenden.
dtd.source_reference=C:\\\\DOC\\\\user-guides\\\\.*.dita
Aufgrund der Eigenheiten der regulären Ausdrücke im Java-Stil müssen Sie jeden einzelnen Backslash „\“ durch 4 Backslashes „\\\\“ ersetzen.
Konfigurieren von Extraktionseinstellungen in einer CSD
Nachdem Sie mit den Möglichkeiten zur Kategorisierung von Elementen in Acrolinx vertraut sind, können Sie damit anfangen, diese Elemente zu Ihren Extraktionseinstellungen hinzuzufügen.
Wenn Sie die Textextraktion für Elemente mit bestimmten Attributen ändern möchten, können Sie das Attribut auch zu Ihren Einstellungen hinzufügen. Sie können zum Beispiel p -Elemente nur dann ausschließen, wenn diese im Attribut audience den Wert „internal“ haben. Attribute fügen Sie in einer bestimmten Syntax zu Ihrer CSD hinzu.
Nutzen Sie die folgende Tabelle als Leitfaden dafür, was Sie in einer CSD konfigurieren können und wie Sie die Extraktionseinstellungen korrekt hinzufügen:
Einstellung | Beschreibung | Werte |
---|---|---|
ignoreCase |
Wenn Ihre Elementnamen Groß- und Kleinschreibung enthalten, sollten Sie diese Einstellung deaktivieren.
Standardmäßig ignoriert Acrolinx die Groß- und Kleinschreibung in Elementnamen beim Bewerten von Extraktionseinstellungen. Wenn Sie zum Beispiel den Elementnamen title ausschließen, matcht Acrolinx auch die Elemente TITLE und Title . |
Boolescher Wert.
Beispiel : true, false Angenommen, Sie haben ein Element wie Data , das eine andere Bedeutung hat als die großgeschriebene Form DATA .
In diesem Fall konfigurieren Sie die Extraktionseinstellungen so, dass sie zwischen Groß- und Kleinschreibung unterscheiden. Dafür geben Sie die Eigenschaft wie folgt ein:
ignoreCase=false
|
exclusion_elements |
Wenn Acrolinx den Text in einem Element ignorieren soll, definieren Sie das entsprechende Element als ausgeschlossen. |
Elementnamen, Elementnamen mit Attributen.
Beispiel : metadata, cndname,cmdname
Diese Einstellung ist zum Beispiel für Elemente mit Code oder Bezeichnern sinnvoll.
<metadata>document ID12345</metadata>
Hinweis:
Ausgeschlossene XML-Elemente, die sich innerhalb von eingeschlossenen Elementen befinden, werden weiterhin ausgeschlossen. Alle anderen ausgeschlossenen Elemente werden ignoriert.
Im folgenden Beispiel ist das Element <note> eingeschlossen und das Element <ph> ausgeschlossen. <note>Dieser Text wird geprüft<ph>Dieser Text wird nicht geprüft.</ph></note> Der Inhalt im Element <ph> wird ausgeschlossen, obwohl dieses sich in einem eingeschlossenen Element befindet. |
inclusion_elements |
Verwenden Sie die Eigenschaft, um Elemente zu definieren, die immer eingeschlossen werden. Also auch dann, wenn sie sich in einem ausgeschlossenen Element befinden.
Untergeordnete Elemente von eingeschlossenen Elementen werden ebenfalls immer eingeschlossen. |
Elementnamen, Elementnamen mit Attributen.
Um zum Beispiel
title
-Elemente immer in eine Prüfung einzubeziehen, fügen Sie das Element zu Ihrer Liste eingeschlossener Elemente hinzu:
inclusion_elements=ph, entry, title
|
sentence_break_elements | Wenn Sie Elemente mit Sätzen haben, die nicht mit einem Punkt enden, definieren Sie diese als Sentence-Break-Elemente. Das bedeutet, dass das Ende des Elements immer als Satzende behandelt werden soll. |
Elementnamen, Elementnamen mit Attributen.
Ein typisches Beispiel ist das title-Element:
<title>Dies ist ein Titel</title>
Unerwartete sentence_too_long -Markierungen an Stellen, die eigentlich aus mehreren Sätzen bestehen, sind ein klares Zeichen, dass ein oder mehrere Elemente als Satzende definiert werden müssen.
In diesem Fall würden Sie
title
zur Liste der Sentence-Break-Elemente hinzufügen:
sentence_break_elements=title,entry,li |
no_break_elements | Wenn Sie Elemente haben, die ein Wort in Fragmente unterteilen, definieren Sie diese als No-Break-Elemente. |
Elementnamen, Elementnamen mit Attributen.
Ein typisches Beispiel ist das Tiefgestellt-Element:
H<sub>2</sub>O-Konzentration
Wenn das
<sub>
-Element nicht klassifiziert ist, wird der Text in der fehlerhaften Form
H 2 O-Konzentrationan den Server übermittelt. Wenn <sub> aber ein No-Break-Element ist, wird der korrekte Text H2O-Konzentrationan den Server übermittelt. In diesem Fall würden Sie sub zur Liste der No-Break-Elemente hinzufügen: no_break_elements=sub,sup
|
token_break_elements |
Elemente als Token Breaks zu definieren, ist sinnvoll bei Wörtern, die nicht durch ein Leerzeichen getrennt sind.
Diese Einstellung definiert die Elemente, die einen Token Break verursachen sollen. Ein Token Break fügt eine Art Grenze zwischen Wörtern ein. |
Elementnamen, Elementnamen mit Attributen.
Normalerweise würden Sie hier ein Leerzeichen einfügen, aber einige Editoren trennen Wörter mit Elementen statt mit Leerzeichen. So verwendet WordProcessingML zum Beispiel <cr/> -Elemente, um manuell eingefügte Zeilenumbrüche zu visualisieren. Das kann etwa so aussehen: Dieser Satz wird<cr/>manuell umgebrochen.
Der Satz soll weder bei „wird“ enden, noch sollen die Wörter als „wirdmanuell“ gelesen werden. Sie würden die Einstellung also folgendermaßen aktualisieren:
token_break_elements=cr
|
default_break_level |
Diese Einstellung legt fest, wie Acrolinx Elemente interpretieren soll, die noch nicht in den „break element“-Einstellungen oder in anderen Einstellungen berücksichtigt werden.
Die folgenden Einstellungen sind „break element“-Einstellungen:
|
Geben Sie einen der folgenden Werte ein:
Der Standardwert für diese Einstellung ist token .
Wenn Sie zum Beispiel undefinierte Elemente als Sentence Breaks behandeln möchten, geben Sie die Eigenschaft folgendermaßen ein:
default_break_level=sentence
|
parenthetic_elements |
Angenommen, Sie haben Elemente, die Textfragmente umschließen. Diese Elemente sind wie Randbemerkungen, die Sie in einem Satz in Klammern setzen würden.
Beispiel:
<p>Dies ist der <footnote>Dies ist ein zweiter
Satz.</footnote> erste Satz.</p>
Derartige Elemente kommen nur selten vor. Sie sollten in den Segmentierungsoptionen als Einschub-Element klassifiziert werden. |
Elementnamen.
Ein typisches Beispiel für diese Elemente sind Fußnoten innerhalb von Sätzen.
Wenn
<footnote>
nicht als
Einschub-Element
klassifiziert ist, wird der Text in der fehlerhaften Form
Dies ist der Dies ist ein zweiter Satz. erste Satz.an den Server übermittelt. Wenn <footnote> als Einschub-Element definiert ist, wird der korrekte Text Dies ist der erste Satz. Dies ist ein zweiter Satz.an den Server übermittelt. In diesem Fall würden Sie footnote zur Liste der Einschub-Elemente hinzufügen: parenthetic_elements=footnote,endnote
|
empty_elements |
Wenn Sie Elemente haben, die keinen Text enthalten, aber trotzdem als Teil des Satzes behandelt werden sollen, definieren Sie sie als leere Elemente.
Bei Elementen, die keinen Text enthalten, sind verschiedene Aspekte zu beachten:
|
Elementnamen.
Manchmal werden anstelle von Wörtern Bilder verwendet, wie im folgenden Beispiel:
Powered by <image href="acrolinx_logo.jpg"></image>.
In diesem Fall würden Sie
img
folgendermaßen zur Liste der leeren Elemente hinzufügen:
empty_elements=img,xref
|
default_inclusion_mode |
Diese Einstellung legt fest, ob Elemente bei einer Prüfung standardmäßig eingeschlossen oder ausgeschlossen werden.
Die folgenden Elemente werden immer eingeschlossen oder ausgeschlossen, unabhängig vom Wert des Parameters default_inclusion_mode :
|
Einer der folgenden Modusnamen:
Wenn Sie zum Beispiel alle Elemente standardmäßig ausschließen möchten, geben Sie die Eigenschaft folgendermaßen ein:
default_inclusion_mode=exclude
|
mark_excluded_elements |
Mit dieser Eigenschaft konfigurieren Sie den Server so, dass beim Verarbeiten des Texts Platzhalter für Ausschlusselemente eingefügt werden.
Der Standardwert ist false. Mit dieser Eigenschaft vermeiden Sie fehlerhafte Markierungen, die von ausgeschlossenen Elementen verursacht werden. |
Boolescher Wert.
Beispiel : true, false |
extract_attributes |
Verwenden Sie diese Eigenschaft, damit Acrolinx Werte von Attributen einschließt, wenn Text zur Prüfung an den Server übermittelt wird.
Sie können diese Funktion in Kombination mit individuellen Stilregeln verwenden, um die Werte bestimmter Attribute zu validieren. Außerdem können Sie mit dieser Funktion Attribute prüfen, die Sätze oder Keywords wie Metainformationen enthalten. Weitere Informationen zur Entwicklung von Stilregeln zur Validierung von Attributwerten erhalten Sie von Ihrem Acrolinx-Projektberater. |
Attributnamen, Elementnamen mit Attributnamen.
Es gibt mehrere Möglichkeiten, um zu definieren, wie Attribute extrahiert werden sollen:
|
meta_information |
Einige Clients wie der
Acrolinx Batch Checker
können die Inhalte bestimmter Elemente oder Attribute in geprüften XML-Dokumenten lesen und diese Werte als Metadaten in Scorecards speichern.
Diese Funktion ist hilfreich, wenn Scorecards offline verarbeitet und die Berichtsdaten anhand bestimmter Werte zusammengeführt werden sollen. |
Die Eingaben für diesen Parameter werden mit zwei Werten festgelegt:
Geben Sie zunächst den Wert für den Meta-Attribut-Namen ein, dann einen Doppelpunkt und zuletzt den Quellelement-Namen in spitzen Klammern <...> . Beispiel: meta_information=MetaTagName:<QuellElement> Der Wert Quellelement kann sich auch auf Attribute von XML-Elementen beziehen. Um ein Attribut für ein Quellelement zu definieren, geben Sie den Namen des Attributs hinter dem Namen des Quellelements ein. Trennen Sie beide Einträge mit einem Leerzeichen. Beispiel: meta_information=MetaTagName:<sourceElement sourceAttribute> Das Tag meta_information kann auch mehrere Wertepaare enthalten, wenn diese mit einem Semikolon voneinander getrennt sind: Beispiel: meta_information=MyDocumentID:<book id>;MyRoleName:<book elementrole> |
Syntax zur Eingabe von Attributen in eine CSD
Die meisten Einstellungen in einer CSD-Datei verwenden Elementnamen als Werte, zum Beispiel: sentence_break_elements=codeph,cmdname . Sie können aber auch Elemente in Kombination mit Attributen eingeben. Wenn Sie Elemente anhand ihrer Attribute wählen möchten, müssen Sie die Werte in einer bestimmten Syntax eingeben.
Syntax zur Eingabe von Attributen
Acrolinx kann Elemente zur Segmentierung auf der Basis ihrer Attribute auswählen. Dadurch können Sie das Segmentierungsverhalten an bestimmte Bedingungen knüpfen. Verwenden Sie die folgende Syntax, um ein Attribut als Wert für einen Segmentierungsparameter einzugeben:
- <elementName attributeName> – Dieser Wert legt fest, dass Acrolinx das Element segmentiert, wenn es das angegebene Attribut enthält.
-
<elementName attributeName="value">
– Dieser Wert legt fest, dass Acrolinx das Element nur dann segmentiert, wenn es das angegebene Attribut mit dem festgelegten Wert enthält.
Achtung: Bei der Syntax wird zwischen Groß- und Kleinschreibung unterschieden. Vergewissern Sie sich, dass die Schreibweise der Elemente, Attribute und Attributwerte mit der Schreibweise in Ihren XML-Dokumenten identisch ist. Diese Syntax wird nur verwendet, um Text in Elementen zu segmentieren. Um die Attributwerte in Prüfungen einzubeziehen, müssen Sie eine andere Konfiguration verwenden.
Das folgende Beispiel zeigt ein Parameter für ein Ausschlusselement, mit dem zwei Elemente entsprechend ihrer Attribute ausgeschlossen werden.
exclusion_elements=<MODULE modname="voice control">,<PROCEDURE flag>
Mit dem ersten Wert schließt Acrolinx Text aus, der sich in module -Elementen befindet, bei denen für das Attribut modname der Wert voice control gewählt wurde. Mit dem zweiten Wert schließt Acrolinx Text aus, der sich in procedure -Elementen befindet, wenn das Element das Attribut flag enthält. Der Attributwert spielt hier keine Rolle.
Um die Attributwerte in Prüfungen einzubeziehen, müssen Sie eine andere Syntax verwenden.
Kommentare