Wenn Sie Inhalte zu Ihrer Bibliothek hinzufügen, prüft Acrolinx diese in 2 Schritten: einem Crawl und einer Prüfung. Sie beginnen den Prozess im Data Center. Content Cube führt einen ersten Crawl und eine erste Prüfung Ihrer Inhalte durch, um eine Grundlage zu schaffen. Anschließend crawlt und prüft es die Content-Bibliothek jede Woche automatisch.
Lesen Sie weiter, um zu erfahren, wie Sie Ihren ersten Crawl starten.
Um prüfbaren Text auf Ihrer Website zu identifizieren, verwendet Acrolinx einen Crawler mit dem User-Agent Acrolinx-bot
. Sie müssen dem Acrolinx-bot nur die Domains und Subdomains mitteilen, die Sie crawlen möchten. Zum Beispiel: acrolinx.com
und docs.acrolinx.com
. Sobald Sie eine Domain hinzugefügt haben, crawlt der Acrolinx-bot automatisch einmal pro Woche alle Inhalte dieser Domain. Sie können bis zu 100 individuelle Crawls auf einmal durchführen. Erfahren Sie mehr über den Acrolinx-bot.
Um sicherzustellen, dass Acrolinx die richtigen Inhalte erfasst, können Sie den Crawl auch anpassen. Wenn Sie im Marketing tätig sind und die Inhalte prüfen möchten, die Sie verwenden, um potenzielle Kund*innen zu konvertieren, können Sie z. B. sicherstellen, dass Acrolinx URLs mit Pfaden wie /product/
oder /products/
crawlt.
Anmerkung
Wenn Sie eine Domain zu Content Cube hinzufügen, müssen Sie die Subdomain www
nicht mit einbeziehen. Die Root Domain (z. B. acrolinx.com
) wird jedoch manchmal auf eine URL mit www
umgeleitet. Zum Beispiel: www.acrolinx.com
. In diesem Fall kann es sein, dass der Crawler nur eine Seite für acrolinx.com
erkennt, aber viele weitere Seiten für www.acrolinx.com
.
So fügen Sie neuen Content zu Ihrer Bibliothek hinzu:
-
Gehen Sie zu Profile and settings > Admin Console.
-
Navigieren Sie zu Data Center > WEB CRAWLING und klicken Sie auf das Plus-Symbol Add new domain, um das Web Crawler Setup zu öffnen.
-
Geben Sie die Domain oder Subdomain ein, die Sie crawlen möchten. Zum Beispiel:
docs.acrolinx.com
.Anmerkung
Achten Sie darauf, das Protokoll wegzulassen. Zum Beispiel:
http://
orhttps://
.-
Fügen Sie
docs.acrolinx.com
hinzu. -
Fügen Sie nicht
http://docs.acrolinx.com
hinzu.
-
-
Optional: Passen Sie Ihren Crawl mit den folgenden Einstellungen an:
Tipp
Haben Sie bereits Erfahrung mit Web-Crawling? Erfahren Sie, wie Sie Ihr Crawl anpassen können – mit unseren erweiterten Crawl-Einstellungen.
Konfiguration
Beschreibung
Max. pages to crawl
Legt fest, wie viele Seiten Acrolinx ungefähr crawlen soll.
Max. crawl depth
Legt fest, wie viele Seiten der Acrolinx-Bot während eines einzelnen Crawls auf einer Website aufruft und indiziert.
Crawl these paths
Begrenzt das Crawlen auf bestimmte Seiten innerhalb einer Domain. Wenn Sie einen oder mehrere Pfade auflisten, die auf die Root Domain in der URL einer Seite folgen, tun Sie Folgendes:
-
Fügen Sie automatisch den Pfad zur virtuellen robots.txt-Datei als
allow:[input]
hinzu. Dadurch wird Acrolinx angewiesen, nur URLs zu besuchen, bei denen der spezifische Pfad direkt hinter der länderspezifischen Top-Level-Domain (ccTLD) steht. Zum Beispiel:my.domain/blog
. -
Verwenden Sie die URL als
alternative_start_url
. -
Fügen Sie automatisch
disallow: /
in die robots.txt-Datei ein. Dadurch wird Acrolinx daran gehindert, andere als die von Ihnen angegebenen Pfade zu crawlen.
Wenn Sie unter Paths to include z. B.
/blog
hinzufügen, greift der Crawler nur auf Seiten zu, diemy.domain/blog
in der URL enthalten. Wenn Sie mehrere Pfade ein- oder ausschließen möchten, führen Sie jeden Pfad in einer eigenen Zeile auf. Zum Beispiel:/blog /news/articles/product-updates
Don't crawl these paths
Ignoriert während eines Crawls bestimmte Seiten innerhalb einer Domain. Wenn Sie einen oder mehrere Pfade auflisten, die der Root Domain in der URL einer Seite folgen, werden die Pfade der virtuellen robots.txt-Datei als
disallow:[input]
hinzugefügt. Dadurch wird Acrolinx angewiesen, URLs mit diesen Pfaden nicht zu folgen.Wenn Sie unter Paths to exclude z. B.
/blog
hinzufügen, wird der Crawler nicht auf Seiten zugreifen, diemy.domain/blog
in der URL enthalten. Wenn Sie mehrere Pfade ein- oder ausschließen möchten, führen Sie jeden Pfad in einer eigenen Zeile auf. Zum Beispiel:/blog /news/articles/product-updates
-
-
Klicken Sie auf Save, um Ihren Crawl zu starten.
Sie können auch direkt von der Content-Bibliothek aus eine neue Domain zu Content Cube hinzufügen. Das bedeutet, dass Sie nicht jedes Mal ins Data Center wechseln müssen, wenn Sie einen Crawl starten möchten. Um das Fenster Web Crawler Setup zu öffnen, klicken Sie auf das Plus-Symbol Add new domain oben in der Content-Bibliothek.