Web Connector. Installation und Konfiguration. Version 2016 Fall Release

Web Connector Installation und Konfiguration Version 2016 Fall Release Status: 10. Jänner 2017 Copyright © Mindbreeze GmbH, A-4020 Linz, 2017. Alle...
Author: Arwed Böhmer
5 downloads 2 Views 646KB Size
Web Connector Installation und Konfiguration Version 2016 Fall Release Status: 10. Jänner 2017

Copyright © Mindbreeze GmbH, A-4020 Linz, 2017.

Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller. Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet. Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

Web Connector

2

Inhalt 1 Installation____________________________________________________________________ 4 1.1 Installation des Web Connectors ________________________________________________ 4 1.2 Deinstallation des Web Connectors _____________________________________________ 4 2 Konfiguration von Mindbreeze ___________________________________________________ 4 2.1 Konfiguration von Index und Crawler ____________________________________________ 4 2.1.1 Web Page ______________________________________________________________ 5 2.1.2 Sitemap basiertes Crawlen _________________________________________________ 6 2.1.3 Default Content Type _____________________________________________________ 7 2.1.4 Resource Parameters _____________________________________________________ 8 2.1.5 Proxy __________________________________________________________________ 8 2.2 Filterkonfiguration ___________________________________________________________ 8 2.2.1 Cache-Einstellungen für die Erzeugung von Vorschaubildern ______________________ 8 2.2.2 Timeout-Einstellungen für die Erzeugung von Vorschaubildern _____________________ 9 2.3 Autorisierung _______________________________________________________________ 9 2.3.1 Konfiguration von „Access Check Rules“ ______________________________________ 9 2.4 Parallele Bearbeitung der URL-s _______________________________________________ 10 2.5 Mindbreeze Sitemap-Erweiterungen ____________________________________________ 10 2.5.1 Sitemaps mit Access Control Lists (ACL) _____________________________________ 10 2.5.2 Sitemaps mit Metadaten __________________________________________________ 11 3 Appendix A __________________________________________________________________ 12 3.1 Heritrix Statuscodes _________________________________________________________ 12

Web Connector

3

1 Installation Vor der Installation des Web Connector Plugins muss sichergestellt werden, dass der Mindbreeze Server installiert ist und dieser Connector auch in der Mindbreeze Lizenz inkludiert ist.

1.1 Installation des Web Connectors Der Web Connector ist als ZIP Datei verfügbar. Diese Datei muss wie folgt mittels mesextension beim Fabasoft Mindbreeze InSite Server registriert werden: mesextension --interface=plugin --type=archive --file=WebConnector.zip install

ACHTUNG: Ein Update des Connectors kann über den gleichen mesextension Aufruf durchgeführt werden, Fabasoft Mindbreeze InSite führt automatisch das benötigte Update durch.

1.2 Deinstallation des Web Connectors Um den Web Connector zu deinstallieren, müssen zuerst alle Web Crawler gelöscht und danach der folgende Befehl ausgeführt werden: mesextension --interface=plugin --type=archive --file=WebConnector.zip uninstall

2 Konfiguration von Mindbreeze 2.1 Konfiguration von Index und Crawler Bei der Auswahl der Installationsmethode wählen Sie „Advanced“.

Web Connector

4

Klicken Sie auf das „Indices“-Tab und danach auf das „Add new index“-Symbol, um einen neuen Index zu erstellen.

Geben Sie den Indexpfad ein, z.B. „C:\Index“. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an.

Fügen Sie eine neue Datenquelle mit dem Symbol „Add new custom source“ rechts unten ein.

Wenn nicht bereits ausgewählt, selektieren Sie „Web“ bei der Schaltfläche „Category“ aus. Über die Einstellung „Crawler Interval“ konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird.

2.1.1 Web Page Im Feld „URL Regex” können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. Wenn Sie das Feld leer lassen, werden alle Seiten mit dem gleichen Host- und Domain-Teilen wie die „Crawling Root“ indiziert (z.B. de.wikipedia.org bei „Crawling Root“ http://de.wikipedia.org). Es können mehrere Crawling Roots demselben Crawler hinzugefügt werden. Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter „URL Exclude Pattern“ konfiguriert werden. Mit „Convert URL-s to lower case“ Option werden alle gefundene URL-s auf Kleinschrift konvertiert. Mit „Maximum Link Depth“ kann die Verschachtelungstiefe beim Extrahieren von Folgeseiten eingestellt werden. Der Wert „1“ wäre beispielsweise für eine Sitemap geeignet. Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem „Additional Hosts File“ die IPs vorgeben. Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die „Accept Headers“ einstellen.

Web Connector

5

Um die Anzahl der Anfragen an den Web Server bei Deltaindizierungsläufen gering zu halten, besteht die Möglichkeit eine Sitemap, die nur die geänderten Seiten enthält, als „Crawling Root“ zu konfigurieren. Steht solch eine Sitemap zur Verfügung, muss die Option „Incomplete Delta Crawl Runs“ aktiviert werden. Damit bleiben auch die Seiten im Index, die von der „Crawling Root“ aus nicht mehr erreichbar sind. Mit der Option: „Cleanup non matching URL-s from index“ werden alle Dokumente mit Adressen, die nicht den Regeln von URL Regex und URL Exclude Pattern entsprechen, gelöscht.

2.1.2 Sitemap basiertes Crawlen Um Sitemaps gemäß dem Sitemaps.org Protokoll zu verwenden, aktivieren Sie “Delta Crawling” und geben Sie die zentrale Sitemap Ihrer Webseite als Crawling Root an. In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier werden sowohl die lastmod als auch die changefreq Eigenschaften der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden. Für den „Sitemap-based Delta Crawling“ Modus sind zwei Optionen verfügbar:  „Sitemap Based Incomplete“: die URL-s von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind bleiben im Index.  „Sitemap Based Complete“: die URL-s von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind werden gelöscht. Mit der „Use Stream Parser“ Option wird ein Stream Parser verwendet für die Bearbeitung der Sitemaps. Diese Option ist für Sitemaps mit sehr viele URL-s geeignet. Die Option „Sitemap Metadata Prefix“ stellt allen aus der Sitemap extrahierten Metadaten den konfigurierten Prefix voran.

Web Connector

6

2.1.3 Default Content Type Mit dem „Default Content Type“ Option kann der MIME-Typ für alle Dokumente gesetzt werden, bei denen kein MIME-Typ von der HTTP-Antwort gelesen werden kann.

Web Connector

7

2.1.4 Resource Parameters In diesem Abschnitt (nur verfügbar, wenn „Advanced Settings“ ausgewählt ist) kann noch die CrawlGeschwindigkeit adjustiert werden. Mit der Anzahl der Crawler-Threads („Number Of Crawler Threads“) kann definiert werden, wieviele Threads gleichzeitig Webseiten vom Webserver abholen. Das „Request Interval“ definiert die Anzahl an Millisekunden, die der Crawler(-Thread) zwischen den einzelnen Requests warten soll. Eine „Crawl-Delay“ Robots-Anweisung wird jedoch auf alle Fälle berücksichtigt und überschreibt diesen Wert.

2.1.5 Proxy Im Abschnitt „Proxy“ können Sie einen Proxy Server eintragen, falls ihre Infrastruktur dies erfordert. Tragen Sie dazu den Computernamen und den Port des Proxy-Servers in „Proxy Host“ und „Proxy Port“ ein.

Der Web Connector kann sich am Proxy auch mittels HTTP-BASIC anmelden. Tragen Sie in das Feld „Proxy User“ den Benutzer und in „Proxy Password“ das zugehörige Passwort ein, wenn die Verbindungen über einen Proxy mit Authentifizierung erfolgen sollen.

2.2 Filterkonfiguration Folgende Umgebungsvariablen sind verfügbar:

2.2.1 Cache-Einstellungen für die Erzeugung von Vorschaubildern Die Variable MES_THUMBNAIL_CACHE_LOCATION legt das Verzeichnis für die Erstellung von Vorschaubildern fest. Die maximale Cache-Größe wird mit der Variable MES_THUMBNAIL_CACHE_SIZE_MB festgelegt. Der Cache wird nur dann verwendet, wenn beide Variablen gesetzt sind. Beispiel (Linux): export MES_THUMBNAIL_CACHE_LOCATION=/tmp/thumbcache export MES_THUMBNAIL_CACHE_SIZE_MB=20

Web Connector

8

Auf Microsoft Windows Platformen können diese Variablen in der Systemsteuerung festgelegt werden.

2.2.2 Timeout-Einstellungen für die Erzeugung von Vorschaubildern Mit der Variable MES_THUMBNAIL_TIMEOUT kann der Standard-Timeout-Wert von 50 Sekunden verändert warden. Beispiel (Linux): export MES_THUMBNAIL_TIMEOUT=10

Auf Microsoft Windows Platformen können diese Variablen in der Systemsteuerung festgelegt werden.

2.3 Autorisierung Um die Autorisierungsparameter zu konfigurieren soll die „AuthorizedWeb“ Kategorie ausgewählt werden.

2.3.1 Konfiguration von „Access Check Rules“ Ein Access Check Rule besteht aus: “Access Check Principal”, die Benutzernamen können im username@domain Fromat oder im domain\username Fromat oder distinguished name Format sein und die Gruppenname können nur im distinguished name Format sein. Weiters kann hier ein Verweis auf eine Capture-Group in der Selection Pattern verwendet werden (siehe Access Rules[3]). “Access Check Action”, Grant order Deny. “Metadata Key for Selection”, ein Metadatenname, kann leer sein (alle Dokumente werden selektiert) “Selection Pattern”, eine Regularexpression, kann leer sein (alle Dokumente werden selektiert).

Web Connector

9

2.4 Parallele Bearbeitung der URL-s

Mit der Option „Use hashing queue assignment policy“ werden die input URL-s Hash-basiert auf parallele Bearbeitungsschlangen verteilt. Die Anzahl der Bearbeitungsschlangen lassen sich mit der Option „Parallel Queue Count“ einstellen. Ohne die „Use hashing queue assignment policy“ Option werden die URL-s Hostname-basiert verteilt.

2.5 Mindbreeze Sitemap-Erweiterungen Wenn „Sitemap-based“ Delta Crawling konfiguriert ist, werden die Crawling Root URL-s als Sitemaps bearbeitet. Der Mindbreeze Web Connector unterstützt gewisse Erweiterungen des Sitemap Datenformats, damit man ACL Information und Metadaten in Sitemaps definieren kann.

2.5.1 Sitemaps mit Access Control Lists (ACL) ACL Information kann man für alle Elemente einer Sitemap definieren. Ein Beispiel für eine ACL Definition ist:

Web Connector

10

http://myserver.mycompany.com 2016-02-11T13:11:14.07Z 0.0 User1 User2

Der Zugriff auf die Bespiel URL wird für User1 erlaubt und für User2 abgelehnt.

2.5.2 Sitemaps mit Metadaten Metadaten können ähnlich wie ACL-s in Elementen definiert werden. Ein Beispiel für eine Sitemap mit Metadaten ist: http://myserver.mycompany.com 2016-02-11T13:11:14.07Z 0.0 < wstxns1:value>Page Title Für die “meta” Elemente ist es möglich mehrere “Value” Unterelemente zu definieren, wenn das Metadatum eine Liste von Werte hat: < wstxns1:value>1234234245 < wstxns1:value>1234234344

Web Connector

11

3 Appendix A 3.1 Heritrix Statuscodes Der Heritrix Web Crawler der in die Mindbreeze Web Connector verwendet wird, protokolliert die Status Codes von alle URL-s die besucht waren. Diese Status Codes können die HTTP-Statuscode von die Server Antworte sein oder folgende Heritrix-spezifische Fehlercode:

1

Erfolgreiche DNS Lookup

0

Download war nicht probiert (vielleicht das Protokoll war nicht unterstützt oder illegales URI)

-1

DNS Lookup fehlgeschlagen

-2

HTTP Verbindung fehlgeschlagen

-3

HTTP Verbindung abgebrochen

-4

HTTP Timeout

-5

Unerwarteter Laufzeitfehler. Siehe runtime-errors.log.

-6

Domain-auflösung fehlgeschlagen.

-7

URI erkennt als nicht unterstützt oder illegal

-8

Maximale Anzahl an Versuchen erreicht.

-50

Temporäre Status für URI-s die auf Voraussetzungsprüfung warten.

-60

URIs mit Fehlerstatus, die nicht im Frontier eingereiht waren.

-61

Voraussetzung von robots.txt nicht erfüllt.

-62

Eine andere Voraussetzung (nicht robots.txt) nicht erfüllt

-63

Eine Voraussetzungsprüfung könnte nicht durchgeführt werden

-404

Leeres HTTP Antwort

-3000

Java Fehler wie OutOfMemoryError or StackOverflowError während URI Bearbeitung

-4001

Zu viele Link Hops von der Ausgangsseite entfernt.

-4002

Zu viele Embed/Transitive Hops vom letzten URI im Scope entfernt.

-5001

Download durch eine Benutzereinstellung blockiert.

Web Connector

12

-5002

Download von einem Custom Crawler blockiert

-5004

Blockiert wegen Zeitüberschreitung

-9998

Robots.txt Regel erlauben den Download nicht.

Web Connector

13

Suggest Documents