Suchmaschinen – Wie sie funktionieren und was sie können

29. Oktober 2015 von Sebastian Schulte

www

Bild: Fotolia (Archiv)

Suchmaschinen nutzen wir heute ganz selbstverständlich. Doch in der Regel kennen wir nur die Benutzeroberfläche, auf der wir unsere Suchanfrage starten und auf der uns schlussendlich die Ergebnisse präsentiert werden. Im Hintergrund laufen dabei jedoch zahlreiche Prozesse ab, von denen der Nutzer nichts mitbekommt.

Eine Suchmaschine kann in drei Systemkomponenten gegliedert werden, die erst im Zusammenspiel den Weg von der Suchanfrage zur Trefferliste ermöglichen:

Web-Robot-System

Beim Web-Robot-System handelt es sich um eine hard- und softwareunterstützte Systemkomponente. Vielen Nutzern ist dieses System auch unter den Begriffen Crawler oder Spider bekannt. Sie dienen zur Erfassung neuer und veränderter Daten. Im Internet prüfen, analysieren und dokumentieren die Crawler verschiedene Webseiten und senden die dabei gesammelten Informationen an die jeweilige Suchmaschine. Dabei können Crawler nicht nur HTML-Dokumente erfassen, sondern schon seit längerer Zeit Texte aus Microsoft-Dateien, PDF-Dokumenten, Rich-Text-Dateien, einfachen Textdateien sowie Alt-Tags von Bildern und Videos herausfiltern.

Information Retrieval System

Sobald die Crawler ihre Arbeit verrichtet haben, kann ein ganz schöner Datenwust entstehen. Um dieser Unordnung Herr zu werden, arbeiten Information Retrieval Systeme Textdokumente so auf, dass ein möglichst effizient durchschaubarer Datenbestand entsteht. Dabei werden die Texte unter Berücksichtigung bestimmter Bewertungskriterien erfasst, was erst eine Rangfolgenbewertung gefundener Dokumente ermöglicht. Dieser auch als Indexierung bekannte Prozess kann in drei größeren Schritten zusammengefasst werden:

  • Datennormalisierung => Dateiformate werden vereinheitlicht
  • Dokumentenanalyse => Dokumente werden in lexikalisch sinnvolle Wörter konvertiert, die Sprache wird bestimmt und Wortstämme werden gebildet
  • Bildung von durchsuchbaren Datenstrukturen => Aus den Dokumenten werden relevante Schlüsselwörter gefiltert, unzulässige Begriffe werden ausgeschlossen

Damit Suchergebnisse überhaupt nach inhaltlicher Relevanz sortiert werden können, müssen die Dokumente inhaltlich unterscheidbar sein. Daher muss die Indexierung dem Query Processor bestimmte Hinweise liefern, damit eine Unterscheidung der Dokumente bezogen auf ihre Relevanz zu einer Suchanfrage vorgenommen werden kann. Die beim Information Retrieval eingesetzte Datenstruktur ist die des invertierten Dateisystems. Das invertierte Dateisystem stellt die Verbindung zwischen dem Index und den eigentlichen Dateien dar, in denen das gesuchte Stichwort auftaucht. Meist besteht bei den Suchmaschinen die Verbindung mit einer zentralen Indexdatei. Wird zum Beispiel bei Google ein Stichwort über die Benutzeroberfläche abgefragt, greift das System auf diese zentrale Indexdatei zu. In dieser wird jedes Dokument mit einer Nummer, der sogenannten docID, gekennzeichnet. Enthalten die Dokumente nun das gesuchte Stichwort, werden Sie vom System gemäß ihrer Relevanz ausgelesen.

Von vielen Nutzern unbeachtet bleiben die Booleschen Operatoren, mit denen sich eine Suchanfrage verfeinern und maßgeblich beeinflussen lässt. Mit Operatoren wie UND, ODER bzw. NICHT kann gezielt nach Stichwortkombinationen gesucht werden. Am Beispiel der Wörter „Urlaub“ und „Meer“ wollen wir hier kurz zeigen, wie diese Operatoren funktionieren:

  • Urlaub UND Meer => Die Suchmaschine durchforstet den zentralen Index nach Dokumenten, die beide Stichwörter enthalten
  • Urlaub ODER Meer => Es wird nach Dokumenten gesucht, die einen der beiden Begriffe enthalten. Es müssen nicht zwangsläufig beide vertreten sein
  • Urlaub NICHT Meer => Die Suche beschränkt sich auf Dokumente, die nur das Wort Urlaub, aber in keinem Fall das Wort Meer beinhalten. Alle Dokumente, in denen das Wort Meer auftaucht, werden aussortiert

Query Processor

Der Query Processor stellt die Schnittstelle für den Nutzer zur Datenbank der Suchmaschine dar. Sie ist also die Systemkomponente, mit der die Suchanfragen schlussendlich ausgeführt werden. Ein komplexer Algorithmus des Query Processor sorgt dafür, dass die Dokumente nach bestmöglicher Relevanz sortiert werden.

Kategorie: Sicherheit

Verwandte Themen

Pole-Position: „Höchstes Kundenvertrauen” für GMX

Das Magazin "WirtschaftsWoche" hat Deutschlands größtes Vertrauensranking veröffentlicht. Insgesamt wurden Unternehmen und Marken aus 120 verschiedenen Branchen danach gerankt, wie stark Kundinnen und Kunden ihnen vertrauen. In der Kategorie "E-Mail-Anbieter" holt GMX den ersten Platz. mehr

GMX optimiert Abruf von Drittanbieter-Konten in der GMX Mail App

Das Update ist ab Ende Januar für alle Nutzer im Google Play Store verfügbar. mehr