Das Internet zeichnet sich durch eine enorme Informationsvielfalt aus. Diese Informationen befinden sich an vielen unterschiedlichen Stellen und müssen auf Grund ihrer Masse sinnvoll geordnet werden. Dieses Problem bestand bereits zu Beginn des Internets und wurde mit dessen Entwicklung zum Web 2.0 und der Zunahme von usergenerierten Inhalten zunehmend größer. Es wurden verschiedene Lösungsansätze entwickelt, die im Folgenden erläutert werden.

Webkataloge

Webkataloge sind manuell gepflegte Verzeichnisse, die in verschiedene Kategorien unterteilt sind. Diese Kategorien können wiederum Unterkategorien besitzen, so dass sich eine hierarchische Struktur ergibt. In den einzelnen Kategorien werden die URLs zu passenden Ressourcen inklusive einer kurzen Beschreibung gespeichert. Die berühmtesten Vertreter in diesem Gebiet sind das Open Directory Project und das Yahoo! Directory. Allerdings haben diese Verzeichnisse viele Nachteile, da sie manuell gepflegt und erweitert werden müssen und diese Aufgaben mit dem zunehmenden Wachstum des Internets nicht mehr zu vereinbaren ist. Auch für einen User ist die Informationssuche mühsam, weil er über verschiedene Hierarchieebenen navigieren muss, bevor er zu einem Ergebnis kommt.

Volltextsuchmaschinen

Einen automatisierten Ansatz zur Organisation des Internets stellten die ersten Volltextsuchmaschinen zur Verfügung. Diese basierten auf dem automatisierten Einlesen von Webdokumenten und deren Speicherung in einem Index. Es konnten nun generische Suchanfragen gestellt werden, die mit dem Index abgeglichen wurden und als Resultat alle Dokumente lieferten, die zur Anfrage passten. Bei diesem Konzept entfällt die manuelle Pflege, aber in den meisten Fällen ist die Anzahl der passenden Dokumente schlicht zu groß um einen echten Nutzen für einen Suchenden darzustellen. Dieses Problem kommt zum Teil durch ein fehlendes Verständnis der Suchmaschinen für den Inhalt eines Webdokumentes zu Stande.

Einbeziehung von Meta Informationen

Meta Informationen sind „Informationen über Informationen“. Mit Hilfe dieser Informationen ist es möglich, Daten genauer zu beschreiben und somit maschinell verwertbare Informationen daraus herzustellen. Suchmaschinen können damit eine bessere Abschätzung des Inhaltes einer Webseite machen und dadurch die Ergebnismenge einer Suchanfrage einschränken. Die typischen Meta Informationen bei HTML Dokumenten werden innerhalb des <head> Tags notiert und sind unter dem Namen Meta Tags bekannt.

Einführung eines Rankings

Selbst Suchmaschinen, die Metadaten verarbeiten, können lediglich eine genauere Ergebnisliste liefern. Wie bereits erwähnt ist diese Liste aber meist immer noch viel zu groß um daraus manuell die Informationen zu extrahieren, die tatsächlich gesucht werden. Aus diesem Grund wurden die rankingbasierten Suchmaschinen entwickelt, die zusätzlich noch eine Bewertung der einzelnen Ergebnisse zu einer Abfrage vornehmen und damit eine Struktur erschaffen, die ein sinnvolles Arbeiten ermöglicht. Die größten Vertreter dieser Gattung im westlichen Raum sind Google, Yahoo! und Bing.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert