Allgemeine Informationsmittel
Begleitende Informationen
Dozent: Prof. Dr. Hermann Rösch
erarbeitet unter Mitarbeit von
Sonja Härkönen
Stand: Gesamtkonzeption: August
2001
Objektbezogen:
vgl. jeweiligen Bearbeitungsvermerk
| 10. Suchwerkzeuge im
Internet 10.1. Suchmaschinen |
Stand: August 2001
Suchmaschinen:
- robotergenerierte
Volltextdatenbank
- maschinell erzeugte und aufbereitete
Datenbank
- Volltextsuchmaschine
-
erfasst einzelne WWW-Seiten
Beispiel: Suchmaschine liefert alle einzelnen Seiten, auf denen der
Begriff "Stadtbibliothek Köln" vorkommt, thematisches
Verzeichnis bietet Link zur Homepage der "Stadtbibliothek
Köln"
- bieten aber auch Betreibern von Internetangeboten
die Möglichkeit zur Selbstanmeldung
- besteht aus drei
Teilen:
1.
Datensammler
2.
Indizierungsprogramm
3.
Abfrageprogramm
1. Datensammler (Robots, Crawler oder
Spider)
- Programm erhält als
Startpunkt URLs
- sucht dann die dort
per Link verknüpften URLs auf
- hangelt
sich über Links von Seite zu Seite innerhalb und außerhalb des
Ausgangsservers
- wieviele und welche
Links der Robot verfolgt ist durchaus unterschiedlich
- erfasst also die Seiten, lädt diese herunter und
kontrolliert regelmäßig, ob Änderungen vorgenommen wurden
2.
Indizierungsprogramm
-
indiziert die vom Robot ermittelten und beschafften Seiten, d.h. die darin
enthaltenen Wörter
- baut also
Volltextindex der ermittelten Seiten auf
- Unterschiede hinsichtlich der Erfassungstiefe: Indizieren
des kompletten Textes und der Struktur (Titel, Überschriften,
Links usw.) oder nur Teilen des Textes
(erste Zeilen oder nur Überschriften) oder nur der URL
- Priorisieren von Seiten, d.h. Ranking von verschiedenen
Faktoren abhängig:
* wie häufig kommt der Suchbegriff im Dokument
vor
* an
welchen Stellen des Dokumentes kommt der Suchbegriff vor (URL, Titel,
Überschriften, normale Absätze,
Meta-Tags...)
* wieviele Links verweisen auf die
entsprechende Seite
* externe Informationen: z.B. ist die Seite in einem (bestimmten) Katalog
enthalten, was als Qualitätsbeweis
gelten kann
3. Abfrageprogramm (s.
Optionen)
-
Suchtechniken, Aufbau der Trefferlisten
- Parameter für Ranking-Algorithmen:
*
Vorkommen der Suchbegriffe in Meta-Tags
* Vorkommen der
Suchbegriffe in der URL
* Häufigkeit der Suchbegriffe im Dokument
oder Teilen des Dokuments (bei mehreren Suchbegriffen)
*
Abstand der unterschiedlichen Suchbegriffe innerhalb des Textes
zueinander
* Häufigkeit eines Suchbegriffs in einem Dokument
*
Position der Suchbegriffe in der HTML-Seite
* Position der URL in
einer Webserverhierarchie
* Häufigkeit des Zugriffs in der
Suchmaschinendatenbank auf die URL
* Verteilung der URLs auf
verschiedene Server
* Gesamthäufigkeit einzelner Wörter in der Datenbank:
seltenere, spezifischere Begriffe werden höher gewichtet
(bei mehreren Suchbegriffen)
- Volltextindizierer liefern sklavisch alle Seiten, in
denen die Suchbegriffe enthalten sind, ohne sie in Beziehung zu setzen
Beispiel: Anfrage "Otto Hahn Geburtstag" liefert als
Ergebnis auch: Agenturmeldung zu Yehudi Menuhins 80.
Geburtstag, in der erwähnt wird, daß dieser Träger der
Otto-Hahn-Friedensmedaille ist.
- Suchmaschinen sind
urheberrechtlich geschützte Datensammlungen (in
Deutschland)
- nicht alle Suchmaschinen indizieren
Meta-Tags (Excite, Webcrawler)
- über AltaVista und
Fireball kann ermittelt werden, wieviele Links auf eine Domain
weisen
- was Suchmaschinen nicht
finden:
* Dokumente, auf die von
außen keine Links zeigen, die zugleich von ihren Betreibern nicht bei den
Suchmaschinen
angemeldet werden
* Dokumente
die durch Passwörter geschützt sind
* Betreiber kann Server oder Teile des Servers für
Suchroboter sperren
* Inhalte
fremder Datenbanken (dann müsste der Roboter das Suchformular der Datenbank
verstehen können und jede
denkbare Abfrage über ein solches Formular
abschicken)
* Frames und
Javascripte können von vielen Suchmaschinen nicht erfasst werden
| zurück zum Einzeltitelverzeichnis |
| zurück zum Inhaltsverzeichnis |
| 10.2. Web-Kataloge |
Stand: August 2001
Web-Kataloge:
- Synonyme: Verzeichnisse,
thematische Listen, subject catalogue
- manuell erstellte
und bewertete, sachlich gegliederte Verzeichnisse
-
Bewertung liegt in der Auswahl und Zuordnung
- Varianten:
* redaktionell erstellt:
personalintensiv
* Betreiber von
Internetangeboten können ihre Angebote selbst in eine oder mehrere der
Kategorien eintragen
*
automatische Einordnung mit Hilfe von Suchrobotern
-
hierarchisch aufgebaut: grobe Einteilung in wenige Obergruppen (Wirtschaft,
Unterhaltung usw.), Feingliederung in
Untergruppen
- erfasst nicht einzelne WWW-Seiten, sondern
größere thematische Einheiten
Beispiel: einen Eintrag mit Link Homepage der "Stadtbibliothek Köln"
(Suchmaschine liefert alle einzelnen Seiten,
auf denen der Begriff "Stadtbibliothek Köln"
vorkommt)
- ermöglichen oft Volltextsuche ihres Angebots,
in der nicht zwischen Schlagwörtern (aus den Systemstellen) und
Stichwörtern (aus den aufgeführten Linkbeschreibungen)
unterschieden wird
- Suchstrategie
* Blättern in der Systematik
(schrittweises Verzweigen von allgemeinen zu spezielleren
Kategorien)
* Stichwortsuche im
Verzeichnis (Systemstellen und verzeichnete Quellen)
-
beschränken sich häufig auf eine bestimmte Sprache
-
reichen oft Anfragen, zu denen sie keine Einträge nachweisen, an
Volltextsuchmaschinen weiter und zeigen dann
deren
Ergebnisse an
- US-Kataloge decken deutsches WEB nur
dürftig oder gar nicht ab
- thematische Verzeichnisse:
weniger Ballast als Suchmaschinen, enthalten konzentriertere Information, haben
Filterfunktion
| zurück zum Einzeltitelverzeichnis |
| zurück zum Inhaltsverzeichnis |
| 10.3. Meta-Suchmaschinen |
Stand: August 2001
Meta-Suchmaschinen:
- leiten Suchanfrage
parallel an mehrere Suchmaschinen weiter
- erlauben die
gleichzeitige Abfrage verschiedener Suchmaschinen
- fassen
die Suchergebnisse übersichtlich zusammen (im Idealfall)
-
decken weitaus größeren Teil des Internet ab als einzelne Maschinen; vergrößern
den Abdeckungsgrad um den
Faktor 3,5 (Untersuchung
Stand 1998)
- sammeln und verwalten keinen eigenen
Datenbestand
- können Daten der einzelnen Suchmaschinen
nur dann verwerten, wenn deren Betreiber dies zulassen
(Urheberrecht)
- manche Meta-Suchmaschinen nehmen nicht
alle Treffer der Quellsuchmaschinen, sondern sammeln die jeweils
besten
Treffer, erzielen höhere Relevanz
(behaupten die Betreiber)
- im Idealfall: entfernen
Dubletten, sortieren Treffer nach eigenen Kriterien
-
Nachteile:
* können nicht alle
Features der Quellsuchmaschinen ausnutzen
* liefern daher auch nicht alle relevanten Dokumente, die bei
einer exakten Einzelsuche ermittelt worden wären
* werten mit identischem Suchvokabular unterschiedliche
Quelltypen aus (Suchmaschinen und Verzeichnisse),
obwohl doch jeweils unterschiedliches Vokabular
benötigt würde (vgl. allgemeiner oder spezifischer Begriff)
| zurück zum Einzeltitelverzeichnis |
| zurück zum Inhaltsverzeichnis |
| 10.4. Intelligente Agenten |
Stand: August 2001
Intelligente Agenten:
- Intention:
Suchraum beschränken, um information overload zu vermeiden = themenorientierte
Suchmaschine
- Systeme, die sich auf die Erfassung
bestimmter Teilbereiche beschränken (thematisch, regional)
- verteilte Indizes, die dann einzeln oder parallel abgefragt werden
können
- intelligente Suchsoftware, die für den
Endbenutzer solche verteilten Systeme nacheinander oder parallel abfragt,
die
Ergebnisse einsammelt, aufbereitet und
übermittelt
- werden von manchen Systemen
ausgesperrt
- Softwareprogramme, die auf der Grundlage
eines spezifischen, individuellen Informationsprofils selektieren
| zurück zum Einzeltitelverzeichnis |
| zurück zum Inhaltsverzeichnis |