Lehrveranstaltung

Allgemeine Informationsmittel

Begleitende Informationen

Dozent: Prof. Dr. Hermann Rösch
erarbeitet unter Mitarbeit von Sonja Härkönen

 

Stand: Gesamtkonzeption: August 2001
            Objektbezogen: vgl. jeweiligen Bearbeitungsvermerk


 

10. Suchwerkzeuge im Internet
10.1. Suchmaschinen

Stand: August 2001

Suchmaschinen:
    - robotergenerierte Volltextdatenbank
    - maschinell erzeugte und aufbereitete Datenbank
    - Volltextsuchmaschine
    - erfasst einzelne WWW-Seiten
          Beispiel: Suchmaschine liefert alle einzelnen Seiten, auf denen der Begriff "Stadtbibliothek Köln" vorkommt, thematisches
                        Verzeichnis bietet Link zur Homepage der "Stadtbibliothek Köln"
    - bieten aber auch Betreibern von Internetangeboten die Möglichkeit zur Selbstanmeldung
    - besteht aus drei Teilen:
          1. Datensammler
          2. Indizierungsprogramm
          3. Abfrageprogramm

 

1. Datensammler (Robots, Crawler oder Spider)
        - Programm erhält als Startpunkt URLs
        - sucht dann die dort per Link verknüpften URLs auf
        - hangelt sich über Links von Seite zu Seite innerhalb und außerhalb des Ausgangsservers
        - wieviele und welche Links der Robot verfolgt ist durchaus unterschiedlich
        - erfasst also die Seiten, lädt diese herunter und kontrolliert regelmäßig, ob Änderungen vorgenommen wurden

 

2. Indizierungsprogramm
        - indiziert die vom Robot ermittelten und beschafften Seiten, d.h. die darin enthaltenen Wörter
        - baut also Volltextindex der ermittelten Seiten auf
        - Unterschiede hinsichtlich der Erfassungstiefe: Indizieren des kompletten Textes und der Struktur (Titel, Überschriften,
          Links usw.) oder nur Teilen des Textes (erste Zeilen oder nur Überschriften) oder nur der URL
        - Priorisieren von Seiten, d.h. Ranking von verschiedenen Faktoren abhängig:
              * wie häufig kommt der Suchbegriff im Dokument vor
              * an welchen Stellen des Dokumentes kommt der Suchbegriff vor (URL, Titel, Überschriften, normale Absätze,
                 Meta-Tags...)
              * wieviele Links verweisen auf die entsprechende Seite
              * externe Informationen: z.B. ist die Seite in einem (bestimmten) Katalog enthalten, was als Qualitätsbeweis
                  gelten kann

 

3. Abfrageprogramm (s. Optionen)
            - Suchtechniken, Aufbau der Trefferlisten
            - Parameter für Ranking-Algorithmen:
                  * Vorkommen der Suchbegriffe in Meta-Tags
                  * Vorkommen der Suchbegriffe in der URL
                  * Häufigkeit der Suchbegriffe im Dokument oder Teilen des Dokuments (bei mehreren Suchbegriffen)
                  * Abstand der unterschiedlichen Suchbegriffe innerhalb des Textes zueinander
                  * Häufigkeit eines Suchbegriffs in einem Dokument
                  * Position der Suchbegriffe in der HTML-Seite
                  * Position der URL in einer Webserverhierarchie
                  * Häufigkeit des Zugriffs in der Suchmaschinendatenbank auf die URL
                  * Verteilung der URLs auf verschiedene Server
                  * Gesamthäufigkeit einzelner Wörter in der Datenbank: seltenere, spezifischere Begriffe werden höher gewichtet
                     (bei mehreren Suchbegriffen)

 

    - Volltextindizierer liefern sklavisch alle Seiten, in denen die Suchbegriffe enthalten sind, ohne sie in Beziehung zu setzen
      Beispiel: Anfrage "Otto Hahn Geburtstag" liefert als Ergebnis auch: Agenturmeldung zu Yehudi Menuhins 80.
      Geburtstag, in der erwähnt wird, daß dieser Träger der Otto-Hahn-Friedensmedaille ist.
    - Suchmaschinen sind urheberrechtlich geschützte Datensammlungen (in Deutschland)
    - nicht alle Suchmaschinen indizieren Meta-Tags (Excite, Webcrawler)
    - über AltaVista und Fireball kann ermittelt werden, wieviele Links auf eine Domain weisen
    - was Suchmaschinen nicht finden:
          * Dokumente, auf die von außen keine Links zeigen, die zugleich von ihren Betreibern nicht bei den Suchmaschinen
              angemeldet werden
          * Dokumente die durch Passwörter geschützt sind
          * Betreiber kann Server oder Teile des Servers für Suchroboter sperren
          * Inhalte fremder Datenbanken (dann müsste der Roboter das Suchformular der Datenbank verstehen können und jede
              denkbare Abfrage über ein solches Formular abschicken)
          * Frames und Javascripte können von vielen Suchmaschinen nicht erfasst werden

zurück zum Einzeltitelverzeichnis

 

 

zurück zum Inhaltsverzeichnis

 

 

 


 

10.2. Web-Kataloge

Stand: August 2001

Web-Kataloge:
    - Synonyme: Verzeichnisse, thematische Listen, subject catalogue
    - manuell erstellte und bewertete, sachlich gegliederte Verzeichnisse
    - Bewertung liegt in der Auswahl und Zuordnung
    - Varianten:
          * redaktionell erstellt: personalintensiv
          * Betreiber von Internetangeboten können ihre Angebote selbst in eine oder mehrere der Kategorien eintragen
          * automatische Einordnung mit Hilfe von Suchrobotern
    - hierarchisch aufgebaut: grobe Einteilung in wenige Obergruppen (Wirtschaft, Unterhaltung usw.), Feingliederung in
      Untergruppen
    - erfasst nicht einzelne WWW-Seiten, sondern größere thematische Einheiten
          Beispiel: einen Eintrag mit Link Homepage der "Stadtbibliothek Köln" (Suchmaschine liefert alle einzelnen Seiten,
          auf denen der Begriff "Stadtbibliothek Köln" vorkommt)
    - ermöglichen oft Volltextsuche ihres Angebots, in der nicht zwischen Schlagwörtern (aus den Systemstellen) und
       Stichwörtern (aus den aufgeführten Linkbeschreibungen) unterschieden wird
    - Suchstrategie
          * Blättern in der Systematik (schrittweises Verzweigen von allgemeinen zu spezielleren Kategorien)
          * Stichwortsuche im Verzeichnis (Systemstellen und verzeichnete Quellen)
    - beschränken sich häufig auf eine bestimmte Sprache
    - reichen oft Anfragen, zu denen sie keine Einträge nachweisen, an Volltextsuchmaschinen weiter und zeigen dann
      deren Ergebnisse an
    - US-Kataloge decken deutsches WEB nur dürftig oder gar nicht ab
    - thematische Verzeichnisse: weniger Ballast als Suchmaschinen, enthalten konzentriertere Information, haben Filterfunktion

zurück zum Einzeltitelverzeichnis

 

 

zurück zum Inhaltsverzeichnis

 

 

 


 

10.3. Meta-Suchmaschinen

Stand: August 2001

Meta-Suchmaschinen:
    - leiten Suchanfrage parallel an mehrere Suchmaschinen weiter
    - erlauben die gleichzeitige Abfrage verschiedener Suchmaschinen
    - fassen die Suchergebnisse übersichtlich zusammen (im Idealfall)
    - decken weitaus größeren Teil des Internet ab als einzelne Maschinen; vergrößern den Abdeckungsgrad um den
      Faktor 3,5 (Untersuchung Stand 1998)
    - sammeln und verwalten keinen eigenen Datenbestand
    - können Daten der einzelnen Suchmaschinen nur dann verwerten, wenn deren Betreiber dies zulassen (Urheberrecht)
    - manche Meta-Suchmaschinen nehmen nicht alle Treffer der Quellsuchmaschinen, sondern sammeln die jeweils besten
      Treffer, erzielen höhere Relevanz (behaupten die Betreiber)
    - im Idealfall: entfernen Dubletten, sortieren Treffer nach eigenen Kriterien
    - Nachteile:
          * können nicht alle Features der Quellsuchmaschinen ausnutzen
          * liefern daher auch nicht alle relevanten Dokumente, die bei einer exakten Einzelsuche ermittelt worden wären
          * werten mit identischem Suchvokabular unterschiedliche Quelltypen aus (Suchmaschinen und Verzeichnisse),
             obwohl doch jeweils unterschiedliches Vokabular benötigt würde (vgl. allgemeiner oder spezifischer Begriff)

zurück zum Einzeltitelverzeichnis

 

 

zurück zum Inhaltsverzeichnis

 

 

 


 

10.4. Intelligente Agenten

Stand: August 2001

Intelligente Agenten:
    - Intention: Suchraum beschränken, um information overload zu vermeiden = themenorientierte Suchmaschine
    - Systeme, die sich auf die Erfassung bestimmter Teilbereiche beschränken (thematisch, regional)
    - verteilte Indizes, die dann einzeln oder parallel abgefragt werden können
    - intelligente Suchsoftware, die für den Endbenutzer solche verteilten Systeme nacheinander oder parallel abfragt, die
      Ergebnisse einsammelt, aufbereitet und übermittelt
    - werden von manchen Systemen ausgesperrt
    - Softwareprogramme, die auf der Grundlage eines spezifischen, individuellen Informationsprofils selektieren

zurück zum Einzeltitelverzeichnis

 

 

zurück zum Inhaltsverzeichnis