Vor ein paar Tagen hatte ich das Thema WDF*IDF (für: Within-Document-Frequency*Inverse-Document-Frequency) bereits in einem Artikel zum Panda-Update angerissen. In den folgenden Absätzen werde ich mich näher mit Aufbau, Funktion und produktions- wie rezeptionsästhetischen Folgen der Termgewichtungs-Analyse beschäftigen.

Texte im Internet – Keyworddichte

Jahrelang war es in der Suchmaschinenoptimierung gute Praxis, bei der Textproduktion auf die Keyworddichte zu achten. Diese lässt sich vereinfacht beschreiben als Quotient aus der Frequenz eines bestimmten Terms in einem bestimmten Dokument und der Anzahl aller Terme eben dieses Dokuments. Schreibe ich demnach einen Text über WDF*IDF, der eine Länge von 300 Wörtern hat und das entsprechende Keyword 20 Mal enthält, sieht die Gleichung wie folgt aus: 20/300*100=6,66. Dieses in numerischer Hinsicht gewissermaßen diabolische Ergebnis steht im gewählten Beispiel sinnbildlich für die Nachteile einer derartigen Berechnung, die da wären:

  1. Die Keyworddichte macht keine Aussage über die Umgebung des jeweiligen Begriffs. Taucht beispielsweise aus Versehen ein nicht anvisiertes Schlagwort häufiger im selben Text auf, steht die Suchmaschine vor einer unauflösbaren semantischen Ambiguität. Dies führt zur Verwässerung der angestrebten Platzierung.
  2. Mit der Keyworddichte lässt sich die Häufigkeit eines bestimmten Begriffs in der gesamten Sprache nicht bestimmen. Zieht man diese hinzu, ergibt sich jedoch ein sehr viel differenzierteres Bild: Während eine Dichte von zwei Prozent in einem Text über Suchmaschinenoptimierung sicherlich nicht besonders hoch ist, sieht dies bei einem Begriff wie Donaudampfschifffahrtselektrizitätenhauptbetriebswerkbauunterbeamtengesellschaft möglicherweise schon anders aus.
  3. Die Keyworddichte verführt durch den prozentualen Wert dazu, den festgelegten Begriff so häufig zu nennen wie möglich. Dies ist jedoch weder im Sinne der maschinellen noch der menschlichen Rezeptionsästhetik anzuraten. Ein mit Keywords vollgestopfter Text liest sich einfach fürchterlich.

WDF*IDF – Die Antwort auf alle Fragen?

All diese Probleme und noch viel mehr soll nun die vermeintlich neue Formel WDF*IDF lösen; so zumindest der Traum vieler SEOs. In der Linguistik wird schon seit einer Ewigkeit mit Termgewichtungs-Analysen und inverser Dokumentenfrequenz experimentiert, um Relevanzen bestmöglich beschreibbar zu machen. ‚Neu‘ ist die Formel daher nicht wirklich, sie bietet aber gegenüber der Keyworddichte entscheidende Vorteile:

  1. WDF*IDF bezieht unter Berücksichtigung der Inverse-Document-Frequency alle bekannten Dokumente in die Relevanzberechnung mit ein. Für die Praxis bedeutet dies, dass ein Term innerhalb eines Dokuments an Wichtigkeit einbüßt, wenn es zum anvisierten Schlüsselbegriff bereits sehr viele umliegende Dokumente gibt. Diese logarithmusbasierte Berechnung ersetzt die inhärente Absolutheit der Keyworddichte durch ein relativierendes Perspektiv und strebt so eine realistischere Abbildung der Gegebenheiten an. Hier lässt der Godfather der strukturalistischen Sprachwissenschaft, Ferdinand de Saussure, grüßen; dieser ging ebenfalls schon von dem Gedanken aus, dass ein sprachliches Zeichen keinen Wert an sich hätte, sondern seine Bedeutung ex negativo aus der Tatsache zöge, dass es sich von allen anderen umgebenden Zeichen unterscheide.
  2. Berechnungen auf WDF*IDF-Basis schauen nicht nur auf das anvisierte Keyword, sondern berücksichtigen darüber hinaus so genannte beweisführende Terme, die der Suchmaschine bei der semantischen Einordnung des Textes helfen sollen. Je homogener die Mischung von Schlüsselwort und beweisführenden Termen, so die Theorie, desto höher die Relevanz des Dokuments und folgerichtig auch die Platzierung in den Suchergebnissen. Daraus folgt, wie Karl Kratz in der aktuellen ‚Website Boosting‘ sehr anschaulich dargelegt hat,
  3. eine der Realität zumindest gerechter werdende Mehrdimensionalität der zugrunde liegenden Dokumentenkorpora. Diese orientieren sich bei einer Termgewichtungs-Analyse nicht nur an den entsprechenden Schlüsselwörtern, sondern auch an den beweisführenden Termen. Mehr Variablen = differenziertere Ergebnisse.

WDF*IDF vs. Keyworddichte – Ästhetische Folgen

Dies ist – auch wenn es auf den ersten Blick den Anschein haben mag – kein Text über Suchmaschinenoptimierung, sondern über das Schreiben im Internet, über dessen Poetik und Ästhetik. Dass sich Googles Algorithmus eher an der Termgewichtung als an der vergleichsweise beschränkten Keyworddichte orientiert, steht wohl außer Frage. Dennoch geht es auch unter dem Banner von WDF*IDF in erster Linie um den Leser, dem die basalen Rankingkriterien – so darf angenommen werden – an der ‚Basis‘ vorbeigehen.

Und hier liegt m.E. durchaus der Gewinn der heiß diskutierten ‚Zauberformel‘. Sie verlangt dem Texter durch die erhöhte Anzahl an Variablen zwar eine gleichermaßen erhöhte Aufmerksamkeit ab. Sie eröffnet damit aber ebenfalls einen größeren kreativen Spielraum: Um sich von allen anderen im Netz zirkulierenden Texten abzusetzen, genügt es nicht (mehr), ein einziges Keyword entsprechend prominent zu platzieren, sondern in diesem Sinne auch ganz besonders auf dessen Umgebung zu achten. Richtig angewendet, könnten dann weniger standardisierte und bessere lesbare Texte entstehen, die zwar immer noch einer präskriptiven Poetik folgen, in ihrer erhöhten Komplexität aber dem Leser und den Suchmaschinen gleichermaßen zugutekommen. Und diese Möglichkeit ist höchst erfreulich: Nicht nur ökonomisch, sondern auch ästhetisch.

[Update]: Wie die jüngsten Entwicklungen im Bereich der Suchmaschinenevolution zeigen, scheint die Konzentration auf die Termgewichtung nur eines von vielen Zeichen einer Bewegung zu sein, die man als ‚Semantic Turn‘ beschreiben könnte. Lesen Sie hierzu auch gerne meine Besprechung von Google Semantic Search.