• Tf-idf – was ist das? Warum sagen viele WDF*IDF?

    Hier findest Du SEO und Semantik und Sinn.
    Hier gibst Du Texte für Ranking und Conversion in Auftrag.

    Frankfurt am Main Skyline

Tf-idf (WDF*IDF), Keywords, Texte und das Märchen vom easy going Content-Tool

„Klar, die Texte schreiben wir mit WDF-IDF“. Viele verwenden Begriffe wie WDF*IDF: weil viele sie verwenden. Und schon haben wir ein Beispiel für irrelevante Termfrequenz bzw. KeyworddichteSEO-Texte werden oft im Blindflug mit dem Glauben an WDF-IDF-Tools oder Content-Editoren produziert. Die nach meiner Erfahrung beste WDF-IDF-Funktion ist die von Ryte.

Viele andere SEO-Tools zeigen zwar Relevanz an oder empfehlen die Verwendung zusätzlicher Schlüsselwörter, aber man weiß nicht, mit welcher Datenbasis sie arbeiten. Online-Texte, die mit einer solchen Vorlage entstehen, sind im günstigsten Fall wertlos. Derartiger Content sickert ins Web, in den Index. Das führt bei der Informationsrückgewinnung (Information Retrieval) zum Stau in den Systemen und Gedanken. Und zum generellen Qualitätsverlust bei Texten. Gleich einen SEO-Check durchführen?

Textoptimierung geht natürlich auch anders:

  • Du möchtest mit Deinen Kunden nicht mehr über die Textqualität diskutieren?
  • Du willst Texte, die Kunden gerne lesen – und die deshalb vorne ranken?
  • Du suchst Verkaufstexte, die konvertieren, weil sie Kundenvorteile zeigen?
  • Du hast schon in Texte investiert und möchtest diese Texte jetzt optimieren, um alles herauszuholen? Dann ist Optimierung für Suchmaschinen offensichtlich Dein Thema.

Ich könnte Dein Texter sein.

Du willst zuerst lesen, worauf es bei der Textqualität ankommt?


Zwei Eigenschaften braucht ein Text, um „bei Google auf Seite 1“ zu kommen (also sichtbar zu werden bzw. zu ranken): ausreichend Ähnlichkeit und eindeutige Unterschiedlichkeit. Nur auf den ersten Blick ist das ein Widerspruch.

Drei weitere Merkmale lassen einen Text konvertieren: interessanter Stil (hohe sprachliche Textqualität), fachliche Glaubwürdigkeit und verkäuferisches Geschick. Der Text muss also zum einen seriös geschrieben sein, zum anderen aber dem Leser zeigen, dass der Betreiber der Website sein eigenes Thema versteht. Ein Hersteller von Produkten bzw. seine SEO-Agentur muss seine Erzeugnisse und Leistungen schriftlich so gut beschreiben wie sein bester Verkäufer im Außendienst.

Apropos Außendienst. Webseiten sind permanent im Außendienst. Am besten setzt sich der Texter vor dem Schreiben mit dem Vertrieb zusammen. Verkäufer kennen die Terme, auf die es im Fachjargon des Kunden ankommt. Und auf die kommt es wirklich an.

Kein Besucher einer Website hat Verständnis dafür, wenn ein Texter ein für ihn zu komplexes Thema für seinen Kunden trivial oder falsch dargestellt hat. Und es bringt auch nichts, dem Website-Kunden zu erzählen, sein Text wäre deshalb „… vielleicht ein bisschen langweilig und oberflächlich, aber das ist, damit die Suchmaschinen … Sie wissen schon, ist halt ein SEO-Text. Mit WDF.“ Das ist die WDF-Unsitte, bei der auf tf-idf.de noch öfter zu lesen sein wird.

Worauf kommt es bei der Termgewichtung an?

Für die Textoptimierung relevante Textauszüge lassen sich nur aus einer relevanten Grundgesamtheit (Dokumentkorpus) herausfiltern. Was heißt das wieder? Professionelle Termgewichtung beim Verfassen eines Textes (if / wdf) hängt mit technisch einwandfreier Auswertung eines umfassenden Textbestandes (Dokumentkorpus) zusammen. Ohne guten Dokumentkorpus keine relevanten Analysen. Und keine relevanten Texte.

Relevanz (Ähnlichkeit) und Signifikanz (Unterschiedlichkeit bzw. Einzigartigkeit) in einem Text aus der Sicht von Suchmaschinen können nur in der Relation zum gesamten Textbestand gemessen werden. Sonst vergleicht man irgendetwas. Und der Text wird irgendwie für vieles relevant und damit für nichts.

Was ist der Dokumentkorpus? Und warum ist er so wichtig?

Der Dokumentkorpus ist die Referenzmenge – alle Dokumente mit Text, mit denen mein Dokument bei der Textanalyse verglichen wird. Hätte ich als Dokumentkorpus zum Beispiel nur zehn Internetseiten, die ausgedruckt auf dem Schreibtisch liegen, dann könnte ich bestimmt irgendwie versuchen, ähnlich zu schreiben wie diese Texte. Aber auch nicht mehr.  Textoptimierung benötigt daher möglichst die gesamte Dokumentmenge innerhalb des Sprachraums, damit der Text nach WDF*IDF (bzw. Tf-idf) analysiert werden kann.

Frag den Anbieter Deines SEO-Tools bzw. Content-Editors z. B. mal nach Stemming (Wortformnormalisierung). Hat mit dem Wortstamm zu tun. Brauchst Du, wenn Du optimal optimieren willst. Und es gibt etliche weitere Parameter, die bei billigen – und sogar sehr teuren – Tools unter den Tisch fallen. Auf dem Tisch bzw. im Netz liegen dann halb-relevante Dokumente. Und keiner merkt’s. Bis man eines Tages genau hinsieht. Bis man eine Engine (Semantik-Tool) verwendet, die mit Stemming und vielen anderen Funktionen arbeitet, die Relevanz real messen kann.

TF-idf (WDF IDF) Analyse – Du willst wissen, welche Fehler bei der Textoptimierung passieren?

TF-idf (ich verwende den im Englischen gebräuchlichen Namen des Algorithmus; WDF*IDF führte zu einer Mode – und diese zu manch schlechtem SEO-Tool sowie Content mit geringer Textqualität) ist natürlich kein Erfolgsrezept. Viele Texter meinen aber, wenn Word-Press-SEO-Plugins oder Balken in einem Content-Editor eine Relevanz anzeigen, dann ist der Text gut. Ist er aber nicht.

Beispiel für einen schlechten Text, der aber laut WDF-IDF-Content-Tool durchaus relevant ist. Ich wähle zur Verdeutlichung einen Text für ein Briefing.

Negativbeispiel für ein Briefing (wird jedoch oft so angewandt): „Wir wollen bei Google auf die Seite 1. Dazu brauchen wir 200 Kategorietexte und Artikel mit je 200 bis 300 Wörtern. In jedem Online-Dokument sollten gemäß WDF und IDF thematisch relevante Texte (SEO-Texte) vorkommen. Der Texter soll sie nach der Formel WDF IDF schreiben. Wie WDF zusammen mit IDF funktioniert, muss der Texter nicht verstehen. Es reicht, wenn er das WDF-IDF-Tool bedienen kann. Zum Thema der Seite gibt es noch ein paar Infos von uns, es braucht also keine Recherche. Das von uns verwendete Onpage-Tool zeigt dem Online-Redakteur alle Terme, die für Google enthalten sein müssen. Unsere Artikel sollen nicht nur für ein relevantes Keyword optimiert werden, sondern für viele Keywords. Die Berechnung der notwendigen Häufigkeit der Keywords macht das Content-Tool. Der Texter muss also nur noch den Term (bzw. die Terme, also die Wörter) in der vom Tool angezeigten Termgewichtung in den Text tippen. Unser Content (die Summe aller Onpage-Texte) wird mit einer abschließenden WDF*IDF-Analyse von den Tools auf die Keyword-Dichte (also das, was der Algorithmus braucht), untersucht. Damit in der Suchmaschinenoptimierung alles für Google passt.“ Ende des Satire-Briefings.  Dieser Text ist nach wdf-idf „relevant“. Und Unsinn.

Warum es sich für Dich lohnt, dem Thema Online-Text große Aufmerksamkeit zu schenken

  • Weil Du, wenn Du in einer SEO-Agentur arbeitest, Deine Kunden mit Rankings begeistern kannst. Kunden, die sehen, dass zwischen der Arbeit der SEO-Agentur und den Ranking-Gewinnen ein direkter Zusammenhang besteht, bleiben der Agentur treu. Und sie empfehlen sie gerne weiter.
  • Weil Du weniger Arbeit mit der Texterstellung hast. Denn ein Text, der auf Anhieb sitzt, verursacht weniger (bzw. keine) Korrekturschleifen mit dem Kunden.
  • Weil die Suchmaschine dank optimal angewandter Tf-idf-Methode (im Unterschied zu vielen WDF*IDF-Tools) aus dem Text sofort herauslesen kann, worum es geht, welche Schwerpunkte gesetzt sind – und welche nicht.
  • Weil es öfter zu einem Matching zwischen Deinem Angebot und dem User Intent kommen kann
  • Weil Dein Text eben auch für die Nutzer, also Deine künftigen oder bereits bestehenden Kunden, eine hohe Relevanz und Attraktivität dank konkreter Lösungsbeschreibungen hat

Wie kannst Du das Website-Ranking verbessern? Schreib mir, zu welchen Themen Du ein Rankingplus erzielen möchtest.

WDF * IDF-Analyse – was ist das?

Keyword-Dichte (absolute Keyword Density) war einmal. Um das Jahr 2014 herum kam WDF*IDF als Begriff in die SEO-Welt. Es entstand ein Hype um dieses Termgewichtungsverfahren. Viele in der SEO-Szene haben es für die große Neuheit gehalten und entsprechend gefeiert. Dabei ist die Formel, die WDF-IDF zugrunde liegt, bereits in den 1970er Jahren bekannt gewesen, wenn auch noch nicht in der Welt von Online-Suchsystemen, wie wir sie heute kennen.

WDF-IDF-Algorithmus – Sinn und Zweck

Um WDF-IDF zu verstehen, ist etwas Verständnis von Datenbanken und dem Prinzip der Informationsrückgewinnung (Information Retrieval) nützlich. Sehr vereinfacht ausgedrückt wird eine Datenbank auf mit Daten gefüllt. Im Internet werden die Daten durch Crawler eingesammelt. So entstehen ständig wachsende Datensätze. Aus diesen Daten (eigentlich Nullen und Einsen) sollen Informationen extrahiert und den Anwendern von Suchmaschinen in Form von Suchergebnissen (SERP) präsentiert werden. Hier liegt also ein Datensatz (Dokumentenkorpus), und ein Suchsystem holt aus diesem Datensatz per Algorithmus die zu einer Anfrage am besten passenden Informationen heraus. Daten werden in Informationen umgewandelt [Bus Linie X, 13:07, Winter, Haltestelle Y sind nur Daten; der Winterfahrplan ist die für den Nutzer verwertbare Information.] Soweit die Theorie. In der Praxis wird deutlich: Menge und Qualität der gecrawlten Dokumente haben einen erheblichen Einfluss auf die Qualität der Suchergebnisse. Das bezieht sich selbstverständlich auf WDF-IDF-Tools.

WDF-IDF ist ein Algorithmus, der termbasiert die thematische Relevanz von Dokumenten analysiert.

Auch noch zu theoretisch?

WDF-IDF hilft beim Sortieren von Dokumenten.

Und wie macht es das?

WDF (within document frequency, auch Tf) ist der Logarithmus für die Termfrequenz. Die Termfrequenz ist das tatsächliche Vorkommen eines Terms in einem Dokument (z. B. Website, Landingpage, aber auch PDF oder andere Dokumente, die online erreichbar sind).

IDF ist der Logarithmus, der die Gesamtzahl der Dokumente in einem Dokumentenkorpus (in einer Bibliothek wäre dies der Gesamtbestand aller Bücher) durch die Anzahl der Dokumente, die einen Term bzw. Begriff (Keyword) enthalten, teilt. Beispiel: Wie oft kommt ein Ausdruck [Schlüsselbegriff] in allen vorhandenen Dokumenten vor?

WDF-IDF (Tf-idf) setzt also die Häufigkeit eines Begriffes in einem Dokument ins Verhältnis zur Häufigkeit des Begriffes in allen anderen erfassten Dokumenten. Das Ergebnis ist die errechnete Relevanz des Dokumentes in Relation zu allen anderen Dokumenten, in denen dieser Begriff gefunden wird.

Im Gegensatz zur Berechnung einer Keyword Density bezieht sich das WDF-IDF-Verfahren nicht nur auf ein Wort, sondern – je nach Qualität der Funktionen eines Tools (das ist entscheidend) – auf mehrere bzw. alle Begriffe, die zu einem Thema in einem Bezug stehen.

Zusammenfassung WDF*IDF

In den Anfängen der Suchmaschinenoptimierung wurden die Keywords und die Wörter in einem Dokument gezählt. Damals genügte es noch, die Keywords in Dokument möglichst oft unter die sonstigen Wörter im Dokument zu mischen … fertig war die Relevanz. Fertig war der Spam-Text. Das ist heute anders.

WDF (Tf) und IDF sind Logarithmen, die der Algorithmus WDF IDF zueinander in Relation bringt. Betrachtet werden hier nicht nur die Keywords im Dokument im Verhältnis zur Anzahl der Wörter im Dokument (Keyworddichte). Die Formel mit WDF und IDF geht über das Dokument hinaus und analysiert, wie oft Wörter im Index (Dokumentenkorpus bzw. Index, auf den die Suchmaschine zugreift) insgesamt vorkommen. Im Information Retrieval (Informationsrückgewinnung) der Suchmaschine geschieht genau das. Deshalb berücksichtigt Suchmaschinenoptimierung immer auch die Termgewichtung. „Auch die Termgewichtung“ – und was sonst noch?

Worauf kommt es außerdem bei der semantischen Suchmaschinenoptimierung an?

Die relevantesten Terme im Dokument ergeben sich aus Sicht einer Suchmaschine formal aus der Verwendung der Terme in den HTML-Strukturtags (H1, H2, H3, usw.). Auch die Analyse der gekennzeichneten Terme ist somit von entscheidender Bedeutung für die Bewertung der Relevanz eines Dokumentes.

Spätestens hier wird klar, weshalb eine rein rechnerische WDF-IDF-Analyse nur einen Teil der Aspekte berücksichtigt, die für das Ranking eines Dokumentes im Web entscheidend sind.

Auf der Website tf-idf.de wird auch beschrieben, auf welche inhaltlichen Aspekte es außer der Termgewichtung ankommt. Angewandte Termgewichtung ist zwar eines der wichtigsten Kriterien für ein Rankingplus, doch es gibt weitere.

Lies hier mehr zum Thema Google Ranking verbessern. Auf dieser Seite findest Du Informationen zur Wortformnormalisierung (Stemming) – und warum viele Toolanbieter dieses Verfahren nicht in ihre SEO-Tools integrieren.