Spam Traffic in Google Analytics 4 – das kannst du dagegen tun

Spam Traffic in Google Analytics 4 – das kannst du dagegen tun
Inhaltsverzeichnis

Die Einführung von Google Analytics 4 brachte vielen Spam-Geplagten Hoffnung: Als Google höchstpersönlich den Ausschluss des Traffics von bekannten Bots ankündigte, schien der Spam Traffic in Google Analytics endlich der Vergangenheit anzugehören – zumindest auf den ersten Blick.

Vorab eine kleine Zeitreise ins Jahr 2021: Damals beobachteten wir bei vielen Kunden massive Spam-Traffic-Wellen, die zu sprunghaften Anstiegen des Gesamt-Traffics führten. Das sah dann zum Beispiel so aus:

Zu Zeiten von Universal Analytics nutzten die meisten Spam-Attacken das Measurement Protocol als Schwachstelle. In GA4 wurde das Measurement Protocol dann angeblich besser abgesichert, was Spammern scheinbar einen Riegel vorschob. Ende gut, alles gut – oder etwa doch nicht?

Das alles ist nun schon eine Weile her und wie du dir sicher denken kannst, ist der Spam Traffic inzwischen wieder da, wo er nicht hingehört: In unzähligen GA4-Berichten. Dieser Blogartikel erklärt die topaktuellen Ursachen und zeigt dir, wie du Spam Traffic in GA4 heute erfolgreich identifizieren und vermeiden kannst.

Warum ist Spam so schlimm – und was haben die Spammer davon?

Vielleicht fragst du dich, warum Spam Traffic in GA4 überhaupt ein Problem darstellt. Die Frage ist durchaus berechtigt, denn an und für wirkt sich Google Analytics-Spam nicht direkt auf deine Website aus. Im Gegensatz zu DDoS-Attacken gibt es i.d.R. auch keine Server-Überlastung oder Ähnliches. Nichtsdestotrotz verfälschen Spam-Attacken deine Daten in Google Analytics zum Teil gewaltig. So lassen sich eine zuverlässige Leistungsmessung und Vergleichbarkeit der Daten nicht mehr gewährleisten. Damit verhindert der Spam ein sauberes datenbasiertes Onlinemarketing. Und das ist sicher nichts, was du einfach so hinnehmen möchtest, oder?

Der Nutzen der Spammer ist derweil ein ganz simpler: Nutzer von Google Analytics wollen in der Regel – gerade bei sprunghaften Traffic-Anstiegen – wissen, woher der neue Traffic überhaupt stammt. Aus Neugier besuchen Sie die in Analytics als Traffic-Quelle angegebenen URLs und erzeugen so echten Traffic auf diesen Seiten. Dort wiederum haben die Spammer meist Anzeigen geschaltet, die ihnen pro Besuch ein klein wenig Geld einbringen. Alternativ werden dort auch – in der Regel sehr dubiose – Dienstleistungen angeboten oder Download-Links zu Malware präsentiert.

Im Kleinen klingt das vielleicht nicht gerade lohnenswert. Wenn du aber bedenkst, dass auf diese Art und Weise nicht nur deines, sondern Tausende oder sogar Millionen von Analytics-Konten bei sehr geringem Aufwand vollgespammt werden können, dann verstehst du die Motivation der Spammer vielleicht schon eher.

Spamming von Google Analytics – die Methoden

Nachdem du die Motive vieler Spammer nun kennst, schauen wir uns als nächstes die technischen Grundlagen an: Allen voran stellt sich die Frage, wie Spam Traffic in Google Analytics 4 überhaupt entsteht. Grundsätzlich gibt es zwei Spam-Quellen:

  1. Webcrawler (auch Spider genannt), die Websites mit Google Analytics-Trackingcodes besuchen.
  2. Ghost Referrer, die Fake-Hits direkt an Google Analytics senden, ohne deine Seite vorher aufzurufen.

Spamming von Google Analytics – Konten mit Webcrawlern

Webcrawler sind Bots, die automatisiert eine große Anzahl an Websites im Internet besuchen. Die meisten der Webcrawler haben dabei durchaus nützliche Funktionen. Die bekanntesten und wichtigsten Crawler sind die verschiedenen Googlebots, die alle auffindbaren Websites crawlen und es Google so ermöglichen, beinahe das gesamte Web zu indexieren. Auch bekannte SEO-Tools nutzen Bots zur Überprüfung deiner Website. Besuche von Webcrawlern werden normalerweise nicht von Google Analytics erfasst, sofern sich der Bot als Crawler und eben nicht als echter Nutzer ausgibt. So wird verhindert, dass jeder Besuch eines Crawlers fälschlicherweise als neuer Seitenaufruf eines Nutzers reportet wird.

Nun war es in der Vergangenheit ein beliebter Weg der Spammer, mithilfe von Webcrawlern massenhaft Seitenbesuche zu simulieren, wodurch die Analytics-Reports verfälscht wurden. Spätestens seit der flächendeckenden Implementierung von Cookie-Bannern ist diese Variante aber nicht mehr so einfach umzusetzen, wie sie in der Theorie klingt. Schließlich muss der Bot nun in der Lage sein, eine Consent-Entscheidung herbeizuführen. Sicher nicht unmöglich, aber zumindest herausfordernd für die Spammer.

Spamming von Google Analytics – Ghost Referral Spam

Im Fall von Ghost Referrals werden mithilfe des Measurement Protocols Fake-Hits in deine GA4-Berichte geschleust. Dafür werden manipulierte URLs direkt an die Google Server übermittelt – ganz ohne Seitenaufruf.

Wenn die Anzahl neuer Nutzer in deinen Reportings also fast zu schön aussieht, um echt zu sein, lohnt sich ein kritischer Blick auf die Referrer-URL.

In Google Analytics 4 kannst du in der explorativen Datenalyse dafür die Dimension Seitenverweis und als Messwert bspw. die aktiven Nutzer auswählen. So verschaffst du dir einen besseren Überblick über deine Referrer-URLs und kannst eventuelle Traffic-Spikes genauer unter die Lupe nehmen.

Auf dem nächsten Bild erkennst du beispielhaft, wie das Ganze dann aussehen kann.

Abbildung 1: Von GA4 zurecht als „Anomalie“ ausgewiesen: Spam Traffic vom dubiosen Anbieter urlumbrella

Wie verhindere ich Spam in Google Analytics 4?

Nachdem nun klar ist, wie Spammer es schaffen, falsche Daten in Google Analytics-Konten zu schleusen, um damit echten Traffic auf ihre eigenen Websites zu generieren, schauen wir uns im Folgenden verschiedene Möglichkeiten an, um Spam vorzubeugen. Vorab jedoch zeigen wir dir, was das Problem sicher nicht löst.

Keine gute Idee gegen Spam: „Unerwünschte Verweise“ in GA4

Eine aktuell beliebte  –  und leider komplett nutzlose –  Methode wäre es, die unliebsamen Referrer-URLs auf die „Unwanted Referrals“-Liste zu setzten (dt. „Unerwünschte Verweise“). Der Vorschlag sorgt unter anderem hier in der Google Analytics-Hilfe für Diskussionen.

Die Spam-URL wird auf diesem Weg zwar nicht mehr als Besucherquelle angezeigt, der erzeugte Fake-Traffic bleibt aber trotzdem in deinen Reports erhalten. Er wird dadurch nur einer anderen Besucherquelle zugeordnet, nämlich (direct). Es wäre ja auch zu einfach…

Abbildung 2: Leider keine Lösung gegen Spam Traffic: Domain in GA4 als Seitenverweis ausschließen

So bekämpfst du Spam Traffic in GA4: Include-Filter & Google Tag Manager

Kommen wir zu einer besseren Methode, die aktuell sicher, zuverlässig und ohne ungewollte Nebeneffekte das Problem des Spam Traffics in Google Analytics lösen kann.

Lösung im Client-GTM

Eins vorweg: Stand heute (03.2024) kannst du in GA4 nur internen Traffic und/oder Developer Traffic rausfiltern. Ein direkter Ausschluss von Spam-Traffic mit Filtern ist in Google Analytics selbst bisher noch nicht möglich.

Für die folgende Lösungnehmen wir den Google Tag Manager zu Hilfe, über den Google Analytics 4 eingebunden sein muss. Solltest du den Google Tag Manager noch nicht verwenden und den GA4 Tracking Code direkt im Quellcode deiner Website platziert haben, dann solltest du das schnellstmöglich ändern. Das volle Potential von Google Analytics 4 lässt sich erst mit dem Tag Manager in ganzer Fülle ausschöpfen.

Nun endlich zur Lösung gegen Spam Traffic in GA4: Wir nutzen hierfür eine Kombination aus Include-Filter in GA4 und Konfigurationsparameter im Tag Manager.

Als Konfigurationsparameter nutzen wir traffic_type.

Dieser Parameter wird von Analytics automatisch in jedes eingehende Event eingefügt. Er wird normalerweise dafür genutzt, um internen Traffic aus GA4 herauszufiltern. Für Nutzer mit deiner internen IP-Adresse beinhaltet traffic_type den Default-Wert „internal“.

(Die Regel für internen Traffic kannst du in GA4 übrigens frei bearbeiten.)

Unsere Lösung gegen Spam Traffic sieht nun folgendermaßen aus: Events, die über den Tag Manager an GA4 gesendet werden, bekommen von uns einen speziellen traffic_type Parameter angehängt, der indiziert, dass es sich um echten Traffic handelt. Den traffic_type übergeben wir dem G-Tag ganz einfach als Konfigurationsparameter. Der Parameterwert ist frei wählbar, in diesem Beispiel entscheiden wir uns für die Bezeichnung „no_spambot“.

Abbildung 3: Konfigurationsparameter traffic_type im G-Tag

Im Anschluss können wir in GA4 einen Include-Filter erstellen, der nur Ereignisse mit traffic_type „no_spambot“ durchlässt. Events, in denen der Parameter nicht gesetzt ist oder einen anderen Wert enthält, werden ganz einfach rausgefiltert.

Abbildung 4: GA4 Include-Filter gegen Spam-Traffic

Das löst zumindest das Problem der Ghost Referrer Bots, also der Spam Bots, die Daten direkt an Google senden. Im Falle von echten Seitenaufrufen durch Bots ist die Methode jedoch bisher wirkungslos.

Wirklich bulletproof wird der Ausschluss von Bot Traffic also erst durch eine serverseitige Implementierung.

Serverseitiges Tracking (SST) bietet darüber hinaus noch viele weitere Vorteile. Welche das sind und wie du serverseitiges Tracking richtig einrichtest, erfährst du in unserem Whitepaper.

Das Wichtigste vorweg: Dein eigener Tracking Server bildet beim SST einen weiteren Layer zwischen deiner Website und GA4. Damit hast du die einmalige Möglichkeit, selbst zu entscheiden, welche Daten an GA4 übermittelt werden und welche nicht. So kannst du auch die Spam-Filterung selbst in die Hand nehmen, ohne dich vollständig auf GA4 verlassen zu müssen.

Lösung im Server-GTM

Hast du serverseitiges Tracking bereits bei dir eingerichtet , ergänzen wir die oben genannte Lösung aus dem Client-GTM durch eine serverseitige Bot-Prüfung, die zusätzlich Webcrawler-Spam erkannt.

Dafür nutzen wir die Variablenvorlage „Simple Bot Detector“ von Markus Baersch. Der Simple Bot Detector enthält ein Bot Marker Skript, das Bots und Crawler an bestimmten Merkmalen identifiziert (wie bspw. die Nutzung unechter, sogenannter Headless Browser). Mehr über die Funktionsweise des Templates erfährst du hier.

Abbildung 5: Die Variablenvorlage Simple Bot Detector von Markus Baersch im sGTM

Nachdem du das Template zu deinem Arbeitsbereich im Server Container hinzugefügt hast, legst du einfach eine neue Variable an und wählst den Simple Bot Detector als Variablentyp aus.

Abbildung 6: Konfigurationsfenster des Simple Bot Detectors

Wenn du weitere, eigene User Agents ausschließen möchtest, kannst du sie im Feld Additional Bot Markers hinzufügen.

Damit ist der Bot Detector vorbereitet.

Im nächsten Schritt erzeugen wir einen Blocking Trigger für das GA4-Server-Tag, das die Daten der Hits an GA4 weiterleitet.  Für den Trigger erstellen wir eine Variable vom Typ Advanced Lookup Table von stape.io. Auf der Basis ihres Werts entscheiden wir im Anschluss über die Weiterleitung an Analytics.

Nachdem wir das Template Advanced Lookup Table im sGTM zum Arbeitsbereich hinzugefügt haben, legen wir die neue Variable an und weisen ihr den Typ Advanced Lookup Table zu. In dieser Lookup Tabelle werden der an den Server übermittelte traffic_type sowie der Rückgabewert des Bot Detectors abgefragt und der Traffic entsprechend als „internal“, „no_spambot“ oder „spambot“ klassifiziert.

Abbildung 7: Lookup-Table-Variable zur Traffic-Klassifizierung im sGTM

Ist die Variable fertig konfiguriert, kann du sie speichern. Auf der Basis dieser Variablen erstellen wir nun einen Blocking-Trigger für die Weiterleitung der GA4-Daten, wenn unser Spam-Filter anschlägt.

Abbildung 8: Blocking-Trigger für alle Events mit Abfrage des Lookup-Tables für den Traffic

Zum Abschluss gehst du in das GA4-Tag, das die Daten an GA4 weiterleitet, und fügst den Blocking Trigger hier als Ausnahme hinzu. Fertig. Interner Traffic und Webcrawler Bot Traffic werden herausgefiltert.

Abbildung 9: Den Blocking-Trigger im GA4-Tag als Ausnahme hinzufügen (sGTM)

Voilà! Die Bulletproof-Methode gegen Spam Traffic ist hiermit abgeschlossen. Kleiner Reminder: GA4-Datenfilter sind ein mächtiges, aber auch gefährliches Instrument: Ein falscher Klick und du filterst nicht nur Spam, sondern gleich deinen gesamten Website Traffic raus. Kontrolliere also sicherheitshalber alle Schritte und beobachte die eingehenden GA4-Daten unmittelbar nach der Implementierung. (Wir empfehlen vor Aktivierung des Filters den Start als Test.)

Wenn alles korrekt läuft, sollte kein Spam Traffic mehr in deinen Reports auftauchen. Sei dir jedoch bewusst, dass auch Tools wie der Simple Bot Detector regelmäßige Updates brauchen und sich die Spammer, Google und die GTM Community hier ein ständiges Kopf-an-Kopf-Rennen leisten.

So entfernst du vorhandenen Spam Traffic aus GA4-Berichten

Nachdem wir dir in den vorherigen Abschnitten gezeigt haben, wie du deine GA4-Property gegen Spam absicherst, erfährst du hier, wie du deine Daten nach einem Spam-Angriff bereinigen kannst.

Das Keyword lautet: Berichtsfilter.

Mithilfe von Filtern kannst du die Quelle der ersten Nutzerinteraktion als Ausschlusskriterium nutzen. Dafür klickst du im Akquisitionsbericht auf Filter hinzufügen.

Abbildung 10: Filtermöglichkeit im Akquisitionsbericht

Hier fügst du dann die Spam-URLs ein.

Abbildung 11: Neuer Filter zum Ausschluss von Nutzern mit Spam URL als Referrer

So ist selbst nach einer Spam-Traffic-Attacke noch nicht alles verloren. Dennoch empfiehlt es sich, den Spam gar nicht erst zuzulassen, statt die Daten im Nachgang mühsam zu bereinigen. Wie so häufig gilt auch hier: Vorsorge ist besser als Nachsorge.

Raffaela Kruse ReachLab

Raffaela Kruse

Digital Analytics Consultant
Raffaela ist Teil des Digital Analytics Teams und ist Spezialistin für den Bau von Dashboards und in der Wissensvermittlung durch Schulungen. Zuvor hat sie mehrere Jahre im E-Commerce in der Beauty-Branche gearbeitet. Die gebürtige Bremerin macht in ihrer Freizeit gerne Fitness und schreibt Lyrik und Kurzgeschichten.
Weitere Beiträge