Referrer spam (nielen) v google analytcis 7

Ak používate google analytics je na čase si premyslieť, nakoľko idete dôverovať dátam z neho, či sa nenaučiť pracovať s ním trošku “drsnejšie” a či k nemu nezačať získavať dáta aj niekde inde.

Mnohým je pojem “referrer spam” známy, no pre tých, ktorí nevedia o čom je reč, v skratke vysvetlím.

Google Analytics – asi najrozširenejší softvér na meranie návštevnosti (nie len) webstránok, ju meria pomocou javascriptu – kúsku kódu, ktorý si vložíte na každú podstránku webu, kde chcete merať návštevnosť. Tento kód má unikátne ID pre daný web. Inak je bez dodatočných úprav všade prakticky rovnaký.

V samotnom rozhraní pri prezeraní štatistík návštevnosti vidíte túto návštevnosť predvolene rozdelenú do niekoľkých základných “zdrojov” (tj. odkiaľ návštevníci prišli):

  • organic – prirodzená návštevnosť z výsledkov vyhľadávania (napr. z google.sk)
  • direct – teda priama návštevnosť zadaním adresy vašej webstránky do prehliadača
  • referral – teda návštevnosť z “iných webov”, resp. je to návštevnosť, kedy sa k vám dostane človek kliknutím na odkaz na váš web na nejakom inom webe
  • paid (platená návštevnosť, napr. z google adwords)
  • atď (je ich ešte niekoľko, to je ale teraz nepodstatné)

Bude to už nejaký ten piatok, čo sa do referral návštevnosti “vtierajú” spam výsledky. Za normálnych okolností keď si v google analytics rozkliknete prehľad referral návštevnosti, totiž vidíte aj adresy webstránok odkiaľ návštevníci tohto druhu prišli.

No a niekoľko spamerov sa rozhodlo že práve toto je super priestor na ich reklamu.

Výsledky “návštev z iných webov” nám tak čoraz viac skresľuje hrča spamu. Zváčšujúca sa. Lebo v predvolenom zobrazení vidieť v prehľade referral trafficu vždy top 10 adries odkiaľ k vám návštevníci doputovali, zoradených podľa počtu týchto návštevníkov. Čiže, čím viac “návštev” z danej URL, tým vyššie je daný výsledok v danom prehľade. Bitka spamerov o ne = viac referrer spamu.

Reálna návšteva sa ale v tomto prípade vôbec nekoná. “Navštívenie stránky” nerieši živý človek, ale skript a navyše to robí tak, že sa na váš web reálne nemusí unúvať ani on (good guy spammer – aspoň nám nežerie server). Skript, si len “zavolá” kód, ktorému doplní vaše analytics ID. Robí sa to plošne volaním kódov, bez nejakého predošlého overenia či daný kód vôbec reálne na nejakom webe existuje, alebo nie – taká jemná brute force spam technika aka plošné bombardovanie.

referral_everyone

V praxi to v prehľade referral trafficu v analytics vyzerá potom asi takto:

analytics-spam analytics-spam2 analytics-spam3 analytics-spam4

Deje sa to na každom webe, resp. každom analytics účte.

O probléme sa samozrejme v komunite vie a pokusy o riešenia boli tiež rôzne. Niektoré padli aj v článku a diskusii u draga a spomínané sú aj v jeho článku o referrer spame na seopedii. Nakoľko sú účinné je otázne a to z viac dôvodov.

Mnohé z nich riešeniami nie sú kvôli princípu ako dané skripty fungujú. Pokusy o blokovanie firewallom, či cez htaccess stroskotávajú na tom, že sa volá externý kód kdesi mimo webu – laicky povedané, ak vám na dvere nikto nikdy nezaklope, lebo vchádza dnu oknom, zbytočne na nich máte nápis že má zakázané vstúpiť.

Na prvý pohľad jediným riešením je zobrať zoznam daných spam adries ktoré sa v referral trafficu vyskytujú a odfiltrovať ich priamo v samotnom google analytics (návod nájdete vo vyššie spomínanom dragovom článku). Samotný zoznam nájdete napríklad tu – dali ho dokopy užívatelia alternatívneho analytického softvéru piwik (spomenieme si ho ešte neskôr).

Riešenie jemne štrbavé. Okrem toho, že daný zoznam sa musí neustále aktualizovať, lebo spamerov pribúda je tu jeden iný, dosť podstatný  nedostatok.

Referrer spam nepadá len do referral trafficu – aj keď to na prvý pohľad nedáva zmysel. Už dlhšie sa mi zdalo, že okrem referrer spamu mám na neaktívnych weboch a niekoľkých miniweboch akosi priveľa direct trafficu. Na web, ktorý ešte nie je nikde spustený, nikde nebol propagovaný a doména rozhodne nie je unikátna, krátka a nakoniec ani ľahko zapametateľná, by bolo aj pár návštev veľa a nie to desiatky až stovky mesačne.

Finálny test (pre účely článku) som sa dokopal spraviť cez víkend – zaregistroval som nové google analytics konto, pre neexistujúci web, resp. kód sledovania som nikde nenasadil – len som ho nechal vygenerovať. Výsledok za jeden deň je takýto:

falosny_direct_traffic falosny_direct_traffic_2

 

Ten direct traffic sa tam nemal kde nabrať – kód nebol nikde nasadený. Muselo dôjsť k volaniu trackovacieho skriptu kdesi inde (tipujme kde asi …).

Analytika dostáva ranu pod pás a dáta z analytics sú ešte viac zababranejšie ako predtým.

Je vôbec nejaké ideálne riešenie?

Asi nie. Alebo o ňom aspoň zatiaľ neviem.

Ako prvé, celkom jednoduché a elegantné riešenie mi napadlo zmeniť trackovací softvér, keď som však narazil na zoznam referrer spamerov z dielne piwiku (prvá alternatíva, ktorá mi napadla), optimizmus vyprchal. Spammeri nezaháľajú, “zdrapli príležitosť za pačesy”, piwik na tento neduh trpí tiež a to tiež už celkom dlho.

Iný spôsob ako odfiltrovať danú návštevnosť je začať využívať niektorý softvér na sledovanie návštevnosti umiestnený na serveri (awstats, webalizer), ktorý vytvára štatistiky z logov apache a nie pomocou javascriptu.

Väčšina spamu by vďaka tomu “zmizla” automaticky, keďže sa skripty poväčšine na web fyzicky neunúvajú. Keby predsa len niečo prešlo, obmedzenia v htaccess sú v tomto prípade použiteľnejšie + tiež by malo byť možné postupne odfiltrovať aj falošný direct traffic cez blacklist IP adries.

Problém je, že analytické možnosti mne známych softvérov tohto typu sú oproti google analytics či piwik-u žalostne slabé. Tiež treba mať prístup k správe serveru, alebo mať poskytovateľa hostingu, ktorý toto zabezpečí bez protestov.

Zatiaľ nám asi preto nezostáva nič iné, len pravidelne aktualizovať zoznamy spamerov v analyticse, popridávať si filtre na odstránenie direct trafficu s “(not-set)” jazykom a dúfať, že to čo nám zostane je ako tak zodpovedajúce reálnemu stavu. Prípadne k tomu celému nasadiť aj niektoré server-side riešenie a mať tak pre porovnanie aj tento typ dát.

Ak má niekto iné riešenie – komentáre čakajú, len smelo.

Odporucam stabilny webhosting s podporou 24/7 za vynikajucu cenu.
Zlavovy kod na -25%: WEDOS25HRKUT

Ak sa ti článok páčil, podpor ho na vybrali.sme.sk →

7 thoughts on “Referrer spam (nielen) v google analytcis

  1. Reply Tibor Jún 8, 2015 21:14

    A ono je to ešte horšie. Ja pracujem na opačnej strane barikády a také veci, ako google analytics si moji užívatelia nikdy na vašich stránkach nikdy nespustia. Prečo by si mali na stránke volať nejaký skript z úplne inej domény? Však to je ešte zbytočnejšie, ako reklamy. Pozdravujem tiež užívateľov služby gemius.pl :)

  2. Reply Peter Olvecký Jún 8, 2015 22:02

    Možno server-side Universal GAN Measurement Protocol? https://developers.google.com/analytics/devguides/collection/protocol/v1/ Plus htaccess.? Možno by to šlo.

  3. Reply Marek Lecián Jún 9, 2015 11:10

    S direct spamem jsme bojovali také přes Awstats a blacklist na firewall přes server farmou. Jen bacha na služby jako je zjišťování dostupnosti etc. Docela dobře se tak i blokují zloději obsahu a obrázku co jsou schopni za den tahat i 10-20Gb dat z jedné IP.

  4. Reply Le petit caporal Jún 9, 2015 12:47

    Ja sa tým zaoberám už pár dní a myslím si ,že toto bude musieť nejak poriešiť google

    • Reply Martin Hrkút Jún 9, 2015 13:00

      obavam sa ze keby vedeli ako na to, tak to uz davno spravia. nie je to vobec jednoduche dojst na nejake rozumne riesenie, ktore by spameri len tak lahko neprecurali a zaroven by to neznizilo kvalitu trackovania a zobrazovania dat

  5. Reply Martin Simo Jún 17, 2015 08:17

    Ja som k tomuto nasiel zaujimavy sposob, ktory filtruje data na zaklade hostname. Tak ako pises, hity prichadzaju z domen, ktore nie su tvoj web. Maju v hostname bud (not set), alebo nejaku blbost, pripadne google.ru, aby vyzerali dolezito.

    Da sa tym padom nastavit filter, ktory bude includovat iba hity z domen, ktore identifikujes ako tvoje. Toto by malo odstranit nie len referral spam, ale dokonca aj direct spam.

    Viac info: http://www.ohow.co/what-is-referrer-spam-how-stop-it-guide/#Valid_Hostname_Filter_Multiple

Pridaj komentár