¿Qué pasos realizo yo para limpiar de spam una propiedad de analytics?
Paso 1: Antes que nada
Antes que nada: para garantizar la integridad de los datos, -si no está creada ya-, se crea una vista que recoja todos los datos del sitio sin ningún tipo de filtro.
Las vistas comienzan a registrar datos en el momento de su creación (y las sesiones no son visibles hasta el día siguiente), por lo que el primer paso siempre es comprobar si resulta conveniente crear nuevas vistas, y -en su caso- crearlas.
Paso 2: Averiguar la dimensión del problema
O lo que es lo mismo analizar en qué medida están afectadas las métricas del blog o web en cuestión.
Se trata de tener una visión general de la afectación de la propiedad durante los meses anteriores. ¿Para qué?
- para evitar “matar moscas a cañonazos”. Si la incidencia del spam es mínima, se debe valorar si merece la pena el tiempo y esfuerzo dedicado al “problema”, ya que no existe ninguna amenaza para la seguridad de tu web en sí.
- para disponer de una referencia que permita valorar la efectividad de las actuaciones y dibujar una visión del antes y del después de las soluciones aplicadas.
2a.- Identificación del spam
Primero se identifica el mayor número de sesiones spam, buscando obtener información acerca de su tipología y fuentes, que permita definir patrones que las agrupen.
Es difícil encontrar sesiones spam antes de noviembre de 2014. No obstante, parte importante del proceso de identificación del spam fantasma consiste en averiguar cuáles son los nombres de host válidos para las visitas reales al sitio web y ello implica abarcar el mayor conjunto posible de datos históricos disponibles.
Los nombres de host válidos son el dominio, subdominios y variantes del sitio (por ejemplo versiones en diferentes idiomas), y algunos servicios de caché y traducción de google, algunas pasarelas de pago y similares.
2b.- Segmento antispam
En segundo lugar, con dichos patrones se construye un segmento que agrupe y excluya al mayor número de visitas spam.
Este segmento “libre” de spam permite la comparación con todo el tráfico registrado, y acceder de una manera muy visual a las diferencias entre las métricas “contaminadas” y las “limpias”.
Paso 3: Creación de filtros
Se crean los filtros en la vista que desea utilizarse en lo sucesivo como “vista de consulta” habitual de los datos. Yo las suelo “bautizar” como vista de datos filtrados.
Lo más frecuente suele ser crear un primer filtro que incluya sólo los nombres de host válidos para las visitas a tu web.
Aunque ya se han detectado sesiones fantasma que son capaces incluir tu dominio como nombre de host, son completamente excepcionales. De hecho, de producirse, no estaríamos hablando de spam, sino de un ataque
Este primer filtro -por sí sólo- “fulmina” la mayor parte de visitas fantasma y -con ello- más del 50% del spam.
El informe de tráfico de referencia queda bastante “limpito” aplicando un segmento con el mismo patrón que el filtro descrito.
De este modo, me resulta más sencillo identificar y anotar los rastreadores spam que han sido más activas durante los últimos 3 meses.
Esos crawlers especialmente molestos son los que voy a excluir en el segundo y último filtro.
Paso 4: Revisión periódica
Transcurridos 30 días, analizo el comportamiento de los filtros, comparando la vista de datos filtrado con la vista que no tiene ningún tipo de filtro.
De este modo, compruebo:
- qué sesiones se han filtrado y cuáles no
- si los filtros actúan frente a las sesiones que deben actuar
- qué sesiones se escapan de los filtros
- si la acción de los filtros ha conllevado que se deje de registrar alguna sesión “buena”.
Esta revisión debe realizarse periódicamente, ya que los spamers no permanecen impasibles antes las medidas antispam. Cuando detectan que alguna de sus referencias tramposas han dejado de funcionar, la cambian por una nueva.
Yo hago la revisión cada mes, pero dependerá del volumen de tráfico del sitio web.
Te resumo la metodología en un diagrama:
¡Hasta la siguiente!
Un abrazo