La importancia de la limpieza de base de datos o data cleaning

El proceso de Transformación Digital basado en datos nos obliga a asegurarnos la calidad de este activo, para consecuentemente poder confiar en la toma de decisiones basada en datos. Al combinar diferentes fuentes de datos, existen muchas oportunidades para que los datos se dupliquen o se etiqueten incorrectamente entre otras consideraciones.  

La limpieza de datos en Email Marketing o data cleaning nos ayudará a corregir o eliminar datos duplicados, detectar spamtraps, usuarios inactivos o hiperactivos,  incorrectos o incompletos dentro de un conjunto de datos y de esta forma ser mas eficientes en las campañas de marketing y tener mejor entregabilidad en el caso de las campañas de email marketing.

En la esta publicación trataremos los siguientes temas:

  1. La importancia de la limpieza de bases de datos
  2. Proceso de limpieza de datos
  3. Glosario de términos de limpieza de bases de datos: SpamTraps

Importancia de la higiene y la verificación de las bases de datos:

  • Mantiene los datos limpios y disponibles
  • Garantiza que la IP y la reputación de los dominios sean saludables
  • Prolonga la vida útil de los recursos de correo
  • Aumenta las métricas de entrega
  • Mejora el sender score y la calidad del remitente
  • Ayuda al in-boxing y consecuentemente incremento del ROI

Proceso de limpieza de datos o data cleaning:

  1. Data Analysis

La primera fase es la realización de una auditoría de datos con el objetivo de analizar los datos y identificar los spamtraps, rebotados, inválidos u otros emails no deseados.

2. Flujo de trabajo y reglas de mapeo:

A continuación, el flujo de trabajo define la detección de las anomalías detectadas en la fase previa. Se especifica después del análisis de datos para obtener información sobre las anomalías existentes.

3. Verificación:

En esta fase, se evalúa la corrección y efectividad del flujo de trabajo de transformación. Esta fase consta de múltiples iteraciones para verificar que todos los errores se están corrigiendo correctamente.

4. Transformación  (puede aplicar o  no)

Una vez que se verifican y validan los datos, se ejecutarán los pasos de transformación para actualizar los datos en el almacén de datos.

5. Backflow of data cleaned

Finalmente, después de que se hayan eliminado todos los errores, los datos erroneos deben reemplazarse con los datos limpiados.

Glosario de términos de la limpieza de bases de datos:

Una vez hemos realizado la limpieza de bases de datos, como resultados tendremos los siguientes grupos:

  • Greylist: Correos electrónicos que pueden generar algún problema a la hora de ser utilizadas en el programa CRM.
  • Inválidos: Correos que no recomendamos utilizar en le programa CRM puesto que son problemáticas.
  • Válidos: Lista de correos validos para enviar según nuestras comprobaciones.

Dentro de los inválidos tendremos las siguientes tipologías:

  • blocked Header Keyword: Son correos que en la parte izquierda (header) incluyen combinaciones de símbolos que asociamos con potenciales correos no deseados, creados solo para rellenar un formulario, caracteres random, palabrotas, etc.
  • Complainer: Son correos que suelen generar una cantidad alta de quejas, comparado contra una BBDD histórica mantenida al dia. Suelen ser correos válidos.
  • Escalator: Son correos que aparte de pinchar el botón de spam, suelen escalar la queja a nivel de proveedores, hostings, registrars, etc.
  • HardBounce: Son correos que en el pasado dieron mensajes de rebote duro. Pueden ser correos válidos, pero están a un paso antes de convertirse en spamtraps.
  • Invalid DataMaid – Content exclusion: Según los criterios de nuestro algoritmo son correos que no suelen aceptar publicidad.
  • Invalid DataMaid – IP Blocklist: Son correos que suelen producir acciones / aperturas o clics  / de IPs que aparecen en alguna blacklist .
  • Invalid DataMaid – Offline/NoResponse: Son correos con el servidor de correo con algun problema de configuracion en sus registros DNS.
  • Invalid DataMaid – PageSize: Son correos que suelen tener un agent no valido, o que abren desde paginas vacías de contenido.
  • Invalid EHLO: Están detallados los estados de la verificación EHLO en la siguiente slide.
  • Spamtraps: Más detallados a continuación.

Dentro del grupo de los datos inválidos destacamos a los spamtraps:

«Los spamtraps son direcciones de correo electrónico creadas y mantenidas por los ISP y compañías de listas negras de terceros con el único fin de detectar los remitentes de spam. El uso de este tipo de direcciones en un correo puede dañar su reputación y hacer que le incluyan en listas negras.«

A continuación hacemos una descripción de las diferentes tipologías de spamtraps que podremos tener:

Recycled Traps:

Estas son direcciones recicladas que se han dejado en desuso o inclusive el mismo usuario pidió al proveedor la baja. La dirección ha estado inactiva durante e inclusive ha dado hardbounces, pero  el proveedor la ha vuelto a activar y reutilizar para exponer y bloquear correos electrónicos de remitentes que no administran de manera responsable sus datos de correo electrónico 

Pristine Traps:

Estas direcciones de correo electrónico generadas por los proveedores u organizaciones afiliadas y se suelen publicar en sitios web públicos, blogs, forums, formularios . La única forma de obtener estas direcciones es por ejemplo, haciendo scraping de páginas web. y por consecuencia son muy útiles para detectar  en listas de pago y fuentes de captación inauditadas.

Honeypot Traps:

Estas se ocultan deliberadamente en sitios web, códigos y formularios para que los recolectores, los bots y los agentes malintencionados los recojan. Son otra forma de cebo, destinado a detectar delitos de envío masivo no solicitado privado y comercial y, en general, trabaja para reducir la cantidad de spam que se envía y recibe en Internet.

Message ID Traps:

Las capturas de ID de mensaje están destinadas a identificar a los scrappers que capturan cualquier dato con una @, incluidos los ID de mensaje. Si envía un correo electrónico a esta trampa, le dirá al propietario de la trampa que el remitente está raspando direcciones o comprando listas de alguien que lo está.

Investigative Traps:

Estas direcciones de correo electrónico se crean y envían correos directamente a los remitentes. La razón es para monitorear la actividad del remitente. Este tipo de trampa es útil para monitorear el comportamiento continuo de un remitente. Por lo general, esto se usa para garantizar que el remitente esté usando la confirmación y la higiene adecuada del correo electrónico en sus listas.

Pure Traps:

Estas son direcciones de correo electrónico que nunca han sido utilizadas por nadie, que nunca se inscribieron en ninguna lista de correo. La única forma de obtener-las es haciendo uso de malas practicas.. Estos correos electrónicos se dejan en Internet para atraer a bots o personas que recolectan direcciones ilegítimamente para encontrarlas.

Typo Traps:

Estas son las que tiene errores tipográficos, por ejemplo, @gnail en lugar de @gmail. Estos son los nombres de usuario más comunes, pero los nombres de usuario mal escritos antes de @ también pueden ser trampas de errores tipográficos. Esto suele suceder cuando los datos del usuario se recopilan y se ingresan en su base de datos manualmente o se ingresan incorrectamente por teléfono, o intencionalmente como una forma para que los clientes eviten ser enviados por correo electrónico.

Dead Address Traps:

Estos eran correos electrónicos válidos anteriormente, pero se desactivaron, generalmente hace 12 meses o más, y luego las direcciones se vuelven a activar. La mayoría de los principales ISP utilizan estas trampas porque son útiles para identificar remitentes con una lista deficiente de higiene.

Como habrás visto la limpieza de bases de datos es una ejercicio muy importante para garantizar una buena reputación de las IPs y consecuentemente para tener una buena entregabilidad en email marketing, si quieres saber más información de nuestros servicio de limpieza de bases de datos, contacta con nosotros y te daremos toda la información requerida.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

SUSCRÍBETE AL BLOG

Te enviaremos el contenido más destacado del sector  ✉️
Al enviar este formulario estoy de acuerdo con los Política de Privacidad. Al compartir su correo electrónico, también acepta recibir ocasionalmente información relacionada con los servicios, eventos y promociones de Data Innovation. Es libre de cancelar la suscripción en cualquier momento.
Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from Youtube
Vimeo
Consent to display content from Vimeo
Google Maps
Consent to display content from Google
Spotify
Consent to display content from Spotify
Sound Cloud
Consent to display content from Sound