Detencción de fraude bancario con aprendizaje automático

El sector financiero se encuentra en la actualidad sumergido en una lucha contra el fraude bancario siendo uno de sus mayores retos. En el 2018, la banca española notificó un aumento del 17,7% de las reclamaciones producidas por cobros o transacciones indebidas con respecto al año anterior y sólo en 2017 hubo más de 123.064 fraudes online a empresas y particulares.

La banca española está encarando la batalla contra el fraude desde un punto de vista tecnoló-gico. Actualmente en pleno proceso de digitaliza-ción, con inversiones que rondan los 4.000 millo-nes de euros anuales, está dedicando sus esfuer-zos en la adopción de nuevas tecnologías como el Big Data y la Inteligencia Artificial. Con estas tecnologías se pretende mejorar y automatizar distintos procesos donde se incluye la gestión y detección del fraude.

En /bluetab estamos llevando a cabo distintas iniciativas dentro del marco tecnológico de Big Data e Inteligencia Artificial en el sector finan-ciero. En el marco de nuestras iniciativas de “Advanced Analytics & Machine Learning” nos encontramos actualmente colaborando en proyectos de Seguridad y Fraude donde, gracias al uso del Big Data y la Inteligencia Artifi-cial, somos capaces de ayudar a nuestros clien-tes a crear modelos predictivos más precisos.

Y, ¿cómo el aprendizaje automático puede ayudar a prevenir el fraude bancario?. Poniendo foco en las colaboraciones realizadas dentro del área de Fraude, /bluetab afronta este tipo de iniciativas partiendo de una serie de transferencias identificadas como fraude y de un set de datos con las sesiones de los usuarios en la banca electrónica. El reto consiste en generar un modelo capaz de predecir cuándo una sesión puede ser fraudulenta poniendo el “target” en los falsos positivos y negativos que el modelo pueda producir.

La comprensión del negocio y de los datos es de gran importancia para realizar una correcta modelación

Para la resolución de este tipo de retos tecnológicos, hemos observado cómo el uso de una meto-dología es de vital importancia para poder encarar estos retos. En /bluetab hacemos uso de una adaptación in-house y “ad-hoc” para Banca de la metodología CRISP-DM en la cual distinguimos las siguientes fases:

  • Comprensión del negocio
  • Comprensión de los datos
  • Calidad de los datos
  • Construcción de predictores inteligentes
  • Modelación


Consideramos que en los proyectos de detección de Fraude Online la comprensión del negocio y de los datos es de gran importancia para realizar una correcta modelación. Un buen análisis de los datos nos permite poder observar cómo éstos están relacionados con la variable objetivo (el fraude), así como otros aspectos estadísticos (distribución de los datos, búsqueda de outliers, etc.) de no menor importancia. En estos análisis se puede observar la existencia de variables con gran capacidad predictiva las cuales denominamos “variables diamante”. Atributos como: el número de visitas a la web, el dispositivo utilizado para la conexión, el sistema operativo o el navegador utilizado para la sesión (entre otras), suelen encontrarse fuertemente relacionadas con el fraude bancario. Además, el estudio de estas variables nos dice que, de manera individual, pueden llegar a reunir más del 90% de las transacciones fraudulentas. Es decir, el análisis y la comprensión del negocio y los datos, permite evaluar la mejor forma de plantear una solución sin vernos perdidos en un mar de datos.

Una vez se tiene el conocimiento del negocio y de los datos y tras haber obtenido aquellas varia-bles con mayor poder predictivo, es imprescindible contar con herramientas y procesos que aseguren la calidad de estas variables. Es indispensable realizar los entrenamiento de los modelos predictivos con variables y datos históricos fiables. Un entrenamiento con variables de baja calidad podría dar lugar a modelos erráticos con gran impacto dentro del negocio.

Tras asegurar la fiabilidad de las variables predictoras seleccionadas, la siguiente etapa pasa por construir variables predictoras inteligentes. Estas variables seleccionadas en los pasos anteriores, aún teniendo una fuerte relación con la variable a predecir (target) puede provocar ciertos problemas de comportamiento a la hora de realizar la modelación, es por eso que es nece-sario un paso de preparación de los datos. Esta preparación de datos pasa por realizar ciertas adaptaciones a las variables para poder ser utilizada dentro del algoritmo, como puede ser el tratamiento de nulos o el tratamiento de variables categóricas. Adicionalmente, se debe realizar un tratamiento correcto de los outliers identificados en los pasos previos, para no incluir información que pueda distorsionar el modelo.

De la misma manera, con el objetivo de “afinar” el resultado, es de vital importancia aplicar distintas transformaciones a las variables para mejorar el valor predictivo del modelo. Transformaciones matemáticas básicas como la exponencial, la logarítmica o la estandarización, junto con transformaciones más complejas como la WoE permiten poder mejorar de manera nota-ble la calidad de los modelos predictivos gracias al uso de variables más trabajadas facilitando la tarea al modelo.

Por último, la etapa de modelación se centra en enfrentar distintos tipos de algoritmos con distintas configuraciones de hiperparámetros para obtener aquél modelo que genere una mejor predicción. Aquí es donde herramientas como Spark nos ayudan en gran medida, al poder realizar entrenamientos de distintos algoritmos y configuraciones de manera rápida, gracias a la programación distribuida.

Para la sostenibilidad de su aplicación y evitar la obsolescencia del modelo, esta metodología se debe ir siguiendo de manera mensual en cada caso de uso y más a la hora de encarar una iniciativa como es el fraude bancario. Esto se debe a que pueden aparecer nuevas formas de fraude que no estén contempladas en los modelos entrenados. Por ello es importante tener entendimiento y seleccionar adecuadamente las variables con las que reentrenar los modelos, para que no se queden obsoletos con el tiempo, lo que podría perjudicar gravemente al negocio.

En definitiva, una buena metodología de trabajo es vital a la hora de enfrentarse a problemas dentro del mundo de la Inteligencia Artificial y Advanced Analytics, siendo esenciales las fases de comprensión del negocio y de los datos. Siendo un “must” en la actualidad el disponer de herramientas internas especializadas que permitan ejecutar este tipo de proyectos en pocas semanas, generando quick wins en nues-tros clientes y sus negocio

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?