Descubra como a análise de transações PIX pode detectar fraudes e fornecer insights valiosos.

Análise de Transações PIX para Detecção de Fraudes

Este artigo aborda um case prático de análise de transações PIX com o objetivo de detectar fraudes. O case foi proposto como projeto final de um curso sobre processamento de dados, visando colocar em prática todo o conhecimento adquirido desde a coleta e entendimento dos dados até a modelagem de um algoritmo de detecção de fraudes.

  • O artigo aborda um case prático de análise de transações PIX para detecção de fraudes
  • O case foi desenvolvido como projeto final de um curso de processamento de dados
  • Visa aplicar o conhecimento adquirido desde a coleta até a modelagem de um algoritmo de detecção de fraudes

Metodologia CRISP-DM

O CRISP-DM (Cross Industry Standard Process for Data Mining) é uma metodologia amplamente utilizada em projetos de ciência de dados e inteligência artificial. Ela provê uma estrutura para conduzir projetos de mineração de dados desde a compreensão inicial do negócio até a implantação de modelos.

  • CRISP-DM é uma metodologia amplamente utilizada em projetos de ciência de dados e inteligência artificial
  • Oferece uma estrutura para conduzir projetos de mineração de dados desde a compreensão inicial do negócio até a implantação de modelos

Entendimento do Negócio

O conjunto de dados utilizado neste projeto contém informações de transações PIX obtidas por um grande banco brasileiro. O PIX é um meio de pagamento instantâneo desenvolvido pelo Banco Central que permite transferências e pagamentos entre contas bancárias em poucos segundos. O objetivo do banco é utilizar técnicas de ciência de dados para entender melhor as transações PIX de seus clientes e também detectar possíveis fraudes.

  • O conjunto de dados contém informações de transações PIX obtidas por um grande banco brasileiro
  • PIX é um meio de pagamento instantâneo desenvolvido pelo Banco Central
  • Permite transferências e pagamentos entre contas bancárias em poucos segundos
  • O objetivo é entender melhor as transações PIX de seus clientes e detectar possíveis fraudes

Entendimento dos Dados

O conjunto de dados fornecido contém informações de 100 mil transações PIX realizadas em um período de 6 meses. Cada transação é representada por um registro no formato JSON com os seguintes atributos: value, time, origin e destination.

  • O conjunto de dados contém informações de 100 mil transações PIX realizadas em um período de 6 meses
  • Cada transação é representada por um registro no formato JSON com atributos como valor, data, remetente e destinatário

Preparação dos Dados

Nesta etapa o objetivo é deixar os dados prontos para serem analisados e para treinar os modelos de machine learning. As tarefas realizadas foram:

  • Transformação do formato: Os dados foram originalmente fornecidos em formato JSON, então foi necessário converter para o formato colunar (dataframes do Spark) para facilitar as análises.
  • Limpeza dos dados: Foram removidos ou corrigidos valores ausentes, dados duplicados e dados fora do escopo necessário para a análise.
  • Feature engineering: Foram criadas novas features ou atributos que agregam mais informações para apoiar a modelagem, como hora do dia, dia da semana, mês, entre outros derivados dos dados originais.
  • Filtragem e amostragem: Foram filtrados apenas os dados necessários dependendo do tipo de análise. Além disso, para alguns experimentos foi utilizada amostragem dos dados.

Análise Exploratória

Depois que os dados foram preparados, a próxima etapa foi realizar uma série de análises exploratórias para entender melhor as transações PIX e identificar padrões e insights. Algumas das principais análises realizadas foram:

  • Distribuição de valores: A maioria das transações são de baixo valor (entre R$50 e R$500), mas existem outliers de transações com valores muito altos.
  • Transações por hora/dia: Existe um pico de transações durante a tarde, indicando que muitas pessoas utilizam o PIX para transferências e pagamentos durante o horário comercial.
  • Bancos mais utilizados: O banco Bradesco é o que recebe e envia o maior volume de transações PIX, seguido pelo Itaú e Nubank.
  • Tipos de pessoas (CPF x CNPJ): A grande maioria das transações PIX são enviadas de pessoas físicas (CPF) para pessoas físicas. Transações envolvendo empresas (CNPJ) representam uma pequena fração.
  • Fraudes: Apenas 2% das transações são marcadas como fraude, e elas estão concentradas em poucos destinatários recebendo vários depósitos de diferentes origens.

Modelagem e Avaliação

Para modelar o problema de detecção de fraudes, foi utilizado o algoritmo Random Forest. Este algoritmo constrói um modelo baseado em árvores de decisão, treinando cada árvore com uma amostra aleatória dos dados. Isso gera diversidade e evita overfitting.

  • O Random Forest foi escolhido por ser apropriado para problemas com muitas features (colunas dos dados) potencialmente relevantes.
  • Avaliação do modelo: A precisão do modelo foi verificada utilizando métricas como precisão, recall e F1-score para avaliar o desempenho na detecção de fraudes.

Modelagem e Avaliação do Modelo

O pipeline de modelagem envolveu a separação dos dados em treino e teste, o treinamento do modelo com 5 fold cross-validation, a otimização de hiperparâmetros com validação cruzada e a avaliação do modelo em dados nunca vistos antes para estimar performance real. As métricas utilizadas para avaliar o modelo foram precisão, recall e curva ROC. O modelo obteve uma precisão de 98% e recall de 94% na detecção de fraudes na base de teste. A curva ROC ficou em 92%, indicando um modelo de boa qualidade.

  • Separação dos dados em treino e teste
  • Treinamento do modelo com 5 fold cross-validation
  • Otimização de hiperparâmetros com validação cruzada
  • Avaliação do modelo em dados nunca vistos antes para estimar performance real
  • Métricas utilizadas: precisão, recall e curva ROC
  • Desempenho do modelo: precisão de 98%, recall de 94% e curva ROC de 92%

Features Importantes para Detecção de Fraude

As features mais importantes para detecção de fraude foram: número de transações por destinatário, hora do dia, se é final de semana, e origem de uma conta nova.

  • Features importantes: número de transações por destinatário, hora do dia, se é final de semana e origem de uma conta nova

Deploy e Relatório Final

Para finalizar o projeto, o modelo de detecção de fraudes foi empacotado em um pipeline Spark para facilitar o deploy em produção. Além disso, um relatório final foi gerado com as principais análises, insights e resultados do projeto.

  • Empacotamento do modelo em um pipeline Spark para deploy em produção
  • Geração de um relatório final com análises, insights e resultados do projeto

Apresentação dos Resultados e Integração do Modelo

O relatório inclui uma visão geral da metodologia e etapas do projeto, principais insights sobre transações PIX e clientes, métricas e performance do modelo de detecção de fraudes, conclusões e próximos passos. Esse relatório serve como base para apresentar os resultados para as áreas de negócio e produto do banco. Além disso, o modelo desenvolvido está pronto para ser integrado aos sistemas do banco em produção, podendo analisar novas transações PIX em tempo real e alertando sobre possíveis riscos.

  • Inclusão de uma visão geral da metodologia e etapas do projeto no relatório
  • Apresentação de principais insights sobre transações PIX e clientes
  • Inclusão de métricas e performance do modelo de detecção de fraudes no relatório
  • Preparação do modelo para integração aos sistemas do banco em produção

Conclusão do Projeto

Em resumo, esse projeto aplicou de ponta a ponta uma solução analítica utilizando dados massivos do Spark, entregando um modelo customizado de detecção de fraudes em PIX e insights acionáveis para os tomadores de decisão.

  • Aplicação de uma solução analítica utilizando dados massivos do Spark
  • Entrega de um modelo customizado de detecção de fraudes em PIX e insights acionáveis para os tomadores de decisão

Conclusão

A análise de transações PIX oferece insights estratégicos e soluções analíticas escaláveis em Big Data.