Descubra como a análise de transações PIX pode detectar fraudes e fornecer insights valiosos.
Análise de Transações PIX para Detecção de Fraudes
Este artigo aborda um case prático de análise de transações PIX com o objetivo de detectar fraudes. O case foi proposto como projeto final de um curso sobre processamento de dados, visando colocar em prática todo o conhecimento adquirido desde a coleta e entendimento dos dados até a modelagem de um algoritmo de detecção de fraudes.
- O artigo aborda um case prático de análise de transações PIX para detecção de fraudes
- O case foi desenvolvido como projeto final de um curso de processamento de dados
- Visa aplicar o conhecimento adquirido desde a coleta até a modelagem de um algoritmo de detecção de fraudes
Metodologia CRISP-DM
O CRISP-DM (Cross Industry Standard Process for Data Mining) é uma metodologia amplamente utilizada em projetos de ciência de dados e inteligência artificial. Ela provê uma estrutura para conduzir projetos de mineração de dados desde a compreensão inicial do negócio até a implantação de modelos.
- CRISP-DM é uma metodologia amplamente utilizada em projetos de ciência de dados e inteligência artificial
- Oferece uma estrutura para conduzir projetos de mineração de dados desde a compreensão inicial do negócio até a implantação de modelos
Entendimento do Negócio
O conjunto de dados utilizado neste projeto contém informações de transações PIX obtidas por um grande banco brasileiro. O PIX é um meio de pagamento instantâneo desenvolvido pelo Banco Central que permite transferências e pagamentos entre contas bancárias em poucos segundos. O objetivo do banco é utilizar técnicas de ciência de dados para entender melhor as transações PIX de seus clientes e também detectar possíveis fraudes.
- O conjunto de dados contém informações de transações PIX obtidas por um grande banco brasileiro
- PIX é um meio de pagamento instantâneo desenvolvido pelo Banco Central
- Permite transferências e pagamentos entre contas bancárias em poucos segundos
- O objetivo é entender melhor as transações PIX de seus clientes e detectar possíveis fraudes
Entendimento dos Dados
O conjunto de dados fornecido contém informações de 100 mil transações PIX realizadas em um período de 6 meses. Cada transação é representada por um registro no formato JSON com os seguintes atributos: value, time, origin e destination.
- O conjunto de dados contém informações de 100 mil transações PIX realizadas em um período de 6 meses
- Cada transação é representada por um registro no formato JSON com atributos como valor, data, remetente e destinatário
Preparação dos Dados
Nesta etapa o objetivo é deixar os dados prontos para serem analisados e para treinar os modelos de machine learning. As tarefas realizadas foram:
- Transformação do formato: Os dados foram originalmente fornecidos em formato JSON, então foi necessário converter para o formato colunar (dataframes do Spark) para facilitar as análises.
- Limpeza dos dados: Foram removidos ou corrigidos valores ausentes, dados duplicados e dados fora do escopo necessário para a análise.
- Feature engineering: Foram criadas novas features ou atributos que agregam mais informações para apoiar a modelagem, como hora do dia, dia da semana, mês, entre outros derivados dos dados originais.
- Filtragem e amostragem: Foram filtrados apenas os dados necessários dependendo do tipo de análise. Além disso, para alguns experimentos foi utilizada amostragem dos dados.
Análise Exploratória
Depois que os dados foram preparados, a próxima etapa foi realizar uma série de análises exploratórias para entender melhor as transações PIX e identificar padrões e insights. Algumas das principais análises realizadas foram:
- Distribuição de valores: A maioria das transações são de baixo valor (entre R$50 e R$500), mas existem outliers de transações com valores muito altos.
- Transações por hora/dia: Existe um pico de transações durante a tarde, indicando que muitas pessoas utilizam o PIX para transferências e pagamentos durante o horário comercial.
- Bancos mais utilizados: O banco Bradesco é o que recebe e envia o maior volume de transações PIX, seguido pelo Itaú e Nubank.
- Tipos de pessoas (CPF x CNPJ): A grande maioria das transações PIX são enviadas de pessoas físicas (CPF) para pessoas físicas. Transações envolvendo empresas (CNPJ) representam uma pequena fração.
- Fraudes: Apenas 2% das transações são marcadas como fraude, e elas estão concentradas em poucos destinatários recebendo vários depósitos de diferentes origens.
Modelagem e Avaliação
Para modelar o problema de detecção de fraudes, foi utilizado o algoritmo Random Forest. Este algoritmo constrói um modelo baseado em árvores de decisão, treinando cada árvore com uma amostra aleatória dos dados. Isso gera diversidade e evita overfitting.
- O Random Forest foi escolhido por ser apropriado para problemas com muitas features (colunas dos dados) potencialmente relevantes.
- Avaliação do modelo: A precisão do modelo foi verificada utilizando métricas como precisão, recall e F1-score para avaliar o desempenho na detecção de fraudes.
Modelagem e Avaliação do Modelo
O pipeline de modelagem envolveu a separação dos dados em treino e teste, o treinamento do modelo com 5 fold cross-validation, a otimização de hiperparâmetros com validação cruzada e a avaliação do modelo em dados nunca vistos antes para estimar performance real. As métricas utilizadas para avaliar o modelo foram precisão, recall e curva ROC. O modelo obteve uma precisão de 98% e recall de 94% na detecção de fraudes na base de teste. A curva ROC ficou em 92%, indicando um modelo de boa qualidade.
- Separação dos dados em treino e teste
- Treinamento do modelo com 5 fold cross-validation
- Otimização de hiperparâmetros com validação cruzada
- Avaliação do modelo em dados nunca vistos antes para estimar performance real
- Métricas utilizadas: precisão, recall e curva ROC
- Desempenho do modelo: precisão de 98%, recall de 94% e curva ROC de 92%
Features Importantes para Detecção de Fraude
As features mais importantes para detecção de fraude foram: número de transações por destinatário, hora do dia, se é final de semana, e origem de uma conta nova.
- Features importantes: número de transações por destinatário, hora do dia, se é final de semana e origem de uma conta nova
Deploy e Relatório Final
Para finalizar o projeto, o modelo de detecção de fraudes foi empacotado em um pipeline Spark para facilitar o deploy em produção. Além disso, um relatório final foi gerado com as principais análises, insights e resultados do projeto.
- Empacotamento do modelo em um pipeline Spark para deploy em produção
- Geração de um relatório final com análises, insights e resultados do projeto
Apresentação dos Resultados e Integração do Modelo
O relatório inclui uma visão geral da metodologia e etapas do projeto, principais insights sobre transações PIX e clientes, métricas e performance do modelo de detecção de fraudes, conclusões e próximos passos. Esse relatório serve como base para apresentar os resultados para as áreas de negócio e produto do banco. Além disso, o modelo desenvolvido está pronto para ser integrado aos sistemas do banco em produção, podendo analisar novas transações PIX em tempo real e alertando sobre possíveis riscos.
- Inclusão de uma visão geral da metodologia e etapas do projeto no relatório
- Apresentação de principais insights sobre transações PIX e clientes
- Inclusão de métricas e performance do modelo de detecção de fraudes no relatório
- Preparação do modelo para integração aos sistemas do banco em produção
Conclusão do Projeto
Em resumo, esse projeto aplicou de ponta a ponta uma solução analítica utilizando dados massivos do Spark, entregando um modelo customizado de detecção de fraudes em PIX e insights acionáveis para os tomadores de decisão.
- Aplicação de uma solução analítica utilizando dados massivos do Spark
- Entrega de um modelo customizado de detecção de fraudes em PIX e insights acionáveis para os tomadores de decisão
Conclusão
A análise de transações PIX oferece insights estratégicos e soluções analíticas escaláveis em Big Data.