O balanceamento de classes em conjuntos de dados desbalanceados é essencial para garantir a precisão e eficiência dos modelos de aprendizado de máquina. Neste artigo, vamos explorar em detalhes o funcionamento do ADASYN (Adaptive Synthetic Sampling), uma técnica eficiente que gera novos exemplos sintéticos para as classes minoritárias, focando nos casos mais desafiadores para o modelo. Descubra como o ADASYN pode melhorar significativamente o desempenho de modelos em diversas aplicações, como detecção de fraudes, diagnóstico médico e manutenção preditiva.
Sumário
- O que é o ADASYN?
- Vantagens do ADASYN
- O que é o ADASYN?
- Como funciona o ADASYN?
- Comparação com SMOTE
- O Desafio do Desbalanceamento de Classes
- A Abordagem do ADASYN
- Aplicação em Problemas Multiclasses
- Flexibilidade do ADASYN
- Exemplos de Aplicação
- Conclusão
O que é o ADASYN?
O ADASYN (Adaptive Synthetic Sampling Approach for Imbalanced Learning) é uma técnica de balanceamento de classes que funciona gerando novos exemplos sintéticos para as classes minoritárias, dando mais ênfase e peso para os exemplos mais difíceis de serem classificados. O algoritmo utiliza uma distribuição ponderada dos exemplos da classe minoritária, de acordo com o quão difícil cada observação é para ser classificada corretamente. Assim, mais exemplos sintéticos são gerados para as observações mais complexas, equilibrando melhor a base de dados. O ADASYN treina um classificador KNN (K-Nearest Neighbors) utilizando tanto os exemplos da classe majoritária quanto minoritária, determinando pesos para cada observação de acordo com a proporção de vizinhos que pertencem à classe minoritária. Dessa forma, observações cercadas principalmente por exemplos da classe majoritária recebem um peso maior, indicando maior dificuldade de classificação. O número de novos exemplos sintéticos gerados para cada observação é proporcional a esse peso calculado.
- ADASYN gera novos exemplos sintéticos para classes minoritárias, enfocando nos exemplos mais difíceis de classificar.
- Utiliza distribuição ponderada dos exemplos da classe minoritária, com base na dificuldade de classificação.
- Treina um classificador KNN, considerando exemplos das classes majoritária e minoritária.
- Determina pesos para cada observação com base na proporção de vizinhos que pertencem à classe minoritária.
- Gera novos exemplos sintéticos proporcionalmente ao peso calculado para cada observação.
Vantagens do ADASYN
O ADASYN apresenta algumas vantagens importantes em relação a outras abordagens de balanceamento de classes. Gera mais exemplos sintéticos para as observações mais difíceis de serem classificadas, melhorando o desempenho do modelo. Utiliza informações das classes majoritárias para identificar melhor a fronteira de decisão. Pode ser aplicado em problemas multiclasses, balanceando todas as classes ou apenas as minoritárias. Permite definir o nível de balanceamento desejado através do parâmetro de Balance Ratio. É mais eficiente que o oversampling aleatório, focando nos exemplos mais desafiadores.
- Gera mais exemplos sintéticos para observações difíceis de classificar, melhorando o desempenho do modelo.
- Utiliza informações das classes majoritárias para identificar melhor a fronteira de decisão.
- Pode ser aplicado em problemas multiclasses, balanceando todas as classes ou apenas as minoritárias.
- Permite definir o nível de balanceamento desejado através do parâmetro de Balance Ratio.
- É mais eficiente que o oversampling aleatório, focando nos exemplos mais desafiadores.
O que é o ADASYN?
O ADASYN (Adaptive Synthetic Sampling) é um algoritmo de balanceamento de dados que tem se mostrado eficiente para lidar com conjuntos de dados desbalanceados, especialmente em problemas de classificação em que a classe minoritária é significativamente menor do que a classe majoritária.
- O ADASYN é uma técnica de oversampling que gera dados sintéticos para a classe minoritária, a fim de equilibrar a distribuição das classes no conjunto de dados.
- É especialmente útil em problemas de classificação em que a classe minoritária é desproporcionalmente menor do que a classe majoritária, evitando assim o viés do modelo de machine learning.
- Ao dar mais ênfase aos exemplos de fronteira entre as classes, o ADASYN se destaca por gerar dados sintéticos de forma adaptativa, focando nas observações mais difíceis de classificar.



Como funciona o ADASYN?
O algoritmo ADASYN opera em cinco passos principais para gerar dados sintéticos e equilibrar a distribuição das classes em conjuntos de dados desbalanceados.
- Determinar o Balance Ratio, que representa o nível de balanceamento desejado entre as classes majoritária e minoritária.
- Treinar um classificador KNN (K-Nearest Neighbors) com exemplos de todas as classes, permitindo identificar os vizinhos mais próximos de cada observação.
- Calcular pesos por observação, atribuindo um peso para cada observação da classe minoritária com base na proporção de vizinhos que pertencem à mesma classe.
- Normalizar os pesos para distribuí-los como uma distribuição de probabilidade, garantindo que a soma total seja 1.
- Gerar novos exemplos sintéticos proporcionalmente ao peso de cada observação da classe minoritária, focando nas observações mais difíceis de classificar.
Comparação com SMOTE
O ADASYN se diferencia do SMOTE (Synthetic Minority Oversampling Technique) em vários aspectos, o que o torna mais eficiente para muitos problemas de desbalanceamento de classes.
- Enquanto o SMOTE treina o KNN apenas com os exemplos da classe minoritária, o ADASYN utiliza exemplos de todas as classes.
- O SMOTE interpola pontos apenas entre exemplos da classe minoritária, enquanto o ADASYN também interpola na fronteira entre a classe minoritária e majoritária.
- O SMOTE gera os mesmos números de exemplos sintéticos para todas as observações, enquanto o ADASYN dá mais ênfase às observações mais difíceis de classificar, gerando mais dados sintéticos na fronteira entre as classes.
O Desafio do Desbalanceamento de Classes
O desbalanceamento de classes é um desafio comum em problemas de classificação, onde algumas classes têm muito mais exemplos do que outras. Isso pode levar a modelos que tendem a ignorar as classes minoritárias, impactando negativamente o desempenho em cenários como detecção de fraudes, diagnóstico médico e manutenção preditiva.
- O desbalanceamento de classes é comum em problemas de classificação
- Modelos tendem a ignorar classes minoritárias
- Impacto negativo em detecção de fraudes, diagnóstico médico e manutenção preditiva
A Abordagem do ADASYN
O ADASYN é uma técnica eficiente para lidar com o desbalanceamento de classes em problemas de classificação. Ele gera exemplos sintéticos focando nos casos mais desafiadores para o classificador, melhorando o desempenho em conjuntos de dados desbalanceados.
- ADASYN é uma técnica eficiente para lidar com desbalanceamento de classes
- Gera exemplos sintéticos focando nos casos mais desafiadores
- Melhora o desempenho em conjuntos de dados desbalanceados
Aplicação em Problemas Multiclasses
O ADASYN pode ser aplicado em problemas de classificação com 3 ou mais classes, onde uma ou mais classes estão em minoria. Ele funciona de maneira similar ao caso com 2 classes, treinando um KNN com exemplos de todas as classes e gerando mais exemplos sintéticos para observações com maior peso R.
- ADASYN pode ser aplicado em problemas de classificação com 3 ou mais classes
- Funciona de maneira similar ao caso com 2 classes
- Gera mais exemplos sintéticos para observações com maior peso R
Flexibilidade do ADASYN
O ADASYN oferece flexibilidade para o tratamento de casos multiclasses desbalanceados, aceitando parâmetros para definir exatamente quais classes devem ser balanceadas. Isso permite um balanceamento customizado por classe, de acordo com a necessidade do problema em questão.
- ADASYN oferece flexibilidade para o tratamento de casos multiclasses desbalanceados
- Aceita parâmetros para definir quais classes devem ser balanceadas
- Permite balanceamento customizado por classe
Exemplos de Aplicação
O ADASYN pode melhorar significativamente o desempenho de modelos em diversas aplicações com conjuntos de dados desbalanceados, como detecção de fraudes, diagnóstico médico e manutenção preditiva. Em todos esses casos, modelos treinados sem um balanceamento de classes adequado tenderão a ignorar as classes minoritárias, que são justamente o foco nessas aplicações.
- ADASYN melhora o desempenho em diversas aplicações com conjuntos de dados desbalanceados
- Modelos treinados sem balanceamento de classes tendem a ignorar as classes minoritárias
- Classes minoritárias são foco em aplicações como detecção de fraudes, diagnóstico médico e manutenção preditiva
Conclusão
O ADASYN se destaca como uma técnica eficiente e flexível para balanceamento de classes em conjuntos de dados desbalanceados. Ao gerar novos exemplos sintéticos, focando nos casos mais desafiadores para o modelo, o ADASYN melhora significativamente o desempenho de modelos em diversas aplicações. Comparado a outras abordagens, o ADASYN leva em conta informações das classes majoritárias para identificar melhor a fronteira de decisão, além de permitir o balanceamento customizado em problemas multiclasses. Portanto, o ADASYN é uma importante ferramenta para melhorar o desempenho de modelos treinados em bases de dados desbalanceadas, devendo fazer parte do toolkit de qualquer cientista de dados.