Neste artigo, exploraremos o passo a passo para enriquecer e validar dados relevantes para a modelagem preditiva de turnover. Abordaremos as principais atividades realizadas, como a combinação de variáveis, criação de novas dimensões, discretização, transformações matemáticas e tratamento de valores ausentes. Além disso, destacaremos a importância do pré-processamento, análise exploratória e validação dos dados antes de aplicar modelos de machine learning para prever o turnover.
O Problema de Negócio do Case 2
O artigo aborda o passo a passo para resolver o case 2, que tem o mesmo problema de negócio do case 1: ajudar gerentes de empresa a prever se os funcionários irão pedir demissão em breve. O artigo utiliza dados de pesquisas de satisfação e felicidade dos funcionários para estruturar, limpar e enriquecer um dataset final para modelos preditivos.
- A importância de prever a rotatividade de funcionários para empresas
- Utilização de dados de pesquisas de satisfação e felicidade dos funcionários para análise preditiva
- Estruturação e limpeza de dados para modelos preditivos
Arquivos Utilizados
Os arquivos utilizados incluem um novo arquivo com várias colunas criadas no case 1 e duas novas colunas: tipo da empresa (produto ou serviço) e sexo do funcionário. Além disso, foram utilizados dois arquivos pré-tratados no case 1: comentários feitos pelos funcionários e interações nos comentários (likes e dislikes).
- Importância das variáveis tipo da empresa e sexo do funcionário
- Utilização de comentários e interações como fonte de dados
- Pré-tratamento de arquivos para análise de dados
Atividades Realizadas
As principais atividades realizadas incluem a combinação de variáveis, a criação de uma nova variável para medir o sentimento em relação aos comentários, e a identificação de valores nulos e infinitos.
- Criação de nova variável para medir sentimento em relação aos comentários
- Identificação e tratamento de valores nulos e infinitos
- Importância da análise de sentimentos em dados de feedback dos funcionários
Tratamento de Dados
Para garantir a qualidade e confiabilidade dos dados, foram realizados tratamentos específicos, tais como a substituição de valores nulos por 1, indicando igualdade entre likes e dislikes. Além disso, valores infinitos foram discretizados em faixas utilizando a técnica K-Means Discretizer, considerando o número de likes superior ao de dislikes. O resultado foi a criação de uma nova variável com 3 faixas indicando a relação entre likes e dislikes.
- Substituição de valores nulos por 1 para indicar igualdade entre likes e dislikes
- Discretização de valores infinitos em faixas utilizando a técnica K-Means Discretizer
- Criação de uma nova variável com 3 faixas indicando a relação entre likes e dislikes
Criação de Nova Dimensão
Foi realizada a criação de uma nova dimensão ao cruzar os dados de comentários e interações com a variável target de churn. Para cada funcionário, foi calculada a taxa de churn dos comentários curtidos e descurtidos, ou seja, a porcentagem de autores desses comentários que pediram demissão posteriormente. Este processo envolveu a mesclagem de bases de dados, o cruzamento com interações nos comentários e a aplicação da técnica Pivot Table para calcular a média do churn por funcionário.
- Cálculo da taxa de churn dos comentários curtidos e descurtidos por funcionário
- Mesclagem de bases de dados
- Cruzamento com interações nos comentários
- Aplicação da técnica Pivot Table para calcular a média do churn por funcionário
Enriquecimento de Variáveis
Algumas variáveis foram aprimoradas utilizando a técnica Box-Cox, que otimiza a distribuição dos dados ao elevá-los a um fator lambda. Isso contribui para a redução de outliers e melhora a distribuição dos dados, resultando em uma maior confiabilidade e precisão nas análises.
- Utilização da técnica Box-Cox para aprimorar variáveis
- Redução de outliers
- Melhoria na distribuição dos dados
Análise exploratória de dados
Durante a análise exploratória, foram identificadas correlações entre variáveis, como o número de votos e churn, que aumentou de 0.08 para 0.1 após a transformação.
- Identificação de correlações entre variáveis como forma de compreender seu impacto no churn
- Exemplo de aumento da correlação entre o número de votos e churn após transformação
- Importância da análise exploratória para compreender o comportamento das variáveis
Tratamento de variáveis categóricas
As variáveis categóricas de sexo e tipo de empresa foram tratadas com a técnica de one-hot encoding, após análise dos valores ausentes.
- Aplicação da técnica de one-hot encoding para tratar variáveis categóricas
- Análise dos valores ausentes antes do tratamento das variáveis categóricas
- Importância do tratamento adequado das variáveis categóricas para a qualidade dos dados
Validação e limpeza final
Foram realizadas atividades de validação, incluindo análise de correlação das novas variáveis com o churn, tratamento de valores nulos remanescentes e filtragem das variáveis para o dataset final.
- Importância da validação para garantir a qualidade e confiabilidade dos dados
- Análise de correlação das novas variáveis com o churn como parte da validação
- Identificação e tratamento de valores nulos remanescentes para manter a integridade dos dados
O artigo enfatiza a importância do pré-processamento, análise exploratória, enriquecimento e validação dos dados antes da modelagem preditiva, destacando técnicas como combinação de variáveis, criação de novas dimensões, discretização, transformações matemáticas, tratamento de valores ausentes e análise de correlações.
- Enfatização da importância das etapas iniciais do processo de análise de dados
- Destaque para as técnicas utilizadas, como combinação de variáveis e criação de novas dimensões
- Ênfase na necessidade de dados limpos, enriquecidos e validados para a modelagem preditiva
Conclusão
Ao enriquecer o dataset com novas variáveis relevantes ao problema e realizar as etapas de pré-processamento, análise exploratória, enriquecimento e validação dos dados, estamos preparados para utilizar modelos de machine learning voltados à predição de turnover. Este caso prático permitiu exercitar diversas técnicas importantes, essenciais para a construção de um dataset final limpo, enriquecido e validado.