Descubra as melhores práticas para enriquecer e preparar dados em projetos de Data Science, garantindo insights valiosos e modelos preditivos eficazes.

O Problema e a Abordagem

Neste artigo, abordaremos o passo a passo para resolver o case 2 apresentado no vídeo, que consiste em ajudar gerentes a prever se os funcionários irão deixar a empresa em breve. Para isso, são utilizados dados de pesquisas de satisfação e felicidade dos funcionários. O case 1 já havia tratado e estruturado esses dados, montando um dataset final. Agora, serão trabalhadas novas variáveis e criadas novas visões a partir dos dados de comentários.

  • O objetivo é ajudar gerentes a prever a saída de funcionários da empresa
  • Utilização de dados de pesquisas de satisfação e felicidade dos funcionários
  • Trabalho com novas variáveis e criação de novas visões a partir dos dados de comentários

Arquivos Utilizados

Os arquivos utilizados incluem um novo arquivo com várias colunas criadas no case 1 e duas novas colunas, tipo da empresa (produto ou serviço) e sexo do funcionário. Além disso, são utilizados dois arquivos tratados no case 1: Comentários e Interações com os comentários (likes e dislikes).

  • Utilização de um novo arquivo com colunas criadas no case 1 e adição de novas colunas
  • Tratamento de dois arquivos do case 1: Comentários e Interações com os comentários

Etapas Realizadas

As principais etapas realizadas para resolver o case 2 foram a combinação de variáveis e a aplicação de técnicas para medir o sentimento em relação a cada comentário. A combinação de valores de likes e dislikes resultou em uma nova coluna ‘ratio’, que foi categorizada em três grupos: muito menos likes que dislikes, likes e dislikes equilibrados e muito mais likes que dislikes.

  • Combinação de variáveis e aplicação de técnicas para medir o sentimento em relação a cada comentário
  • Criação da nova coluna ‘ratio’ categorizada em três grupos

Criação de Nova Dimensão

Uma das estratégias mais poderosas para obter insights valiosos a partir dos dados é a criação de novas dimensões a partir dos dados existentes. Além de combinar variáveis, também é possível criar novas dimensões para trazer novos insights. Ao cruzar os dados de comentários com a informação de churn dos funcionários, é possível medir a taxa de churn dos comentários que cada funcionário interagiu, fornecendo uma visão mais aprofundada do impacto dos comentários na permanência dos funcionários na empresa.

  • Cruzamento de dados de comentários com dados de churn para medir a taxa de churn dos comentários que cada funcionário interagiu
  • Aplicação da técnica de Pivot Table para calcular a média de permanência nos comentários curtidos e descurtidos por cada funcionário
  • Resultado: taxa de funcionários que permanecem na empresa nos comentários que cada pessoa curtiu ou descurtiu

Enriquecimento de Variáveis Numéricas

O enriquecimento de variáveis numéricas existentes é uma técnica poderosa para melhorar a distribuição e extrair mais insights dos dados. A técnica do Box-Cox foi aplicada em algumas colunas selecionadas, elevando os dados a um fator para aproximar a distribuição da normalidade. Isso ajuda a diminuir outliers e concentrações em valores específicos, melhorando a correlação com a variável target de churn.

  • Aplicação da técnica do Box-Cox para melhorar a distribuição dos dados
  • Diminuição de outliers e concentrações em valores específicos
  • Melhora da correlação com a variável target de churn

Enriquecimento de Variáveis Categóricas

Ao lidar com variáveis categóricas, é essencial aplicar técnicas específicas para enriquecer os dados. No caso das novas variáveis de gênero e tipo da empresa, a análise da distribuição das categorias através do Value Counts foi fundamental para verificar a existência de valores nulos. Em seguida, a aplicação do One Hot Encoding permitiu a transformação das categorias em novas colunas, onde cada valor da categoria original se torna uma nova coluna com valores 0 ou 1, evitando a criação de colunas redundantes com o parâmetro Drop First = True.

  • Análise da distribuição das categorias através do Value Counts
  • Aplicação do One Hot Encoding para transformar as categorias em novas colunas
  • Utilização do parâmetro Drop First = True para evitar a criação de colunas redundantes

Validação e Limpeza Final

Após a criação das novas colunas e variáveis, é crucial revalidar os dados e aplicar novas limpezas, se necessário. Algumas verificações e limpezas incluem a análise da correlação das novas variáveis com o target para verificar se fazem sentido e trazem insights, a identificação de outliers e valores nulos na análise de distribuição, a validação dos tipos das colunas e a seleção das colunas para o dataset final, removendo as originais quando foram derivadas novas versões, além do preenchimento com médias dos valores nulos nas novas colunas.

  • Análise da correlação das novas variáveis com o target
  • Identificação de outliers e valores nulos na análise de distribuição
  • Validação dos tipos das colunas
  • Seleção das colunas para o dataset final
  • Preenchimento com médias dos valores nulos nas novas colunas

Conclusão

A preparação cuidadosa e detalhada dos dados é essencial para obter resultados confiáveis e decisões assertivas em projetos de Data Science. Ao seguir as técnicas apresentadas, é possível garantir um dataset tratado, enriquecido e validado, pronto para aplicação em modelos preditivos.