O que é Dataset?
Dataset é um termo utilizado para se referir a um conjunto de dados. É uma coleção de dados estruturados que podem ser utilizados em análises e modelagem.
Existem dois tipos principais de datasets dentro de um projeto de ciência de dados:
Raw Dataset: também chamado de conjunto de dados bruto ou cru. São os dados em sua forma original, sem qualquer tratamento ou preparação. Esses dados geralmente vêm direto dos sistemas da empresa (CRM, ERP etc) e precisam passar por uma preparação antes de serem utilizados em modelagem.
Dataset Preparado: é o resultado final do processo de preparação de dados (data preparation). Depois que o raw dataset passa pelas transformações necessárias como limpeza, construção de features e integração, ele se torna o dataset preparado/tratado, pronto para ser utilizado nas próximas fases do projeto.
É importante não confundir esses dois tipos de dataset dentro de um projeto de ciência de dados. O raw dataset é o dado bruto, enquanto o dataset preparado é resultado do trabalho de preparação realizado pelo cientista de dados para deixar os dados em formato adequado para modelagem.
Preparação de Dados
A preparação de dados (data preparation) é uma etapa crítica em qualquer projeto de ciência de dados. Nesta fase, o cientista de dados irá tratar os dados brutos (raw dataset) para deixá-los prontos para serem utilizados nas próximas etapas.
O processo de preparação envolve uma série de tarefas como:
- Seleção de dados: escolher quais colunas/variáveis são realmente importantes para resolver o problema de negócio.
- Limpeza de dados: tratar valores ausentes, remover dados duplicados, corrigir inconsistências etc.
- Construção de dados: derivar novas variáveis (features) a partir das existentes, por meio de cálculos, agregações etc.
- Integração de dados: combinar diferentes fontes de dados em um dataset unificado.
- Formatação de dados: deixar os dados em formato adequado para a técnica de modelagem escolhida.
Ao final do processo de preparação, tem-se um dataset tratado, limpo e pronto para ser utilizado nas próximas etapas do projeto. Esse é o dataset que será dividido em treino e teste para construção dos modelos de machine learning.
É muito comum que o dataset bruto não esteja adequado para uso direto em modelagem. Dados ausentes, inconsistências, variáveis desnecessárias são muito frequentes. Daí a importância crucial de uma boa preparação de dados.
Documentando o Dataset
Uma boa prática após o processo de preparação dos dados é documentar as características do dataset resultante.
Isso é feito no deliverable chamado “Dataset Description”, que basicamente descreve cada variável/coluna presente após o tratamento:
- Nome da coluna
- Significado (o que representa)
- Tipo de dado (categórica, numérica, data etc)
- Valores possíveis no caso de categóricas
Essa documentação é importante para entendimento futuro tanto pela equipe de cientistas de dados quanto para áreas de negócio.
É interessante contrastar essa descrição com a feita ainda no raw dataset durante a fase de entendimento do negócio. Como os dados sofreram transformação, as características do dataset final podem ser diferentes.
Conclusão
Exploramos em detalhes conceitos fundamentais relacionados a datasets e preparação de dados:
- O que é dataset? Quais os tipos de dataset?
- Por que a preparação de dados é necessária?
- Quais atividades envolvidas na preparação?
- Como documentar o dataset final?
Vimos que existem datasets brutos (raw) e datasets tratados/preparados, sendo esses últimos o resultado do trabalho de preparação dos cientistas de dados.
Entender esses conceitos é essencial para atuar profissionalmente com ciência de dados, dominando todas as etapas de um projeto analítico.