A metodologia CRISP-DM

Criado em 1996, CRISP-DM (Cross Industry Standard Process for Data Mining) é uma metodologia (aka metodologia) para se executar um projeto em Ciência de Dados, ou nos dias de hoje, popularmente chamado de Data Science.

Mas espera.

Antes mesmo de entrar a fundo neste tema, se você leu o que significa o acrônimo já se deparou com um termo muito utilizado em Ciência de Dados: Data Mining.

Aliás, se você parou para procurar o que significa, peço desculpas por não ter apresentado logo na sequência.

Data Mining, ou Mineração de Dados, na tradução livre pt-br, consiste em explorar um conjunto de dados, de forma analítica (com técnicas estatísticas, modelos matemáticos, etc) a fim de encontrar um padrão.

Fazendo uma analogia ao passado, quando os mineradores procuravam algo no solo, eles esperavam encontrar algo muito valioso. Diamante, ouro.

No nosso caso, quando você procura em dados (analogia ao solo) você espera encontrar alguma informação igualmente valiosa, surgindo assim a ideia de que Dados são o ouro da atualidade

Mas enfim, em meio a essa sopa de letrinhas apresentado no primeiro parágrafo, o mais importante não é saber o que ela significa, mas sim, o que esta por trás. Como, de fato, utilizá-la.

Sendo assim, resumidamente, CRISP-DM é um método para que se tenha uma análise de dados, sendo subdividido em 6 passos.

Deixo eles abaixo, e garanto que vão te ajudar muito, independente se você for seguir na área de dados.

E ah, de quebra, vou te falar 1 outro que eu considero que deveria estar ali e não está (ousado, né?! Querendo ditar regras, rs).

Quais são as etapas do CRISP-DM?

Entendimento do Negócio

Se eu pudesse definir em uma única frase seria: “Identificar objetivos do negócio sem vieses inconscientes.”

Essa parte é a mais importante. Sério.

Como você espera fazer um estudo se nem ao menos sabe o que seu cliente almeja de resultado? Ou até mesmo, quais dificuldades ele enfrenta hoje?

Sei que se você trabalha com alguma empresa de serviços, isso é o maior clichê. Customer Centric, conhecer bem a persona, público alvo, etc. Contudo, é a maior realidade para um resultado eficaz.

Antes de sair fazendo e definindo os próximos passos, lembre-se que você tem vieses inconscientes. Isso quer dizer que você acha que sabe o problema. Você tem hipóteses. Porém, só isso

Não deixe ela virar uma certeza irrefutável a ponto de você montar um modelo em cima disso, e no final, terminar em retrabalho ou, pior, recomeçar do zero. Isso acontece muito quando você tende a fazer um projeto em uma área que você domina.

E aqui, você, da área de tecnologia, vou te contar uma novidade. Neste ramo de Ciêntista de Dados, dificilmente você terá que fazer projetos nesta área. Atualmente, as mais necessitadas são os setores da saúde, varejo, turismo, e-commerce, etc. Daí a importância de entender de business.

Em suma, independente se você entende ou não do business, seja humilde e entenda a estratégia da empresa, afinal, cada empresa tem a sua.

Veja um trecho da nossa aula explicando sobre a fase de entendimento de negócio:

Entendimento dos Dados

Definiu o objetivo da empresa? Nice. Next.

Quais dados você precisa pra respondê-lo?
A empresa tem algum banco de dados?
Estão em algum lugar na nuvem? Excel? Sheets?
Virão de alguma tecnologia IoT (ex. sensor integrado muito louco)?
Qual formato os dados virão?

Enfim, too many questions, mas agora a etapa é essa.
Ver de onde virão seus dados e entendê-los de acordo com o objetivo levantado.

Em suma:
defina → colete → explore
(se precisa julgar a qualidade deles e coletar mais, agora é a hora)

Preparação dos Dados

Quem não gosta quando vem uma tabela bonitinha em CSV que o “separador decimal” é a vírgula, certo?

Infelizmente não é sempre assim.

Esta etapa do CRISP-DM também é conhecida também como “pré-processamento“. Precedendo a etapa de fazer um modelo matemático.

Agora é hora de começar a preparar os dados de acordo com as suas necessidades.

Vai querer qual formato de data para análise: dd/mm/aaaa ou mm/dd/aaaa?
Os dados das mais diversas fontes conversam entre si?
Há possibilidade de trabalhar com True e False ou terá que converter estes valores para numéricos, 1 e 0, por exemplo?

Enfim, busque anomalias nos dados, normalize, faça análises descritivas. (sim, estatística para entendê-los). Em outras palavras, veja se a média, mediana, moda, quantidade dos dados de acordo com as categorias (seja lá o que você estiver analisando e.g. nome de flores), estão ok e não há nada estranho.

E não se engane, apesar deste parágrafo ter levado 2 minutos para você ler, esta etapa demorará, em torno de, 70 – 90% de todo o projeto.

Se esta etapa passar para próxima fase com erros, seu modelo inteiro tem que ser refeito. Perca esse tempinho com atenção.

Bora para o próximo passo do CRISP-DM!

Modelagem

Ah… Modelagem..

Aqui você encontrará utilidade para os dados levantados.

Aqui será onde teremos insights e, a partir desses, novos conhecimentos sobre o business (se tudo até aqui foi feito corretamente).

Em suma, nosso objetivo é escolher ferramentas computacionais, a fim de responder a pergunta levantada no primeiro ponto (Entendimento do Negócio).

Não entrarei a fundo em quais análises são comumente utilizados, isso fica para um outro artigo, mas vou te dar uma boa analogia (e claro, pegando um exemplo mais complexo igual na escola – treino difícil, jogo fácil).

Imagine que você queira reconhecer, através de reconhecimento por imagem, uma bicicleta. Toda vez que você mostrar uma foto de bicicleta, o seu sistema entende do que aquilo se trata. Legal, né?

Imagem de uma bicicleta para exemplificar o texto de crip-dm e suas metodologias.

Contudo, agora tente mostrar essa foto abaixo:

Homem andando de bicicleta como analogia ao texto de crisp-dm

Reconhecer o que é uma bicicleta, pra gente esta fácil. Mas pro sistema, te garanto que essa pessoa em cima complicou tudo.

Aqui surge o grande problema, e de praxe, uma pergunta bacana que venho deixando várias algumas em todos os tópicos: como treinar seu algoritmo para que ele interprete uma bicicleta em ambos os casos?
Será que tem algo mais que devemos nos preocupar?
Há mais alguma exceção que eu deva antever e separar meus dados para evitá-las?

Em suma,
selecione um método → separe um conjunto de dados para teste → construa o modelo → valide em todas as possibilidades (sim, essa última etapa já é na parte de Avaliação do Modelo abaixo, mas a ideia é mostrar que elas andam tão grudadas que separá-las é somente para um efeito didático, mesmo)

Avaliação do Modelo

Avalie se a resposta obtida faz sentido.

Será que seu modelo atinge todas as necessidades que foram definidas inicialmente? (e.g. pessoa em cima da bicicleta muda o resultado final)

Compare resultados obtidos vs esperado pelo cliente.

Yeap, just it.

Deployment

Apresente para os stakeholders. Palavra bonita para “partes interessadas”. Cliente, patrocinadores, fornecedores, etc.

O que será apresentado aqui pode ser um um software, um relatório, uma apresentação em ppt. Todos são entregáveis e depende do que foi acordado com o cliente no primeiro ponto.

Aqui geralmente finaliza o acordo e recebe-se a R$.
Finalizamos as etapas do CRISP-DM.

Contudo, lembra que te falei que haveria mais uma bônus e seria a mais importante? Veja se faz sentido.

Exemplo prático Crisp-DM
Explicação prática das fases do Crisp-DM

Feedback

Etapa utilizada para fechar o ciclo de análise de dados dentro da IBM e foi criada pelo professor John Rollins, Sr. Data Scientist da empresa.

Nesta, inicia-se mais um ciclo de iteração (sem o N).
sentido de repetição, para quem não sabe

Iteração no sentido de ver os pontos em comum acordo com o cliente, pontos passíveis de otimização e, com isso, voltar para etapa de coletar mais dados, alterar partes do modelo construído, enfim. Cada caso é único.

Mas o mais interessante desta etapa é uma coisa que não é evidente para nós. Considero essa parte uma das mais importantes por conta do que discutimos no primeiro passo. Ser Customer Centric.

Os mercados mudam, as necessidades evoluem, e um contato final mostrando o produto finalizado fortalece futuras interações (note que tem o N, agora).

Imagine que surja um novo banco de dados para complementar seu modelo; ou haja uma necessidade de atualização no modelo proposto.

Essa parte é importante pelo fortalecimento desse vínculo, a fim de que seu portfólio aumente cada vez mais, seja fazendo projetos para o cliente ou para os amigos os quais ele te indicará.

O que achou do CRISP-DM? Fez sentido esta última etapa para você? Espero que você tenha entendido um pouco sobre essa metodologia ideal para a ciência de dados.

Não disse até agora que é fácil, right? Mas com certeza, vale a pena.

Enfim, se quer ter noção de business + dados = este curso é pra você.

Mais informações sobre a carreira na área de dados você encontra aqui no nosso blog!

Forte abraço 🙂