Nesse artigo você poderá:
- conhecer melhor o que é Ciência de Dados, ou Data Science,
- entender como é o funcionamento dessa ciência,
- aprender sobre a atuação profissional do cientista de dados e
- ver também algumas aplicações.
Antes de mais nada, o que é Data Science?
A ciência, de forma geral, busca desenvolver conhecimento sobre um assunto ou uma área. Isso é feito através da aplicação do método científico, baseado em hipóteses e testes, a ciência erra, revisa e valida questões. Esse é o processo de geração de conhecimento que veremos mais a seguir. Mas, vamos voltar ao assunto principal.
A Ciência de Dados estuda os dados para ajudar a resolver problemas complexos e explorar outros problemas que precisam ser resolvidos visando alavancar um negócio. Ciência de Dados é extrair valor dos dados de formas que não eram conhecidas até então. É a ciência que estuda todo o processo de captura, transformação, geração e análise de dados.
Os conteúdos pilares dessa ciência são o método científico e a inteligência artificial (IA). Enquanto linguagens de programação, estatística e matemática são ferramentas essenciais. É exatamente a combinação desses conhecimentos que possibilitam prever padrões e usá-los de novas formas.
A evolução do poder computacional nas últimas décadas foi um fator crucial para o crescimento dessa área. Houve também uma mudança de mentalidade das empresas. Elas passaram a buscar uma forma de usar e tirar proveito da massa gigantesca de dados que passou a ser realidade (coleta e armazenagem). Como Big Data pode ajudar minha empresa?
E quem trabalha com essa massa de dados, organiza a coleta, cruza, estuda os padrões e tira insights é exatamente o profissional de Data Science: o Cientista de Dados.
Quem é o Cientista de Dados
O avanço da tecnologia intensificou a demanda no mercado por profissionais com bagagem em matemática, estatística, linguagens de programação e Machine Learning. É comum que muitas pessoas nem gostavam desses temas durante a escola ou a faculdade (caso tiveram contato prévio com eles). A aplicação na rotina das empresas é o que conquistou muita gente! Além de que, o surgimento de novas metodologias e modelos de ensino contribuiu muito para que o público geral tivesse interesse por aprender ciência de dados.
Atualmente há profissionais de dados vindos de áreas de formação diferentes. Esses profissionais foram se especializando e aprendendo conteúdos específicos de ciência de dados. Eles buscavam respostas para perguntas de negócio de suas áreas originais investigando os dados. O conhecimento que acumularam previamente ajudou no questionamento e na estruturação de hipóteses. E assim nasceram os primeiros experimentos e testes.
Uma aplicação interessante de ciência de dados é a área jurídica, por exemplo. A partir de conhecimento específico, um cientista de dados jurídico pode construir modelos que buscam conhecer o perfil dos litigantes (os participantes envolvidos em uma contestação). Tal conhecimento pode ser útil quando associado a outro modelo para entender o estilo de julgamento de uma determinada vara. A partir daí os advogados podem contar com essa ajuda tecnológica para definir uma estratégia para lidar com o caso.
Os cientistas de dados jurídicos podem até modelar possibilidades para um caso (a partir de dados anteriores e características de outros processos) para fornecer insights sobre aceitar um acordo ou não.
Atualmente existem cursos diversos para formar cientistas de dados, e na DNC temos a Formação em Dados, que também forma profissionais de outras áreas que querem se tornar especialista em dados.
Porque Ciência de Dados é importante
Inúmeros problemas atuais são resolvidos com base em dados; o que nem sempre era possível há pouco tempo atrás. E a resposta está exatamente em cruzar dados, coletar de fontes diferentes, em formatos diferentes e combinar o conhecimento específico para construir insights.
O cientista de dados são especialistas analíticos e curiosos que vão compilar, combinar e buscar por insights para o negócio. Isso é comumente confundido com a simples análise de dados, ou data analytics. Porém, eles se diferenciam exatamente na capacidade preditiva de Data Science. Neste outro texto do blog você poderá entender exatamente as diferenças entre essas duas áreas.
A ciência de dados pode auxiliar as empresas em várias frentes, sendo as principais:
- ajudar a construir serviços e produtos melhores,
- otimizar sugestões de uso e personalização em produtos e serviços;
- reduzir despesas e riscos operacionais e
- melhorar a experiência dos clientes e usuários.
Aplicações de Ciência de Dados
- Empresas aéreas conseguem prever atrasos de voos e notificar os passageiros antecipadamente e evitar transtornos, além de melhorar a experiência dos usuários com a empresa;
- Lojas virtuais conseguem analisar o comportamento de compra e oferecer produtos mais bem direcionados aos interesses baseados em perfis de busca;
- Na saúde, como vimos ao longo da pandemia, por exemplo, a Ciência de Dados possibilitou criar modelos sobre o comportamento do vírus e suas mutações. O cruzamento de informação de outros vírus ao comportamento que o SARS-CoV-2 estava apresentando possibilitou que cientistas do mundo todo entendessem melhor, e mais rapidamente, o vírus. E também permitiu que planos fossem traçados.
Sintomas, diagnósticos e também elementos utilizados para tratamento com seus resultados ajudaram a comunidade médica a desenvolver vacinas e aprimorar os tratamentos administrados. - Em Recursos Humanos, a busca de padrões em traços de comportamento e perfil, otimizam a contratação e retenção de talentos nas empresas. Consequentemente, influencia as taxas de desligamentos e inclusive, na felicidade no trabalho;
- Na medicina o entendimento profundo de genomas de problemas genéticos e reação com drogas específicas ou doenças possibilitou novos tratamentos e abordagens.
- Agricultores podem contar com a ajuda da ciência de dados para orientações sobre quais sementes plantar, as quantidades, o melhor local e momento para plantar. Considerando previsões climáticas, características do solo e das sementes visando maximizar a produtividade e reduzir a utilização de terra.
Onde trabalha um cientista de dados?
Como mostrado nas seções anteriores um cientista de dados pode atuar basicamente em qualquer segmento de negócios e setores da economia.
É importante ressaltar que a empresa deve ter uma boa estrutura de dados, tanto coleta quanto armazenagem para que o cientista de dados possa trabalhar. Empresas que lidam com grandes quantidades de dados e tem problemas em utilizá-los de maneira inteligente são ótimos clientes para a Ciência de Dados. Problemas complexos são geralmente resolvidos de forma mais facilitada com o apoio dos dados.
Empresas que atuam no segmento financeiro, de varejo, agropecuária, governamental e tecnologia em geral são típicos exemplos de indústrias que realmente precisam de cientistas de dados.
Temos um outro artigo aqui no blog que detalha muito bem as possibilidades de carreiras em dados. Lá você poderá ler sobre o que faz cada profissional e quais as habilidades necessárias para atuação (tanto hard quanto softskills).
Como funciona a ciência de dados
Os dados são peças fundamentais para a construção de informação. De forma isolada, dados são só dados, não dizem nada. Uma vez organizados é possível observar padrões que podem se transformar em informação e, no contexto adequado, oferecer uma porta de entrada para a compreensão mais ampla do fenômeno em estudo.
Essa estrutura de análise é organizada na pirâmide do conhecimento, como mostrado anteriormente. É uma estrutura que ajuda a separar os dados que podem efetivamente levar a sabedoria no futuro. Vamos entender a pirâmide em um contexto de ciência de dados.
Imagine dados de nascimentos de crianças em um país. Sem contexto, esse número não vale nada. Porém, eles são a base e se organizados por região e horizonte temporal podem trazer informações sobre o comportamento de crescimento da população.
Se colocado em um contexto social, por exemplo, é possível conhecer os padrões de crescimento por faixas e tomar decisões de políticas públicas, ou de investimentos. E então avaliar a assertividade de uma decisão ou estimar os resultados de uma determinada ação.
Podemos associar outros dados ao estudo: oscilação da inflação, cenário político ou até eventos climáticos. Isso aumenta a sofisticação desse conhecimento, e com algoritmos de machine learning e predição, ser capaz de leituras muito mais elaboradas, estruturadas e concretas, totalmente baseadas em dados. Elas orientam a tomada de decisões e como trabalhar com as informações no contexto estudado. Isso é sabedoria de acordo com essa estrutura de pirâmide.
O produto final de um estudo de ciência de dados: um modelo.
Um modelo nada mais é que a representação de um fenômeno.
Na prática, o produto final de um Data Scientist é produzir um modelo baseado em dados. Construir esse modelo é exatamente percorrer o caminho dessa pirâmide: buscar dados, organizá-los em informações, testar cenários diferentes e tentar estruturar possibilidades de resultados e aprendizados a partir de ações possíveis.
Os modelos matemáticos e estatísticos criados pelos cientistas de dados vão auxiliar os negócios a antever resultados e comportamento de métricas no futuro: “quantos itens serão vendidos no próximo mês”, “quantos clientes novos posso conseguir caso haja uma redução de preço?”, “como reduzir o custo de aquisição de cliente no próximo ano?”.
Percebemos o valor das análises preditivas feitas por esses profissionais. Essa é a sofisticação do trabalho com dados que só é possível com profissionais com conhecimento bem apurado do negócio. Cientistas de dados precisam conhecer os processos da empresa, e também as práticas de mercado além de hard e soft skills como comentei anteriormente.
Os modelos construídos podem ser fatores de sucesso de uma empresa. Eles guiarão as tomadas de decisão trazendo inteligência para as estratégias e não só feeling e palpites.