Descubra como a estatística revela insights sobre os ratings de filmes da Netflix.

Introdução

Neste artigo, vamos explorar estatisticamente os dados de avaliação (rating) dos filmes disponíveis na Netflix. Nosso objetivo é aplicar diversas técnicas estatísticas para entender melhor essa variável numérica e tirar conclusões sobre a população de filmes como um todo. Inicialmente, importamos as bibliotecas necessárias para o nosso estudo: Pandas, NumPy, Random e as funções estatísticas do SciPy. Em seguida, carregamos o dataset com informações sobre os filmes, incluindo título, ano, certificado, duração, gênero, descrição, estrelas e votos.

  • Exploração estatística dos dados de avaliação dos filmes da Netflix
  • Aplicação de técnicas estatísticas para compreender a variável numérica do rating
  • Importação das bibliotecas Pandas, NumPy, Random e funções estatísticas do SciPy
  • Carregamento do dataset com informações detalhadas sobre os filmes disponíveis na Netflix

Análise Descritiva Inicial

Começamos nossa análise descritiva aplicando o método `describe()` aos dados. Isso nos fornece estatísticas como quantidade de observações, média, desvio padrão, valores mínimos e máximos. Observamos que inicialmente temos 9957 observações (quantidade de filmes), com média do rating de 6,375 e desvio padrão de 0,738. O rating mínimo é de 0,5 e o máximo é 10. Comparando média e mediana, percebemos que elas são muito próximas, indicando uma distribuição quase normal de ratings.

  • Aplicação do método `describe()` para obter estatísticas descritivas dos dados
  • Quantidade inicial de 9957 observações (filmes) analisadas
  • Média do rating de 6,375 e desvio padrão de 0,738
  • Comparação entre média e mediana indicando distribuição quase normal de ratings

Visualização da Distribuição

Posteriormente, plotamos um histograma e um boxplot do rating para visualizar melhor a distribuição. O histograma mostra uma concentração de frequências próxima à média, enquanto o boxplot exibe uma mediana centralizada, limites inferior e superior em 4 e pouco abaixo de 10. Há alguns outliers para baixo e 1 outlier em 10. Novamente fica evidente a proximidade da distribuição com uma curva normal.

  • Utilização de histograma e boxplot para visualizar a distribuição dos ratings
  • Concentração de frequências próxima à média no histograma
  • Exibição de mediana centralizada, limites inferior e superior no boxplot
  • Identificação de outliers na distribuição dos ratings

Tratamento de Dados Faltantes

Ao verificar a base de dados, identificamos a presença de valores faltantes. Implementamos estratégias para lidar com esses dados ausentes, como preenchimento com a média dos ratings ou exclusão das observações com dados faltantes. É crucial garantir que os dados estejam completos e tratados antes de prosseguir com as análises estatísticas.

  • Identificação de valores faltantes na base de dados
  • Implementação de estratégias para lidar com dados ausentes
  • Importância de garantir que os dados estejam completos e tratados para análises precisas

Tratamento de dados

Após o tratamento dos dados, foram obtidos 5554 filmes válidos para a análise, resultando em uma população representativa para o estudo.

  • Exclusão de valores nulos para garantir a integridade dos dados
  • População final de 5554 filmes válidos para análise
  • Garantia da representatividade dos dados para estudo estatístico

Amostragem

Para realizar inferências sobre a população de filmes, é essencial definir o tamanho da amostra. Neste caso, foram utilizados parâmetros como nível de confiança, margem de erro e desvio padrão populacional para calcular o tamanho da amostra.

  • Consideração de parâmetros como nível de confiança, margem de erro e desvio padrão populacional
  • Cálculo do tamanho da amostra baseado nos parâmetros estabelecidos
  • Importância da amostragem para inferência estatística

Amostra Aleatória Simples

A seleção de uma amostra aleatória simples de 385 observações com reposição foi realizada, garantindo que todos os filmes tiveram a mesma chance de serem selecionados.

  • Utilização de amostra aleatória simples para garantir imparcialidade na seleção
  • Equalização das chances de seleção para todos os filmes
  • Importância da imparcialidade na seleção da amostra

Amostra Sistemática

Além da amostra aleatória simples, foi criada uma função para obter uma amostra sistemática a cada 5 elementos, ampliando as possibilidades de representatividade na amostra.

  • Utilização de amostra sistemática para ampliar a representatividade da amostra
  • Método eficaz para abranger diferentes elementos na seleção
  • Importância da representatividade na amostra

Teorema do Limite Central

A análise da distribuição da variável Rating na população de filmes foi realizada, comparando-a com a distribuição das médias amostrais, utilizando histogramas para visualização.

  • Comparação da distribuição da variável Rating na população com a distribuição das médias amostrais
  • Utilização de histogramas para visualização das distribuições
  • Importância da análise estatística na comparação das distribuições

Distribuição Simétrica e Normal

Ao analisar as amostras, percebemos uma distribuição muito mais simétrica e normal, conforme prevê o Teorema do Limite Central. Isso mostra na prática a utilidade desse importante teorema para fazermos inferência sobre a média populacional a partir da média amostral.

  • A distribuição simétrica e normal das amostras demonstra a aplicação prática do Teorema do Limite Central.
  • O Teorema do Limite Central é essencial para realizar inferências sobre a média populacional a partir da média amostral.
  • A simetria e normalidade da distribuição das amostras reforçam a confiabilidade das análises estatísticas realizadas.

Média das Médias Amostrais

Além disso, vemos que a média das médias amostrais (6,79) é muito próxima da média populacional (6,77), o que também era de se esperar aplicando o TLC com uma amostra grande o suficiente.

  • A média das médias amostrais se aproxima significativamente da média populacional, conforme previsto pelo Teorema do Limite Central.
  • O resultado obtido reforça a eficácia do Teorema do Limite Central ao lidar com amostras de tamanho considerável.
  • A proximidade entre a média das médias amostrais e a média populacional confirma a precisão das análises estatísticas realizadas.

Intervalo de Confiança

Por fim, construímos um intervalo de confiança de 95% para a verdadeira média populacional com base nas amostras geradas anteriormente. O intervalo obtido foi de 6,73 a 6,85.

  • Foi estabelecido um intervalo de confiança de 95% para a média populacional com base nas amostras, demonstrando a confiabilidade das estimativas.
  • O intervalo de confiança obtido (6,73 a 6,85) indica a faixa em que a média populacional provavelmente se encontra, com 95% de confiança.
  • A precisão do intervalo de confiança reforça a confiabilidade das análises estatísticas realizadas, considerando a distribuição normal e o tamanho representativo da amostra.

Conclusão

A análise estatística permite estimar parâmetros de interesse de uma população, trazendo assertividade e redução de custos para análise de dados.