A área da estatística denominada Estatística Descritiva visa aplicar técnicas estatísticas para descrever, organizar e resumir conjuntos de dados, para que assim, seja possível utilizá-los.
A Estatística é composta de diversas técnicas como diagramas e afins, e é justamente através delas, que conseguimos de maneira eficiente organizar, descrever, analisar e interpretar um conjunto de dados, os quais podem ser de diversas áreas.
Neste artigo, vamos aprofundar na área da estatística descritiva, onde iremos entender o que é, o que ela abrange, quando é necessário utilizá-la e quais são as medidas que a compõem.
Nossos tópicos serão:
Vamos começar?
A estatística está dividida em três grandes áreas: probabilidade, estatística inferencial e a estatística descritiva.
Segundo o IME, a estatística descritiva é a etapa inicial da análise de dados utilizada para resumir e compreender os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da estatística.
Caso você ainda não saiba, a estatística descritiva pode ser utilizada com auxílio para análise de dados na aplicação da metodologia Lean Seis Sigma. Separamos um vídeo para que você possa entender mais sobre esse assunto:
Essa área da estatística é utilizada com frequência em situações em que nos deparamos com uma quantidade grande de dados e precisamos torná-los mais condensados para que assim seja possível trabalhar com eles.
E isso é feito através da média, mediana, moda, desvio padrão e demais recursos que a estatística descritiva traz para nos auxiliar nesse processo. Vamos entender mais sobre cada um desses recursos no próximo tópico.
Esses tipos de medidas são utilizadas dentro da estatística descritiva para indicar a localização dos dados.
A média nada mais é do que a soma de todos os valores da base de dados dividida pelo número de elementos no total. A equação matemática que a representa é:
Há também a média ponderada, na qual cada dado é atribuído e multiplicado por um peso. A soma desses elementos é então dividida pelo somatório de todos os pesos, da seguinte forma:
Imagine que, em uma fábrica de garrafas, um Green Belt fez uma coleta de dados ao longo de alguns dias sobre o número de garrafas perdidas por dia e obteve:
Número de garrafas perdidas por dia: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Nesse caso, temos que a média aritmética será de 6,21 garrafas perdidas por dia, como mostrado abaixo.
Se dissermos que um número representa a moda de uma base de dados, é o mesmo que dizer que esse número é o que mais aparece nessa base de dados. Ou seja, é o valor mais frequente.
Vale lembrar que, se na sua base de dados nenhum valor se repetir, logo não teremos moda neste caso.
Continuando a mesma situação citada no exemplo anterior, na qual:
O número de garrafas perdidas por dia é: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Olhando para a nossa amostra, podemos concluir que a moda será 5, uma vez que esse valor é o que aparece com maior frequência nessa base de dados, aparecendo quatro vezes.
A Mediana é a medida de posicionamento central dos dados. É o termo central de um conjunto de dados colocados em ordem crescente ou decrescente.
Se a quantidade de valores ordenados for ímpar, a mediana é exatamente o número localizado no meio da lista. Se a quantidade de valores ordenados for par, a mediana é calculada como a média dos dois valores centrais.
Seguindo no mesmo exemplo citado anteriormente, no qual:
O número de garrafas perdidas por dia é: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Para determinarmos a mediana desses dados, primeiramente temos de ordená-los de forma crescente ou decrescente. Optei por colocar na ordem crescente.
Base de dados = 2, 3, 4, 4, 5, 5, 5, 5, 7, 8, 8, 9, 10, 12.
Como nossa base de dados contém um número par de amostras, não possuímos um único valor central, mas sim dois. Nesse caso são os números 5 e 5.
Então, para determinar a mediana, basta calcular a média aritmética desses dois números. Fazendo isso, encontramos que a mediana dessa amostra é 5.
Os percentis são medidas que dividem a amostra (por ordem crescente dos dados) em 100 partes iguais, cada uma com uma percentagem de dados aproximadamente igual.
Portanto:
A fórmula utilizada para obter a posição do percentil é:
Na qual:
K = a posição em que o percentil estará nos dados;
i = o número do percentil desejado;
n = número de amostras.
Suponha que desejemos encontrar o 40º percentil da seguinte amostra: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Dados ordenados: 2, 3, 4, 4, 5, 5, 5, 5, 7, 8, 8, 9, 10, 12.
Logo o percentil se encontra na 6ª posição, ou seja, seu valor é 5.
Na estatística descritiva, os quartis são valores que dividem os dados ordenados em quatro partes iguais.
Através dos quartis, é possível rapidamente avaliar a dispersão e a tendência central de um conjunto de amostras, que são etapas importantes na compreensão dos seus dados.
A tabela a seguir, divulgada pela Minitab, representa bem o que o quartil traz como resultado:
A fórmula utilizada para obter a posição do quartil é:
Na qual:
Q = a posição em que o quartil estará nos dados;
i = o quartil que pretendemos encontrar;
n = número de amostras.
Suponha que desejemos encontrar o 3º quartil da seguinte amostra: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Dados ordenados: 2, 3, 4, 4, 5, 5, 5, 5, 7, 8, 8, 9, 10, 12.
Logo o quartil se encontra na 11,25ª posição, mas como esse valor não é inteiro, para obtermos o valor do quartil iremos fazer uma média entre a 11ª posição e a 12ª posição:
Com isso, o valor 8,5 representa 75% das observações nestes dados com que estamos trabalhando.
As medidas de dispersão dentro da estatística descritiva nos permitem avaliar se os dados estão distribuídos de acordo com o padrão desejado.
O grande objetivo para isso é encontrar um valor que resuma a variabilidade de um conjunto de dados.
Dentro da estatística descritiva, a amplitude é utilizada para nos mostrar o quão espaçado ou não estão os dados da amostra que está sendo trabalhada.
Esta é a maneira mais simples e rápida para analisar uma dispersão nos dados.
Para obter a amplitude de um conjunto de amostras, é bem simples, basta fazer a diferença entre o maior e o menor valor.
Se a amplitude for um valor elevado, significa que os seus dados estão distribuídos com um intervalo grande, e em caso contrário, isso nos mostra que os intervalos são pequenos.
Suponha que desejemos encontrar a amplitude da seguinte amostra: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Dados ordenados: 2, 3, 4, 4, 5, 5, 5, 5, 7, 8, 8, 9, 10, 12.
Como podemos ver, a amplitude tem o valor de 10, nessa amostra.
O intervalo-interquartil foi criado com o objetivo de analisar o grau de dispersão em torno da medida de centralidade dos dados.
Esta medida da estatística descritiva é calculada através da diferença entre o terceiro quartil e o primeiro quartil.
Suponha que desejemos encontrar o intervalo-interquartil da seguinte amostra: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8.
Dados ordenados: 2, 3, 4, 4, 5, 5, 5, 5, 7, 8, 8, 9, 10, 12.
Anteriormente obtivemos que o terceiro quartil é 8,5, agora calcularemos o primeiro, e, com isso, faremos a diferença entre eles.
Assim, para obter o 1º quartil, iremos encontrar a média entre os valores da 3ª e da 4ª posição:
Logo, o intervalo-interquartil será:
A variância é uma medida de que muito provavelmente você já tenha ouvido falar, ela nos mostra o “quão longe” em geral os valores da amostra se encontram em relação à média.
A sua fórmula é:
S2= Variância;
n = número de amostras;
x = média das amostras.
Suponha que desejemos encontrar a variância da seguinte amostra: 9, 5, 10, 7, 4.
A média é dada por:
O desvio padrão na estatística descritiva indica o grau de dispersão da amostra em relação à média.
O cálculo é realizado a partir da raiz quadrada positiva da variância, como se segue:
S = Desvio padrão;
n = número de amostras;
x = média das amostras.
Suponha que desejemos saber o desvio padrão da seguinte amostra: 9, 5, 10, 7, 4.
A média é dada por:
Por fim, como última medida que iremos apresentar da estatística descritiva, temos o coeficiente de variação, que é uma medida de dispersão relativa, muito útil para comparar duas ou mais variáveis.
Sua fórmula é dada por:
Seguindo os dados do exemplo anterior, teremos o seguinte o coeficiente de variação:
Bacharel em Ciências Exatas e Graduanda em Engenharia Elêtrica pela Universidade Federal de Juiz de Fora. Possui formação de Especialista em Power BI, White Belt em Lean Seis Sigma, Produção de Conteúdo Web e de Especialista em Marketing de Conteúdo. Foi bolsista no projeto de treinamento profissional de Desenvolvimento de têcnicas de modelagem para problemas reais de programação matemática. Participou como voluntária do PET Elêtrica da UFJF. Especialista na produção de conteúdo na área de Pesquisa e Desenvolvimento do Grupo Voitto.
Entre para nossa lista e receba conteúdos exclusivos e com prioridade.
Respeitamos sua privacidade e nunca enviaremos spam!