A Distribuição Normal é uma distribuição de probabilidade contínua e simétrica que representa o comportamento de um fenômeno natural de forma aleatória.
No século XVIII, alguns matemáticos e físicos desenvolveram uma função de probabilidade que conseguia obter os erros experimentais em medidas físicas. No entanto, diversos fatores estavam entre suas causas e, em alguns casos, os motivos não eram identificáveis.
Somente em meados do século XIX, Friedrich Gauss, com seus estudos sobre eventos da natureza, observou um comportamento padrão entre as amostras estudadas por ele.
Esse comportamento, posteriormente, foi apresentado como aCurva de Gauss. Que mostrava que grande parte dos eventos ficam em torno de um valor médio, com uma certa variabilidade.
Então, surgiu a Distribuição Gaussiana ou Normal. Ela é o principal modelo probabilístico contínuo, sendo muito utilizada pelas áreas de Estatística, Probabilidade e Estocástica.
Continue lendo esse artigo e descubra quais são as dúvidas mais frequentes na Distribuição Normal, hoje você irá aprender:
Vamos lá?
A distribuição normal, também conhecida como distribuição gaussiana, é uma curva simétrica em torno do seu ponto médio, apresentando assim seu famoso formato de sino.
Uma distribuição estatística é uma função que define uma curva, e a área sob essa curva determina a probabilidade de ocorrer o evento por ela correlacionado.
E o que é distribuição normal? Me arrisco dizer, que é a mais importante dentre as distribuições estatísticas.
A curva de distribuição normal representa o comportamento de diversos processos nas empresas e muitos fenômenos comuns, como por exemplo, altura ou peso de uma população, a pressão sanguínea de um grupo de pessoas, o tempo que estudantes gastam em uma prova.
A distribuição normal pode ser usada para aproximar distribuições discretas de probabilidade, como a distribuição binomial. Além disso, a distribuição normal serve também como base para a inferência estatística clássica.
Nela, a média, mediana e modados dados possuem o mesmo valor.
A Distribuição Normal é essencial para calcular diferentes situações, seja para estudo da ocorrência de fenômenos físicos, pesquisas dentro de uma empresa ou para análises financeiras.
Além disso, através dessa distribuição é possível fazer cálculos com um grande número de dados, pois é utilizada uma média e existe o desvio-padrão. Com essas proporções pré-definidas, os cálculos conseguem resumir os valores de maneira mais prática.
O escore Z é uma unidade de desvio-padrão que mede o quanto um elemento está distante da média da população, ou seja, dos escores amostrais. Para se aprofundar mais no assunto, assista o vídeo a seguir:
Para determinar se uma determinada variável aleatória segue uma distribuição normal, basta verificar se essa segue a função densidade de probabilidade, dada por:
Onde a média e ² é a variância de x.
A notação é usada para denotar tal distribuição.
Para calcularmos então a probabilidade de um resultado, basta integrar a função f(x) em relação a x, com os limites de integração representando a faixa de valores que se quer obter a probabilidade.
Vale notar que a integral da função densidade de probabilidade normal, não possui solução analítica, sendo assim, seu cálculo deve ser realizado através de um método numérico.
Para sanar tal dificuldade a função pode ser padronizada com a substituição dos parâmetros por μ=0 e σ²=1. Essa abordagem é dada pela definição de uma nova variável aleatória Z, chamada de variável aleatória normal padronizada.
Se x for uma variável aleatória normal com média E(x)=μ e variância V(x)=σ², a variável aleatória Z=(x−μ)/σ será uma variável aleatória normal, com E(Z)=0 e V(Z)=1. Ou seja, Z é uma variável aleatória normal padrão.
Dessa forma, é possível obter a área sob a curva da normal padrão de forma analítica, e então obter a área entre dois pontos sob a curva, diretamente com o uso de uma tabela de conversão, e essa área representa uma probabilidade.
Segundo o Teorema Central do Limite, para grandes amostras, independentemente da distribuição da variável de interesse, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tendem a uma distribuição normal à medida que o tamanho de amostra cresce.
Sendo,
μ = média das medidas individuais X
σ = desvio padrão das medidas individuais X
n = tamanho amostral
No exemplo abaixo, uma empresa mede a quantidade de defeitos em um lote de 100 produtos a cada duas horas. O histograma dos dados coletados a cada duas horas representauma distribuição diferente da normal.
Em um segundo momento, os dados foram agrupados diariamente, ou seja, foi calculado a média de defeitos do dia de produção e utilizou-se o valor da média diária para gerar um novo histograma. Desta vez a distribuição já é normal.
As perguntas sobre a probabilidade de distribuição normal padrão podem parecer complexas, mas a chave para resolvê-lasé compreender o que a área sob a curva representa.
A área total sob uma curva de distribuição normal padrão é de 100% (ou seja, "1" como um decimal). Por exemplo, a metade esquerda da curva é 50% ou 0,5. Portanto, a probabilidade de uma variável aleatória aparecer na metade esquerda da curva é 0,5.
É claro que nem todos os problemas são simples assim, e é por isso que há uma tabela-z. Tudo o que uma tabela-z faz é medir essas probabilidades (ou seja, 50%) e colocá-las em desvios-padrão da média. A média está no centro da distribuição normal padrão e uma probabilidade de 50% é igual a zero desvios padrão.
Conseguimos desenhar uma curva de distribuição normal tendo apenas dois parâmetros: média e desvio padrão.
Considerando a probabilidade de ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos.
O ponto mais alto na curva, representa o valor com a maiormoda do processo, ou seja,o valor que mais aparece na base de dados. Esse é representado na curva pelo corte central deste diagrama.
Os outros cortes verticais, representam o desvio padrão em relação a média, ou seja, temos uma faixa de valores que significa a soma ou subtração de um desvio padrão em relação a média.
Outro detalhe importante e conhecido da curva de distribuição normal é que cada faixa de valores representa uma certa probabilidade de ocorrência.
Neste exemplo, na primeira faixa, de menos 1 desvio padrão até 1 desvio padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco mais e pegarmos a faixa que vai de mais até menos 2 sigma, já teremos 95,44% de possibilidade de ocorrência.
Por fim, se pegarmos a faixa mais ampla dessa distribuição, ou seja, mais ou menos 3 sigma. Essa faixa já representa 99,74% dos dados.
Essa região, chamamos defaixa natural de variação do processo. A estatística entende que um processo possui uma certa variabilidade, ou seja, trabalha dentro de uma faixa de valores, com determinada variação.
Se esse processo é um processo estável, significa que a variação desse processo vai acontecer dentro dessa faixa de valores.
Se tiver algum problema ou perturbação maior no processo, pode ser que ele produza um resultado que não é o esperado, ou que não era provável, um resultado muito acima ou muito abaixo do normal.
Esse resultado seria um ponto fora dessa faixa de variação natural do processo, ou seja, o famoso ponto fora da curva. Um ponto cuja probabilidade é tão baixa de acontecer que o denominamos de outlier.
Com esse conceito de distribuição normal contextualizado para uma empresa ou processo, é possível comparar e entender, que quando se tem uma base de dados representada pela curva de Gauss compreendida entre uma faixa de mais ou menos 3 sigma, esse processo é consideradoestável.
Para melhor explicar como montar uma curva de distribuição normal, que tal acompanhar um simples exemplo junto comigo? Imagine que em uma sala de aula, o professor anotou a idade de cada um de seus quarenta alunos presentes.
Após coletar os dados ele percebeu que a distribuição da idade dos alunos possuía o formato de uma distribuição normal com média e desvio padrão respectivamente de, μ= 23 e σ= 2.
O objetivo então, é projetar a curva de distribuição normal correspondente aos valores de média e desvio padrão da idade dos alunos. Além de determinar qual é o percentual de alunos com idade entre 21 e 25 anos. E também qual o percentual de alunos com idade entre 19 e 27 anos.
De antemão, já sabemos que o valor de média igual a 23 anos, estará no centro da nossa distribuição. Que ao mesmo tempo é o ponto de valor mais alto da curva.
Como a distribuição normal começa próximo do menos 3 sigma e termina próximo do mais 3 sigma, sabemos que a curva irá começar próximo ao valor de 23-3*2, ou seja 17 anos, e vai ter o decaimento próximo de 23+3*2, ou seja, 29 anos.
Com tais conceitos aplicados já é possível um esboço, veja!
Os alunos com idade entre 21 e 25 anos, representam exatamente ± 1σ, ou seja, 68,26% dos alunos, já os alunos que possuem idade entre 19 e 27 anos, representam a variação de ± 2σ, representando assim 95,44% do total de alunos. Isso representa aproximadamente 38 alunos.
A distribuição normal padrão pode ajudá-lo a descobrir quais disciplinas você está obtendo boas notas e quais você deve estudar mais, de acordo com as notas que vêm obtendo.
Então, você pode pensar: se fui melhor nessa matéria do que em outra, com certeza sou melhor nessa! Mas você pode estar enganado!
Você só pode dizer que é melhor em um assunto específico se obtiver uma pontuação com um certo número de desvios padrão acima da média. O desvio padrão informa a intensidadecom que seus dados são agrupados em torno da média. Ele permite que você compare diferentes distribuições que possuem diferentes tipos de dados - incluindo diferentes meios.
Por exemplo, se você obtiver uma pontuação de 90 em matemática e 95 em português, poderá pensar que é melhor em português do que em matemática. No entanto, em matemática, sua pontuação é de 2 desvios padrão acima da média. Em português, é apenas um desvio padrão acima da média.
Isso significa que, em matemática, sua pontuação é muito maior do que a maioria dos alunos (sua pontuação se apresenta na cauda da distribuição normal).
Com base nesses dados, você realmente teve um desempenho melhor em matemática do que em português!
Ao iniciar um projetoSeis Sigma, o Green ou Black Beltdeve verificar qual é o tipo de dado (contínuo ou discreto) que está lidando na saída do processo. Isto vai determinar quais as ferramentas que serão utilizadas no desenvolvimento do projeto.
Cabe a este profissional definir qual das inúmeras distribuições estatísticas é a que melhor representa o processo que está sendo estudado. As distribuições estatísticas podem ser divididas em dois grandes grupos:
As distribuições discretas por sua vez, devem ser utilizadas para modelar situações em que a saída de interesse só pode assumir valores inteiros (discretos) como, número de caras ou coroas, 0 ou 1 para falha ou sucesso, ou 0,1,2,3,... como o número de ocorrências de um determinado evento de interesse por exemplo.
A distribuição de Poissoné uma distribuição discreta de probabilidade aplicável a ocorrências de um número de eventos em um intervalo específico. Para reconhecer uma distribuição de Poisson, basta observar os 3 aspectos a seguir:
Alguns exemplos de distribuição de Poisson são:
Teoricamente, a distribuição binomialé a distribuição de probabilidade e estatística discreta do número de sucessos decorrentes de uma determinada sequência de tentativas, que seguem à seguintes características:
Aprenda a utilizar um dos métodos mais buscados no mercado!
O Lean Seis Sigma é aplicado em uma das maiores empresas brasileiras, a Ambev! Desde que o método começou a ser utilizado, os erros na linha de produção se aproximam do 0,1%.
Com o Kit Completo do Leis Seis Sigma, você terá acesso a ferramentas de melhorias e conteúdos de workshops com passo a passo para desenvolver projetos Seis Sigma.
Saiba como usar a metodologia Lean Seis Sigma agora!
Clique no banner e baixe o conteúdo:
Possui curso Técnico em Agroindústria pelo IFF (Instituto Federal Fluminense), onde foi o monitor principal da disciplina de matemática. Acumulou por 3 anos, menções honrosas por bom desempenho na OBMEP (Olimpíada Brasileira de Matemática das Escolas Públicas). É graduado em Engenharia Mecânica pela UFJF (Universidade Federal de Juiz de Fora), onde além de continuar lecionando através de monitoria das disciplinas de cálculo 3, resistência dos materiais (I e II), e fundamentos de combustão, participou do movimento empresa júnior. Também foi presidente da equipe universitária de eficiência energética da faculdade, nessa área teve um artigo acadêmico aceito e o apresentou no EMMEC (Encontro Mineiro de Engenharia Mecânica). Leonardo foi estagiário na empresa MRS Logística S.A. onde trabalhou com planilhas gerenciais e liderança de equipes de trabalho a partir da definição de metas. Tem formação complementar Master em MS Excel, Black Belt em Lean Seis Sigma, Análises Estatísticas, Marketing de Conteúdo e Produção de Conteúdo Web. Atualmente ê Mestrando do programa de pós-graduação em Modelagem Computacional da UFJF e colaborador do Grupo Voitto na área de Pesquisa e Desenvolvimento.
Entre para nossa lista e receba conteúdos exclusivos e com prioridade.
Respeitamos sua privacidade e nunca enviaremos spam!