O Box Plot, também conhecido como diagrama de caixa, é uma ferramenta gráfica e estatística que nos auxilia a representar alterações em dados e interpretar suas variáveis. Confira neste artigo mais sobre o conceito e aprenda, em poucos passos, a elaborar um Box Plot no Minitab.
O que é um Box Plot?
Para a estatística, o Box Plot (Diagrama de Caixa) é, em suma, um resumo gráfico da distribuição de uma amostra. Seu gráfico apresenta qual é a forma, a tendência central e a variabilidade da amostra analisada. Sua aplicação é uma alternativa a outros métodos conhecidos como o histograma, por exemplo.
Quais são os elementos de um gráfico Box Plot?
Box Plot são úteis para identificar outliers e para comparar distribuições. Para construir um box plot, há várias maneiras, mas o início dá-se pelo cálculo do primeiro quartil, a mediana e o terceiro quartil. A linha inferior é o primeiro quartil, ou limite dos 25% dos dados. A linha média é a mediana e a linha superior é o terceiro quartil.
Os bigodes são linhas verticais que terminam em um traço horizontal. Os bigodes são extraídos das dobradiças superior e inferior para os valores superior e inferior ao primeiro e terceiro quartis, representando os valores de máximo e mínimo da distribuição. Há ainda, os outliers que são pontos cujo valor é 50% maior do que o terceiro quartil ou 50% menor que o primeiro quartil
O Box Plot pode ser colocado em um plano de coordenadas semelhante ao sistema cartesiano, de modo que os cinco valores, dispostos na vertical um acima do outro, correm paralelos à variável dependente ou ao eixo y.
Em algumas situações, dois ou mais Box Plot podem ser colocados lado a lado num plano de coordenadas cartesiano para mostrar como um fenômeno ou cenário evolui com o tempo, que é plotado ao longo da variável independente ou eixo x. De vez em quando, um box plot único é inclinado em seu lado, portanto, os valores são executados da esquerda para a direita (mínimo para máximo) em vez de de baixo para cima.
Para que serve um Box Plot?
Um box plot é um gráfico utilizado para representar visualmente a distribuição de um conjunto de dados, mostrando informações importantes, como a mediana, quartis, valores mínimos e máximos, além de possíveis valores discrepantes (outliers). Ele é muito útil para identificar padrões e características dos dados, tais como sua simetria, dispersão, tendência central e presença de valores extremos.
É útil em diversas áreas, tais como estatística, ciência de dados, engenharia, finanças e pesquisas em geral. Por exemplo, ele pode ser utilizado para comparar a distribuição de variáveis entre grupos de dados, identificar valores discrepantes em experimentos científicos, ou para analisar a distribuição de preços de ações no mercado financeiro.
Como interpretar o Box Plot?
Como objetivo central, o Box Plot propõe a verificação da distribuição de determinados dados. Portanto, ao analisarmos sua conclusão gráfica, consideramos o centro dos dados (média ou mediana), a amplitude dos dados (máximo - limite superior ou mínimo - limite inferior), bem como a simetria ou falta dela no conjunto de dados e a própria presença de outliers.
Outliers
São pontos ou asteriscos presentes fora das “linhas” desenhadas. Ou seja, é um valor que foge da normalidade dos dados e que pode, ou irá, causar anomalias nos resultados obtidos. Esses valores discrepantes requisitam atenção do profissional que elabora e analisa o gráfico Box Plot, pois sua interpretação infere grande importância para a discussão do assunto representado no gráfico.
Quartis
Um quartil é um valor que divide uma determinada parcela de dados em quatro partes iguais. Através deles podemos com maior eficácia avaliar e interpretar a dispersão e a tendência central representadas no gráfico. Quartis podem ser divididos em superiores e inferiores. Em geral, 75% dos pontos se alocam abaixo do quartil superior, enquanto 25% são representados abaixo do quartil inferior.
5 Definições importantes:
Além dos outliers e quartis, há outros importantes termos que são utilizados em um Box Plot. Listamos para você cada um dos termos e sua definição, confira:
- Máximo (Maximum): Configura o maior valor, excluindo os outliers;
- Mínimo (Minimum): Abrange o menor valor, também excluindo os outliers;
- Mediana (Median): A mediana é o ponto de um intervalo médio dos dados e nos é apresentada pela linha que divide a “caixa” em duas partes. Metade das pontuações são maiores ou iguais a esse valor e metade são menores a ele;
- Intervalo Interquartil: O meio da “caixa” representa 50% das pontuações para o grupo. A gama de pontos do quartil inferior ao superior é referida como a faixa interquartil. Os 50% médios das pontuações estão dentro da faixa interquartil;
- Bigodes: Divididos em superiores e inferiores, os bigodes representam pontos fora dos 50%. Bigodes muitas vezes (mas nem sempre) avançam sobre uma gama mais ampla de pontuações do que os grupos de quartil médio.
Quais são as variantes de Box Plot e quando usá-las?
Box Plot Simples
É o tipo mais comum de box plot, que mostra a distribuição de um conjunto de dados usando um retângulo (a caixa) que representa o intervalo interquartil (IQR), as linhas (os "whiskers") que se estendem a partir da caixa representando a distribuição dos dados além do IQR e os pontos que representam outliers. Esse tipo de box plot é útil para visualizar a distribuição de um conjunto de dados e identificar outliers.
Box Plot com média
Esse tipo de box plot inclui uma linha que representa a média dos dados, além da caixa e dos whiskers. É útil quando a média é uma estatística importante para se analisar.
Box Plot com percentis
Esse tipo de box plot usa os percentis em vez dos quartis para definir a caixa e os whiskers. Isso pode ser útil quando você deseja visualizar a distribuição dos dados em intervalos específicos.
Notched Box Plot
Esse tipo de box plot usa um entalhe (notch) na caixa para mostrar a incerteza em torno da mediana. É útil quando você deseja comparar a mediana de dois ou mais grupos de dados.
Violin Plot
Esse tipo de plot combina um box plot com um gráfico de densidade. Ele mostra a distribuição de um conjunto de dados como um "violino" em vez de uma caixa, o que pode ser útil para visualizar distribuições complexas.
Box Plot empilhado
Esse tipo de box plot empilha vários conjuntos de dados uns sobre os outros em um mesmo gráfico. Ele pode ser útil para visualizar a distribuição de dados entre vários grupos, permitindo a comparação direta entre eles.
O curso gratuito de "Fundamentos da Ciência de Dados" da FM2S é uma ponte vital para profissionais que aspiram a transformar suas carreiras utilizando habilidades altamente relevantes no contexto de negócios moderno. Especialmente focado em interpretar e analisar grandes volumes de dados, este curso ensina a maximizar o valor para o cliente e a fortalecer a competitividade no mercado através de uma gestão de dados eficaz e inovadora.
Um dos aspectos cruciais da ciência de dados abordados neste curso é o entendimento e aplicação de técnicas estatísticas, como o box plot.
Este curso é ideal para quem deseja impulsionar sua trajetória profissional e aprimorar suas habilidades em análise de dados, tornando-se um profissional mais competitivo e preparado para os desafios do mercado moderno.
Quando usar um Box Plot em vez de um histograma ou gráfico de barras?
Distribuição dos dados
O box plot é uma boa escolha quando você deseja visualizar a distribuição dos dados, incluindo a mediana, quartis e possíveis outliers. Por outro lado, o histograma é uma boa escolha quando você deseja visualizar a forma geral da distribuição, incluindo a frequência de ocorrência de valores em cada intervalo.
Comparação de grupos
O box plot é uma boa escolha quando você deseja comparar a distribuição de variáveis entre dois ou mais grupos. Por outro lado, o gráfico de barras é uma boa escolha quando você deseja comparar a frequência de ocorrência de diferentes categorias ou valores discretos entre dois ou mais grupos.
Tamanho da amostra
O histograma e o gráfico de barras são boas escolhas quando você tem muitos dados, pois permitem visualizar a distribuição de frequência de cada valor ou categoria. Por outro lado, o box plot é uma boa escolha quando você tem menos dados, pois ele fornece uma visualização clara das características principais da distribuição, sem precisar visualizar cada valor individual.
Enfatizar valores extremos
O box plot é uma boa escolha quando você deseja enfatizar a presença de possíveis outliers ou valores extremos. Por outro lado, o histograma e o gráfico de barras não destacam os valores extremos de maneira tão clara quanto o box plot.
Quais são as limitações do Box Plot?
Simplificação da distribuição dos dados
O box plot fornece uma visualização resumida da distribuição dos dados, incluindo informações como a mediana, quartis, valores mínimos e máximos e possíveis outliers. No entanto, ele não fornece informações detalhadas sobre a forma exata da distribuição, como a presença de múltiplos picos, assimetria ou curtose. Portanto, o box plot pode não ser adequado para analisar distribuições complexas.
Perda de informação sobre a frequência de ocorrência de valores individuais
O box plot não fornece informações detalhadas sobre a frequência de ocorrência de cada valor individual, o que pode ser importante para algumas análises. Por exemplo, em um conjunto de dados com valores repetidos, o box plot não indicará quantas vezes cada valor aparece.
Sensibilidade à escolha do tamanho do intervalo
A largura do intervalo de cada box plot pode influenciar a visualização da distribuição dos dados. Se o intervalo for muito largo, os detalhes da distribuição podem ser perdidos. Por outro lado, se o intervalo for muito estreito, os outliers podem se tornar mais proeminentes do que deveriam.
Dificuldade em comparar distribuições com diferentes escalas
Quando os dados possuem escalas diferentes, pode ser difícil comparar a distribuição de um conjunto de dados com outro usando o box plot. Isso ocorre porque a escala afeta a largura da caixa e o comprimento dos whiskers.
Potencial para interpretação errônea
Assim como qualquer método de visualização de dados, o box plot pode ser interpretado incorretamente se a pessoa que o utiliza não entender suas propriedades e limitações. Por exemplo, a presença de um outlier em um box plot não significa necessariamente que houve um erro ou problema com o conjunto de dados.
Dica:
Nosso curso de certificação Black Belt apresenta as ferramentas mais básicas (inclui o módulo Green Belt) e mais avançadas (em seu módulo Transição Black Belt). Os alunos aprendem ferramentas avançadas de estatística, bem como técnicas de gestão estratégica e ferramentas para análise, o software Minitab incluso. A abordagem do curso da FM2S é extremamente prática.
Como fazer um Box Plot no Minitab?
O Minitab é um ótimo software estatístico que é muito utilizado para a elaboração de gráficos e análise de dados. Sua facilidade de aprendizado, intuitividade e rapidez de preparação de gráficos, são pontos de destaque para a ferramenta. Além disso, qualquer pessoa tem acesso a versão de teste, totalmente gratuita, realizando o download no site do próprio Minitab.
Colete os dados
Para exemplificar, vamos utilizar uma situação fictícia sobre "A Produção de Cerveja no Brasil". Nosso objetivo aqui é explicar de maneira gráfica e assertiva o comportamento da produção mensal de bebidas ao longo de diferentes anos, verificando a distribuição do volume de produção.
Os dados podem ser coletados de uma fonte confiável e organizados em uma planilha. Aqui está um exemplo de como você pode organizar os dados:
Mês Ano Produção (milhões de litros)
Janeiro…………2020………...1.120
Fevereiro………2020……..….1.150
Março…………..2020……..….1.120
… … …
Dezembro……..2020……..….1.130
Janeiro…………2021……..….1.098
Fevereiro………2021……..….1.125
… … …
Dezembro………2021……..…1.350
Passo a Passo para Elaborar o Box Plot
Abra o Minitab: Certifique-se de que você tem o software instalado e aberto no seu computador.
Insira os Dados: Digite os dados na planilha do Minitab, organizando-os de forma que cada coluna corresponda ao mês, ao ano e à produção, conforme o exemplo acima.
Selecione o Gráfico: No menu superior, clique em Graph. Selecione a opção Boxplot.
Configurar o Gráfico: Escolha Multiple Y’s para comparar a produção em diferentes meses. Insira as colunas de dados que contêm as informações de produção mensal.
Personalizar o Box Plot: Para identificar os outliers, clique na caixa Labels e selecione Outliers. Marque a opção Use labels from column e selecione a coluna correspondente às datas ou outra identificação pertinente.
Analise o gráfico
Ao finalizar a configuração e a criação do gráfico, você terá um Box Plot que mostra a produção de bebidas no Brasil ao longo de diferentes meses e anos. Aqui estão alguns pontos de análise que você pode considerar:
- Distribuição Mensal: Identifique os meses de maior e menor produção. Por exemplo, dezembro pode ser consistentemente o mês de maior produção, enquanto junho pode ser o de menor produção.
- Variação Mensal: Verifique a variação na produção de cada mês. Meses como janeiro podem mostrar uma variação maior, enquanto meses como junho podem ter variações menores.
- Outliers: Análise possíveis outliers para entender eventos ou condições especiais que afetaram a produção.
Esse processo permite uma compreensão detalhada do comportamento da produção ao longo do tempo, ajudando a identificar padrões e tendências importantes para decisões estratégicas.