quinta-feira, 12 de novembro de 2015

Análises Estatísticas no Tableau parte 1 - boxplot (ou box-whisker)

Em mais de um de nossos artigos, resolvi abordar este tema que são as análises estatísticas nos projetos de BI. Infelizmente, poucos projetos de BI se dão ao luxo de ter um estatístico na equipe ou uma consultoria envolvida. Além disso, é muito difícil encontrarmos gráficos ou conceitos mais avançados em nossos dashboards.

Meu conhecimento também é limitado na área. Porém, resolvi na ferramenta Tableau, estudar e utilizar nos projetos, dois gráficos, tão pouco explorados nas ferramentas de front-end. Vou falar um pouco do diagrama de caixa (boxplot ou box-whisker, como é chamado no Tableau) e histograma, com exemplos simples de criar e interpretar.

O primeiro deles será o boxplot ou box-whisker neste artigo:


A medida que for criando o gráfico, ficará mais claro sua utilidade. Para criar este gráfico, utilizei a base padrão que acompanha o Tableau, na versão 9.0. Primeiramente, criei uma tabela mensal de vendas por subcategorias, filtradas pelo ano de 2014:


Dupliquei a planilha, cliquei na guia Mostre-me e escolhi o gráfico box-whisker


Agora vamos interpretar o gráfico. Primeiro veja que ele mostra uma caixa para cada mês do ano de 2014. E cada pontinho é uma sub-categoria dentro daquele mês:


Repare que se colocar o mouse em outro pontinho, é outra sub-categoria. E que sua posição varia conforme o valor da venda colocado no eixo Y:


Agora vem a pergunta: o que é esta caixa?


Posicionando o mouse sobre ela vemos alguns valores, que representam cada risco da caixa:

  • O primeiro risco, o mais baixo, é o valor mínimo
  • O risco mais alto, é o valor máximo. 
  • O risco de baixo da caixa, é o 1º quartil, ou seja, 25%. 
  • O risco superior da caixa, é o 3º quartil, ou seja, 75%. 
  • Já o risco que divide a caixa em duas cores, é a mediana, ou segundo quartil, 50%.

Imagine que você está vendo as vendas daquele mês, do mínimo até o máximo. Caso ir até o risco superior da caixa por exemplo, representa 75% das vendas. Para ficar mais claro, vou voltar a tabela anterior, filtrar o mês de janeiro e classificar do menor para o maior:


Agora compare o tooltip da caixa de janeiro do boxplot com os valores de janeiros ordenados. 

  • whisker inferior = 114 (valor mínimo, subcategoria Elástico)
  • quartil inferior = 3.352 (corresponde a subcategoria Canetas e Materiais de Arte)
  • mediana = 10.897 (subcategoria Papel)
  • quartil superior = 28.833 (subcategoria Telefones e Comunicação)
  • whisker superior = 51.888 (subcategoria Máquinas de Escritório)
Duas observações importantes: A primeira é que nem sempre o valor corresponderá a uma subcategoria, observe que em junho por exemplo, o cálculo do 3º quartil está entre duas subcategorias. A outra observação que é a pergunta que você deve estar fazendo é: porque o valor máximo é o penúltimo valor da série e não o último?

Observe o tooltip da última bolinha (subcategoria) de janeiro:


Este valor é chamado de Outlier. Valores desejados de muitos projetos, Outliers são valores atípicos ou dados muito diferente do conjunto, segundo a wikipedia. E estão disponíveis facilmente neste gráfico.

Segue link com toda explicação teórica deste gráfico:

https://pt.wikipedia.org/wiki/Diagrama_de_caixa

E isso é tudo, espero que tenham gostado.

Abraços

Fabio Idalgo

Nenhum comentário:

Postar um comentário