Meu conhecimento também é limitado na área. Porém, resolvi na ferramenta Tableau, estudar e utilizar nos projetos, dois gráficos, tão pouco explorados nas ferramentas de front-end. Vou falar um pouco do diagrama de caixa (boxplot ou box-whisker, como é chamado no Tableau) e histograma, com exemplos simples de criar e interpretar.
O primeiro deles será o boxplot ou box-whisker neste artigo:
A medida que for criando o gráfico, ficará mais claro sua utilidade. Para criar este gráfico, utilizei a base padrão que acompanha o Tableau, na versão 9.0. Primeiramente, criei uma tabela mensal de vendas por subcategorias, filtradas pelo ano de 2014:
Agora vamos interpretar o gráfico. Primeiro veja que ele mostra uma caixa para cada mês do ano de 2014. E cada pontinho é uma sub-categoria dentro daquele mês:
Repare que se colocar o mouse em outro pontinho, é outra sub-categoria. E que sua posição varia conforme o valor da venda colocado no eixo Y:
Agora vem a pergunta: o que é esta caixa?
Posicionando o mouse sobre ela vemos alguns valores, que representam cada risco da caixa:
- O primeiro risco, o mais baixo, é o valor mínimo.
- O risco mais alto, é o valor máximo.
- O risco de baixo da caixa, é o 1º quartil, ou seja, 25%.
- O risco superior da caixa, é o 3º quartil, ou seja, 75%.
- Já o risco que divide a caixa em duas cores, é a mediana, ou segundo quartil, 50%.
Imagine que você está vendo as vendas daquele mês, do mínimo até o máximo. Caso ir até o risco superior da caixa por exemplo, representa 75% das vendas. Para ficar mais claro, vou voltar a tabela anterior, filtrar o mês de janeiro e classificar do menor para o maior:
Agora compare o tooltip da caixa de janeiro do boxplot com os valores de janeiros ordenados.
- whisker inferior = 114 (valor mínimo, subcategoria Elástico)
- quartil inferior = 3.352 (corresponde a subcategoria Canetas e Materiais de Arte)
- mediana = 10.897 (subcategoria Papel)
- quartil superior = 28.833 (subcategoria Telefones e Comunicação)
- whisker superior = 51.888 (subcategoria Máquinas de Escritório)
Duas observações importantes: A primeira é que nem sempre o valor corresponderá a uma subcategoria, observe que em junho por exemplo, o cálculo do 3º quartil está entre duas subcategorias. A outra observação que é a pergunta que você deve estar fazendo é: porque o valor máximo é o penúltimo valor da série e não o último?
Observe o tooltip da última bolinha (subcategoria) de janeiro:
Este valor é chamado de Outlier. Valores desejados de muitos projetos, Outliers são valores atípicos ou dados muito diferente do conjunto, segundo a wikipedia. E estão disponíveis facilmente neste gráfico.
Segue link com toda explicação teórica deste gráfico:
https://pt.wikipedia.org/wiki/Diagrama_de_caixa
E isso é tudo, espero que tenham gostado.
Abraços
Fabio Idalgo
Nenhum comentário:
Postar um comentário