Guia de Estatística — Correlação Parte 2

DP6 Team
Blog DP6
Published in
4 min readFeb 22, 2018

--

No post anterior do nosso guia de estatística demos introdução à análise de correlação e falamos de forma sucinta sobre quando e como fazer este cálculo. Também foi citado que por se tratar de uma análise bem simples é preciso tomar alguns cuidados, e são destes cuidados que falaremos agora nesta segunda parte.

1- Correlação não implica em causalidade

Correlações espúrias é a expressão que se usa para denominar a relação estatística existente entre duas variáveis que não possui explicação lógica. Tyler Vigen criou uma página com alguns exemplos de variáveis que possuem correlações realmente altas e que não fazem nenhum sentido, como a relação entre pessoas que se afogaram em uma piscina com o número de filmes que Nicolas Cage apareceu:

Fonte: http://tylervigen.com/spurious-correlations

Neste caso parece claro que parar de contratar o Nicolas Cage para filmes não deve solucionar o problema dos afogamentos, mas dentro de um ambiente limitado de dados às vezes esta falta de causalidade pode ser difícil de perceber.

Portanto sempre tenham cuidado ao inferir que existe relação de causalidade caso encontre uma alta correlação, ok?

2- Correlações não lineares podem ser fortes sem retornar um alto coeficiente de correlação

Uma das limitações da correlação é o caso de correlações não lineares, onde uma variável não tem uma variação constante (aumenta ou diminui) conforme a outra se altera em um único sentido.

Abaixo temos um exemplo retirado de um artigo onde a correlação dos dados apresentados é de 0,0032.

Fonte: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592006000300001

Visualmente fica claro que parece haver algum tipo de relação entre elas, fato que não conseguimos concluir utilizando apenas o coeficiente de correlação. Por isso é muito importante começar a análise a partir da observação dos dados através dos gráficos de dispersão.

3- Correlação com dados em intervalo de tempos diferentes

No mercado de marketing digital sabemos que algumas ações que são feitas hoje não vão alterar imediatamente a reação dos consumidores. Dependendo da jornada do consumidor do seu produto, pode ser que uma campanha demore algumas semanas ou meses pra ter um resultado significativo nas vendas.

É possível analisar a correlação entre dados da campanha e o efeito dela em um período posterior, e para isso utilizamos um gráfico chamado correlograma, como no exemplo abaixo.

Fonte: https://estatsite.com/2017/06/22/series-temporais-correlograma-interpretacao-e-codigo-em-r/

As linhas verticais indicam o coeficiente de correlação com a diferença do período indicado como Lag.

Exemplo:

Lag 0- Investimento de mídia na semana 1 com o resultado em vendas na semana 1

Investimento de mídia na semana 2 com o resultado em vendas na semana 2

etc.

Lag 1- Investimento de mídia na semana 1, com o resultado em vendas na semana 2

Investimento de mídia na semana 2, com o resultado em vendas na semana 3

etc.

Lag 2- Investimento de mídia na semana 1, com o resultado em vendas na semana 3

Investimento de mídia na semana 2, com o resultado em vendas na semana 4

etc.

E assim por diante.

O lag pode ser semanal, mensal, ou anual, dependendo do intervalo que você está tratando seus dados.

Este gráfico vai dar um sinal caso a correlação seja mais forte com algum intervalo de diferença entre os dados, e à partir daí podemos buscar uma análise mais detalhada do que pode estar acontecendo. O ideal é utilizar esta informação como pista para uma análise mais detalhada, como por exemplo observando os dados de forma visual com os gráficos de dispersão como comentamos antes, ou partindo para análises mais complexas que vamos apresentar neste guia daqui pra frente.

O correlograma é um exemplo do que pode ser feito com funções simples no R, e existem muitas outras análises que parecem complexas mas podem ser feitas em poucos passos. Se quiserem saber como, comentem nosso post ou em nossas redes sociais e faremos um guia focado em explicar como fazer as principais análises com funções desta linguagem de programação.

Perfil do autor: Juliana Sorrentino | Analista de dados digitais com ênfase em comportamento do consumidor, experiência do usuário e otimização de mídia. Já estudou Sistemas de Informação, e hoje está tentando aprimorar os conhecimentos em Marketing e Estatística.

--

--