Si uno mide 1,6 m de altura y pesa 63 kg, da un par de números (1,6; 63) asociados a este chico. Si suponemos las parejas formadas por todos los chicos del grupo y es conveniente tomar siempre primero la altura y después el peso (altura, peso), entonces se dice que los dos conjuntos de datos están correlacionados. Si el grupo de chicos es una muestra no seleccionada, los mayores pesos tenderán a combinarse con las medidas más altas. Por lo general, la relación no será tan precisa como para permitir predecir con precisión el peso de un niño, si conocemos su altura (ver Función); sin embargo, para los problemas de esta clase, la teoría de la correlación proporciona métodos para estimar los valores de una variable que corresponden a los valores conocidos de las demás.
Los conjuntos correlativos de datos numéricos se pueden representar gráficamente mediante un sistema de coordenadas cartesianas (véase Coordenadas). Cuando cada par de números se representa con un punto, el resultado es un diagrama de racimo.
Por lo general, los puntos no se distribuyen en línea recta ni trazan una curva conocida, aunque a veces se encuentran dentro de una banda o zona casi recta (véase la figura). Cuando puede suponerse que la relación entre las dos variables es aproximadamente lineal, se puede calcular un número r, llamado coeficiente de correlación lineal, que juega un papel importante en esta teoría de correlación.
Si aumentar los valores de una variable también aumenta los de otra, el coeficiente de correlación es positivo. Un ejemplo es la relación entre el peso y la altura de los chicos. Si aumentar los valores de una variable tiende a disminuir los de otra, el coeficiente de correlación es negativo. Un ejemplo de esto es la relación entre la temperatura del aire y la altitud. Si existe una relación lineal exacta entre las variables entonces r = + 1, o = – 1. Los valores de r cercanos a cero se asocian con una dispersión máxima de puntos en el diagrama correspondiente, y en estos casos la correlación lineal El método puede proporcionar muy poca información, o por lo menos muy poca información sobre la relación entre las variables. Existen métodos por los que el investigador puede estimar la probabilidad de que un coeficiente calculado sea realmente diferente de cero, o de que un valor de r encontrado para una serie de datos sea significativamente diferente del valor encontrado para otra serie, cuando ambos conjuntos asumen que representan la misma relación entre las variables.
Cuando el valor del coeficiente de correlación es suficientemente grande (por ejemplo 0,9 o más), puede utilizarse para determinar la línea de regresión y existen fórmulas adecuadas que permiten determinar los valores de una variable que corresponden a los de la otras, así como las desviaciones de los valores observados respecto a los calculados. Ver los mínimos cuadrados.
Una vez que los datos se han distribuido en un sistema de coordenadas (como en las figuras), el método de los mínimos cuadrados permite encontrar el llamado coeficiente de correlación lineal, que es un índice de la aproximación de los puntos a la recta ideal de correlación perfecta. , utilizando la fórmula siguiente:
r = √[1- ∑(d^2)/∑(y^2)]
donde ∑ (d^2) representa la suma de los cuadrados de las desviaciones de los datos respecto al valor medio, según el método de los mínimos cuadrados, y ∑ (y^2) la suma de los cuadrados de las desviaciones de los datos con respecto a la media aritmética (véase Desviaciones) .
La fórmula clásica de Pearson es
r = (∑x̅y̅) / √ ([∑x̅^2).∑(y̅^2)]
para dos series x, y, de valores correlacionados (x̅, y̅ son desviaciones del valor medio).
La teoría de la correlación lineal está muy extendida y se utiliza en investigaciones en distintos campos. Existen métodos para estudiar la correlación curvilínea, pero su uso es menos frecuente.
Se utilizan múltiples coeficientes de correlación para estudiar las relaciones entre una variable dependiente y dos o más. Los coeficientes de correlación parcial se utilizan para estudiar las relaciones de una variable con otra cuando se asigna un valor constante a cada una de las restantes variables que aparecen. Cuando una serie de datos alcanza un coeficiente de correlación significativamente diferente de cero, no se deduce necesariamente que exista una relación aleatoria entre las variables, aunque estas preguntas entran dentro de los dominios de la teoría de la correlación.