1 research outputs found
On the proper use of the Pearson correlation coefficient: definitions, properties and assumptions
El coeficiente de correlación de Pearson es una medida considerablemente utilizada en diversas áreas del quehacer cientÃfico, desde estudios técnicos, econométricos o de ingenierÃa; hasta investigaciones relacionadas con las ciencias sociales, del comportamiento o de la salud. Es precisamente esta extensa y profusa divulgación una de las razones que explicarÃa el uso indebido que se le da a esta herramienta estadÃstica, especialmente en aquellos escenarios en los que debe ser interpretada correctamente o en los que se tienen que comprobar las suposiciones matemáticas que la sustentan. Un ejemplo de esto se halla cuando se asume que la correlación implica causalidad, confusión en la que se incurre con frecuencia y en la que se ven involucrados, tanto investigadores noveles, como algunos más experimentados. Pero tal vez el foco de mayores errores se encuentre al momento de comprobar premisas como la de la normalidad, siendo que esta se verifica únicamente a nivel univariado y se omite su revisión bivariada, quizás por desconocimiento o porque exige la utilización de técnicas más complejas. Situación similar se observa cuando se intentan detectar datos atÃpicos. En este caso, lo común es que se empleen diagramas de caja y bigotes para identificar valores extremos en cada variable, cuando lo apropiado serÃa abordar esta tarea con procedimientos que cuantifiquen la distancia que separa a dicha observación del centro de gravedad de los datos, pero de manera simultánea y tomando en cuenta todos los componentes del espacio vectorial en que se encuentra. En tal sentido, se propone la presente revisión como aporte para esclarecer estas dudas y como guÃa metodológica para orientar en la verificación de tales supuestos, abordando el aspecto matemático de manera general, pero enfatizando en las alternativas de que dispone el investigador para acometer debidamente este tipo de análisis.The Pearson correlation coefficient is a measure widely used in several areas of scientific work, from technical, econometric or engineering studies; to social, behavioral or health sciences researches. It’s precisely this extensive and profuse disclosure one of the reasons that would explain the misuse of this statistical tool, especially in those cases in which it must be correctly interpreted, or in those situations in which the mathematical assumptions that support it have to be checked. An example of this arise when it’s assumed that correlation implies causation, confusion that occurs frequently and involves both, novice and experienced researches. But perhaps the mayor focus of errors is found when checking assumptions such as normality, since it’s verified only at univariate level omitting its bivariate verification, possibly due to lack of knowledge or because it requires more complex techniques. Similar situation is observed when trying to detect outliers. In this case, it's common to use box and whisker plots to identify extreme values in each variable, when the appropriate would be to approach this task using procedures that calculate the distances that separates this observation of the center of the data, taking into account all its vector space components. In this regard, this review is proposed as a contribution to clarify these doubts and as a methodological guide to help in the verification of such assumptions, addressing the mathematical aspect in a general manner, but emphasizing the alternatives available to undertake this type of analysis