Qué es el tamaño del efecto: guía completa para entender la magnitud de las diferencias
En investigación y análisis de datos, a menudo uno se encuentra frente a dos preguntas clave: ¿existe una diferencia o una relación? y, mucho más importante para la práctica, ¿qué tan grande es esa diferencia o cuánta información explica esa relación? El concepto de tamaño del efecto responde a esta segunda pregunta. A diferencia de la mera significación estadística, que indica si un efecto podría existir, el tamaño del efecto cuantifica la magnitud real de ese efecto en la población. En este artículo exploramos en profundidad Qué es el tamaño del efecto, cómo se interpreta, qué tipos existen y cómo se reporta en informes y publicaciones para que su valor sea claro para lectores y tomadores de decisiones.
Qué es el tamaño del efecto
El tamaño del efecto, o magnitud del efecto, es una medida que describe la magnitud de una diferencia entre grupos o la fortaleza de una relación entre variables. Es una representación cuantitativa de “cuánto” cambia una variable en relación con otra, o de cuánto de la variabilidad en una variable puede ser explicada por otra. A diferencia del valor p, que solo indica si un resultado podría deberse al azar, el tamaño del efecto informa sobre la relevancia práctica y la importancia sustantiva de ese resultado.
Al hablar de Qué es el tamaño del efecto, conviene distinguir dos grandes familias: diferencias entre grupos (tamaños de efecto para comparaciones) y relaciones entre variables (efectos de predicción o asociación). En ambas, el objetivo es comunicar no solo si hay un hallazgo, sino cuán sustancial es ese hallazgo para la disciplina, la decisión clínica, la política educativa o la intervención práctica.
La magnitud de un efecto tiene varias dimensiones relevantes para la investigación y la práctica. Primero, ayuda a interpretar si un resultado es clínicamente o pedagógicamente significativo, más allá de si es estadísticamente significativo. Segundo, facilita la comparación entre estudios que emplean diferentes escalas o instrumentos. Tercero, es un componente esencial en meta-análisis y síntesis de evidencia, donde se combinan efectos de distintos tamaños para obtener una estimación global. Cuarto, guía la planificación de muestras: a mayor tamaño del efecto esperado, menor es el tamaño de muestra necesario para detectar ese efecto con determinada potencia. Y quinto, favorece la toma de decisiones en políticas y prácticas, al dar una estimación tangible de la magnitud del impacto esperado.
En este sentido, comprender Qué es el tamaño del efecto y saber cuándo dar prioridad a su interpretación permite pasar de “existe diferencia” a “cuánta diferencia hay y qué implica” para la teoría y la práctica. Los lectores críticos buscan no solo saber si la diferencia es real, sino también cuánto aporta, en qué contextos es relevante y cómo se compara con otros hallazgos en el campo.
Cohen’s d (d de diferencias entre medias)
El Cohen’s d es uno de los tamaños del efecto más citados para comparar dos grupos en estudios con variables continuas. Se interpreta como la diferencia de medias estandarizada. La fórmula básica para dos grupos independientes es:
d = (M1 − M2) / SD_pooled
Donde SD_pooled es una estimación de la desviación típica combinada de ambos grupos, calculada a partir de las desviaciones estándar y tamaños de muestra de cada grupo. Una interpretación clásica propone: 0.2 es pequeño, 0.5 medio y 0.8 grande, aunque estas referencias deben contextualizarse en el dominio de estudio. En muestras emparejadas o dependientes, se utiliza una versión que incorpora la desviación de las diferencias individuales.
r de Pearson y r al cuadrado (r^2)
R de Pearson mide la fuerza y dirección de una relación lineal entre dos variables continuas. Su valor oscila entre −1 y 1, donde valores cercanos a ±1 indican relaciones fuertes y valores cercanos a 0 indican relaciones débiles. El coeficiente de determinación, r^2, representa la proporción de la varianza en la variable dependiente que puede explicarse por la variable independiente. Por ejemplo, un r = 0.6 implica un r^2 = 0.36, es decir, el 36% de la variabilidad se explica por esa relación lineal.
Odds ratio (OR) y riesgos relativos (RR)
En estudios de casos y controles o de intervención clínica, los tamaños del efecto suelen expresarse como odds ratio (OR) o riesgo relativo (RR). El OR describe la razón de odds entre dos grupos para un evento binario. Un OR mayor que 1 indica mayor probabilidad del evento en el grupo expuesto, mientras que un OR menor que 1 sugiere menor probabilidad. En la práctica, valores de OR cercanos a 1 indican efectos pequeños; cuanto más lejos de 1, mayor es el efecto.»
Eta cuadrada (η^2) y eta cuadrada parcial
En ANOVA, η^2 cuantifica la proporción de la varianza total explicada por un factor. Por ejemplo, η^2 = 0.08 indica que el 8% de la varianza total se debe al efecto del factor. La versión parcial (η^2 parcial) considera solo la varianza asociada al factor en combinación con el error residual, lo que puede dar una estimación más conservadora en diseños con múltiples factores.
Tamaños del efecto en regresión y modelos lineales (f^2)
En modelos de regresión, f^2 es un tamaño del efecto que se utiliza para cuantificar la magnitud de la relación entre un conjunto de predictores y la variable respuesta. Se relaciona con R^2 mediante la fórmula f^2 = R^2 / (1 − R^2). Valores comunes de referencia para f^2 son 0.02 (pequeño), 0.15 (mediano) y 0.35 (grande), aunque, como siempre, el contexto importa.
Cliff’s delta y otras medidas no paramétricas
En datos no paramétricos o cuando no se cumplen supuestos de normalidad, existen tamaños del efecto como Cliff’s delta, que cuantifica la probabilidad de que una observación de un grupo supere a una observación del otro grupo. Estas medidas proporcionan interpretaciones intuitivas cuando las pruebas paramétricas no son adecuadas.
Cohen’s d para diferencias entre grupos
Para dos grupos independientes, se calcula como d = (M1 − M2) / SD_pooled, y SD_pooled es una media ponderada de las desviaciones estándar de cada grupo. Para grupos pareados, se utiliza la desviación estándar de las diferencias entre pares. En muestras pequeñas, es recomendable reportar también un intervalo de confianza alrededor de d para mostrar la precisión de la estimación.
Pearson r y r^2
r se obtiene directamente de la correlación entre dos variables. En algunos casos, es útil reportar r^2 para expresar la varianza explicada. Si se tiene un t-estadístico, es posible transformar t en r usando la fórmula r = sqrt(t^2 / (t^2 + df)), donde df es los grados de libertad, siempre teniendo en cuenta el diseño del estudio.
Odds ratio (OR) y riesgo relativo (RR)
En tablas 2×2, OR se calcula como (a*d)/(b*c), donde a, b, c y d son las frecuencias en cada celda de la tabla. RR se calcula como (a/(a+b)) / (c/(c+d)). Es crucial indicar que OR y RR tienen interpretaciones distintas dependiendo del diseño y la población, y que su interpretación numérica mejora cuando se acompañan de intervalos de confianza.
Eta cuadrada (η^2) y η^2 parcial
Para ANOVA, η^2 se calcula como SS_effect / SS_total, con SS representing sum of squares. La versión parcial se obtiene con SS_effect / (SS_effect + SS_error). Reportar ambos valores puede ayudar a entender la magnitud del efecto dentro del diseño experimental específico.
f^2 en regresión
En modelos de regresión, f^2 se deriva de R^2 y ofrece una forma de describir la magnitud del efecto de un conjunto de predictores. Por ejemplo, si añadir un predictor a un modelo aumenta R^2 de 0.10 a 0.20, entonces f^2 se ubicaría en un rango medio, según las reglas prácticas. Incluir el valor de R^2 y el intervalo de confianza para R^2 facilita la interpretación.
Tamaños del efecto no paramétricos
Para datos no paramétricos, consultar medidas como Cliff’s delta o la correlación de rango (tau de Spearman) puede ayudar a describir la magnitud sin depender de supuestos rigurosos de normalidad. Estos tamaños del efecto se interpretan de forma similar a sus equivalentes paramétricos, con umbrales contextuales adaptados al campo.
La interpretación de un tamaño del efecto debe situarse en el contexto científico y práctico. Las pautas numéricas (por ejemplo, 0.2, 0.5, 0.8 para Cohen’s d) son útiles como guía, pero no deben tomarse como absolutas. En ciertas áreas, un tamaño de 0.3 podría ser considerado grande si la intervención es costosa o difícil de lograr, mientras que en otras disciplinas podría considerarse pequeño. En general:
- Para Cohen’s d: 0.2 suele interpretarse como pequeño, 0.5 como medio y 0.8 como grande, pero la relevancia práctica depende del campo y del costo de la intervención.
- Para r y R^2: valores cercanos a 0.1-0.2 pueden indicar relaciones moderadas, pero la utilidad práctica dependerá de la variabilidad y de las decisiones basadas en ese conocimiento.
- Para OR y RR: valores lejanos de 1 indican efectos más fuertes; la interpretación clínica o de política se beneficia de conocer intervalos de confianza y el tamaño absoluto del efecto en la población estudiada.
- Para η^2 y f^2: la magnitud debe evaluarse en relación con el diseño experimental y el objetivo de la investigación.
Además de los valores puntuales, es crucial reportar intervalos de confianza para el tamaño del efecto. Los intervalos muestran la precisión de la estimación y ayudan a entender la variabilidad entre muestras. En la práctica, los intervalos de confianza acompañan al tamaño del efecto para comunicar una imagen completa de la magnitud y la incertidumbre del hallazgo.
Ejemplo en psicología
Un estudio que evalúa la eficacia de una intervención cognitiva frente a un grupo de control mide un aumento en la puntuación de atención. Supongamos que las medias son M1 = 78 y M2 = 72, con SD_pooled = 8 y tamaños de muestra similares. El Cohen’s d sería d = (78 − 72) / 8 = 0.75, lo que se interpreta como un tamaño de efecto grande, indicando una mejora sustancial en la atención atribuible a la intervención, más allá de la significancia estadística. Reportar un intervalo de confianza para d, por ejemplo, [0.40, 1.10], aportaría información sobre la estabilidad de ese efecto.
Ejemplo en educación
En un ensayo educativo, un nuevo programa de enseñanza online se compara con el método tradicional. La puntuación promedio de comprensión lectora de un grupo experimental es 68 frente a 64 en el grupo de control, con SD_pooled de 5. El d resulta 0.80, lo que sugiere un efecto grande. Este resultado, acompañado de un intervalo de confianza, puede justificar la adopción de la intervención a escala, siempre que se consideren costos y factibilidad.
Ejemplo en medicina
En un ensayo clínico, se compara un nuevo fármaco frente a placebo. La proporción de eventos adversos es 14% frente a 7%. El odds ratio resultante es cercano a 2,0, indicando que el fármaco duplica la probabilidad de un evento en comparación con placebo. Aunque este OR puede considerarse moderadamente grande, su interpretación clínica debe equilibrarse con la severidad de los eventos y la eficacia del fármaco en otros desenlaces. En este caso, también conviene reportar RR y su intervalo de confianza para ofrecer una visión completa.
Relación entre significancia y tamaño del efecto
Una p-valor pequeña no garantiza un tamaño de efecto grande. Podríamos tener un resultado estadísticamente significativo pero con un tamaño del efecto casi nulo, lo cual podría no justificar cambios en la práctica. Por ello, los informes de investigación deben incluir tanto la significancia estadística como el tamaño del efecto y su intervalo de confianza. Esta práctica mejora la claridad y la utilidad de los resultados para lectores, revisores y responsables de políticas.
Cómo reportar el tamaño del efecto en artículos y presentaciones
Una buena práctica de reporte incluye:
- Indicar el tamaño del efecto específico (p. ej., d, r, η^2, OR) junto con su valor numérico.
- Incluir el intervalo de confianza correspondiente para la estimación del tamaño del efecto.
- Proporcionar una breve interpretación práctica en el contexto del estudio.
- Si corresponde, comparar el tamaño del efecto con valores de referencia en la literatura para dar contexto.
- Asegurarse de especificar el diseño (independientes, pareados, medidas repetidas, etc.) para que el lector entienda la estimación.
- Planifica con anticipación la magnitud de efecto que esperas encontrar. Esto te ayudará en la etapa de diseño experimental y en la determinación del tamaño de muestra adecuado.
- Cuando sea posible, reporta más de un tamaño del efecto. Por ejemplo, acompaña d con r o con η^2 para proporcionar una visión más completa de la magnitud en distintos contextos.
- Incluye intervalos de confianza para todos los tamaños del efecto reportados. La precisión de la estimación es tan importante como la magnitud en sí.
- Ten en cuenta el contexto disciplinario. Los umbrales de “grande” o “pequeño” son relativos a la disciplina y al tipo de intervención o fenómeno estudiado.
- Utiliza software común para cálculos y gráficos de tamaños del efecto, de modo que otros investigadores puedan reproducir y verificar tus resultados.
- Confundir tamaño del efecto con significancia estadística. Un resultado puede ser significativo pero de magnitud pequeña y no justificar cambios prácticos.
- No reportar intervalos de confianza. Sin ellos, la estimación carece de información sobre la precisión.
- Aplicar umbrales fijos de interpretación sin considerar el contexto. Las reglas de 0.2/0.5/0.8 para d, por ejemplo, son guías, no absolutos universales.
- Omitir la comparación entre estudios. El tamaño del efecto facilita la meta-análisis y la síntesis de evidencia cuando hay variabilidad entre instrumentos y muestras.
Hoy existen herramientas accesibles que facilitan el cálculo y la interpretación de Qué es el tamaño del efecto en diferentes diseños y tipos de datos.
- R: paquetes como «effectsize» y «psych» permiten calcular Cohen’s d, r, η^2, f^2 y otros tamaños del efecto, además de generar intervalos de confianza y gráficos explicativos.
- Python: bibliotecas como SciPy y StatsModels ofrecen funciones para calcular coeficientes de correlación, diferencias entre medias y tamaños del efecto asociados a modelos de regresión y ANOVA.
- SPSS, SAS y Jamovi/JASP: paquetes y menús que facilitan la obtención de tamaños del efecto junto con pruebas de hipótesis y progresiones de confianza.
- Guías y tutoriales: consultar guías de informes de resultados y manuales de revistas puede ayudar a estandarizar el reporte de tamaños del efecto en publicaciones científicas.
En resumen, el tamaño del efecto es una pieza central para entender la relevancia de los hallazgos. No se trata solo de saber si hay diferencia o relación, sino de cuantificar cuán grande es esa diferencia o cuánta varianza explica. Incorporar y reportar adecuadamente Qué es el tamaño del efecto en informes, presentaciones y publicaciones eleva la calidad de la investigación y facilita la toma de decisiones informadas. Al adoptar una práctica que combine magnitud, precisión y contexto, los investigadores pueden ofrecer una visión más completa y útil de sus resultados, favoreciendo avances sostenibles en ciencia y práctica profesional.