LA "LEY" DE LOS NÚMEROS PEQUEÑOS Un estudio de la incidencia de cáncer en los riñones en más de 3 mil ciudades de EU reveló un ...

LA "LEY" DE LOS NÚMEROS PEQUEÑOS

LA "LEY" DE LOS NÚMEROS PEQUEÑOS

Un estudio de la incidencia de cáncer en los riñones en más de 3 mil ciudades de EU reveló un patrón notable: los lugares con menos incidencia eran rurales, con poca población, y localizados en estados republicanos en el medio este, el sur, y el este. ¿Por qué?

Esta pregunta pone a trabajar a la parte analítica, disciplinada y encargada de la atención de nuestra mente (el llamado Sistema 2, en adelante S2). Es fácil y tentador suponer que las bajas tasas de cáncer se deben al ambiente más limpio de la vida rural, sin comida chatarra, ni contaminación. Esto tiene sentido.

Pero veamos los lugares de más incidencia de cáncer. Son también las más rurales, con poca población, y localizadas en estados republicanos del medio este, el sur y el este. Es fácil inferir que esto se debe a la pobreza de la vida rural, sin acceso a buena medicina y con amplio consumo de tabaco y alcohol. Esto tiene sentido.

El factor clave no es ser rural o republicano. Es que estos lugares tienen poblaciones pequeñas. Y la lección principal no es de epidemiología, es sobre la difícil relación entre la mente y la estadística. La parte automática de nuestra mente (llamado Sistema 1, en adelante S1) es adepta a pensar buscando conexiones entre eventos, a pensar que esos lugares son diferentes al resto por algo, que es la causa que explica las diferencias. S1 es inepto cuando topa con datos “meramente” estadísticos, que cambian la probabilidad del resultado pero no provocan su ocurrencia.

Un evento aleatorio no requiere una explicación, pero una colección de eventos aleatorios se comporta de una manera muy regular. Imagine una urna llena de bolas. La mitad son rojas y la otra mitad son blancas. Ahora imagine a una persona muy paciente que saca a ciegas 4 bolas de la urna, las regresa y repite esto muchas veces. Si se resumen los resultados se verá que el resultados “2 rojas, 2 blancas” ocurre casi exactamente 6 veces más que “4 rojas” o “4 blancas” Esta relación es un hecho matemático. Se puede predecir el resultado de un muestreo repetido de una urna con la misma confianza que se puede predecir lo que pasa si se golpea un huevo con un martillo. No puedes predecir cada detalle de como la cáscara se va a romper, pero estás seguro del resultado. Pero hay una diferencia: el sentido de satisfacción que causa pensar en el martillo golpeando el huevo no está presente en el caso de la urna.

Un hecho estadístico es relevante al caso del cáncer. Si en la urna una A saca 4 bolas, y B saca 7, el que saca 4 tendrá más resultados extremos (4 bolas del mismo color) que el que saca 7. Los porcentajes esperados son 12.5% y 1.56%. Eso es un hecho matemático. De nuevo, no hay martillo, no hay causa, pero es cierto.

Ahora imagine a la población de EU cómo bolas es una urna gigante, algunas de las cuales están marcadas con C (cáncer). Se sacan muestras de diferentes lugares del país. Las muestras rurales son más pequeñas que las demás. Los resultados extremos son más probables de encontrar en los lugares con menos población.  Eso es todo lo que hay en la historia.

Comenzamos por un hecho que nos llevó a buscar una causa: la incidencia de cáncer de riñón varía ampliamente entre los lugares y las diferencias son sistemáticas. La explicación ofrecida es estadística: los resultados extremos (alta/baja incidencia) son más probables donde las muestras son pequeñas que donde son grandes. Esta explicación no es causal. La pequeña población de un lugar ni causa ni previene el cáncer, solo favorece que la incidencia sea mucho mayor/menor que en los lugares más poblados. La verdad más profunda es que no hay nada que explicar. La incidencia de cáncer no es allí más baja o alta, simplemente parece ser así en un año en particular por un accidente de muestreo. Si se repite el año siguiente, se observará el mismo patrón general donde hay muestras pequeñas, pero no se mantendrán los mismos lugares de alta y de baja necesariamente. Esto es lo que se llaman artefactos: observaciones que son provocadas completamente por el método de investigación, en este caso, por el tamaño diferente de la muestra.

Esta historia no es una revelación. Se sabe hace rato (y usted lo sabe también) que los resultados de muestras grandes son más confiables que los de muestras pequeñas. Pero “conocer” no es algo de sí o no, y usted puede descubrir que:
  • La afirmación “poco pobladas” no surgió cómo algo relevante al leer la historia
  • Se sorprendió un poco cuando vio la diferencia entre muestras de 4 y muestras de 7
  • Le cuesta ver que estas dos declaraciones significan exactamente lo mismo:
    • Las muestras grandes son más precisas que las  pequeñas
    • Las muestras pequeñas dan resultados extremos con más frecuencia que las grandes.
La primera declaración suena a verdad, pero hasta que la segunda no toma sentido intuitivo, no se comprende a cabalidad la primera.

Al final: sabías que los resultados de muestras grandes son más precisos, pero ahora te das cuenta que no lo sabías muy bien. No estás solo. Hasta investigadores sofisticados caen en este error.


La intuición respecto al muestreo aleatorio parece satisfacer la “ley de los números pequeños”, que dice que la ley de los grandes números se aplica también a los números pequeños. Se recomienda sustituir las intuiciones estadísticas con cálculos siempre que sea posible.

(Extractado de THINKING, SLOW AND FAST, del D. Kahneman, Nobel de Economía).