El físico de origen español Luis W. Alvarez le sugirió en 1967 al físico Gerald (Gerry) R. Lynch que modificara su simulador de Montecarlo llamado GAME para generar histogramas que incluyeran falsos “picos” (bumps) de nuevas partículas (resonancias). Los resultados del nuevo programa fueron mostrados a físicos de partículas para que indicaran “a ojo de buen cubero” si había o no había “nuevas partículas” en dichos histogramas. Muchos físicos vieron nuevas partículas donde sólo había fluctuaciones estadísticas. Nos lo cuenta Luis W. Alvarez, “Recent developments in particle physics,” pp. 1-49 en “Evolution of Particle Physics,” Academic Press, 1970. Por cierto, esta entrada viene a colación por Tommaso Dorigo, “Demystifying The Five-Sigma Criterion,” AQDS, August 11th, 2013.
En aquella época se producían entre 10.000 y 20.000 histogramas al año, que eran explorados por unos 1000 físicos a la caza de nuevas partículas. Desde 1957, los nuevos descubrimientos eran publicados en el listado del Particle Data Group (PDG). La mayoría eran hadrones (entonces no se sabía que eran partículas compuestas de quarks, aunque se sospechaba), llamados resonancias. Muchos “descubrimientos” fueron refutados por otros experimentos, por lo que se decidió marcar todas las nuevas resonancias como “no confirmadas.” Había que decidir un criterio estadístico riguroso. Arthur H. Rosenfeld, uno de los padres de la iniciativa del PDG, en una conferencia sobre mesones celebrada en 1967 en Filadelfia, usó el resultado de Gerry Lynch para proponer un mínimo de tres desviaciones típicas (popularmente llamadas sigmas) para que una “nueva” partícula fuera incorporada al PDG. Nos lo cuenta en ”The Particle Data Group: Growth and Operations-Eighteen Years of Particle Physics,” Annual Review of Nuclear Science 25: 555-598, 1975. Su artículo original de 1968 se titula “Are There Any Far-out Mesons or Baryons?,” como nos recuerda Tommaso Dorigo, “Demystifying The Five-Sigma Criterion – Part II,” AQDS, August 14th, 2013.
Tres sigmas no son suficientes, como han mostrado muchos casos. Uno de los más famosos en los que falló la regla de las tres sigmas fue el famoso descubrimiento del quark top en 1984 en el experimento UA1, liderado por Carlo Rubbia, en el colisionador SPS en el CERN. La teoría predecía 3,5 sucesos de dicho tipo y se observaron 12 sucesos (una fluctuación de tres sigmas). Pero al acumular más datos en UA1, la fluctuación cambió de signo y el descubrimiento fue desmentido pocos meses más tarde (de hecho, UA2 tampoco observó dicha fluctuación a favor).
El quark top no tenía una masa de 40 ± 10 GeV/c², y gracias a UA1 y UA2 en 1990 ya se sabía que su masa era superior a 69 GeV, más allá de su capacidad de observación.
El número de cinco sigmas se estableció para el descubrimiento del quark top en 1995. En 1994 aparecieron las primeras evidencias del quark top a tres sigmas en CDF, pero el recuerdo de la historia de 1984 y que DZERO no lo hubiera observado, hizo que se recomendaran cinco sigmas para proclamar un descubrimiento. En 1995, tanto CDF como DZERO, los dos experimentos del Tevatrón, en el Fermilab, cerca de Chicago, EEUU, observaron el quark top con cinco sigmas.
Hoy sabemos que tiene una masa de 173,3 ± 0,8 GeV/c² (de hecho, el LHC es una fábrica de quarks top).
Hoy en día, un descubrimiento en física de partículas requiere que dos experimentos diferentes observen el resultado con al menos cinco sigmas, que en el caso del bosón de Higgs fueron CMS y ATLAS del LHC en el CERN.
Descubrimientos realizados por un único experimento, como el caso de las seis sigmas que alcanzaron los neutrinos superlumínicos del experimento OPERA en septiembre de 2011 son considerados por la mayoría de los físicos como falsas alarmas. Sólo cuando son ratificados de forma independiente por otro experimento se puede hablar en sentido estricto de un descubrimiento. Hoy sabemos que el error de OPERA era sistemático, no estadístico, debido a un fallo.
El incremento de la estadística (número de sucesos mostrados en los histogramas) produce fluctuaciones espurias a tres sigmas de forma continua y algunas pocas pueden alcanzar sin problemas las cinco sigmas; de hecho, con la ingente estadística de sucesos del LHC en la próxima década en algunas búsquedas de sucesos muy raros (como la presencia de partículas supersimétricas de gran masa) habrá falsos anuncios si no sube a entre siete y diez sigmas como cota indicativa de un descubrimiento. En la interpretación del número de sigmas de un resultado de física de partículas la clave es el consenso entre la comunidad.
Por cierto, lo he aclarado en varias ocasiones en este blog, pero quizás convenga recordar qué son las sigmas o desviaciones típicas en la significación estadística de un resultado, concepto que se utiliza en el campo del contraste de hipótesis.
En este campo se estudia la probabilidad de que los datos observados en un experimento correspondan a algo nuevo (la hipótesis a contrastar) o sean resultado de una fluctuación estadística de lo ya conocido (la llamada hipótesis nula).
La teoría predice para la hipótesis nula un valor medio (μ) y una desviación típica (σ).
La diferencia entre valor medio observado y μ se puede cuantificar con un número de desviaciones típicas σ, es decir, con un número de sigmas. Estas son las famosas sigmas.
Por supuesto este análisis estadístico supone que las fuentes de error en la fluctuación son muchas e independientes, lo que permite aproximarla por una distribución gaussiana.
En física de partículas hay errores estadísticos, que cumplen con esta condición, y errores sistemáticos, que no tienen por qué cumplirla, por ello el contraste de hipótesis utilizado es un poco más sofisticado, pero en esencia esta es la idea. Por tanto, el número de sigmas de una observación corresponde a probabilidad de que su origen sea la hipótesis nula; una sigma (desviación estándar) corresponde a una probabilidad del 16%, tres sigmas al 0,17%, y las “mágicas” cinco sigmas a una probabilidad del 0,000027%.