viernes, 31 de mayo de 2013

El universo de las estrellas vampiro (28550)

Para las gigantes estelares la vida en pareja puede ser extremadamente activa y rejuvenecedora.

Las estrellas se clasifican según su clase espectral, o color, que a su vez está relacionado con su masa y su temperatura superficial 
 Desde las más azules (y por lo tanto las más calientes y masivas) hasta las más rojas (las más frías y con menos masa), siguen la secuencia de clasificación más común: O, A, B, F, G, K y M. Nuestro Sol, por ejemplo, pertenece a la clase G.

clases estelares


Las clases de estrellas. Sus masas, radio y luminosidad se expresan en unidades solares.

Hay un grupo, las de tipo O, que se encuentran entre las más calientes, masivas y luminosas y cuyas vidas cortas y violentas juegan un papel clave en la evolución de las galaxias. Sus superficies alcanzan temperaturas de 30 000ºC o más, lucen un color azulado y tienen masas de hasta 15 masas solares o más; por eso reciben el nombre de gigantes azules.

Ahora, un nuevo estudio realizado principalmente con el Telescopio Muy Grande (VTL) de ESO (Observatorio Austral Europeo) en Paranal, Chile, ha demostrado que la mayoría de esas estrellas no viven solas, sino que hasta un 75% de ellas conviven con otra cercana estrella compañera. También se ha observado que la mayoría de estas parejas experimentan interacciones distorsionantes, tales como transferencia de masa de una a la otra, y que hasta un tercio de ellas podrían finalmente fusionarse para formar una única nueva estrella.


estrella_vampiro
Una “estrella vampiro” succionando materia de su compañera gigante.
© ESO

El proceso de transferencia de masa, en el que la más pequeña de las estrellas compañeras absorbe la masa de la más grande, es conocido como el fenómeno de las “estrellas vampiro”. Estas parejas estelares también se encuentran asociadas con otro extraño fenómeno cósmico, el de los estallidos de rayos gamma.
Si bien las estrellas tipo O son apenas una pequeña fracción del 1% de todas las estrellas del universo, los violentos fenómenos asociados a estos astros producen un efecto desproporcionando sobre sus alrededores. Los vientos estelares que provienen de ellos pueden disparar o frenar la formación estelar, y las explosiones supernova que marcan el fin de sus vidas enriquecen al universo con elementos básicos para la vida. Y por si fuera poco, los estallidos de rayos gamma relacionados con estos objetos y que se cuentan entre los fenómenos más energéticos del universo, pueden esterilizar galaxias enteras y acabar con la vida que allí podría haberse creado.

diagrama_Hertzsprung-Russell
El diagrama Hertzsprung-Russell ordena las estrellas según su luminosidad y su temperatura superficial. Las gigantes azules se ubican en la región superior izquierda del diagrama.
© blogodisea.com

Ahora bien, la vida de una estrella se ve profundamente afectada si vive junto a otra. Si ambas orbitan muy cercanamente, puede ser que al final se fusionen entre sí. Pero aún si no lo hacen, a menudo una de las estrellas atraerá materia de la superficie de su compañera, en ese efecto que llamamos de “vampiro”.
Las fusiones son acontecimientos muy violentos, y los investigadores estiman que será el destino final de entre un 20% y un 30% de las estrellas tipo O. Pero incluso el fenómeno algo menos violento de las estrellas vampiro, que comprende a otro 40% o 50% de los casos.
Hasta ahora los astrónomos consideraban que las estrellas masivas binarias de órbita cercana eran la excepción que ayudaba a explicar algunos fenómenos más exóticos como las binarias de rayos-X, los púlsares dobles y los agujeros negros binarios. Pero este nuevo estudio demuestra que las cosas no son tan simples y que estas estrellas binarias gigantescas no son simplemente algo común, sino que sus vidas difieren fundamentalmente de las de las estrellas solitarias.
Por ejemplo, en el caso de las estrellas vampiro la compañera más pequeña rejuvenece al capturar hidrógeno de la más grande. De esa forma, su masa crecerá mucho y vivirá más que su compañera, incluso más de lo que viviría una estrella solitaria con su misma masa.

Clases estelares y tamaños comparativos

Mientras tanto, la otra compañera perderá sus capas más exteriores antes de que pueda llegar a la fase de súper gigante roja por lo que su núcleo caliente y azul quedará expuesto. Así, la población estelar de una galaxia distante parecerá ser mucho más joven de lo que es realmente, ya que tanto las estrellas vampiro rejuvenecidas como los núcleos de sus “víctimas”, más calientes y más azules, tendrán un aspecto más juvenil.
Como la única información que tenemos de las galaxias distantes proviene de la luz que llega a nuestros telescopios, la presunción de que la mayor parte de las estrellas son solitarias puede inducir a conclusiones erróneas, por lo que el conocimiento de la verdadera proporción de binarias gigantes resulta crucial para caracterizar correctamente esas lejanas galaxias.
Por otro lado, la existencia de las estrellas vampiro puede explicar otro fenómeno astronómico.
 Se ha observado que aproximadamente un tercio de las supernovas contenían muy poco hidrógeno, y la proporción de estas coincide con la proporción de estrellas vampiros descubierta en este estudio. Se piensa que las estrellas vampiro produzca supernovas pobres en hidrógeno ya que las capas exteriores ricas en ese elemento son arrancadas de sus compañeras antes de que estas lleguen a su fin en una explosión supernova.

”VLT_Paranal”
VLT (Very Large Telescope) de ESO en Paranal, Chile.
© ESO / Paranal

Perdido en el espacio...

Un pequeño objeto cruza solo y a oscuras la vastedad del cosmos. ¿Es una estrella fallida o un pobre planeta huérfano?

Si bien tenemos la idea de que los planetas giran alrededor de estrellas, la ciencia ha especulado que en el espacio también podemos encontrar planetas huérfanos que vagan errantes, sin estrellas madre que los iluminen y den calor. Un posible candidato para esta categoría ha sido descubierto por científicos que utilizaron el Telescopio Muy Grande del Observatorio Austral Europeo en Paranal, Chile, y el Telescopio Canadá-Francia-Hawaii. Es el candidato más probable encontrado hasta ahora, y el más cercano, ya que se encuentra a una distancia de aproximadamente 100 años-luz. 

planeta_errante
Representación artística de un solitario planeta errante.
© ESO
Su relativa cercanía y la ausencia de alguna estrella cercana permitió al equipo de astrónomos estudiar su atmósfera con gran detalle. Asimismo permitió dar una idea sobre los exoplanetas que los científicos esperan fotografiar con sus futuros instrumentos y que orbiten alrededor de alguna estrella que no sea nuestro sol.  

Los planetas errantes son objetos de masa planetaria que vagan por el espacio sin ataduras con ninguna estrella. Hasta la fecha se han localizado numerosos candidatos desde que comenzaron a ser conocidos en la década de 1990, cuando los astrónomos descubrieron que era difícil determinar con exactitud el punto que marca el pasaje entre la masa de una enana marrón (es decir, un objeto cuasi-estelar que por falta de masa no pudo iniciar las reacciones nucleares que la llevarían a convertirse en una estrella verdadera) y el rango en que se inicia una masa planetaria.

Estudios recientes sugieren que en nuestra galaxia podría existir un enorme número de estos pequeños cuerpos, con una población que podría duplicar el número de estrellas de la secuencia principal.
 
nombre
Telescopio Canada-France-Hawaii, Mauna Kea, Hawaii
© CFHT

El objeto recientemente descubierto, bautizado comoCFBDSIR2149, parece formar parte de una cercana corriente de estrellas jóvenes conocido como Grupo Móvil AB Doradus. Este grupo es el más cercano de su tipo a nuestro sistema solar. Sus estrellas derivan juntas a través del espacio y se cree que se formaron al mismo tiempo, hace entre 50 y 120 millones de años.

Si el nuevo objeto está asociado verdaderamente con este grupo (y sería, por lo tanto, bastante joven), eso permitiría deducir muchas cosas sobre él, como por ejemplo su temperatura (de unos 430ºC), su masa (4 a 7 veces la masa de Júpiter), y la composición de su atmósfera.

Por supuesto, todavía persiste la posibilidad (aunque pequeña) de que su asociación con el grupo móvil sea fortuita. El enlace entre este objeto y el grupo móvil resulta ser entonces la clave vital que permita a los astrónomos fijar su edad. Es el primer objeto aislado de masa planetaria jamás identificado en un grupo móvil, lo que aumenta su importancia. El análisis estadístico de su movimiento propio (el cambio angular de su posición en el cielo por cada año) muestra un 87% de que esté asociado con el grupo móvil, y más de un 95% de probabilidad de que sea lo suficientemente joven como para tener una masa planetaria en lugar de ser una pequeña estrella fallida.

Otros candidatos errantes han sido descubiertos antes en cúmulos muy jóvenes de estrellas, pero su distancia ha impedido que sean estudiados en detalle. Se cree que los objetos errantes como éste se pueden formar ya sea como planetas normales que han sido expulsados de su sistema estelar originario, o como objetos solitarios similares a las estrellas más pequeñas o enanas marrones. En cualquier caso son objetos intrigantes e importantes porque pueden ayudarnos a entender mejor la forma en que los planetas pueden ser eyectados de sistemas planetarios o como pueden surgir objetos de muy poca masa a partir de procesos de formación estelar.

Si CFBDSIR2149 no estuviera en realidad asociado con el grupo móvil de estrellas entonces resultaría más difícil estar seguro sobre su naturaleza y propiedades, y podría entonces ser mejor caracterizado como una estrella marrón. Estudios posteriores podrán confirmar entonces si es o no un planeta libre errante. 

VLT
VLT de ESO en Paranal, Chile.
© ESO

¿Cuántos universos paralelos existen?

Hemos calculan el número de universos paralelos que coexisten en nuestra realidad multidimensional; con ello se pone un número concreto al principal postulado de la física cuántica que habla de un gran “multiverso”

double_slit_x-ray_simulation_trans-long_05000_ev-june-16-2009

La vida esta hecha de posibilidades, no de absolutos. 
El entendimiento de esta realidad “posible” por encima de la comsogonía de “lo que es y lo que no es” (la maldición de Hamlet) puede representar el camino más práctico hacia el alivio del espiritú psicosocial.
 Si, quizá la felicidad de la sociedad contemporánea dependa en buena medida del lograr entender una “realidad” construida a partir de posibilidades.
La física cuántica, una de las líneas de la ciencia que se ha vuelto profundamente popular en los últimos años, en parte por que se ha dedicado a desbaratar algunos de los principales postulados de la ciencia tradicional (lográndolo a través del mismo lenguaje y juego de realidad que manejan los propios científicos), tiene como pilar teórico la propuesta de una coexistencia entre múltiples universos. 
Es decir que nuestro universo (nuestro tiempo, nuestro espacio, y nuestra materia) no es más que uno de los múltiples universos que existen de manera simultánea.
Frente a esta afirmación de los universos paralelos algunos se han preguntado, luego de aceptar la teoría como algo posible (haiku paradox), cuántos existen: ¿Cuántos universos podrían posiblemente existir?
Una pareja de físicos de la Universidad de Stanford, Andrei Linde y Vitaly Vanchurin, se han propuesto calcular el número exacto de universos posibles que existe. 
Y el resultado es 10^10^16 .
Y de hecho han afirmado que ese es el número de universos posibles que la mente humana podría concebir por que de lo contrario ese número se extiende a 10^10^10^7 
universos posibles.

La única fotografía conocida de Einstein junto a su legendaria fórmula e=mc2

pizarron

En cuanto a la imagen, esta proviene de una conferencia que el físico ofreció en la Universidad de Pittsburgh en 1934 a un centenar de estudiantes, para quienes derivó la famosa fórmula. 

Sin embargo, pese a su significancia histórica, la fotografía permaneció ignorada hasta 2007, cuando David Topper y Dwight Vincent (del Departamento de Historia y Física de la Universidad de Winnipeg, respectivamente) la redescubrieron en un viejo periódico de la época.

Los investigadores, por cierto, se tomaron el trabajo de manipular la imagen para aclarar lo que se encuentra escrito en las pizarras:

einsteinblackboard1
einsteinblackboard2

Este, en suma, es el único momento capturado en que Einstein se encuentra junto al desarrollo científico que lo llevaría tanto a los libros de historia como a ese álbum fotográfico colectivo, más o menos caprichoso, que muchos llevamos con nosotros.

Caos espectral en mecánica cuántica (o perturbación crítica)

En los cursos de álgebra lineal se aprende a calcular autovalores y autovectores de manera analítica. 
Cómo suele ser habitual el método que es eficiente para hacer algo con “lápiz y papel” dista mucho de ser el mejor para hacerlo mediante algoritmos en un ordenador. 
En el caso del álgebra numérica sucede lo mismo, pero, además, se aprenden algunos hechos tan interesantes cómo sorprendentes.
Recordemos que para calcular los autovalores de una matriz M uno debe hacer el determinante de 

\mid M -\lambda \mathbb{I} \mid

Esto da cómo resultado un polinomio en \lambda

Una vez se tienen las raíces de ese polinomio se sustituyen en la expresión \mid M -\lambda \mathbb{I} \mid  y se calculan el/los autovectores correspondientes a ese autovalor.

 En los ejercicios típicos las matrices están “cocinadas” para que el polinomio tenga raíces enteras (o al menos alguna de ellas entera y que el resto puedan obtenerse a partir de ahí por el método de Rufini).

 Por supuesto en problemas reales no sucede eso casi nunca (no estoy 100% seguro pero creo recordar que en el conjunto de todos los polinomios los que cumplen eso tendrían medida nula -definiendo una medida más o menos natural en el espacio de polinomios, claro-).

 Por ese motivo, en la práctica, uno debería resolver el polinomio por métodos numéricos y luego implementar un algoritmo que calculase el autovector a partir de ese autovalor.

El caso es que esa tarea tan sencilla de calcular las raíces de un polinomio tiene sutilezas inesperadas. 

La clave del asunto es que polinomios muy similares pueden tener raíces no tan similares.

 Es decir, una pequeña incertidumbre en el valor de un coeficiente del polinomio se traduce en una gran diferencia entre los valores de las raíces, osea, cómo exclamaría Malcom: ¡CAOS!. 

Antes de seguir con consideraciones teóricas sobre esto dejo un ejemplo de matriz cuyo polinomio característico tiene esa sensibilidad:

A=\left(\begin{array}{ccc}    -149&-50&-154\\    537&180&546\\    -27&-9&-5    \end{array}\right)

Uno puede hacer el polinomio característico y verificar que sus raíces son {1,2,3}. 

Si uno modifica muy ligeramente esa matriz, por ejemplo modificando el segundo elemento de la diagonal de 180 a 180.01 podría comprobar (recomiendo usar algún programa informático) que las nuevas raíces el polinomio característico (vamos, los autovalores de la matriz), son { 0.207, 2.3008, 3.50} 

Es decir, una modificación de uno de los elmentos de la matriz del orden de 10^{ -5}  modifica todos los autovalores en magnitudes entorno al 50% lo cuál es algo realmente impresionante. 

En los libros o manuales elementales sobre cálculo numérico no se suele comentar mucho más al respecto y se pasa directamente a enseñar métodos para el cálculo de esos autovalores (según en que manuales se limita al método de potencias para el cálculo del autovalor dominante) y autovectores (normalmente el método QR y variantes). Tampoco suelen hacer las cuentas de cómo cambian los autovectores así que me hice el cálculo para los dos casos anteriores. Para la matriz original los autovectores también son bastante distintos, con variaciones incluso mayores que las de los autovalores.

El caso es que para alguien con una base de física una matriz es, sobre todo, un operador cuántico (para un matemático una matriz puede ser un montón de cosas, y dependiendo del caso se la estudia de muchas maneras diferentes xD), los autovalores las autoenergías (si el operador es el hamiltoniano) y los autovectores las autofunciones de onda cuánticas. 

Y claro, inmediatamente (al menos yo es lo que pensé nada mas leer ese resultado) es que si un operador cuántico tiene un comportamiento tan exótico uno podría pensar que algo extraño podría pasar con Mary…digo la cuántica  . 

El caso es que no pude dedicarme inmediatamente a profundizar en ese hecho chocante, pero siempre estuvo ahí en segundo plano, cómo una inquietud, y en cuanto se dio la oportunidad analicé más a fondo el asunto. La primera duda que surge es sí esa incertidumbre en el cálculo de autovalores es debida a errores de redondeo en algoritmos numéricos o si obedece a una causa mas fundamental. 

Rastrear en extensos libros sobre álgebra lineal numérica no me llevó a ningún lado pero una búsqueda en google me llevó a un foro dónde se trataban esos temas y ahí daban un ejemplo muy sencillo que -sí no interpreto mal- resuelve la cuestión. En concreto plantean el caso del poinomio \lambda^3 -\epsilon=0  cuya solución \lambda=\sqrt[3] \epsilon  que no es derivable en el entorno de 0 y ese es el origen de la sensibilidad del polinomio.

 En la misma web mencionaban un ejemplo mas complejo de una matriz, dependiente de un parámetro, 
que originaba polinomios “sensibles” a variaciones de ese parámetro. Esa matriz era además simétrica (autoadjunta) lo cuál es bueno pues los operadores cuánticos deben ser autoadjuntos.

 Con eso ya se tiene bastante información relevante, el problema es “fundamental” y no de redondeo, se identifica el problema (o al menos un factor del mismo) y se pueden analizar familias de matrices, no una sóla.

La siguiente reflexión que a uno se le ocurre es plantearse cómo puede suceder esto con sistemas lineales. Al fin y al cabo la cuántica es lineal, y uno aprende, estudiando Sturn-Liouville (bien sea mediante análisis clásico o, de modo riguroso, en cálculo funcional) que la clase de operadores lineales autoadjuntos son buenos y maravillosos y nos dan una base del espacio de Hilbert de soluciones del problema ¿que más se puede pedir?. Bien, el caso es que bajo esa aparente inocencia los operadores lineales (incluidos los autoadjuntos) ocultan muchas sorpresas y uno, a poco que los estudie, se da cuenta de que son unos grandes desconocidos que guardan en su interior muchas pautas insospechadas. 

Pero, volviendo al principio, si la cuántica es lineal ¿de dónde surgen todas estas “sensibilidades”? Bien, los operadores son lineales, sí, pero las operaciones para extraer información de ellos (sus autovalores y autovectores en el caso de la cuántica) implican formar expresiones no lineales. La tarea de obtener el determinante es no lineal, y para calcular autovalores el resultado de la misma es un polinomio no lineal. Digamos que hay mucha no-linealidad escondida.

Bien, esa es la matemática, pero queda analizar un poco como afecta eso a la física. La idea básica -en un esquema meramente formal- es muy simple. Tenemos un sistema cuántico, todo lo particular que haga falta, cuyo hamiltoniano podemos considerar que es, en alguna base apropiada, una matriz finita.

 Los elementos de esa matriz en general van contener términos que se deben obtener de manera experimental (por ejemplo si es el hamiltoniano de un electrón en un campo eléctrico el valor de ese campo podría ser un dato experimental). Entonces eso significa que tenemos dos Hamiltonianos, H y H’ que difieren por una pequeña cantidad. Siguiendo la costumbre de teoría cuántica de perturbaciones podríamos escribir H'=H_0 + \epsilon H_1  aunque, en este caso, no nos importa (necesariamente) que H_0  sea resoluble analíticamente. La idea es que uno podría esperar que los autovalores de H y H’ fuesen muy similares (es el fundamento de la teoría de perturbaciones, en particular ahí se exige, cómo prueba de consistencia, que la diferencia entre un autovalor del sistema sin perturbar y el perturbado sea menor que la diferencia entre dos autovalores del sistema sin perturbar). 

Pero, cómo acabamos de ver, esto no siempre tiene porque suceder. 
Yo estudié esto por mi cuenta y elaboré un poco algunas consecuencias sencillas. Más adelante descubrí que hay una línea muy reciente de investigación, liderada por Michel Berry (el de la famosa fase de Berry) y llaman a esto “perturbación crítica”. Aún tengo que explorar mas el tema de lo que hace esa gente y cuanto se parece a lo que yo estoy considerando.

Pero sigamos con el quid de la cuestión. La idea es que dos sistemas con hamiltonianos muy similares pueden tener energías muy diferentes. Podría darse el caso medir el campo eléctrico del hamiltoniano con precisión de varios decimales y que pudiésemos resolver el problema y aún así los resultados no nos servirían para predecir, en la práctica los valores posibles de las energías.
 Pero puede ser peor aún, cómo los autovectores, que son las funciones de onda, también cambian mucho. Imaginemos que el campo eléctrico fluctúa en el tiempo. 

Si colocásemos el sistema en un estado inicial de superposición y midiéramos las frecuencias con las que se da cada autovalor de la energía estas no tendrían una distribución probababilística. 

El motivo es que al fluctuar el campo fluctuan los autovalores y no siempre estamos trabajando con autoenergías similares. Y, cómo además varían los autovalores, las probabilidades de ocupar cada autovalor también fluctúan. Es decir, podríamos tener un sistema del que sabemos el Hamiltoniano con mucha precisión, poder resolverlo analíticamente, y aún así, en la práctica, no poder obtener ninguna información útil respecto a que nos vamos a encontrar.

Para tratar esos sistemas- creo yo, habría que optar por una descripción en términos de ecuaciones diferenciales estocásticas (para una introducción ver por ejemplo este pdf) en la que aparte del término determinsta (la ecuación de Schröedinger) habría un término de “ruido”.

 Eso sí, ese término no tendría porque ser browniano sino que su naturaleza dependería de la naturaleza analítica del parámetro del hamiltoniano que dicta la “sensibilidad” del mismo y podría bautizarse algo así cómo “ruido espectral”.

Para ir concluyendo hago una reflexión importante. Esto no es caos cuántico. En un sistema caótico clásico tenemos que la dinámica (el hamiltoniano) es fijo y hay sensibilidad en las condiciones iniciales (que no pueden medirse con precisión infinita). En cuántica el observable fundamental es la función de onda y no las posiciones/momentos. Y la unitariedad de la evolución cuántica implica que si las funciones de onda en un instante dado difieren por una cantidad pequeña esa diferencia se mantendrá constante en el tiempo.

 Esto plantea una duda conceptual de cómo si la realidad es cuántica en sistemas clásicos, que son el límite de los cuánticos (teorema de Erenfest) puede haber caos. Por supuesto mi argumento no implica que haya caos cuántico porque aquí lo que tenemos es algo distinto. 

Tenemos que el propio hamiltoniano (lo que dicta la dinámica) es el que está sujeto a una incertidumbre experimental y cómo consecuencia de la misma los observables cuánticos (autovalores, autofunciones) son muy sensibles a variaciones de esa incertidumbre. Por supuesto, y esto sería curioso de analizar en comparativas, en sistemas clásicos también hay esa incertidumbre en el valor exacto del hamiltoniano, y también hay operaciones de obtener autovalores y autovectores para obtener soluciones en algunos de esos sistemas (por ejemplo osciladores armónicos acoplados) así que esta sensiblidad extra, esta “perturbación crítica” afectaría por igual al mundo clásico y al cuántico, y tal vez (o tal vez no, vaya usted a saber xD) seria interesante comparar las diferencias entre ambos mundos para esos sistemas.
Para finalizar algunas palabras sobre lo que hace la gente de caos cuántico, que está relacionada con la naturaleza de los autovalores de los operadores audoadjuntos. Resulta, por ejemplo, que los hamiltonianos que presentan simetrías tienen una distribución de los autovalores muy diferente de los que no tienen simetrías (si se quieren buscar detalles usar los términos “quantum chaos, random matrix). 

Es un tema curioso, sobre el que tal vez lea mas, o tal vez no. Pero tras ver esto de la sensibilidad de los autovalores y que la distribución de los mismos depende de las simetrías del hamiltoniano está claro que bajo su inocente apariencia los operadores autoadjuntos tal vez puedan ocultar auténticos “animales patológicos” en su interior y que posiblemente la mecánica cuántica mas elemental guarde aún muchas sorpresas importantes en contradicción con la idea de que es un “animal doméstico y conocido”. Y eso si nos restringimos a cuántica elemental, y estudiando matrices finitas (a saber que pasa con las infinitas que son lo común en mecánica cuántica). 
Pero el caso es que las teorías cuánticas de campos también son, en el fondo, teorías cuánticas “normales” y, no sé ¿cómo podría ser el grupo de renormalización de un hamiltoniano de campos que fuera el análogo de uno de partículas “sensible”? ¿Tal vez el flujo de renormalización hiciese evolucionar el valor de las constantes de acoplo de manera caótica según nos movemos hacia energías mas altas? 
O, si la estructura de los autovalores depende de la simetría ¿que pasa en los fenómenos de ruptura espontánea de simetría?

En definitiva, que me da la impresión de que el formalismo de la mecánica cuántica convencional puede ser mucho, mucho mas rico de lo esperado, y que, por ejemplo, tal vez algunos fenómenos que por argumentos de “naturalidad” podrían parecer muy improbables a lo mejor no lo sean debido a que en algún punto hay alguna “sensiblidad” oculta en algún punto.

Thomas Bayes. Un reverendo, un teorema y múltiples aplicaciones (28544)


El teorema de Bayes es algo con lo que ya se choca un estudiante en bachillerato cuando se enfrenta a las matemáticas, y que deviene en mucho más cotidiano, no sólo para estudiantes de Ciencias Matemáticas o Informática, sino para casi cualquier disciplina científica. Por lo que puede resultar de interés que le dediquemos algo de tiempo a conocer su origen.
No es mucho lo que sabemos de la vida del reverendo Thomas Bayes, pues a pesar de que fue miembro de la Royal Society, en Londres, este gran matemático no llegó a hacer públicos sus principales trabajos en vida. De hecho, sólo publicó dos obras menores, y sólo una de ellas relacionada con su actividad científica. Probablemente, nunca llegó a ser consciente de la importancia que iba a tener su teorema.
Alabado por unos, aquellos a los que puede favorecer su aplicación en una corte judicial, y denostado por otros, los que pueden ser declarados culpables tras de las pruebas “objetivas” de confesión de culpabilidad o la prueba de la “huella genética”.
 No es, pues, nada casual que actualmente llegue a existir una autentica cofradía de “estadísticos bayesianos” que gozan de excelente salud en el campo de la investigación matemática e informática.
El padre de Thomas, Josué Bayes, fue uno de los seis primeros predicadores presbiterianos que fueron ordenados en Inglaterra, en el año 1694 y tras lo que se trasladó a una localidad cercana a Londres para su ejercicio pastoral. Su madre se llamaba Anne Carpenter y conformaban una familia adinerada de la época.
Thomás recibió una educación privada en casa, y si bien no se sabe nada de sus tutores, se especula con que entre ellos pudo figurar el propio De Moivre, que en esos momentos impartía clases particulares en Londres.
En 1719, con el semestre ya comenzado, se matriculó en la Universidad de Edimburgo, donde estudió Lógica y Teología. Tuvo que elegir una universidad escocesa para continuar su educación, pues en esos tiempos, a los que practicaban una religión diferente de la ortodoxia anglicana no se les permitía matricularse en Oxford o Cambridge. 
También debió haber estudiado matemáticas, pero no hay constancia de que lo hiciera en la citada universidad.
Posteriormente, siguiendo los pasos de su padre, fue ordenado sacerdote presbiteriano, y al principio le ayudó en su tarea en su capilla. Sobre 1733 fue nombrado ministro de una capilla propia, situada en Tunbridge Wells, también cercana a Londres, tras la muerte del pastor anterior. Parece que quiso dejarlo en 1749, pero permaneció como ministro de esa capilla hasta 1752 en que se retiró, si bien siguió viviendo en la localidad.
En 1731 publica su primera obra, de tipo teológico y metafísico, “La divina benevolencia, o un intento para demostrar que el fin principal de la Divina Providencia y su gobierno es la felicidad de sus criaturas“, escrita como respuesta a una memoria del Ministro anglicano John Balguy, en el marco de una polémica sobre la cuestión: “si Dios no estaba obligado a crear el universo, entonces, ¿por qué lo hizo?“. En 1736 publica el otro tratado que presentaría en vida “An Introduction to the Doctrine of Fluxions, and a Defence of the Mathematicians Against the Objections of the Author of the Analyst, so far as They Are Designed to Affect their General Methods of Reasoning“, una defensa del cálculo diferencial de Isaac Newton como respuesta al ataque realizado por parte del Obispo Berkeley a la teoría de las fluxiones en su obra “The analyst, or a discourse addressed to an infidel mathematician”, de 1730. Es probable que la publicación de este trabajo fuera la razón de su elección como miembro de la Royal Society en 1742.
Además de estos dos tratados, también publicó un breve artículo sobre matemáticas, incluido en una carta enviada a John Canton, el secretario de la Royal Society, publicada en 1763, acerca de las series divergentes, en particular, sobre el teorema de De Moivre-Stirling. 
Este artículo no es mencionado ni en las referencias, ni en los comentarios, ni en la correspondencia de ninguno de los matemáticos de la época, por lo que parece que no tuvo demasiada trascendencia.
Bayes fue admitido como miembro de laRoyal Society el año 1742, a pesar de que en ese momento no tenía obras publicadas en las matemáticas, de hecho el artículo mencionado anteriormente sobre fluxiones fue publicado originalmente de forma anónima.

Con respecto a sus aportaciones a la teoría de la probabilidad, sólo se conoce su obra póstuma “An essay towards solving a problem in the doctrine of chances”, publicado  en 1764 en Philosophical Transactions of the Royal Society of Londonpor su amigo Richard Price. Aquí aparece su famoso, y bellísimo, teorema sobre la “probabilidad de las causas”. En el prefacio del envío, Price escribe:
También les envío un ensayo que he encontrado entre los papeles de nuestro difunto amigo, Mr. Bayes, y que, en mi opinión, tiene un gran valor y merece ser conservado.

La filosofía experimental, como puede verse, está muy interesada en este tema y esto me hace pensar en la conveniencia de presentarlo como una comunicación a la Royal Society. En una introducción que también ha escrito él mismo, dice que su objetivo es hallar un método por el que pudiéramos obtener alguna conclusión con respecto a la probabilidad de que un evento ocurra, en circunstancias dadas, y bajo la suposición de que no sabemos nada acerca de él, excepto que, en las mismas circunstancias, un cierto número de veces ha ocurrido y otro número de veces no ha ocurrido.
En la misma carta de envío del manuscrito al secretario de la Academia inglesa, Price también describe el problema, indicando que se trata del inverso al planteado por De Moivre. Hasta entonces, si se supone conocida la probabilidad de éxito θ de la distribución Binomial, se sabía calcular la probabilidad de que se presenten r éxitos en n repeticiones. Para resolver el problema inverso se requiere saber calcular la distribución a posteriori, mediante la versión continua del teorema de Bayes, e introducir una distribución a priori adecuada para el parámetro θ de la distribución de Bernoulli. Bayes utiliza como distribución a priori la uniforme en el intervalo (0,1).
En una forma más coloquial, podemos decir que el objetivo es: Dado el número de veces r que un suceso ha ocurrido en un número de repeticiones n, calcular la probabilidad de que la probabilidad de que ocurra en una nueva repetición esté entre dos valores conocidos b y f. 
Podemos mencionar que la contribución matemática de Bayes en su momento fue escasa y poco valorada, pero de una gran importancia posterior. Thomas Bayes no extendió sus resultados más allá de la distribución uniforme. Para hacerlo, hubo que esperar al propio Laplace, pero su visión de la Probabilidad y de la Inferencia Inductiva ha sido ampliamente adoptada y aplicada a una gran cantidad de problemas en Inferencia Estadística y en Teoría de la Decisión.  Y ello es porque este teorema da respuesta a una importante pregunta: ¿Cómo puede una persona actualizar su creencia actual cuando descubre una nueva evidencia, por ejemplo a partir de un experimento?
La obra publicada por la Royal Society consta, pues, de la introducción elaborada por Price, y de dos secciones. En la primera, Bayes presenta la axiomática, definiendo la probabilidad como una relación subjetiva entre un “presente cierto” y un “futuro incierto”, por ejemplo entre una cierta cantidad a pagar hoy para poder recibir una cantidad aleatoria si un suceso dado se produce. Partiendo de ahí realiza una demostración rigurosa de los teoremas de la probabilidad total y de la probabilidad compuesta. En la segunda sección aparece la demostración sobre la inversión de la probabilidad, que constituye la solución al problema originalmente planteado.
Poco tiempo después, en noviembre de 1764, Price envió a la Royal Society un suplemento al trabajo analizando las posibilidades e implicaciones filosóficas de los resultados alcanzados. 
En concreto la posibilidad de cuantificar el proceso de “aprendizaje” a partir de la experiencia, si bien consideró que ningún grado de uniformidad experimental podía transformar una expectativa en completa certeza.
El trabajo de Bayes permaneció largamente ignorado en los anaqueles de la Royal Society, y tuvo escasa o nula influencia entre los matemáticos de la época, hasta su redescubrimiento por Jean-Antoine Nicolás Caritat, Marqués de Condorcet alrededor de 1774, y su toma en consideración por Laplace en su “Théorie analytique des probabilités” de 1812, donde ya toma la forma más conocida:
Desde entonces, y mucho más desde el advenimiento de la informática, el teorema de Bayes ha tenido un influencia crucial en el desarrollo científico, pues no es baladí su contribución a la evaluación de los grados de certeza de diferentes hipótesis.  Y ha tenido enormes aplicaciones en todos los ámbitos.
Las aplicaciones del teorema de Teorema de Bayes son enormes, si bien no exentas de grandes polémicas. El problema radica en que cuando decimos “el suceso A ha ocurrido” se puede pensar que es un hecho determinista, y por lo tanto no tiene objeto calcular la probabilidad P(A), pues si A ha ocurrido es claro que debe ser 1. Pero el problema es bien distinto si lo que afirmamos es “en caso de que A ocurra”, que es la interpretación correcta para la aplicación del teorema. Por otro lado, las probabilidades asociadas a los eventos Ai son de tipo a priori, y que a veces deben asignarse de manera arbitraria, puesto que no se tiene información sobre el “pasado”, si bien se espera que vayan a ser “mejoradas” con la nueva información que puede aportar la ocurrencia del  suceso A. Es por eso que las probabilidades P(Ai / B) son llamadas a posteriori.
Una posible crítica sería si pudiera darse que con los mismos datos, el uso de distintas P(Ai) pudiera llevar a resultados diferentes. Podemos decir que cuando hay pocos datos, la distribución a priori lo compensa, si bien con muchos tiene poco peso, como veremos en el ejemplo de más adelante.
Finalmente, indicar que el Teorema de Bayes ha sido un importante acicate a la hora de poner en marcha el método científico. Es bien sabido desde Aristóteles que es un razonamiento erróneo, denominado falacia del falso consecuente, el siguiente:

Homo bayesianus
Si A, entonces B
B
Por lo tanto, A
No obstante, para conocer la verdad sobre A, en la inmensa mayoría de los casos que ocurren en las disciplinas científicas, lo que tenemos son casos de este tipo. Y lo que está muy claro es que si queremos establecer la certeza de A, de la que a priori carecemos, podemos saber que, en caso de ser cierta la proposición “Si A entonces B”, el grado de confianza que podemos tener en la veracidad de A debe ser mayor si tenemos la certeza de que B ocurre. La genialidad de la idea de Bayes es que nos ofreció un método para cuantificar esto.
Pongamos un ejemplo. Supongamos que desconocemos hoy si el Sol saldrá mañana o no. De hecho, desconocemos también si es cierta la afirmación “El Sol sale todos los días”, que nos proponemos investigar. Para empezar, podemos asignar una probabilidad del 50% al suceso de que el Sol saldrá mañana, y la misma a su negación. Estas probabilidades son arbitrarias, pero son la mejor manera de mostrar el completo desconocimiento de lo que ocurrirá mañana, en términos de que ambos son equiprobables. Ahora bien, si hemos observado hoy que el Sol ha salido, la probabilidad de certeza de la proposición “El Sol sale todos los días” aumenta, y lo hace todavía más si añadimos las observaciones de un número mayor de días.
Así, si disponemos de  datos que avalan la salida diaria durante  todo un año, tenemos que la probabilidad de certeza de la afirmación anterior, es decir, de que el Sol salga todos los días, aumenta al 99,7%. Y que pasa al 99,9% si contabilizamos datos de 10 años. Ciertamente, Bayes nunca nos asegurará que la probabilidad alcanzará el valor 1, es decir una completa certeza, como es lógico desde un punto de vista científico. Pero podremos realizar medidas observacionales que nos acerquen tanto como queramos a ese valor. Este proceso se denomina inferencia bayesiana.
De hecho, y como ejemplo más práctico, éste es el mecanismo que se sigue en las pruebas de identidad genética, donde se procede a realizar medidas en función de la presencia o ausencia de determinados alelos para realizar una inferencia. obteniendo así un cierto valor numérico que nos mide la probabilidad de que dos muestras pertenezcan a personas con una cierta relación de consanguinidad entre ellas que, incluso, por encima de un determinado valor llegan a ser consideradas como pruebas concluyentes en un proceso legal.
Así pues, hasta las creencias se pueden medir de forma que pueden llegar a ser convertidas en certezas a los efectos prácticos. Lo que nos lleva a considerar que lo que hizo el gran Bayes es proporcionarnos una medida cuantitativa para mejorar el principio de inducción científica que puede adoptar la forma:

Si se observa un caso particular X consistente con la teoría T, entonces la probabilidad de que dicha teoría T sea cierta aumenta en un determinado valor.
A pesar de dichas críticas, la lista de sus aplicaciones es inmensa: Jurídicas, multitud de aplicaciones informáticas, entre las que se encuentras los ubícuos filtros de spam, genética, medicina, juegos, sistemas de control, y un larguísimo etcétera.