viernes, 31 de mayo de 2013

Thomas Bayes. Un reverendo, un teorema y múltiples aplicaciones (28544)


El teorema de Bayes es algo con lo que ya se choca un estudiante en bachillerato cuando se enfrenta a las matemáticas, y que deviene en mucho más cotidiano, no sólo para estudiantes de Ciencias Matemáticas o Informática, sino para casi cualquier disciplina científica. Por lo que puede resultar de interés que le dediquemos algo de tiempo a conocer su origen.
No es mucho lo que sabemos de la vida del reverendo Thomas Bayes, pues a pesar de que fue miembro de la Royal Society, en Londres, este gran matemático no llegó a hacer públicos sus principales trabajos en vida. De hecho, sólo publicó dos obras menores, y sólo una de ellas relacionada con su actividad científica. Probablemente, nunca llegó a ser consciente de la importancia que iba a tener su teorema.
Alabado por unos, aquellos a los que puede favorecer su aplicación en una corte judicial, y denostado por otros, los que pueden ser declarados culpables tras de las pruebas “objetivas” de confesión de culpabilidad o la prueba de la “huella genética”.
 No es, pues, nada casual que actualmente llegue a existir una autentica cofradía de “estadísticos bayesianos” que gozan de excelente salud en el campo de la investigación matemática e informática.
El padre de Thomas, Josué Bayes, fue uno de los seis primeros predicadores presbiterianos que fueron ordenados en Inglaterra, en el año 1694 y tras lo que se trasladó a una localidad cercana a Londres para su ejercicio pastoral. Su madre se llamaba Anne Carpenter y conformaban una familia adinerada de la época.
Thomás recibió una educación privada en casa, y si bien no se sabe nada de sus tutores, se especula con que entre ellos pudo figurar el propio De Moivre, que en esos momentos impartía clases particulares en Londres.
En 1719, con el semestre ya comenzado, se matriculó en la Universidad de Edimburgo, donde estudió Lógica y Teología. Tuvo que elegir una universidad escocesa para continuar su educación, pues en esos tiempos, a los que practicaban una religión diferente de la ortodoxia anglicana no se les permitía matricularse en Oxford o Cambridge. 
También debió haber estudiado matemáticas, pero no hay constancia de que lo hiciera en la citada universidad.
Posteriormente, siguiendo los pasos de su padre, fue ordenado sacerdote presbiteriano, y al principio le ayudó en su tarea en su capilla. Sobre 1733 fue nombrado ministro de una capilla propia, situada en Tunbridge Wells, también cercana a Londres, tras la muerte del pastor anterior. Parece que quiso dejarlo en 1749, pero permaneció como ministro de esa capilla hasta 1752 en que se retiró, si bien siguió viviendo en la localidad.
En 1731 publica su primera obra, de tipo teológico y metafísico, “La divina benevolencia, o un intento para demostrar que el fin principal de la Divina Providencia y su gobierno es la felicidad de sus criaturas“, escrita como respuesta a una memoria del Ministro anglicano John Balguy, en el marco de una polémica sobre la cuestión: “si Dios no estaba obligado a crear el universo, entonces, ¿por qué lo hizo?“. En 1736 publica el otro tratado que presentaría en vida “An Introduction to the Doctrine of Fluxions, and a Defence of the Mathematicians Against the Objections of the Author of the Analyst, so far as They Are Designed to Affect their General Methods of Reasoning“, una defensa del cálculo diferencial de Isaac Newton como respuesta al ataque realizado por parte del Obispo Berkeley a la teoría de las fluxiones en su obra “The analyst, or a discourse addressed to an infidel mathematician”, de 1730. Es probable que la publicación de este trabajo fuera la razón de su elección como miembro de la Royal Society en 1742.
Además de estos dos tratados, también publicó un breve artículo sobre matemáticas, incluido en una carta enviada a John Canton, el secretario de la Royal Society, publicada en 1763, acerca de las series divergentes, en particular, sobre el teorema de De Moivre-Stirling. 
Este artículo no es mencionado ni en las referencias, ni en los comentarios, ni en la correspondencia de ninguno de los matemáticos de la época, por lo que parece que no tuvo demasiada trascendencia.
Bayes fue admitido como miembro de laRoyal Society el año 1742, a pesar de que en ese momento no tenía obras publicadas en las matemáticas, de hecho el artículo mencionado anteriormente sobre fluxiones fue publicado originalmente de forma anónima.

Con respecto a sus aportaciones a la teoría de la probabilidad, sólo se conoce su obra póstuma “An essay towards solving a problem in the doctrine of chances”, publicado  en 1764 en Philosophical Transactions of the Royal Society of Londonpor su amigo Richard Price. Aquí aparece su famoso, y bellísimo, teorema sobre la “probabilidad de las causas”. En el prefacio del envío, Price escribe:
También les envío un ensayo que he encontrado entre los papeles de nuestro difunto amigo, Mr. Bayes, y que, en mi opinión, tiene un gran valor y merece ser conservado.

La filosofía experimental, como puede verse, está muy interesada en este tema y esto me hace pensar en la conveniencia de presentarlo como una comunicación a la Royal Society. En una introducción que también ha escrito él mismo, dice que su objetivo es hallar un método por el que pudiéramos obtener alguna conclusión con respecto a la probabilidad de que un evento ocurra, en circunstancias dadas, y bajo la suposición de que no sabemos nada acerca de él, excepto que, en las mismas circunstancias, un cierto número de veces ha ocurrido y otro número de veces no ha ocurrido.
En la misma carta de envío del manuscrito al secretario de la Academia inglesa, Price también describe el problema, indicando que se trata del inverso al planteado por De Moivre. Hasta entonces, si se supone conocida la probabilidad de éxito θ de la distribución Binomial, se sabía calcular la probabilidad de que se presenten r éxitos en n repeticiones. Para resolver el problema inverso se requiere saber calcular la distribución a posteriori, mediante la versión continua del teorema de Bayes, e introducir una distribución a priori adecuada para el parámetro θ de la distribución de Bernoulli. Bayes utiliza como distribución a priori la uniforme en el intervalo (0,1).
En una forma más coloquial, podemos decir que el objetivo es: Dado el número de veces r que un suceso ha ocurrido en un número de repeticiones n, calcular la probabilidad de que la probabilidad de que ocurra en una nueva repetición esté entre dos valores conocidos b y f. 
Podemos mencionar que la contribución matemática de Bayes en su momento fue escasa y poco valorada, pero de una gran importancia posterior. Thomas Bayes no extendió sus resultados más allá de la distribución uniforme. Para hacerlo, hubo que esperar al propio Laplace, pero su visión de la Probabilidad y de la Inferencia Inductiva ha sido ampliamente adoptada y aplicada a una gran cantidad de problemas en Inferencia Estadística y en Teoría de la Decisión.  Y ello es porque este teorema da respuesta a una importante pregunta: ¿Cómo puede una persona actualizar su creencia actual cuando descubre una nueva evidencia, por ejemplo a partir de un experimento?
La obra publicada por la Royal Society consta, pues, de la introducción elaborada por Price, y de dos secciones. En la primera, Bayes presenta la axiomática, definiendo la probabilidad como una relación subjetiva entre un “presente cierto” y un “futuro incierto”, por ejemplo entre una cierta cantidad a pagar hoy para poder recibir una cantidad aleatoria si un suceso dado se produce. Partiendo de ahí realiza una demostración rigurosa de los teoremas de la probabilidad total y de la probabilidad compuesta. En la segunda sección aparece la demostración sobre la inversión de la probabilidad, que constituye la solución al problema originalmente planteado.
Poco tiempo después, en noviembre de 1764, Price envió a la Royal Society un suplemento al trabajo analizando las posibilidades e implicaciones filosóficas de los resultados alcanzados. 
En concreto la posibilidad de cuantificar el proceso de “aprendizaje” a partir de la experiencia, si bien consideró que ningún grado de uniformidad experimental podía transformar una expectativa en completa certeza.
El trabajo de Bayes permaneció largamente ignorado en los anaqueles de la Royal Society, y tuvo escasa o nula influencia entre los matemáticos de la época, hasta su redescubrimiento por Jean-Antoine Nicolás Caritat, Marqués de Condorcet alrededor de 1774, y su toma en consideración por Laplace en su “Théorie analytique des probabilités” de 1812, donde ya toma la forma más conocida:
Desde entonces, y mucho más desde el advenimiento de la informática, el teorema de Bayes ha tenido un influencia crucial en el desarrollo científico, pues no es baladí su contribución a la evaluación de los grados de certeza de diferentes hipótesis.  Y ha tenido enormes aplicaciones en todos los ámbitos.
Las aplicaciones del teorema de Teorema de Bayes son enormes, si bien no exentas de grandes polémicas. El problema radica en que cuando decimos “el suceso A ha ocurrido” se puede pensar que es un hecho determinista, y por lo tanto no tiene objeto calcular la probabilidad P(A), pues si A ha ocurrido es claro que debe ser 1. Pero el problema es bien distinto si lo que afirmamos es “en caso de que A ocurra”, que es la interpretación correcta para la aplicación del teorema. Por otro lado, las probabilidades asociadas a los eventos Ai son de tipo a priori, y que a veces deben asignarse de manera arbitraria, puesto que no se tiene información sobre el “pasado”, si bien se espera que vayan a ser “mejoradas” con la nueva información que puede aportar la ocurrencia del  suceso A. Es por eso que las probabilidades P(Ai / B) son llamadas a posteriori.
Una posible crítica sería si pudiera darse que con los mismos datos, el uso de distintas P(Ai) pudiera llevar a resultados diferentes. Podemos decir que cuando hay pocos datos, la distribución a priori lo compensa, si bien con muchos tiene poco peso, como veremos en el ejemplo de más adelante.
Finalmente, indicar que el Teorema de Bayes ha sido un importante acicate a la hora de poner en marcha el método científico. Es bien sabido desde Aristóteles que es un razonamiento erróneo, denominado falacia del falso consecuente, el siguiente:

Homo bayesianus
Si A, entonces B
B
Por lo tanto, A
No obstante, para conocer la verdad sobre A, en la inmensa mayoría de los casos que ocurren en las disciplinas científicas, lo que tenemos son casos de este tipo. Y lo que está muy claro es que si queremos establecer la certeza de A, de la que a priori carecemos, podemos saber que, en caso de ser cierta la proposición “Si A entonces B”, el grado de confianza que podemos tener en la veracidad de A debe ser mayor si tenemos la certeza de que B ocurre. La genialidad de la idea de Bayes es que nos ofreció un método para cuantificar esto.
Pongamos un ejemplo. Supongamos que desconocemos hoy si el Sol saldrá mañana o no. De hecho, desconocemos también si es cierta la afirmación “El Sol sale todos los días”, que nos proponemos investigar. Para empezar, podemos asignar una probabilidad del 50% al suceso de que el Sol saldrá mañana, y la misma a su negación. Estas probabilidades son arbitrarias, pero son la mejor manera de mostrar el completo desconocimiento de lo que ocurrirá mañana, en términos de que ambos son equiprobables. Ahora bien, si hemos observado hoy que el Sol ha salido, la probabilidad de certeza de la proposición “El Sol sale todos los días” aumenta, y lo hace todavía más si añadimos las observaciones de un número mayor de días.
Así, si disponemos de  datos que avalan la salida diaria durante  todo un año, tenemos que la probabilidad de certeza de la afirmación anterior, es decir, de que el Sol salga todos los días, aumenta al 99,7%. Y que pasa al 99,9% si contabilizamos datos de 10 años. Ciertamente, Bayes nunca nos asegurará que la probabilidad alcanzará el valor 1, es decir una completa certeza, como es lógico desde un punto de vista científico. Pero podremos realizar medidas observacionales que nos acerquen tanto como queramos a ese valor. Este proceso se denomina inferencia bayesiana.
De hecho, y como ejemplo más práctico, éste es el mecanismo que se sigue en las pruebas de identidad genética, donde se procede a realizar medidas en función de la presencia o ausencia de determinados alelos para realizar una inferencia. obteniendo así un cierto valor numérico que nos mide la probabilidad de que dos muestras pertenezcan a personas con una cierta relación de consanguinidad entre ellas que, incluso, por encima de un determinado valor llegan a ser consideradas como pruebas concluyentes en un proceso legal.
Así pues, hasta las creencias se pueden medir de forma que pueden llegar a ser convertidas en certezas a los efectos prácticos. Lo que nos lleva a considerar que lo que hizo el gran Bayes es proporcionarnos una medida cuantitativa para mejorar el principio de inducción científica que puede adoptar la forma:

Si se observa un caso particular X consistente con la teoría T, entonces la probabilidad de que dicha teoría T sea cierta aumenta en un determinado valor.
A pesar de dichas críticas, la lista de sus aplicaciones es inmensa: Jurídicas, multitud de aplicaciones informáticas, entre las que se encuentras los ubícuos filtros de spam, genética, medicina, juegos, sistemas de control, y un larguísimo etcétera.