Una vez tuve un trabajo que consistía en la realización de una serie de informes estadísticos que, por vía privada, llegaban al ámbito público: una de aquellas cosas que servían para que Espe dijese ante las cámaras que los madrileños reciclan como el culo, y cosas así. El caso es que para hacer bien las estadísticas hacía falta mucha gente recogiendo datos, para hacerlas regular hacía falta bastante gente recogiendo datos, y con la gente que teníamos dedicada a la recolecta del dato, no daba más que para conjeturar. Para que los que recibían el informe durmiesen tranquilos sin que un margen de error del 40% les quitase el sueldo, era tradición en la empresa, antes de mi llegada, coger los cuatro datos reales y acompañarlos con un buen montón de datos inventados para hacer bulto.
No tenían matemáticos en plantilla hasta que llegué yo, y cuando llegué a mi aquello naturalmente, me horrorizó: ¿cómo diablos podía nadie inventarse datos tan mal? Traté de explicárselo a la que fue mi jefa, una de las mujeres más insoportables e ineficientes que he conocido en mi vida, contándole que existen herramientas estadísticas para detectar cosas como si un dado está cargado, si una ruleta tiene trampa o, en general, si una supuesta sucesión de números aleatorios no lo es, o si corresponden a una distribución de probabilidad o a otra como, por ejemplo, “los datos que se ha ido inventando A.” No quiso o no pudo entenderme, y le expliqué, despacito: si se supone que tienen que salirnos cifras porcentuales a partir de muchos datos, es sumamente improbable que casi todas ellas terminen en …5% o …0%, aunque sólo sea porque últimos dígitos hay 10 posibles y que salgan 2 todo el rato es raro.
Duré poco allí porque me salió otra cosa, pero al menos cuando me fui tenían una serie de directrices para, puestos a inventarse números, hacerlo de forma que pudiera colar. Supongo que no me harían ni caso, y da igual.
El caso es que pienso en esto cuando leo una noticia del sábado del Washington Post (a la que llego vía el estupendo God Plays Dice); en el artículo, los autores analizan los números de votos por provincias que ha hecho públicos en Ministerio del Interior Iraní. En concreto, miran a las dos últimas cifras, esto es, si en un sitio tal partido ha sacado 481.035 votos, se quedan con el 35, y así con todas. La idea es que la tendencia de los votos puede subir o bajar y ser predecible hasta cierto punto o no, y pueden efectuarse cálculos sobre números probables de voto, pero llegar al nivel de detalle de las dos últimas cifras es, en rigor, descender a datos aleatorios, y como tales, números aleatorios deberían ser. ¿Y lo son? Ahora miramos. ¿Y qué más da, si cien votos no deciden quién gana? Pues importa porque los seres humanos somos muy malos cuando intentamos dar series aleatorias de números, por ejemplo al inventarnos un número de votos, en lugar de limitarnos a contarlo. Hasta tal punto somos malos que, durante la Segunda Guerra Mundial, las encargadas de inventar cadenas aleatorias de palabras y números para la elaboración de claves de cifrado tenían órdenes de realizar el proceso con un bombo, porque en la aletoriedad de la clave estaba su eficiencia, y se sabe que algunas de las operarias, de hecho, cambiaron los números que salían porque no les sonaron a aleatorios los que sí lo eran, produciendo así alguna que otra clave, digamos, débil. Pero me estoy yendo por las ramas, para variar.
Rebobinamos a las dos últimas cifras de los votos en Irán: en rigor, debería ser un número aleatorio de dos cifras, incluyendo ceros, entre 00 y 99. Y por ejemplo, la probabilidad de que se dieran números de cifras consecutivas (aquellas cuya primera cifra es uno más o menos de la segunda, por ejemplo 23 (porque 2 + 1 = 3) o 76 (porque 7 – 1 = 6) debía ser del 20% (*), mientras que la cantidad de números de este tipo que se dan en las cifras de los 3 candidatos para las 29 provincias es del 38%.
Por otra parte, lo normal sería que cada número entre 0 y 9 apareciese como la última cifra en el 10% de las ocasiones. Pero el ser humano está muy acostumbrado a ver el 5 como algo habitual (y por lo tanto, nada aleatorio, lo que tiene que ver con la base 10 y los dedos de la mano) y el 7 como un número extraño, y resulta que el 5 aparece sólo el 4% de las veces, y el 7 un 17%.
Concluye el Washington Post que cada uno de esos test da una fuerte evidencia de manipulación de los datos electorales, pero que los dos, juntos, dejan poco sitio para toda duda razonable, y dice que la probabilidad de que tal cosa ocurriera es menor del 0’5%, de lo que ellos infieren un soberano (y a estas alturas ya sangriento) pucherazo.
El problema es que las cuentas pueden hacerse, pero hay que ser cauto con las conclusiones. A fin de cuentas la probabilidad de que alguien gane el Euromillón son todavía menores pero, de cuando en cuando, alguien se forra ganándolo, es decir, cosas más improbables suceden, y que como bien dicen en los comentarios de GPD, no sabemos si sólo le han hecho esos dos tests a los datos, habiendo salido los dos a favor del fraude, o si le habrán hecho más que, habiendo resultado normales, no hayan hecho públicos porque no iba con la noticia.
Así que resumiendo, que lo de Irán quizá sea fraude, y quizá no, y hay evidencia que sugiere que sí, pero no sabemos si suficiente. Lo único claro es que el Washington Post opina que debemos pensar que sí. Al menos eso no es ninguna anomalía estadística.
(*) Del 20% porque, dada una primera cifra cualquiera, existe un 10% de que la siguiente cifra sea, digamos, uno menos (o un 9 si se trata de un 0, pero contemos 09 y 90 como válidos también), y un 90% de que no lo sea, en cuyo caso sabemos que es una cifra de entre las nueve que no son una menos, una de las cuales (una entre nueve) es la otra que nos vale, es decir P(X) = (1/10) + (9/10)x(1/9) = 2/10, en porcentaje un 20%.
...me ha gustado tus idas y venidas por las ramas de la intervención en lo aleatorio...y yo debo ser una humana rara porque odio el 5 pero adoro el 7...
ResponderEliminarPD. Gracias por esta clase estadística y más para una que es de letras! ;)
Joooder, con la cabeza un poco embotada, pero alucinando. Muy interesante.
ResponderEliminarBueno, cómo llegué aquí, lo resumiré en una frase: a qué pocos de España nos gusta Kula Shaker.
Saludos.
La ley de Benford asegura que, en los números que existen en la vida real,el 1 aparece con mucha más frecuencia que el resto de los números.
ResponderEliminarhttp://es.wikipedia.org/wiki/Ley_de_Benford
También podría utilizarse ese hecho para ver si ha habido o no fraude.
Sé que no tiene nada que ver pero cuando leí lo del bombo pensé en el instrumento musical y no era capaz de imaginarme cómo se lo montaban para sacar números aleatorios (además, la escena en mi cabeza se veía bastante ridícula).
ResponderEliminar