Ley De Benford (Newcomb-Benford Law) Aplicada A La detección de fraudes en los Datos Del COVID-19

Cada día nos saturan con datos actualizados de la pandemia del Coronavirus. En España los datos oficiales se publican diariamente por parte del Ministerio de Sanidad a partir de los datos reportados por las Comunidades Autónomas. La gran pregunta que nos podemos hacer es si podemos confiar en el rigor de los mismos. No contribuye a dar demasiada confianza el hecho de que desde los mismos medios oficiales nos avisan de inconsistencias en los datos reportados por cambios de criterios y metodologías, o tampoco que nos lleguen otras noticias y comentarios referente a que no se están contabilizando los casos correctamente. Y por último si vamos siguiendo los datos, también de tanto en tanto apreciamos repuntes difíciles de entender que quizás no contribuyen tampoco a la plena confianza. 

Relacionado con este tipo de datos, pero referente a otro estado, hace unos días nos llegaba la noticia que salpicaba la buena gestión de la crisis en China con sospechas por parte de los servicios de inteligencia de EEUU indicando que los positivos  datos de afectados y muertos de China pueden estar incompletos o falseados  elconomista.esA pesar de la OMS, ha defendido la veracidad y la buena fe en la confección de los datos por parte de la China.  ¿Sería posible detectar si las cifras reportadas por los gobiernos referentes a la pandemia originada en Wuhan  sufren algún tipo de manipulación?.  ¿Podemos utilizar técnicas de detección de fraude sobre estos datos que reportan los diferentes gobiernos?.

Vamos a intentar dar respuesta a estas cuestiones a partir de técnicas de análisis forense de datos, proponiendo la denominada Ley de Benford o Ley del primer dígito.

La Ley de Benford, ha sido adoptada para el análisis de datos forense con un cierto éxito para la detección de faudes electorales, económicos e incluso de lucha anti dopaje. A continuación vamos a ver si igualmente seria aplicable a los datos publicados de afectados por COVID-19.

caso concreto de los datos de China

Hemos buscado estudios en este sentido, y como más significativo nos parece mencionable el trabajo realizado, en fase de publicación, para el caso de China por parte de Junyi Zhang del «Departament of Physics, Princenton University», podemos descargar la interesante publicación completa desde el siguiente enlace https://arxiv.org/pdf/2002.05695.pdf

Junyi Zhang en su trabajo analiza los casos acumulados de afectados en china de 31 provincias desde el 15 de enero de 2020 al 10 de Febrero de 2020, concluyendo que los datos reportados por las autoridades cumplen la Ley Newcomb-Benford y que si bien es posible que los datos no reflejen la totalidad de los casos, no se aprecia la existencia de fraude en la preparacion de los datos.

Los datos de China siguen la distribución de frecuencias de la Ley de Benford, resultando un p-valor muy alto de un 92,8 % del contraste de hipótesis chi2 . A contiuación se adjunta el gráfico extraído del citado artículo, que muestra un claro ajuste a la distribución de frecuencias de los casos reportados de COVID-19 por parte de las autoridades Chinas, respecto la frecuencia de probabilidad esperada por la Ley de Benford.

Benford Covid-China
Frecuencias de los casos reportados de Covid-19 en China respecto los esperados en la Ley de Benford

Caso de España, la prueba anti fraude.

Pues si en China parece que los datos están muy alineados y no se aprecia fraude. ¿Pasa lo mismo en España? Pues vamos a comprobarlo, como primer paso hay que obtener los datos necesarios que los podemos descargar en el siguiente enlace del Ministerio de Salud Instituto Carlos III.

https://covid19.isciii.es/resources/serie_historica_acumulados.csv

En nuestro análisis de España, además de revisar los casos detectados, vamos a ampliar también la comprobación al número de muertes.

Para realizar nuestro análisis, el ejercicio que debemos hacer es contar tanto en los registros de los casos acumulados de COVID detectados como de las muertes producidas, el número de registros de cada una de las cifras reportadas que empiecen por el número 1, luego por el 2 y así hasta el 9. Una vez contados debemos calcular el porcentaje respecto el total de cada dígito y…

Sorpresa! los que empiezan por «1» son la mayoría que suponen más del 30% del total, los que empiezan por 2 también son un colectivo importante de entre un 15%-20%, por contra que los que empiezan por números altos «7,8,9» sólo representan cada uno de ellos alrededor de un 5%, vaya una diferencia…

La magia de Benford parece que también se da en el caso de España con algún matiz que entraremos a analizar.

Aparentemente de forma visual podemos comprobar el parecido de los datos, (muy especialmente en los casos de muertes por COVID), cuyas distribuciones se sitúan muy cerca de los círculos azules esperados según la Ley de Benford.

Frecuencias de los casos de afectados y de muertes producidas reportados de Covid-19 en España
respecto los esperados en la Ley de Benford

Efectivamente si calculamos los p-valores los resultados incluso mejoran los de China, por lo que en España también podemos decir que los datos reportados siguen la distribución de frecuencias de la Ley de Benford,

Casos COVID p-valor=0.9417, Muertes COVID p-valor=0.9961.

Si los datos estadísticamente cumplen con la Ley de Benford… ¿ Podemos Descartar la presencia de Fraudes o errores importantes?

Lamentablemente la respuesta es que no lo podemos descartar del todo, lo que podemos descartar en principio es que se falsean todos los días, y digo en principio porque se pueden también falsear los datos conociendo la Ley de Benford y manteniendo un determinado equilibrio entre los dígitos de las cifras reportadas para que la alarma no salte, cosa que se complica cuando reportan diferentes Comunidades Autónomas (19) de manera independiente por lo que prácticamente podemos descartar que exista unos datos manipulados en la totalidad de las Comunidades Autónomas. Pero siendo posible por ejemplo que alguna de ellas lo haga sin que las alarmas de la Ley de Benford salten de manera muy evidente.

¿Que más aporta la Ley de Benford en este caso?

Llegados a este punto y después de confirmar que la prueba no puede ser concluyente, seguramente alguien puede pensar con una cierta razón,que la aplicación de la Ley de Benford sobre estos datos recuerda en cierta manera a aquella primera remesa de de test rápidos de Coronavirus comprados con prisas que fallaban más que acertaban. Bueno para ser justos no es comparable, ya que de entrada nos ha descartado indicios de un fraude masivo, y además nos puede aportar en este caso alguna información adicional de alguna anomalía estadística que puede ser interesante analizar.

Efectivamente, si volvemos a revisar la gráfica vemos que la desviación más significativa corresponde a los números 1 y 2 de la serie de casos detectados de COVID, apreciamos un claro desenfoque que podemos resumir que nos sobran registros de casos reportados de COVID que empiezan por uno (la aspa roja sobre el número 1) respecto la redonda azul que corresponde a la cifra esperable de la Ley de Benford. (Concretamente 36,12% vs 30,10%) y por contra nos faltan registros que empiezan por 2 (14,72 vs 17,61%) cosa que podemos interpretar como indicio de que algunos registros que empiezan por 1 realmente deberían empezar principalmente por 2. De entrada no seria descartable que quizás estas situaciones pueden producirse por retrasos en la realización de test o reporte de los resultados en determinados casos.

Si analizamos los registros que empiezan por «1», comprobamos que tres comunidades acumulan una gran concentración de registros que empiezan por «1» Cantabria (CB) e Islas Baleares(IB) con 34 y Canarias (CN) con 31, situación producida por el reiterado reporte en las 3 comunidades de cifras de afectados entre 1.000 y 1.999. Una explicación de la desviación de los dígitos 1 y 2 respecto Benford compatible con la situación que nos ocupa, seria que alguna de estas tres comunidades estuviese reportando por debajo de los casos reales y que alguna de ellas haya superado los 2.000 bastante antes de lo que se indica.

En mi opinión esta es la gran utilidad de la Ley de Benford, explicitar anomalías estadísticas que pueden ser un buen punto de partida para la localización de potenciales situaciones irregulares. Aunque en muchos casos estas anomalías estadísticas se expliquen por otros factores limitativos (por ejemplo falta de medios para realizar test) u otras restricciones que nada tienen que ver con la existencia de fraudes o deliberada mala fe en el reporte de los casos.

más cosas sobre la Ley de Newcomb-Benford.

Haciendo un poquito de historia hay que mencionar que el primero que se dio cuenta fue el matemático y astrónomo Simon Newcomb que además de contribuir con hallazgos astronómicos de gran valor, observó que las hojas de las tablas de logaritmo del «1» eran las que estaban más usadas y que el uso de las tablas era decreciente en los números siguientes, por lo que pudo deducir que los primeros dígitos de las cifras no tenían la misma probabilidad de ser consultados. Unos años más tarde  Frank Benford también observó el fenómeno en las tablas de logaritmos y dio un paso más al realizar una serie de de pruebas empíricas en diferentes muestra de datos diversos que confirmaban esta ley, viendo que la probabilidad de que un número en un registro de un set de datos comience por un dígito «d» (siendo d un número entero del 1 al 9) es de P(d) = log10 (1 + 1/d), desde luego un gran avance, pero sin llegar proponer ninguna formulación matemática, ya que habría que esperar hasta el 1996 hasta que Theore Preston Hill aportase la correcta demostración matemática. En Justicia la quizás la ley debería llamarse Newcomb-Benford-Hill. Pero en una perspectiva práctica hay que destacar el importante papel que ha tenido  Mark Nigrini en la aplicación de la Ley de Benford como metodología de utilidad para la detección del fraude.

La probabilidad de frecuencias de la Ley de Benford del primer dígito PN(D) de una cifra (d) viene determinadas por la relación PB(d) = log10 (1+1/d) por lo que el resultado exacto esperado sería:
1 -> 30.10299956639812 %
2 -> 17.609125905568124%
3 -> 12.493873660829994%
4 -> 9.691001300805642 %
5 -> 7.918124604762482 %
6 -> 6.694678963061322 %
7 -> 5.799194697768673 %
8 -> 5.115252244738129 %
9 -> 4.575749056067514 %

Antoni Lisbona

Chief Financial Officer BuConda