«Big Data» y estadística: de qué se trata

3 abril 2022, 05:50

«Tiempos de Big Data y algoritmos», dice Walter Sosa Escudero. Reproducimos este artículo suyo, que ayuda a entenderlos:

“Big data es estadística con masa madre” dijo alguien, con intenciones de relativizar el fenómeno de datos masivos, que tiene tanto de revolución como de “parripollo” o “café de especialidad”. Antes, estaba la estadística. Después vino el diluvio universal de datos, se pasó de estimar a “entrenar” modelos, y, de asignatura nerd, la ahora llamada ciencia de datos devino en la disciplina más «sexy» del mercado laboral. ¿Es big data el fin de la estadística?

A diferencia de las encuestas o los experimentos, los datos de big data no provienen de ninguna estructura, sino de información creada por un mecanismo secundario, pasivo. Si alguien les preguntase qué están haciendo, posiblemente respondan “estoy leyendo el diario” y no “estoy generando datos”. Pero, si mientras leen esta nota tienen sus celulares prendidos, lo están haciendo.

Sin embargo, por muchos que sean estos datos, no son más de lo mismo. En una encuesta o experimento hay una estructura: una relación explícita entre los datos y lo que estos pretenden representar. Los cerca de 1500 hogares que conforman la Encuesta Permanente de Hogares del Gran Buenos Aires deberían poder representar el comportamiento de los casi 5 millones de la región. Es la estadística la que garantiza que es posible extrapolar conclusiones de la muestra a la población, a través de un vínculo probabilístico explícito en ellas.

Por el contrario, los datos de big data no tienen una estructura trivial, de modo que no refieren a ninguna población obvia y, justamente, proveer esa estructura es tal vez la tarea más desafiante de la ciencia de datos. Cualquier encuesta implementada en las redes sociales recoge muchos más datos que los que usa el Indec para medir la pobreza. Pero, sin una estructura obvia, estas encuestas son solo representativas de los seguidores de Twitter o Instagram de una persona o institución. Y esta cuestión es la madre de casi todos los problemas de big data.

Así, las encuestas de usuarios de una plataforma esconden la opinión de quienes no la usan; los datos de automóviles obtenidos vía sensores en una autopista no muestran información de quienes la evitan, creando peligrosos sesgos, de los que la estadística se ha ocupado desde sus inicios.

Se habla de big data como si fuese la primera revolución de datos de la historia. Pero no es obvio ni que sea la primera ni que sea realmente revolucionaria.

Ya no sorprende que, luego de googlear “Italia”, las redes sociales nos ataquen con ofertas de pasajes a la tierra de Dante Alighieri o imágenes del Coliseo; ni que Google Maps nos lleve eficientemente de un lugar a otro. Pero llama la atención que los éxitos de big data convivan con yerros notables, cuando no con silencios llamativos acerca de fenómenos cruciales.

En 2022 todavía no sabemos con precisión cuándo terminará la epidemia de Covid-19, quién ganará las próximas elecciones o cómo saldrá un partido de fútbol. Peor aún, tampoco ha mejorado la capacidad predictiva de estos fenómenos, aun cuando la cantidad de datos y la potencia de los algoritmos hayan crecido a tasas exorbitantes.

Desde la perspectiva de que big data es simplemente un fenómeno de “más datos”, la estadística debería ser la primera agradecida al verse librada de la escasez de materia prima con la cual trabajar. Pero como big data no es un fenómeno de más de lo mismo, no solo no resuelve los problemas que tenía la estadística, sino que los magnifica.

Los sesgos que afectan a los algoritmos son de una naturaleza idéntica a la de los que atentaron contra las herramientas de la estadística clásica, como los que en 1936 condujeron a uno de los fracasos más estrepitosos de la disciplina, cuando una masiva encuesta predijo que Alfred Landon ganaría las elecciones presidenciales en los Estados Unidos sin darse cuenta de que había sido implementada mediante el sistema de correo, que sobrerrepresentaba a los votantes ricos y cultos.

*A big data se le escapó la tortuga, una vez más, como con la irrupción de la pandemia, la elección del Papa Francisco y otros eventos cruciales.*

La impredecibilidad del valor del dólar o del resultado de un partido de fútbol obedece a razones que fueron estudiadas hace más de medio siglo por la economía, las finanzas y la matemática. Las dificultades a la hora de lidiar con datos faltantes fueron analizadas por la estadística y, algunas de ellas, por la economía, como los métodos que le valieron el Nobel en 2000 a Daniel McFadden y James Heckman, o las técnicas casi experimentales por las que Joshua Angrist, Guido Imbens y David Card obtuvieron el galardón en 2021.

Más aún, se habla de big data como si fuese la primera revolución de datos de la historia. Pero no es obvio ni que sea la primera ni que sea realmente revolucionaria. A mediados del siglo XVI, Tycho Brahe provocó una auténtica revolución de datos astronómicos que luego dieron lugar a las teorías de Kepler, Galileo y Newton acerca del movimiento de los planetas, y a la física de los tres siglos posteriores. A mediados del siglo XIX, el monje austríaco Gregor Mendel gestó otra revolución de datos al cultivar más de 28.000 variedades de un guisante, cuyo estudio minucioso lo llevaría a postular las “leyes de Mendel” que conforman los principios básicos de la genética.

La estadística y la ciencia formal serán un componente clave para que big data se trasforme en una revolución.

La historia de la ciencia provee varios ejemplos de este tipo, que sugieren dos cuestiones llamativas: que la de big data no es la primera revolución de datos y que a las que hubo les sucedió una auténtica revolución de ideas, que cambiaron radicalmente la forma de interactuar con el universo.

Es la conjunción de datos y mentes brillantes lo que produce revoluciones en el conocimiento; la estadística y la ciencia formal serán un componente clave para que big data se trasforme en una revolución. Mientras tanto, nos obliga a ver a big data como una promesa y, fundamentalmente, a tener una postura madura, capaz de apreciar sus enormes ventajas y, a la vez, lidiar con sus limitaciones, para lo cual la estadística es una disciplina esencial. Recién cuando aparezca el (¡y ojalá que “la”!) Newton o Mendel de big data es que realmente podremos darle al fenómeno la entidad revolucionaria que reclama.

A fines de 2021, The Economist publicó un artículo sobre las posibles acciones de Putin, como parte de una sección futurista llamada “El Mundo en 2022″ y titulado “Putin renovará sus ataques sobre internet y las elecciones”. La palabra “Ucrania” no aparece por ningún lado. A big data se le escapó la tortuga, una vez más, como con la irrupción de la pandemia, la elección del Papa Francisco y otros eventos cruciales.

La estadística no solo no ha muerto, sino que está más viva que nunca, porque big data, más que resolver sus problemas, los ha vuelto a poner sobre la mesa. El reciente libro del autor de esta nota, Qué es (y qué no es) la Estadística, publicado por Siglo XXI Editores, es una introducción informal y a la vez rigurosa de las contribuciones de esta disciplina clave para las sociedades y su rol crucial en tiempos de big data y algoritmos.