Big Data. Para qué sirve. Para qué no

«Big data» es un concepto que se ha puesto de moda, especialmente entre periodistas, comunicadores y opinadores varios. Como sucede en estos casos, se ven dos tenencias: los que creen que es una herramienta superpoderosa, que explica todos los resultados comerciales o electorales que nos sorprenden, y los que piensan que es sólo la última moda.

Ambas están equivocadas. La definición más simple y breve de Big data es que se trata de «datos masivos provocados por la interacción de dispositivos interconectados». Así, esos dispositivos que usamos en la vida cotidiana, computadoras, telefónos celulares, cajeros automáticos, produjeron en los dos últimos años -se afirma- más datos almacenados que en toda la historia de la humanidad.

La tecnología que permite reunirlos también ayuda a organizarlos y extraer más información. Y esa información ayuda a sumar ventas, o poder. Pero no es ni fácil ni automático.

El economista Walter Sosa Escudero, investigador del Conicet y director del departamento de Economía de la Universidad de San Andrés es el autor de “Big data” (Siglo XXI editores). Ahí analiza la sobreabundancia de información y la “invasión” de algoritmos que permiten identificar patrones de consumo, inclinaciones y prejuicios de los individuos. Como corresponde, se le han hecho reportajes sobre el tema en los medios masivos. Elegimos éste de La Capital, de Mar del Plata, que nos parece el más claro, sin simplificar demasiado.

ooooo

Las sociedades acostumbradas a lidiar con recursos escasos se confrontan por primera vez frente al big data, un fenómeno marcado por la sobreabundancia ¿A qué clase de reto nos confronta el exceso de información?

– Hace 40 o 50 años el dato era un recurso súper escaso. El nacimiento de las estadísticas oficiales y de las encuestas fue una reacción natural frente a esa escasez. Si bien es cierto que big data nos confronta hoy a un exceso de datos y de información, eso no se da en todas las direcciones: hay ciertos datos que siguen siendo elusivos. Tenemos sobreabundancia en algunos campos pero a la vez hay escasez en lugares donde ya había escasez. Por ejemplo, no tenemos más información que antes para saber cómo era la distribución del ingreso cuando Argentina era “el granero del mundo”. En segundo lugar, cuando empieza a darse una abundancia aparece también una limitación. Las limitaciones relacionadas en este caso se dan en primer término respecto a la capacidad de procesamiento, ya que en muchos casos los datos van adelante y los algoritmos atrás. El otro gran escollo a superar tiene que ver con las ideas, porque los datos no hacen preguntas por sí mismos. Una mayor disponibilidad de datos es buena noticia para la ciencia, que ya lleva siglos haciéndose preguntas y ahora tiene la posibilidad de empezar a responderlas con esta mayor disponibilidad de información.

El sistema de algoritmos construye patrones de afinidad que son utilizados por los buscadores y las redes sociales para ofrecer a cada usuario información compatible con sus intereses. ¿Cuál es el riesgo de generar comunidades homogéneas que no reproducen la logica heterogénea de las sociedades?

– El fenómeno de agrupamiento por similitud es viejo como las sociedades. Los mecanismos segregatorios existían antes que los algoritmos y los datos. La pregunta es si con la manipulación que pueden ejercer los algoritmos ese fenómeno se exacerbó o quedó como estaba. Los resultados todavía no son muy conclusivos, aunque hay un estudio polémico realizado por Facebook según el cual la gente se crea una burbuja de afinidad mucho antes que la acción de los algoritmos. Puede darse por ejemplo el caso de alguien que tiene ideas afines a la izquierda y se encuentra en Facebook con un compañero del secundario que es de derecha, al que termina bloqueando apenas pone tres mensajes expresando su posición. Estamos hablando de una acción voluntaria de segregar que no está disparada por ningún algoritmo. La pregunta es, ¿nos aislamos nosotros, nos aísla el algoritmo o entre todos hemos armado esta especie de diario de Yrigoyen que nos vincula solo con lo que nos gusta?

El filósofo francés Eric Sadin sostiene que con el advenimiento de la inteligencia artificial y el big data se produjo un retroceso en la capacidad del juicio ¿Los algoritmos debilitan nuestra capacidad de decisión?

– No creo que seamos tan tontos. Big data te baja la guardia en tonteras pero los problemas atávicos se nos siguen riendo en la cara y nos mantienen alertas. Los algoritmos resuelven ciertas cosas, es cierto: entro a Netflix y acepto sus recomendaciones, o voy a la página de Amazon para comprar una taza y me sugiere a la vez una cucharita que tal vez me puede venir bien, pero en todo caso son decisiones simples o irrelevantes respecto de los grandes problemas que nos plantea la existencia.

No me parece que el espíritu crítico esté bajo acecho. Big data nos deja muy en ascuas en muchas cuestiones importantes, la posibilidad predictiva de encontrar patrones todavía se aplica a cosas poco elementales.

¿Por qué los algoritmos resultan tan certeros para trazar nuestro perfil de gustos y consumos?

– El algoritmo actúa sobre la lógica de equivocarse y aprender. Y creo que eso es completamente innovador porque en general estamos educados para tratar de hallar la solución del problema en un solo paso. El algoritmo, por el contrario, intenta equivocarse, fabricar errores para tener feedback rápido. Todavía estamos lentos como sociedad en abrazar a los errores: creemos que cometer un error es equivocarse y en definitiva es hacer que la máquina ande. En casa, por ejemplo, no tenemos un solo usuario de Netflix. Estamos mi esposa y yo que tenemos gustos similares y por otro lado mi hijo que tiene gustos radicalmente diferentes. Al principio el algoritmo de la plataforma se volvía loco y pretendía sacar promedio. Yo tengo 53 y mi hijo 15, entonces se enfocaba en alguien de 35 y ahí le erraba ridículamente: proponía cosas que no me gustaban a mí ni a mi hijo. En los últimos meses aprendió y se dio cuenta que hay más de un perfil. Ahora recomienda simultáneamente para un perfil de adulto y para otro de adolescente.

¿Lo novedoso del big data no es tanto la oferta pantagruélica de información como el sistema de cálculos y algoritmos que permite clasificarla y predecir comportamientos o tendencias?

– En Big Data estamos ahora en la etapa de encontrar patrones, predecir, clasificar, persuadir, etc… pero explicar sigue siendo una instancia difícil. Hoy se puede utilizar un mecanismo de imágenes satelitales para predecir lluvia… ahora, hacer llover es una cosa completamente distinta.

Y respecto a la fase predictiva, todavía no se ha logrado hacerlo con cuestiones decisivas: nadie predijo, por ejemplo, qué iba a surgir la fórmula Alberto Fernández- Cristina Fernández, así como fue difícil predecir el Brexit, la elección de Trump como presidente… De hecho, el último Mundial de Fútbol fue el de los algoritmos por excelencia y nadie pudo anticipar al ganador.

En el ensayo citás el caso de Alice Wu, una joven investigadora que desarrolló un algoritmo para medir la desigualdad de género ¿El ejemplo sirve para ilustrar que los cambios tecnocientíficos van a una velocidad mayor que los cambios sociales?

– Claro, la tecnología y el conocimiento avanzan más rápido que las transformaciones sociales. Los datos también pueden echar luz acerca de la velocidad a la que se mueven las cosas. La discusión no es si hay brecha de género sino si la velocidad a la que esa brecha se cierra es baja. Está documentado que la reducción de la brecha se ha estancado en términos de participación y de salario, algo incomprensible después de tantos procesos sociales y cognitivos por los que ha atravesado América Latina. Todos esperábamos que se cierre mucho más rápido. Me parece que esta cuestión de los datos puede hacer mucho en términos de las brechas discriminatorias porque pueden focalizar correctamente el problema y sus alcances. Lo que hace Alice Wu es poner una medida cuantificable de cuánto se discrimina y eso se puede replicar en todos los ámbitos y en todos los períodos. Su contribución no es decir que a las mujeres las discriminan sino haber encontrado una forma sistemática, reproducible y clara de monitorear el tema. Lo que antes era una opinión ahora es un número. Estaría bueno hacer el ejercicio de Alice Wu todos los años para ver si esta brecha continúa cerrándose.