Así se analiza la información que es publicada en Facebook

informacion-fbk

Las 1.700 millones de personas que usan Facebook por mes y generan allí millones de publicaciones y de “Me gusta” conforman lo que se denomina grafo, desde el cual se puede extraer información para hacer “inferencias”, como “predecir atributos de usuarios y entender su comportamiento”, explicó el argentino Carlos Diuk, miembro del equipo de Big Data de la popular red social.

La magnitud de los datos que circulan por la plataforma es tal que los grupos que integran el “ecosistema de Big Data” de Facebook -como lo llamó Diuk- se manejan en Exabytes (una unidad de medida que equivale a 1024 Petabytes, es decir más de 1.073 millones de Gigabytes).

“Uno de los análisis que hicimos en el Mundial de Fútbol pasado fue lo que llamamos ‘migración de fans’. Es decir, ver qué pasa con los hinchas cuando su equipo pierde o no está jugando en ese partido”, ejemplificó Diuk durante una charla que brindó en la 45° edición de las Jornadas Argentinas de Informática, que tuvieron lugar en la Ciudad de Buenos Aires.

En este sentido, Diuk remarcó que junto a su equipo -denominado “Core Data Science” y enfocado en el análisis de identidad e inferencias- confirmaron que según las publicaciones realizadas por los usuarios en Facebook, durante el Mundial hubo “solidaridad continental”.

Este concepto significa que los hinchas de países eliminados de América Latina y Europa, luego apoyaron equipos de su continente.

“Excepto Grecia, que en un 69% apoyó a equipos de América Latina por sobre sus vecinos”, aclaró Diuk, egresado en Ciencias de la Computación de la UBA y con un doctorado en inteligencia artificial en la Rutgers University de Estados Unidos.

Además, agregó que con respecto a Brasil-Argentina, “la gente de ambos países sistemáticamente apoya al rival del otro” cuando pierde su equipo. Un comentario que despertó risas entre las más de 100 personas que presenciaron su charla en la sede de posgrados de la Untref, en el Centro Cultural Borges.

Debido a la cantidad de información que maneja, “una de las características de Facebook es que todo es un grafo: de amigos, de personas a páginas, de personas a grupos, relaciones entre personas y sus publicaciones”, señaló el investigador.

Entonces explicó que de ese grafo se puede extraer información para analizar los millones de datos que diariamente los usuarios publican en la red social, en el marco de un trabajo que los investigadores realizan con tres herramientas que son de código abierto: Hive, Presto y Scuba.

“Lo que hace Scuba es contar cosas y sirve para análisis en tiempo real. Tiene una interfaz gráfica y eso permite que se use para monitorear en un gráfico, por ejemplo, los likes que hacen las personas. Hay muchos equipos de Facebook que tienen una televisión con alguna consulta en Scuba para ir viendo qué pasa con las líneas”, relató Diuk.

Uno de los enfoques de “Core Data Science” está puesto en las inferencias, lo que puede predecir atributos de usuarios y entender su comportamiento. “Por ejemplo, observamos que el objetivo del 30% de las búsquedas de personas en Instagram es encontrar a alguien en la misma ciudad”, citó como caso.

La idea que subyace a esto -resumió Diuk- es la de “homofilia en el grafo”, que se define como la tendencia de las personas de agruparse con gente similar (misma ciudad, misma escuela, misma universidad, mismo estilo de música).

“Se trata de aprovechar la homofilia que existe efectivamente en el grafo. Esto es algo que confirmamos, las conexiones entre los usuarios se dan por alguna categoría de homofilia”, señaló el investigador.

También realizan en Facebook pruebas para probar productos, lo que se denomina como “A/B Testing”. “Un ejemplo, es una prueba que hicimos con el cartelito que aparece en la pantalla de inicio que dice ‘a tal amigo tuyo le gusta una página'”. Así se hizo otro test con uno que decía “a dos amigos les gusta tal página”, y otro con tres amigos.

“Esto nos permitió verificar que existe ‘contagio social’. En este sentido, el número de clicks a una página aumenta a medida que aumenta el número de amigos que ponen Me Gusta”, sostuvo el especialista.

El investigador mencionó a otra una herramienta que se llama ‘Sentiment Analysis'”, que hace foco en las emociones publicadas por los usuarios. Y otro de los aspectos que también analizan es la viralidad, que lo hacen rastreando las mutaciones de las publicaciones que se hacen virales.

“La buena ciencia de datos empieza siempre con buenas preguntas y no con técnicas extravagantes”, concluyó Diuk.