¿Puede la Ciencia de Datos anticipar al ganador (a) de una elección?

En la actualidad se ha vuelto muy común escuchar los términos Ciencia de Datos e Inteligencia Artificial, pero poco se sabe de ellas; y más si se relacionan con temas electorales. En esta entrega te diremos qué son y cómo las hemos aplicado en nuestra investigación.

La Inteligencia Artificial es un área del conocimiento que se distingue por la aplicación de una serie de técnicas de programación orientadas a emular el comportamiento y las acciones humanas. En la actualidad, una de las formas más destacadas de observarla son las herramientas que recrean la interacción conversacional, tales como ChatGPT o Chatbot de empresas. La Ciencia de Datos, por su parte, es un campo interdisciplinario cuyo propósito es analizar y procesar conjuntos de datos para perfeccionar toma de decisiones o realizar predicciones. Durante los últimos años esta rama del conocimiento aplicado ha ganado particular relevancia por a) el impulso de los avances tecnológicos en sistemas de cómputo, que posibilitan el procesamiento y almacenamiento eficiente de grandes volúmenes de datos; y b) por la preponderancia de las redes sociales, y que se caracterizan por transcurrir en tiempo real.

Ya en el terreno de lo particular, esta nueva forma de comunicación resulta interesante por el impacto que ha tenido sobre diferentes aspectos de la sociedad relacionados con lo político, lo económico y lo social. En el caso de México, por ejemplo, estas plataformas desempeñan un papel fundamental en la conversación que día a día realiza la población en general. En este punto, la figura que se muestra a continuación resulta clarificadora porque proporciona un análisis detallado de los tipos de redes sociales que son más utilizadas en el país. Un dato que salta a la vista es que Facebook y WhatsApp concentran más de la mitad de la preferencia en el uso (61.3%), mientras que el porcentaje restante se lo dividen Tik Tok, Instagram, Twitter, Facebook Messenger, Pinterest, Telegram, Discord y Snapchat [1].

Si conjugamos este dato con el crecimiento en el número de usuarios de internet [1] es posible vislumbrar la importancia de contar con herramientas como la Ciencia de Datos o la Inteligencia Artificial para el análisis del lenguaje en redes, pues hoy, como nunca antes en la historia de la humanidad, tenemos miles y miles de mensajes que nos puedan dar luz sobre el qué hacer público y la forma en que evaluamos a nuestros futuros representantes.

Sobre este principio, desde 2021, un grupo de investigadores conformado por comunicadores políticos, lingüistas y especialistas en ciencia de datos de la Universidad Iberoamericana CDMX, y liderados por el Dr. Ulises Cruz, diseñamos un algoritmo no supervisado que lee lenguaje natural para identificar postura de voto de los usuarios en Twitter.

Tras su programación, ¿Qué resultados obtuvimos? Una primera versión de este dispositivo fue probada con un conjunto de prueba de 5 mil tweets en el contexto de las elecciones presidenciales de 2018, donde contendieron: Andrés Manuel López Obrador, Ricardo Anaya Cortés y José Antonio Meade Kuribreña. Tras el ejercicio, el algoritmo arrojó una coincidencia perfecta en las posiciones que estos candidatos obtuvieron respecto de la votación final. Como lo muestra la siguiente gráfica, Andrés Manuel López Obrador quedó en primer lugar, seguido de Ricardo Anaya y José Antonio Meade.

Tal y como se aprecia en la imagen anterior, y con el objetivo de verificar nuestros resultados, el mismo conjunto de datos se puso a prueba en un algoritmo supervisado de Machine Learning denominado K-Vecinos Cercanos (K-Nearest Neighbors). Después de procesarlos, encontramos que ambos algoritmos coincidieron con la tendencia electoral final de dicha elección presidencial.

Hecho lo anterior, se procedió a aplicar el algoritmo en un nuevo conjunto de mensajes, pero esta vez sobre una base de 90 mil tweets provenientes de los debates y cierres de campaña de la gubernatura del Estado de México en el 2023. Concluido el primer debate, nuestro algoritmo reportó en tiempo real que la morenista Delfina Gómez se ubicó en el primer lugar de las preferencias electorales, mientras que Alejandra del Moral, de la coalición PRI-PAN-PRD, en el segundo.

El segundo debate y el cierre de campaña no mostraron cambios en las posiciones de las candidatas, por lo que, al término de la prueba, concluimos una vez más que el algoritmo no presenta sesgo de probable ganador, aunque sí una baja precisión dado el número de tweets analizados [2].

Esto, de acuerdo con estudios previos, se debe a que los tweets analizados se encuentran por debajo del millón de unidades. En la literatura especializada, incluso, hay algoritmos de este tipo que han reducido sus márgenes de error hasta 0.5% con tres millones de tweets clasificados. Para probarlo, nuestro equipo de investigación aplicará este algoritmo durante las elecciones presidenciales de 2024 para verificar si, efectivamente, la precisión se incrementa conforme lo hace el número de unidades analizadas.

Si te interesa conocer la respuesta, no olvides seguir nuestro blog y enviarnos tus dudas y comentarios.

Referencias

[1] Most popular online activities of internet users in Mexico as of May 2023 [Graph], AMIPCI, April 3, 2023. [Online]. Recuperado de: https://www.statista.com/statistics/256009/online-activities-of-internet-users-in-mexico/

[2]. https://revistas.ibero.mx/ibero/uploads/volumenes/70/pdf/REVISTA-IBERO-Vol-84.pdf

Nota metodológica: Esta publicación forma parte del proyecto Procesamiento de lenguaje natural, volumen y predicción de voto en Twitter (X), el cual es financiado desde 2021 por la Universidad Iberoamericana CDMX. Para el análisis lingüístico de los tweets con tendencia de voto explícita (i.e. #YoConAMLO) se tomaron en cuenta expresiones a favor de los candidatos, sus partidos o alianzas y hashtags alusivos, principalmente. Mientras que para el análisis de tweets con tendencia de voto implícita (aquellos que conllevan un proceso interpretativo: “NO a la mafia en el poder. SÍ a la transformación”) se formaron bolsas de palabras a partir de distintas maneras de referirse indirectamente a los candidatos. Tras una búsqueda sistemática de estructuras argumentales, se identificó un conjunto de palabras verbales de las que se puede inferir una intención de voto con criterios sintáctico-semánticos. Hecho lo anterior, se procedió a diseñar el algoritmo mediante dos estrategias. La primera de ellas consistió en transformar los criterios lingüísticos a un lenguaje de programación que permitiera: 1) clasificar y determinar la orientación del voto y 2) representarlo en una gráfica. La segunda estrategia fue realizar el procedimiento anterior con K-Vecinos Cercanos, para así determinar la validez del algoritmo. Los resultados obtenidos de la plataforma Twitter no se consideran estadísticamente representativos de la preferencia electoral en el territorio mexicano, pero sí una aproximación a lo que se enuncia con mayor frecuencia en la red durante los periodos observados (Debates y Cierres de campaña).

Autor: Mauricio Flores Gerónimo.

Doctor en Ciencias de la Ingeniería por la Universidad Iberoamericana (IBERO), Ciudad de México. Actualmente es académico de tiempo completo de la Coordinación de Ingeniería en Ciencia de Datos en el Departamento de Estudios en Ingeniería para la Innovación en la Universidad Iberoamericana Ciudad de México. Las líneas de investigación en desarrollo son sistemas multi-agente, ciencia de datos, control de flujo vehicular y procesamiento de lenguaje natural

Buscar este blog

Todo es discurso

¿Puede la Ciencia de Datos anticipar al ganador (a) de una elección?

Comentarios

Publicar un comentario

Entradas más populares de este blog

Tendencias discursivas de los usuarios de YouTube durante el primer debate presidencial

Spots de precampaña 2024: ataques, vaguedades y falta de liderazgo

De TikTokera a Influencer Política: El Ascenso de la Niña Fresa