Caso de uso experimental: generación de un índice de sentimiento para medir la opinión de los viajeros sobre el turismo en España

En esta publicación, compartimos cómo SEGITTUR ha desarrollado una metodología para crear un índice de sentimiento que mide la opinión general de los viajeros sobre el turismo en España.
Construcción de un índice para medir resultados turísticos
Un índice es un indicador que nos ayuda a evaluar cómo se desempeña un área específica a lo largo del tiempo. Facilita generar comparativas entre diferentes elementos o de uno mismo periódicamente.
Para el caso de uso planteado, el índice persigue medir la satisfacción de los viajeros con el turismo en España. Se ha planteado la construcción de un indicador a partir de una base de datos. Para ello, es necesario recopilar opiniones de usuarios en diferentes canales online y clasificarlas según su sentimiento: positivo, negativo o neutro.
La elaboración del índice implica un proceso que aborda desde la validación del planteamiento, la recolección de datos y su transformación, hasta la construcción e interpretación del resultado. Por lo tanto, requiere establecer objetivos y requerimientos sobre los datos, criterios de evaluación y su propio tratamiento. En este caso se ha empleado el software libre R para la realización de estos procesos, pudiendo emplearse otro tipo de software.
A continuación, se detalla esquemáticamente el proceso llevado a cabo, disponible en la Metodología incorporada al final de la publicación.
Esquema de proceso para la elaboración de un índice global basado en el sentimiento
Esquema de proceso para la elaboración de un índice global basado en el sentimiento
1. Tratamiento de datos
Se recogen opiniones de usuarios en internet sobre el turismo en España. Estas opiniones se clasifican por canal (blogs, redes sociales, noticias, etc.), por idioma y por sentimiento.
Es crucial depurar los datos, eliminando opiniones duplicadas o no válidas y codificando las variables para facilitar el análisis. Puede profundizar en cómo se han depurado datos en este caso de uso en la documentación adjunta que se encuentra al final de esta publicación.
2. Elaboración y ponderación de estratos
Las opiniones se agrupan en “estratos”, o grupos homogéneos, según el canal y el idioma. El propósito de estas agrupaciones es garantizar muestras representativas en cada estrato y la simplificación del modelo. Pudiendo necesitar establecer niveles hasta obtener las agrupaciones adecuadas para la muestra y las necesidades del índice.
En la metodología elaborada, cada mención se ha evaluado mediante una doble ponderación: el peso del estrato en la muestra y su representatividad en la población. Este enfoque tiene dos objetivos: primero, asegurar que los estratos con más opiniones tengan mayor influencia en el índice y, segundo, incorporar un valor externo a la muestra, como la población o un parámetro similar. Por ejemplo, si en la base de datos hubiera una cantidad de opiniones en gallego similar a las de castellano, para mantener la representatividad de la frecuencia de uso de idiomas en España, se asignaría una ponderación menor a los estratos con opiniones en gallego en comparación con aquellos que contienen opiniones en castellano.
Resumen variables clave
Esquema niveles de estratos elaborados
3. Obtención de un índice Global
Cada opinión se valora según su sentimiento con una puntuación: 100 para positivas, 50 para neutras y 0 para negativas.
Posteriormente, se multiplica esta puntuación por el peso del estrato al que pertenece la opinión.
La suma de todas estas puntuaciones nos da el valor del índice para el período evaluado, en nuestro caso, mensualmente.
En definitiva, esta metodología permite crear un índice a partir de opiniones en internet, ofreciendo una visión clara y representativa de la satisfacción de los viajeros. Además, se puede aplicar a otras áreas como la reputación de una marca o la satisfacción con un servicio específico.
Para más detalle, sobre la metodología y su aplicación, puedes consultar el documento adjunto a esta publicación.
Caso_de uso experimental: Generación de índice de sentimiento a partir de datos de escucha_digital