Análisis de Sentimientos en Twitter para la Identificación de Depresión en Tiempos de COVID-19 en Ecuador

Montaño Beltran, Byron Stalin

Por favor, use este identificador para citar o enlazar este ítem: https://dspace.unl.edu.ec/jspui/handle/123456789/27848

Título :	Análisis de Sentimientos en Twitter para la Identificación de Depresión en Tiempos de COVID-19 en Ecuador
Otros títulos :	Sentiment Analysis on Twitter for the Identification of Depression in Times of COVID-19 in Ecuador
Autor :	Chamba Eras, Luis Antonio Montaño Beltran, Byron Stalin
Palabras clave :	SALUD MENTAL CUARENTENA TWINT APRENDIZAJE AUTOMÁTICO N-GRAMAS. TF-IDF
Fecha de publicación :	6-sep-2023
Editorial :	Universidad Nacional de Loja
Resumen :	La pandemia de COVID-19 cambió drásticamente la forma en que vivían las personas, causando devastaciones importantes en temas como la economía y la salud, esto sumado a las restricciones como el encierro, distanciamiento social, además del aumento de casos de muerte, afectó de forma negativa la vida de las personas. La salud mental se ha convertido en una preocupación creciente debido a la terminación del empleo, la pérdida de ingresos, el estrés familiar y otras incertidumbres que han llevado a desencadenar consecuencias graves como la depresión, que es considerada por la OMS como el principal factor que contribuye a la discapacidad mundial. Las redes sociales como Twitter se han convertido actualmente en un medio universal de comunicación, expresión de opiniones y sentimientos, por lo que han jugado un papel fundamental durante los cierres y cuarentenas. Es por esto que el presente Trabajo de Titulación se centra en desarrollar modelos de aprendizaje automático que permitan identificar patrones lingüísticos obtenidos a partir de publicaciones de Twitter y determinar si un usuario está deprimido o no. Para esto se recolectaron tweets del año 2020 y 2021 en temporada de pandemia utilizando palabras clave a través de la herramienta de scraping Twint, y se etiquetaron como depresivos y aleatorios; además, se realizó una limpieza manual para garantizar la calidad del conjunto de datos recolectado. Se utilizaron los algoritmos de Máquinas de Soporte Vectorial, Random Forest y Naive Bayes aplicados en la representación tf-idf de los datos de texto y se obtuvo la característica de los textos conjuntamente con N-gramas para evaluar los modelos con mejor rendimiento por cada tipo de algoritmo. Se comparó el rendimiento de los mejores modelos aplicando las métricas de evaluación Precision, Recall, F1-score y Accuracy. Los resultados mostraron que el clasificador Random Forest presenta resultados aceptables, registrando una puntuación F1 de 95.4% y una exactitud (accuracy) de 95,6%. Finalmente, el modelo con mejor rendimiento se utilizó para predecir los sentimientos en los tweets sin etiquetar del año 2019, en donde se determinó que desde el año 2019 al año 2020 hubo un incremento porcentual en las publicaciones depresivas de un 31.17%. Palabras clave: salud mental, cuarentena, twint, aprendizaje automático, tf-idf, N-gramas.
Descripción :	The COVID-19 pandemic drastically changed the way people lived, wreaking further devastation on issues like the economy and health, coupled with restrictions like lockdown and social distancing. In addition to the increase in death toll, it negatively affected people's lives. Mental health has become a growing concern due to the termination of employment, loss of income, family stress and other uncertainties that have led to serious consequences such as depression, which is considered by the WHO as the main factor that contributes to global disability. Social networks such as Twitter have currently become a universal means of communication and expression of opinions and feelings, which is why they have played a fundamental role during closures and quarantines. For this reason, this Thesis is focused on developing automatic learning models that make it possible to identify linguistic patterns obtained from Twitter posts and determine if a user is depressed or not. For this purpose, tweets from the year 2020 and 2021 were collected during the pandemic, using keywords through the Twint scraping tool, and they were labeled as depressive and random (not depressive); in addition, a manual cleaning was carried out to guarantee the quality of the collected data set. Support Vector Machines, Random Forest and Naive Bayes algorithms were applied to the tf-idf representation of the text data and the characteristic of the texts was obtained together with N-grams to evaluate the models with the best performance for each algorithm type. The performance of the best models was compared by applying the Precision, Recall, F1-score and Accuracy evaluation metrics. The results showed that the Random Forest classifier presents acceptable results, registering an F1 score of 95.4% and an accuracy of 95.6%. Finally, the model with the best performance was used to predict the feelings in the unlabeled tweets of the year 2019, and it was possible to determine that from the year 2019 to the year 2020 there was a percentage increase in depressive publications of 31.17%. Keywords: mental health, quarantine, twint, machine learning, tf-idf, N-grams.
URI :	https://dspace.unl.edu.ec/jspui/handle/123456789/27848
Aparece en las colecciones:	TRABAJOS DE TITULACION AEIRNNR

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
ByronStalin_MontañoBeltran.pdf		4,72 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem