Por favor, use este identificador para citar o enlazar este ítem:
https://dspace.unl.edu.ec/jspui/handle/123456789/32087
Título : | Desarrollo de un dataset de suplantación de voz con una muestra de 15 personas de la carrera de computación de la Universidad Nacional de Loja mediante el uso de la red StarGAN y su evaluación con un modelo LFCC-LCNN preentrenado en español. |
Autor : | Figueroa Díaz, Roberth Gustavo Sauca Pucha, Josue Alejandro |
Palabras clave : | REDES GENERATIVAS ACENTOS ECUATORIANOS TASA DE ERROR DE IGUALACION |
Fecha de publicación : | 13-mar-2025 |
Editorial : | Loja |
Resumen : | El presente trabajo abordó la la carencia de datasets representativos para la detección de voice spoofing, un desafío creciente en el campo de la inteligencia artificial, centrado en el análisis del modelo LFCC-LCNN utilizando un dataset generado mediante la red StarGAN, basado en muestras de 15 personas del cantón Loja. El objetivo principal fue evaluar la Tasa de Error de Igualación (EER) del modelo con un enfoque específico en las características fonéticas del español ecuatoriano, por lo que se lo desarrolló bajo la metodología CRISP-ML(Q), que estructuró el proceso en fases, desde la recolección y generación del dataset, pasando por su preprocesamiento y transformación, hasta la evaluación del modelo. Las grabaciones se realizaron en entornos no controlados, utilizando equipos básicos, lo que generó un dataset no tan robusto. Los resultados mostraron que la Tasa de Error de Igualación varió significativamente dependiendo de la composición del dataset, en el peor escenario, con el dataset generado se obtuvo un EER del 63.85%, mientras que en el mejor caso, al combinar datos generados con muestras originales, se alcanzó un EER del 26.71%, lo que indicar que el desempeño del modelo no se vio limitado por su arquitectura, sino por la discrepancia entre los acentos presentes en el dataset de entrenamiento, que incluía datos venezolanos, argentinos y chilenos, y el dataset evaluado con acento lojano, además la calidad del dataset y el desbalance en la muestra también influyeron en los resultados. El estudio evidenció la importancia de desarrollar datasets representativos de la población objetivo para cubrir la carencia de datasets en este ambito, por lo que se recomienda continuar esta línea de investigación ampliando el dataset y explorando arquitecturas más robustas que integren técnicas de aprendizaje transferido. |
Descripción : | This study addressed the lack of representative datasets for voice spoofing detection, a growing challenge in the field of artificial intelligence. It focused on analyzing the LFCC-LCNN model using a dataset generated through the StarGAN network based on samples from 15 individuals from the Loja canton. The main objective was to evaluate the Equal Error Rate (EER) of the model with a specific focus on the phonetic characteristics of Ecuadorian Spanish. The study was developed using the CRISP-ML(Q) methodology, structuring the process into phases—from dataset collection and generation to preprocessing, transformation, and model evaluation. The recordings were conducted in uncontrolled environments using basic equipment, resulting in a dataset that was not highly robust. The results showed that the Equal Error Rate varied significantly depending on the dataset composition. In the worst-case scenario, the generated dataset yielded an EER of 63.85%, whereas in the best case, by combining generated data with original samples, the EER improved to 26.71%. This indicates that the model's performance was not limited by its architecture but rather by discrepancies in accents between the training dataset—which included Venezuelan, Argentine, and Chilean data—and the evaluated dataset, which featured the Loja accent. Additionally, dataset quality and sample imbalance influenced the results. The study highlighted the importance of developing representative datasets for the target population to address the shortage of suitable datasets in this field. Therefore, it is recommended to continue this line of research by expanding the dataset and exploring more robust architectures that integrate transfer learning techniques. |
URI : | https://dspace.unl.edu.ec/jspui/handle/123456789/32087 |
Aparece en las colecciones: | Biblioteca FEIRNNR |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
JosueAlejandro_SaucaPucha.pdf | 3,7 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.