Por favor, use este identificador para citar o enlazar este ítem:
https://dspace.unl.edu.ec/jspui/handle/123456789/30644
Título : | Ajuste del modelo Gemma para la descripción de tablas de datos en formato Markdown. |
Otros títulos : | Tuning the Gemma model for describing data tables in Markdown format |
Autor : | Cumbicus Pineda, Oscar Miguel Paredes Chamba, Patricio Oswaldo |
Palabras clave : | LLM GEMMA PEFT DATOS SINTÉTICOS MARKDOWN |
Fecha de publicación : | 25-sep-2024 |
Editorial : | Universidad Nacional de Loja |
Resumen : | El uso de LLM (Large Language Models) como Gemma se ha extendido para diversas tareas. Una poco explorada es el procesamiento de estructuras como las tablas de datos, ya que estas cuentan con una gran diversidad, tanto en su temática, presentación y extensión de contenido lo cual dificulta su procesamiento. Existe antecedentes de modelos para distintas tareas. Teniendo como entrada, tablas de datos en distintos formatos, una de estas tareas es la descripción de todo el contenido de las tablas de datos. El objetivo de este Trabajo de Integración Curricular se planteó ajustar el modelo Gemma para la descripción de tablas de datos de un máximo de 3 filas por 3 columnas las cuales estuvieron en un formato Markdown. La metodología utilizada se basó en CRISP-ML(Q), haciendo uso de las fases comprensión de datos, ingeniería de datos, ingeniería de modelos y evaluación del modelo. En la primera fase se creó datos sintéticos de tablas de datos en Markdown y la descripción de la información contenida en estas. En la segunda fase se seleccionó los datos válidos, se realizó una revisión y corrección manual de datos válidos de manera parcial. La tercera fase permitió el ajuste del modelo Gemma y la fase final evaluó los experimentos realizados, midiendo la métrica BLEU y realizando una evaluación humana. El modelo obtenido alcanzó en el conjunto de test una puntuación BLEU de 74,009, al realizar una revisión humana se obtuvo una puntuación de 4,625 en la escala Likert, concluyendo que el modelo ajustado logra generar descripciones de buena calidad de tablas de datos en formato Markdown y al realizar un test A/B comparando BLEU con la revisión humana se constató que las descripciones generadas con una alta puntuación BLEU también contaron con un puntaje alto en la evaluación humana. Palabras clave: LLM, Gemma, PEFT, Datos sintéticos, Markdown. |
Descripción : | The use of LLM (Large Language Models) like Gemma has been extended for various tasks. One that has been little explored is the processing of structures such as data tables since they have great diversity, both in their subject matter, presentation and content extension, which makes their processing difficult. There is a history of models for different tasks. Having data tables in different formats as input, one of these tasks is the description of all the content of the data tables. The objective of this Curricular Integration Work was to adjust the Gemma model for the description of data tables of a maximum of 3 rows by 3 columns which were in a Markdown format. The methodology used was based on CRISP-ML(Q), making use of the data understanding, data engineering, model engineering and model evaluation phases. In the first phase, synthetic data was created from data tables in Markdown and the description of the information contained in them. In the second phase, valid data was selected, a manual review and correction of partially valid data was carried out. The third phase allowed the adjustment of the Gemma model and the final phase evaluated the experiments carried out, measuring the BLEU metric and performing a human evaluation. The model obtained reached a BLEU score of 74.009 in the test set. When performing a human review, a score of 4.625 was obtained on the Likert scale, concluding that the adjusted model manages to generate good quality descriptions of data tables in Markdown format and when performing an A/B test comparing BLEU with human review, it was found that the descriptions generated with a high BLEU score also had a high score in human evaluation. Keywords: LLM, Gemma, PEFT, Synthetic data, Markdown. |
URI : | https://dspace.unl.edu.ec/jspui/handle/123456789/30644 |
Aparece en las colecciones: | TRABAJOS DE TITULACION AEIRNNR |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PatricioOswaldo_ParedesChamba.pdf | 2,65 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.