Ajuste del modelo Gemma para la descripción de tablas de datos en formato Markdown.

Paredes Chamba, Patricio Oswaldo

Por favor, use este identificador para citar o enlazar este ítem: https://dspace.unl.edu.ec/jspui/handle/123456789/30644

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Cumbicus Pineda, Oscar Miguel	-
dc.contributor.author	Paredes Chamba, Patricio Oswaldo	-
dc.date.accessioned	2024-09-25T16:22:45Z	-
dc.date.available	2024-09-25T16:22:45Z	-
dc.date.issued	2024-09-25	-
dc.identifier.uri	https://dspace.unl.edu.ec/jspui/handle/123456789/30644	-
dc.description	The use of LLM (Large Language Models) like Gemma has been extended for various tasks. One that has been little explored is the processing of structures such as data tables since they have great diversity, both in their subject matter, presentation and content extension, which makes their processing difficult. There is a history of models for different tasks. Having data tables in different formats as input, one of these tasks is the description of all the content of the data tables. The objective of this Curricular Integration Work was to adjust the Gemma model for the description of data tables of a maximum of 3 rows by 3 columns which were in a Markdown format. The methodology used was based on CRISP-ML(Q), making use of the data understanding, data engineering, model engineering and model evaluation phases. In the first phase, synthetic data was created from data tables in Markdown and the description of the information contained in them. In the second phase, valid data was selected, a manual review and correction of partially valid data was carried out. The third phase allowed the adjustment of the Gemma model and the final phase evaluated the experiments carried out, measuring the BLEU metric and performing a human evaluation. The model obtained reached a BLEU score of 74.009 in the test set. When performing a human review, a score of 4.625 was obtained on the Likert scale, concluding that the adjusted model manages to generate good quality descriptions of data tables in Markdown format and when performing an A/B test comparing BLEU with human review, it was found that the descriptions generated with a high BLEU score also had a high score in human evaluation. Keywords: LLM, Gemma, PEFT, Synthetic data, Markdown.	es_ES
dc.description.abstract	El uso de LLM (Large Language Models) como Gemma se ha extendido para diversas tareas. Una poco explorada es el procesamiento de estructuras como las tablas de datos, ya que estas cuentan con una gran diversidad, tanto en su temática, presentación y extensión de contenido lo cual dificulta su procesamiento. Existe antecedentes de modelos para distintas tareas. Teniendo como entrada, tablas de datos en distintos formatos, una de estas tareas es la descripción de todo el contenido de las tablas de datos. El objetivo de este Trabajo de Integración Curricular se planteó ajustar el modelo Gemma para la descripción de tablas de datos de un máximo de 3 filas por 3 columnas las cuales estuvieron en un formato Markdown. La metodología utilizada se basó en CRISP-ML(Q), haciendo uso de las fases comprensión de datos, ingeniería de datos, ingeniería de modelos y evaluación del modelo. En la primera fase se creó datos sintéticos de tablas de datos en Markdown y la descripción de la información contenida en estas. En la segunda fase se seleccionó los datos válidos, se realizó una revisión y corrección manual de datos válidos de manera parcial. La tercera fase permitió el ajuste del modelo Gemma y la fase final evaluó los experimentos realizados, midiendo la métrica BLEU y realizando una evaluación humana. El modelo obtenido alcanzó en el conjunto de test una puntuación BLEU de 74,009, al realizar una revisión humana se obtuvo una puntuación de 4,625 en la escala Likert, concluyendo que el modelo ajustado logra generar descripciones de buena calidad de tablas de datos en formato Markdown y al realizar un test A/B comparando BLEU con la revisión humana se constató que las descripciones generadas con una alta puntuación BLEU también contaron con un puntaje alto en la evaluación humana. Palabras clave: LLM, Gemma, PEFT, Datos sintéticos, Markdown.	es_ES
dc.format.extent	103 P.	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Universidad Nacional de Loja	es_ES
dc.rights	openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/ec/	es_ES
dc.subject	LLM	es_ES
dc.subject	GEMMA	es_ES
dc.subject	PEFT	es_ES
dc.subject	DATOS SINTÉTICOS	es_ES
dc.subject	MARKDOWN	es_ES
dc.title	Ajuste del modelo Gemma para la descripción de tablas de datos en formato Markdown.	es_ES
dc.title.alternative	Tuning the Gemma model for describing data tables in Markdown format	es_ES
dc.type	bachelorThesis	es_ES
Aparece en las colecciones:	TRABAJOS DE TITULACION AEIRNNR

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
PatricioOswaldo_ParedesChamba.pdf		2,65 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem