Por favor, use este identificador para citar o enlazar este ítem: https://dspace.unl.edu.ec/jspui/handle/123456789/30565
Título : Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
Otros títulos : Integration of Jetson Nano with Gemini Vision for the interpretation of tables and statistical charts in printed documents.
Autor : Cumbicus Pineda, Oscar Miguel
Torres Calva, Juan Pablo
Palabras clave : JETSON NANO
GEMINI
DISCAPACIDAD VISUAL
INTELIGENCIA ARTIFICIAL
Fecha de publicación : 13-sep-2024
Editorial : Universidad Nacional de Loja
Resumen : Las personas con discapacidad visual enfrentan obstáculos significativos para acceder a la información en documentos impresos, lo que limita su participación en la educación, el empleo y la interacción social, y puede llevar a la exclusión en un mundo que depende cada vez más de la información. Esto motivó el desarrollo de un "Lector de Documentos impresos para las personas con discapacidad visual", con el objetivo de ofrecer una solución accesible para la lectura de documentos impresos a personas con discapacidad visual, abordando la limitada disponibilidad y el elevado costo de tecnologías actuales como las gafas OrCam MyEye y las aplicaciones móviles de Microsoft y Google. Aunque estas son útiles, presentan restricciones en la descripción de escenarios complejos. El proyecto se basó en la integración del modelo de lenguaje multimodal Gemini de Google en un dispositivo Jetson Nano, basado en el marco de trabajo SCRUM, que permitió la lectura de texto, tablas y gráficos estadísticos, donde se desarrollaron tareas clave desde la planificación, la integración de hardware y software, y la programación de comandos en un teclado numérico para ejecutar tareas específicas, como la lectura de texto, la lectura de tablas y la descripción de gráficos estadísticos, permitiendo la conversión de información visual a formatos accesibles como el audio. El resultado principal fue la creación de un sistema funcional capaz de proporcionar descripciones de documentos impresos mediante síntesis de voz, mejorando la accesibilidad a la información para personas con discapacidad visual. Finalmente se concluye que la solución propuesta es viable y eficiente, destacándose por su accesibilidad en términos de costo y su funcionalidad avanzada en comparación con las opciones actuales del mercado, permitiendo una mayor inclusión y acceso a la información para este colectivo. Palabras clave: Jetson Nano, Gemini, discapacidad visual, inteligencia artificial.
Descripción : People with visual impairments face significant barriers to accessing information in printed documents, limiting their participation in education, employment, and social interaction. It can lead to exclusion in an increasingly information-dependent world. This motivated the development of a "Printed Document Reader for the Visually Impaired" to provide an accessible solution for reading printed documents for people with visual impairments, addressing the limited availability and high cost of current technologies such as OrCam MyEye glasses and mobile apps from Microsoft and Google. While these are useful, they present restrictions when describing complex scenarios. The project was based on integrating Google's Gemini multimodal language model into a Jetson Nano device, based on the SCRUM framework, and focused on identifying the needs of end users. Key tasks were developed from planning, hardware and software integration, and programming commands on a numeric keypad to execute specific tasks, such as reading text, reading tables, and describing statistical graphs, allowing the conversion of visual information to accessible formats such as audio. The main result was creating a functional system capable of providing accurate descriptions of printed documents through voice synthesis, improving accessibility to information for visually impaired people. Finally, it is concluded that the proposed solution is viable and efficient, standing out for its accessibility in terms of cost and advanced functionality compared to current market options, allowing greater inclusion and access to information for this group. Keywords: Jetson Nano, Gemini, Visual Impairment, Artificial Intelligence.
URI : https://dspace.unl.edu.ec/jspui/handle/123456789/30565
Aparece en las colecciones: TRABAJOS DE TITULACION AEIRNNR

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
JuanPablo_TorresCalva.pdf31,42 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.