Por favor, use este identificador para citar o enlazar este ítem:
https://dspace.unl.edu.ec/jspui/handle/123456789/30565
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | Cumbicus Pineda, Oscar Miguel | - |
dc.contributor.author | Torres Calva, Juan Pablo | - |
dc.date.accessioned | 2024-09-13T17:02:26Z | - |
dc.date.available | 2024-09-13T17:02:26Z | - |
dc.date.issued | 2024-09-13 | - |
dc.identifier.uri | https://dspace.unl.edu.ec/jspui/handle/123456789/30565 | - |
dc.description | People with visual impairments face significant barriers to accessing information in printed documents, limiting their participation in education, employment, and social interaction. It can lead to exclusion in an increasingly information-dependent world. This motivated the development of a "Printed Document Reader for the Visually Impaired" to provide an accessible solution for reading printed documents for people with visual impairments, addressing the limited availability and high cost of current technologies such as OrCam MyEye glasses and mobile apps from Microsoft and Google. While these are useful, they present restrictions when describing complex scenarios. The project was based on integrating Google's Gemini multimodal language model into a Jetson Nano device, based on the SCRUM framework, and focused on identifying the needs of end users. Key tasks were developed from planning, hardware and software integration, and programming commands on a numeric keypad to execute specific tasks, such as reading text, reading tables, and describing statistical graphs, allowing the conversion of visual information to accessible formats such as audio. The main result was creating a functional system capable of providing accurate descriptions of printed documents through voice synthesis, improving accessibility to information for visually impaired people. Finally, it is concluded that the proposed solution is viable and efficient, standing out for its accessibility in terms of cost and advanced functionality compared to current market options, allowing greater inclusion and access to information for this group. Keywords: Jetson Nano, Gemini, Visual Impairment, Artificial Intelligence. | es_ES |
dc.description.abstract | Las personas con discapacidad visual enfrentan obstáculos significativos para acceder a la información en documentos impresos, lo que limita su participación en la educación, el empleo y la interacción social, y puede llevar a la exclusión en un mundo que depende cada vez más de la información. Esto motivó el desarrollo de un "Lector de Documentos impresos para las personas con discapacidad visual", con el objetivo de ofrecer una solución accesible para la lectura de documentos impresos a personas con discapacidad visual, abordando la limitada disponibilidad y el elevado costo de tecnologías actuales como las gafas OrCam MyEye y las aplicaciones móviles de Microsoft y Google. Aunque estas son útiles, presentan restricciones en la descripción de escenarios complejos. El proyecto se basó en la integración del modelo de lenguaje multimodal Gemini de Google en un dispositivo Jetson Nano, basado en el marco de trabajo SCRUM, que permitió la lectura de texto, tablas y gráficos estadísticos, donde se desarrollaron tareas clave desde la planificación, la integración de hardware y software, y la programación de comandos en un teclado numérico para ejecutar tareas específicas, como la lectura de texto, la lectura de tablas y la descripción de gráficos estadísticos, permitiendo la conversión de información visual a formatos accesibles como el audio. El resultado principal fue la creación de un sistema funcional capaz de proporcionar descripciones de documentos impresos mediante síntesis de voz, mejorando la accesibilidad a la información para personas con discapacidad visual. Finalmente se concluye que la solución propuesta es viable y eficiente, destacándose por su accesibilidad en términos de costo y su funcionalidad avanzada en comparación con las opciones actuales del mercado, permitiendo una mayor inclusión y acceso a la información para este colectivo. Palabras clave: Jetson Nano, Gemini, discapacidad visual, inteligencia artificial. | es_ES |
dc.format.extent | 125 p. | es_ES |
dc.language.iso | spa | es_ES |
dc.publisher | Universidad Nacional de Loja | es_ES |
dc.rights | openAccess | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/ec/ | es_ES |
dc.subject | JETSON NANO | es_ES |
dc.subject | GEMINI | es_ES |
dc.subject | DISCAPACIDAD VISUAL | es_ES |
dc.subject | INTELIGENCIA ARTIFICIAL | es_ES |
dc.title | Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos | es_ES |
dc.title.alternative | Integration of Jetson Nano with Gemini Vision for the interpretation of tables and statistical charts in printed documents. | es_ES |
dc.type | bachelorThesis | es_ES |
Aparece en las colecciones: | TRABAJOS DE TITULACION AEIRNNR |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
JuanPablo_TorresCalva.pdf | 31,42 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.