Implementación de pruebas de carga y estrés automatizadas basadas en Chaos Engineering para medir la tasa de disponibilidad de  un Clúster Kubernetes

Encalada Córdova, Maria Anabel

Por favor, use este identificador para citar o enlazar este ítem: https://dspace.unl.edu.ec/jspui/handle/123456789/32132

Título :	Implementación de pruebas de carga y estrés automatizadas basadas en Chaos Engineering para medir la tasa de disponibilidad de un Clúster Kubernetes
Autor :	Chamba Zaragocín, Wilman Patricio Encalada Córdova, Maria Anabel
Palabras clave :	RESILIENCIA TOLERANCIA A FALLOS PRUEBAS AUTOMATIZADAS
Fecha de publicación :	19-mar-2025
Editorial :	Loja
Resumen :	Este trabajo explora la implementación de Chaos Engineering en un clúster Kubernetes para evaluar su resiliencia frente a fallos intencionales y no previstos. El objetivo principal fue determinar cómo las pruebas automatizadas de fallos aleatorios pueden mejorar la disponibilidad y tolerancia a errores de los servicios desplegados en Kubernetes. Se utilizó una metodología experimental basada en la integración de herramientas de Chaos Engineering como Chaos Mesh para inyectar fallos simulados en nodos, pods y redes del clúster. Los experimentos se ejecutaron en un entorno controlado, recopilando métricas de tiempo de servicio. Los resultados demostraron que, tras la aplicación de pruebas iterativas, el clúster logró su objetivo de nivel de servicio del 99% de disponibilidad en comparación a un promedio inicial del 58%. Además, se identificaron configuraciones críticas en Kubernetes que pueden optimizarse para garantizar una recuperación más rápida, como políticas de rescheduling y ajustes en los límites de recursos. Se concluye que Chaos Engineering es una herramienta efectiva para fortalecer la resiliencia de clústeres Kubernetes, ofreciendo beneficios tangibles en la estabilidad del sistema y proporcionando un enfoque práctico para la mejora continua en entornos de producción.
Descripción :	This paper explores the implementation of Chaos Engineering on a Kubernetes cluster to evaluate its resilience to intentional and unintended failures. The main objective was to determine how automated random fault testing can improve the availability and fault tolerance of services deployed on Kubernetes. An experimental methodology based on the integration of Chaos Engineering tools such as Chaos Mesh was used to inject simulated failures into cluster nodes, pods and networks. The experiments were run in a controlled environment, collecting service time metrics. The results showed that, after iterative testing, the cluster achieved its service time goal, the cluster achieved its service level target of 99% availability compared to an initial average of 58%. In addition, critical configurations were identified in Kubernetes that can be optimized to ensure faster recovery, such as rescheduling policies and rescheduling policies and resource limit adjustments. It is concluded that Chaos Engineering is an effective tool to strengthen the resiliency of Kubernetes clusters, offering tangible benefits Kubernetes clusters, offering tangible benefits in system stability and providing a practical approach for continuous a practical approach for continuous improvement in production environments.
URI :	https://dspace.unl.edu.ec/jspui/handle/123456789/32132
Aparece en las colecciones:	Maestrias FEIRNNR

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
MariaAnabel_EncaladaCórdova_TT.pdf		2,74 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem