Exploración de modelos eficientes para la detección de violencia en videos de entornos reales mediante la destilación de conocimiento entre arquitecturas distintas: un enfoque para el prototipado rápido

Santivañez Gutarra, Dan Joshua

dc.contributor.advisor	Mora Colque, Rensso Victor Hugo
dc.contributor.author	Santivañez Gutarra, Dan Joshua
dc.date.accessioned	2025-03-06T21:56:53Z
dc.date.available	2025-03-06T21:56:53Z
dc.date.issued	2024
dc.identifier.citation	Santivañez Gutarra, D. J. (2024). Exploración de modelos eficientes para la detección de violencia en videos de entornos reales mediante la destilación de conocimiento entre arquitecturas distintas: un enfoque para el prototipado rápido [Tesis de Maestría, Universidad de Ingeniería y Tecnología]. Repositorio Institucional UTEC. https://hdl.handle.net/20.500.12815/417	es_PE
dc.identifier.uri	https://hdl.handle.net/20.500.12815/417
dc.description.abstract	La detección de violencia en videos es un campo crucial dentro del análisis del comportamiento humano mediante tecnologías computacionales, especialmente en sistemas de videovigilancia. Este estudio propone un enfoque multinivel que combina técnicas avanzadas de preprocesamiento de datos y distilación de conocimiento para mejorar la eficiencia computacional y la capacidad de generalización de los modelos de detección de violencia. Se evalúan tres estrategias de preprocesamiento: extracción de personas en los frames, segmentación de personas, y detección de cajas delimitadoras. Se entrenan dos modelos preentrenados (MViTv2 y Swin3D b) utilizando tres bases de datos: RWF2000, RLVS y VioPeru, para seleccionar el modelo maestro más eficaz. Luego, se aplica distilacion de conocimiento a tres modelos estudiantes (S3D, Swin3D tiny y MC3-18) utilizando divergencia de Kullback-Leibler (KL) y su version adaptativa (AKL). Los modelos entrenados se evalúan en términos de precisión, tiempo de procesamiento y complejidad computacional, y se comparan en tareas de generalización utilizando diferentes bases de datos. Los resultados muestran que el modelo MViT alcanzo altos niveles de precisión y eficiencia, mientras que el modelo estudiante S3D, a pesar de su menor complejidad, mantuvo un rendimiento competitivo, demostrando la viabilidad de la distilacion de conocimiento como una estrategia eficaz para optimizar modelos en escenarios con recursos limitados. Este enfoque ofrece una solución práctica y eficiente para la implementación de sistemas de vigilancia autónomos en entornos reales.	es_PE
dc.description.abstract	Violence detection in videos is a crucial field within the analysis of human behavior through computational technologies, especially in video surveillance systems. This study proposes a multi-level approach that combines advanced data preprocessing techniques and knowledge distillation to improve the computational efficiency and generalization capacity of violence detection models. Three preprocessing strategies are evaluated: extracting people from individual frames, person segmentation, and bounding box detection. Two pretrained models (MViTv2 and Swin3D b) are trained on three datasets—RWF2000, RLVS, and VioPeru—to select the most effective “teacher” model. Subsequently, knowledge distillation is applied to three “student” models (S3D, Swin3D tiny, and MC3-18) using Kullback-Leibler (KL) divergence and its adaptive version (AKL). The trained models are evaluated in terms of accuracy, processing time, and computational complexity, and are also compared on generalization tasks using various datasets. The results show that the MViT model achieved high accuracy and efficiency, while the student model S3D, despite its lower complexity, maintained competitive performance. This demonstrates the feasibility of knowledge distillation as an effective strategy for optimizing models in resource-constrained scenarios. Overall, the proposed approach offers a practical and efficient solution for implementing autonomous surveillance systems in real-world settings.	es_PE
dc.description.uri	Tesis	es_PE
dc.format	application/pdf	es_PE
dc.language.iso	spa	es_PE
dc.publisher	Universidad de Ingeniería y Tecnología	es_PE
dc.rights	info:eu-repo/semantics/openAccess	es_PE
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.source	Repositorio Institucional UTEC	es_PE
dc.source	Universidad de Ingeniería y Tecnología - UTEC	es_PE
dc.subject	Preprocesamiento de datos	es_PE
dc.subject	Aprendizaje continuo	es_PE
dc.subject	Prevención de violencia	es_PE
dc.subject	Videovigilancia	es_PE
dc.subject	Data preprocessing	es_PE
dc.subject	Machine Learning	es_PE
dc.subject	Violence prevention	es_PE
dc.subject	Video surveillance	es_PE
dc.title	Exploración de modelos eficientes para la detección de violencia en videos de entornos reales mediante la destilación de conocimiento entre arquitecturas distintas: un enfoque para el prototipado rápido	es_PE
dc.title.alternative	Exploration of Efficient Models for Violence Detection in Real-World Video Environments through Cross-Architecture Knowledge Distillation: A Rapid Prototyping Approach	es_PE
dc.type	info:eu-repo/semantics/masterThesis	es_PE
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#1.02.02	es_PE
dc.publisher.country	PE	es_PE
thesis.degree.discipline	Maestría en Computer Science	es_PE
thesis.degree.grantor	Universidad de Ingeniería y Tecnología. Escuela de Posgrado	es_PE
thesis.degree.level	Maestría	es_PE
thesis.degree.name	Maestro en Computer Science	es_PE
renati.advisor.dni	42846291
renati.advisor.orcid	https://orcid.org/0000-0003-4734-8752	es_PE
renati.author.dni	72623745
renati.author.orcid	https://orcid.org/0000-0002-1868-1081	es_PE
renati.discipline	611016	es_PE
renati.juror	Cayllahua, Edward
renati.juror	Flores Benites, Victor
renati.juror	Mora Colque, Rensso Victor Hugo
renati.level	https://purl.org/pe-repo/renati/level#maestro	es_PE
renati.type	https://purl.org/pe-repo/renati/type#tesis	es_PE