Exploración de modelos eficientes para la detección de violencia en videos de entornos reales mediante la destilación de conocimiento entre arquitecturas distintas: un enfoque para el prototipado rápido
Resumen
La detección de violencia en videos es un campo crucial dentro del análisis del comportamiento humano mediante tecnologías computacionales, especialmente en sistemas de videovigilancia. Este estudio propone un enfoque multinivel que combina técnicas avanzadas de preprocesamiento de datos y distilación de conocimiento para mejorar la eficiencia computacional y la capacidad de generalización de los modelos de detección de violencia. Se evalúan tres estrategias de preprocesamiento: extracción de personas en los frames, segmentación de personas, y detección de cajas delimitadoras. Se entrenan dos modelos preentrenados (MViTv2 y Swin3D b) utilizando tres bases de datos: RWF2000, RLVS y VioPeru, para seleccionar el modelo maestro más eficaz. Luego, se aplica distilacion de conocimiento a tres modelos estudiantes (S3D, Swin3D tiny y MC3-18) utilizando divergencia de Kullback-Leibler (KL) y su version adaptativa (AKL). Los modelos entrenados se evalúan en términos de precisión, tiempo de procesamiento y complejidad computacional, y se comparan en tareas de generalización utilizando diferentes bases de datos. Los resultados muestran que el modelo MViT alcanzo altos niveles de precisión y eficiencia, mientras que el modelo estudiante S3D, a pesar de su menor complejidad, mantuvo un rendimiento competitivo, demostrando la viabilidad de la distilacion de conocimiento como una estrategia eficaz para optimizar modelos en escenarios con recursos limitados. Este enfoque ofrece una solución práctica y eficiente para la implementación de sistemas de vigilancia autónomos en entornos reales. Violence detection in videos is a crucial field within the analysis of human behavior through computational technologies, especially in video surveillance systems. This study proposes a multi-level approach that combines advanced data preprocessing techniques and knowledge distillation to improve the computational efficiency and generalization capacity of violence detection models. Three preprocessing strategies are evaluated: extracting people from individual frames, person segmentation, and bounding box detection. Two pretrained models (MViTv2 and Swin3D b) are trained on three datasets—RWF2000, RLVS, and VioPeru—to select the most effective “teacher” model. Subsequently, knowledge distillation is applied to three “student” models (S3D, Swin3D tiny, and MC3-18) using Kullback-Leibler (KL) divergence and its adaptive version (AKL). The trained models are evaluated in terms of accuracy, processing time, and computational complexity, and are also compared on generalization tasks using various datasets. The results show that the MViT model achieved high accuracy and efficiency, while the student model S3D, despite its lower complexity, maintained competitive performance. This demonstrates the feasibility of knowledge distillation as an effective strategy for optimizing models in resource-constrained scenarios. Overall, the proposed approach offers a practical and efficient solution for implementing autonomous surveillance systems in real-world settings.