Machine Learning pipeline para el etiquetado automático en imágenes de especies de peces peruanos
Resumen
Machine Learning (ML) se destaca como una herramienta fundamental para la detección y clasificación de imágenes. Sin embargo, el entrenamiento de modelos avanzados requiere una gran cantidad de imágenes etiquetadas y una capacidad computacional significativa. Esta tarea resulta especialmente desafiante en el contexto de la fauna marina peruana, debido a la escasez de conjuntos de datos etiquetados. Para abordar esta problemática, se desarrolló un etiquetador automático de peces basado en un pipeline de Deep Learning (DL). Este pipeline utiliza un detector preentrenado (YoloV5 y Unidet) y una red EfficientNetB0, clasificador basado en Convolutional Neural Networks (CNN’s). La selección del clasificador se basó en un análisis exhaustivo de diversos modelos del estado del arte, considerando el tamaño en memoria, el número de parámetros y la precisión obtenida con los conjuntos de datos de la investigación. Los resultados prácticos mostraron una precisión parcial del detector del 79.45 %, mientras que el clasificador alcanzo un 91.47 %, generando así una precisión final del 72.67 %. Además, se logró un error mínimo del 22.54 % y se desarrolló una aplicación en tiempo real que alcanzó hasta 8 fps, lo que permitió automatizar la tarea de etiquetado de imágenes. Machine Learning (ML) stands out as a fundamental tool for image detection and classification. However, training advanced models requires a large number of labeled images and significant computational power. This task is especially challenging in the context of Peruvian marine fauna, due to the scarcity of labeled specimens. To address this problem, an automatic fish labeler was developed based on a Deep Learning (DL) pipeline. This pipeline uses a pretrained detector (YoloV5 and Unidet) and a classifier based on CNNs (EfficientNetB0). The selection of the classifier was based on an exhaustive analysis of various state-of-the-art models, considering the size in memory, the number of parameters and the precision obtained with the research data sets. The practical results showed a partial precision of the detector of 79.45 %, while the classifier reached 91.47 %, thus generating a final accuracy of 72.67 %. In addition, a minimum error of 22.54 % was achieved and a real-time application was developed that reached up to 8 fps, which allowed the image labeling task to be automated.