Análisis forense de memoria para la detección de malware
Resumen
El aumento de ataques a través de malwares ha destacado la necesidad de una detección efectiva, pero lamentablemente, las herramientas actuales no logran satisfacer completamente estas necesidades mediante métodos tradicionales. Por este motivo, otros enfoques analíticos han ganado popularidad, como el análisis de memoria, también conocido como análisis forense de memoria. En este proceso, se genera un volcado de memoria que luego se analiza mediante herramientas como Volatility Framework. Esto permite a los analistas revisar toda la información y determinar la presencia de malware. Sin embargo, este procedimiento puede volverse complejo y puede llegar a consumir mucho tiempo. Por esta razón, se propone la utilización de modelos de machine learning y la creación de una base de datos. Este conjunto de datos permitirá entrenar de manera adecuada los modelos de clasificación propuestos, ya que la información recopilada proviene de entornos reales. El objetivo es automatizar el proceso de detección, lo que reducirá el tiempo de trabajo de los analistas. Adicionalmente, se realizaron experimentos para evaluar la efectividad de los modelos al hacer uso de protocolos de comparación, entre los cuales tenemos a los reductores de dimensionalidad, cross validation y métricas, como precisión, exactitud, etc. Se obtuvo que los modelos Random Forest y AdaBoost consiguieron los mejores resultados con un 85 % de precisión al ser entrenados con el dataset construido. The increase in attacks through malware has underscored the need for effective detection, but unfortunately, current tools fall short of fully meeting these requirements through traditional methods. For this reason, other analytical approaches have gained popularity, such as memory analysis, also known as memory forensics. In this process, a memory dump is generated and then analyzed using tools like the Volatility Framework. This allows analysts to review all the information and determine the presence of malware. However, this procedure can become complex and may consume a significant amount of time. Therefore, the use of machine learning models and the creation of a database is proposed. This dataset will enable the proper training of the proposed classification models, as the collected information comes from real environments and provides accurate results. The goal is to automate the detection process, thereby reducing the time analysts spend on this task. Moreover, experiments were conducted to assess the effectiveness of the models using comparison protocols, including dimensionality reducers, cross-validation, and metrics such as precision, accuracy, among others. It was found that the Random Forest and the AdaBoost classifiers achieved the best results with a 85 % precision when trained with the constructed dataset.