Análisis de los métodos de recolección de textos sarcásticos
Abstract
La detección de sarcasmo es un obstáculo particularmente complicado de resolver dentro del Procesamiento de Lenguaje Natural. En los últimos años se han propuesto mejoras en la arquitectura y funcionamiento de los modelos que buscan resolver el problema. No obstante, se ha dejado del lado la importancia de los textos sarcásticos que se utilizan para entrenarlos y, con ella, los métodos de recolección de estos textos. Los métodos tradicionales producen datasets sesgados, con errores y ruidosos, y no distinguen entre los dos tipos de sarcasmo: intencional y percibido. Por ello, en la presente investigación, se analiza cuantitativamente el impacto que tienen los métodos de recolección de datasets sarcásticos en inglés en los modelos de detección de sarcasmo. Con este fin, se hace uso de datasets públicos y se generan dos nuevos datasets con el método de Supervisión Reactiva (Shmueli et al., 2020) para analizar el impacto de los distintos métodos de recolección en el desempeño de modelos de detección de sarcasmo. Se realiza una comparación detallada de los métodos, entrenando modelos en el estado del arte con un dataset representativo de cada uno de ellos. Los resultados sugieren que es posible obtener mejores resultados en los modelos de detección de sarcasmo utilizando un método que provea un dataset limpio y el mismo tipo de sarcasmo que el que se quiere detectar. A su vez, confirman los descubrimientos realizados en investigaciones anteriores, y abren el camino a trabajos futuros. Sarcasm Detection is a particularly complex setback in Natural Language Processing. In the last years, there have been improvements in the architecture and functionality of models that try to solve the problem. However, the importance of the sarcastic texts used to train the models has been left aside, as well as their collection methods. The traditional methods generate biased and noisy datasets with errors, and do not differentiate the two types of sarcasm: intentional and perceived. In consequence, the current investigation does a quantitative analysis on the impact that collection methods of sarcastic datasets in English have on sarcasm detection models. For that purpose, the investigation uses public datasets and generates two new datasets with the Reactive Supervision method (Shmueli et al., 2020) to analyze the impact of the collection methods on the performance of sarcasm detection models. It makes a detailed comparison of the methods, training state-of-the-art models with a representative dataset of each one of them. The results suggest that it is possible to obtain better models using a method that provides a clean dataset and the type of sarcasm to be detected. At the same time, they confirm the findings made by previous investigations and open a path to future works.