Avaliação de Detecção de Anomalias baseado em Teoria de Resposta ao
Item e Modelo de Concordância
Método de Detecção de Anomalias. Avaliação Não
Supervisionada. Modelo de Concordância. Teoria de Resposta ao Item.
A Teoria de Resposta ao Item (TRI) foi inicialmente, por muito tempo,
empregada para avaliar as habilidades latentes de respondentes humanos, a
partir de suas respectivas respostas à itens de problemas com diferentes
níveis de dificuldade. Porém nos últimos anos, a comunidade científica
propôs soluções que utilizam TRI em aplicações de Inteligência Artificial
(IA), como em problemas de classificação e avaliação de algoritmos.
Inclusive não mais usando um modelo dicotômico de TRI (apenas para
respostas certas ou erradas), mas sim já utilizando um modelo contínuo de
TRI, onde suas respostas são representadas pela probabilidade de uma
predição correta. Um exemplo de implementação deste modelo contínuo é o
B4-IRT, o qual facilita bastante a aplicação de TRI em IA atualmente.
Enquanto isso, a avaliação de detecções de anomalias permanece sendo uma
tarefa complexa. Métricas de avaliação supervisionadas, como o Precision
score ou AUC, são frequentemente utilizadas para benchmarking, mas não são
aplicáveis em cenários reais não-supervisionados, devido a falta de rótulos
(ground truth). Ainda assim, podemos recorrer à métricas
não-supervisionadas para avaliação de modelos, como por exemplo o Pseudo
Ground-truth, ou Excess-Mass e Mass-Volume. Estes critérios de avaliação
têm a vantagem de comparar modelos com base nos próprios data points das
instâncias, sem a necessidade de dados rotulados (em classes). Contudo,
possuem algumas limitações em certos cenários, inclusive quando aplicados à
detecção de anomalias. Portanto, neste trabalho propomos o ODAIRE (Outlier
Detection Agreement-based Item REsponses), um workflow para avaliação geral
de modelos de detecção de outliers, o qual assume que os melhores modelos
sempre concordam sobre quais pares de instâncias devem ser rotulados como
anomalias. Neste workflow, as matrizes de respostas obtidas ao se calcular
a concordância entre esses modelos, são usadas para estimar a habilidade
dos métodos de detecção e a dificuldade das instâncias, através da
aplicação do B4-IRT. Esta inovadora abordagem proposta, representa uma
alternativa para avaliar o desempenho dos métodos de detecção de anomalias
em cenários não-supervisionados, algo não investigado em nenhum trabalho
anteriormente na literatura. Somado a isto, também surge uma alternativa
para a identificação das regiões num conjunto de dados pontuais, que
apresentam diferentes graus de dificuldade ou discriminação.