Avaliação de Arquiteturas Web Application Firewalls baseadas em
Aprendizagem de Máquina
TF-IDF, N-gram, Web Application Firewall, Detecção de
ataques web, Redução de atributos, Segurança de aplicações HTTP
Modelos de aprendizagem de máquina estão presentes na maioria das soluções
de segurança da informação, incluindo os WAFs. Hoje, boa parte do tráfego
web é filtrado por WAFs baseados em detecção de anomalias antes de chegar
nos servidores HTTP. Além da preocupação com a detecção dos ataques, também
é necessário considerar a latência introduzida por tais ferramentas em
aplicações web que precisam manter uma alta responsividade e
disponibilidade para seus clientes. Para abordar ambos os fatores, é
necessário avaliar não apenas os modelos de aprendizagem de máquina, mas
toda a arquitetura desde o pré-processamento das requisições HTTP até a
classificação da requisição.
Nesta dissertação propomos um framework para avaliação de arquiteturas de
WAFs baseadas em modelos de aprendizagem de máquina e avaliamos como alguns
hiperparâmetros afetam o desempenho na detecção de ataques web. Como base
para o processamento das requisições HTTP, foi utilizada a combinação da
técnica N-gram com a técnica TF-IDF para a vetorização das requisições e o
parâmetro N foi avaliado com os valores 1,2 e 3. Na etapa de redução das
variáveis, foram utilizados 3 métodos: seleção chi quadrado, seleção por
informação mútua e o método PCA. Para os modelos de aprendizagem de
máquina, foram considerados os modelos de Regressão Logística, Support
Vector Machine, Árvore de Decisão e os modelos ensemble de Floresta
Randômica e Gradient Boosting. Os resultados obtidos mostram que o valor
com melhor custo benefício para o N-gram é o N=2 e que o método de redução
de variáveis que menos impactou o desempenho dos modelos foi o método chi
quadrado. Por fim, todos os modelos melhoraram o tempo de classificação com
a redução de variáveis, mas o modelo Floresta Randômica manteve o
desempenho mais estável perante os demais modelos após a redução das
variáveis em até 90%.