Advancing Deep Learning Models for Robustness and Interpretability
in Image Recognition
Deep Learning. Robustez. Ataques Adversários. Interpretabilidade.
As arquiteturas de Deep Learning estão entre os modelos de aprendizado de máquina mais promissores na atualidade. Elas são utilizadas em diversos domínios, incluindo descoberta de medicamentos, reconhecimento de fala, reconhecimento de objetos, perguntas e respostas, tradução de máquina e descrição de imagens. Surpreendentemente, alguns estudos relatam até mesmo desempenho super-humano, ou seja, um nível de desempenho superior ao de especialistas humanos em determinadas tarefas. Embora esses modelos exibam alta precisão e cobertura, a literatura mostra que também possuem várias limitações: (1) são vulneráveis a ataques adversários, (2) possuem dificuldade em inferir dados fora da distribuição de treinamento, (3) fornecem inferências corretas com base em informações espúrias e, além disso, (4) suas inferências são de difícil interpretação por um especialista do domínio. Essas limitações tornam desafiador adotar esses modelos em aplicações de alto risco, como carros autônomos ou diagnósticos médicos. A superação destas limitações demanda robustez, confiabilidade e interpretabilidade. Nesta tese, é realizada uma exploração abrangente de técnicas e ferramentas, voltadas para aprimorar a robustez e interpretabilidade de modelos de Deep Learning no domínio de processamento de imagens. Essas contribuições abrangem quatro áreas-chave: (1) o desenvolvimento do método de aumento de dados de imagem ativo (ADA) para melhorar a robustez do modelo, (2) a proposição da função de perda adversarial right for right reasons (ARRR) para garantir que os modelos estejam "certos pelos motivos certos" e adversarialmente robustos, (3) a introdução do método de aumento de dados right for right reasons (RRDA) que melhora dentre os dados de treinamento o contexto das informações a serem representadas para estimular o foco do modelo em características de sinal, e (4) a apresentação de um novo método para interpretar o comportamento dos modelos durante o processo de inferência. Apresentamos ainda uma ferramenta para manipular características visuais e avaliar a robustez dos modelos treinados sob diferentes situações de uso. As análises realizadas demonstram que o método ADA melhora a robustez dos modelos sem comprometer métricas tradicionais de desempenho. O método ARRR demonstra robustez ao viés de cor das imagens em problemas baseados em informações estruturais das imagens. Além disso, o método RRDA melhora significativamente a robustez do modelo em relação a deslocamentos de fundo da imagem, superando o desempenho de outros métodos RRR tradicionais. Finalmente, a ferramenta de análise de modelos proposta permite revelar a interdependência contraintuitiva de características e avaliar fraquezas nas decisões de inferência dos modelos. Estas contribuições representam avanços significativos no campo do Deep Learning aplicado ao processamento de imagens, fornecendo insights valiosos e soluções inovadoras para desafios associados à confiabilidade e interpretação desses modelos complexos.