Providing Projective and Affine Invariance for Recognition by
Multi-Angle-Scale Vision Transformer
Invariância Afim; Invariância Projetiva; Aprendizagem Profunda Geométrica; Transformador de Visão; Visão Computacional.
O reconhecimento de formas 2D deformadas encontra aplicações em muitas áreas não relacionadas, como marketing, OCR e veículos autônomos. Um enorme esforço tem sido dedicado a isso na literatura, com base em abordagens geométricas diretas, embora com resultados ou desempenho limitados. Mais recentemente, muitas abordagens de aprendizado de máquina foram propostas com resultados satisfatórios somente quando quando a deformação é, na melhor das hipóteses, uma transformação afim fraca. Esta tese apresenta o MASViT, uma solução baseada em aprendizado profundo que supera os métodos mais avançados no reconhecimento de imagens deformadas por afinidades e projetividades. Um ponto crucial em nosso trabalho é a ausência de imagens deformadas por essas transformações durante a fase de treinamento. Nossa abordagem emprega filtros convolucionais 1D correspondentes a linhas retas que cruzam a forma no domínio polar, preservando a colinearidade, um invariante projetivo básico. Sequências angulares derivadas do domínio polar se integram bem à arquitetura ViT, pois esses patch embeddings são geometricamente coerentes, melhorando a adequação para o codificador de transformador. Também apresentamos várias técnicas de regularização para aumentar a generalização do modelo. Para validar a abordagem, selecionamos novos conjuntos de dados de teste derivados do conjunto de dados GTSRB (sinais de trânsito). Por meio de experimentos abrangentes, demonstramos que essa abordagem supera os modelos de última geração, especialmente ao lidar com imagens sujeitas a deformações afins e projetivas.