Banca de DEFESA: ELISSON LIMA GOMES DA SILVA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: ELISSON LIMA GOMES DA SILVA
DATA : 13/09/2024
HORA: 14:30
LOCAL: Virtual
TÍTULO:

Multi-Head Attention Classifier Trained on Protein-level for 
Detecting Viruses Infecting Cassava from Short Sequencing Reads


PALAVRAS-CHAVES:

Virômica de plantas, Classificação metagenômica, Deep Learning, Multi-head Attention, Métodos livres de alinhamento


PÁGINAS: 73
RESUMO:

Este estudo aplica redes neurais artificiais (RNAs) para classificar leituras de
dados de sequenciamento de alto rendimento (HTS), com foco específico na detecção de
vírus em plantas de mandioca (Manihot esculenta Crantz). Doenças virais representam
ameaças significativas à saúde das culturas e à produção de alimentos, e a mandioca,
uma cultura crucial para a segurança alimentar e aplicações industriais no Brasil e glob-
almente, não é exceção. As pipelines tradicionais de bioinformática para a descoberta
de vírus baseiam-se principalmente em métodos de alinhamento, que se tornam cada
vez mais caros em termos computacionais à medida que o volume de dados genômi-
cos de referência cresce. Metodologias sem alinhamento (AF), especialmente aquelas
baseadas na análise de k-mers, oferecem uma alternativa promissora, mas muitas vezes
enfrentam desafios relacionados à interpretabilidade e à demanda por memória.
Para enfrentar esses desafios, propomos um modelo de classificador de atenção
multi-head projetado para detectar infecções virais em amostras metagenômicas no
nível proteico. Este modelo, treinado para uma planta hospedeira específica, aproveita
o mecanismo de atenção para melhorar a extração de características das distribuições
de k-mers. Essa abordagem permite uma codificação mais dependente do contexto das
leituras de sequenciamento, melhorando a classificação das sequências genéticas curtas
típicas dos dados de HTS. Além disso, implementamos uma pipeline fitossanitária de
última geração na cloud da Amazon Web Services (AWS) para avaliar o desempenho
do nosso modelo proposto.
O modelo alcançou 95% de precisão durante o treinamento, filtrando efetivamente
milhões de leituras do hospedeiro e de outros organismos, retendo apenas leituras virais.
Essa redução substancial na demanda computacional para a identificação de novos vírus
destaca a eficiência da nossa abordagem. Nossos resultados demonstram que modelos
de deep learning, particularmente aqueles que empregam o mecanismo de atenção, po-
dem classificar eficientemente sequências virais em leituras curtas, reduzindo significa-
tivamente os custos computacionais associados aos métodos tradicionais de AF. Este
trabalho avança na análise genética e na bioinformática, oferecendo um método mais
preciso e eficiente para a classificação de leituras de HTS na descoberta de patógenos
em plantas.


MEMBROS DA BANCA:
Externa à Instituição - ANA MARIA BENKO ISEPPON - UFPE
Presidente - 1675582 - CLEBER ZANCHETTIN
Interno - 1845999 - STEFAN MICHAEL BLAWID
Notícia cadastrada em: 02/09/2024 12:50
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2025 - UFRN - sigaa04.ufpe.br.sigaa04