Banca de DEFESA: MANASSES FRANCISCO DO NASCIMENTO FILHO
Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: MANASSES FRANCISCO DO NASCIMENTO FILHO
DATA : 26/06/2025
HORA: 09:00
LOCAL: Instituto Aggeu Magalhães - formato híbrido
TÍTULO:
AVALIAÇÃO DOS ALGORITMOS DE APRENDIZAGEM PARA PREDIÇÃO DA ENERGIA LIVRE DE GIBBS DE INTERAÇÕES PROTEÍNA-PROTEÍNA.
PALAVRAS-CHAVES:
Aprendizado de Máquina; Super Learner; Interface de Interações Proteína-Proteína; Energia Livre de Gibbs.
PÁGINAS: 126
RESUMO:
Neste trabalho, contribuiu-se com a avaliação sistemática dos modelos de regressão
utilizados na construção de um metamodelo capaz de predizer a afinidade de
ligação de complexos proteína-proteína, o qual apresentou correlação de Pearson (r)
igual a 0,70. A predição da variação de energia livre de ligação (∆G) durante a
formação desses complexos constitui um desafio na bioinformática estrutural, em
virtude da complexidade dessas interações e da influência de diversos fatores
físico-químicos. Tal predição é essencial para a compreensão de mecanismos
biomoleculares, bem como para o desenvolvimento de fármacos e o projeto de
terapias baseadas em proteínas, como anticorpos e vacinas. Os métodos
computacionais tradicionais, como simulações baseadas em Dinâmica Molecular e
Monte Carlo, embora altamente precisos, apresentam elevado custo computacional,
o que limita sua aplicabilidade na triagem de grandes quantidades de proteínas.
Como alternativa, métodos baseados em redes neurais, grafos e técnicas de Deep
Learning, fundamentados em dados de sequência ou estrutura proteica, têm sido
amplamente explorados e aprimorados. Diante desse cenário, avaliou-se o
desempenho de dez algoritmos de regressão distintos, majoritariamente métodos de
Machine Learning (ML), utilizados como base na arquitetura de um metamodelo de
regressão com abordagem Super Learner (SL), cujo objetivo é predizer valores de
∆G a partir de descritores de interface calculados por meio do software Rosetta. Os
modelos foram treinados com 526 estruturas no formato .pdb e seus respectivos
valores experimentais de ∆G, considerando-se apenas dados de alta resolução (≤
3,5 Å). Como melhor desempenho, obteve-se o modelo SL_MLP (Super Learner
acoplado ao metamodelo Multilayer Perceptron), com r = 0,70, RMSE = 1,91 e R² =
0,48, em tempo de execução inferior a cinco minutos em um computador comum (8
GB de RAM, Intel Core i5). O desempenho dos modelos foi comparado ao de
ferramentas consolidadas com a mesma proposta, como Prodigy e Area Affinity,
amplamente utilizadas para estimativas de ∆G com baixo custo computacional.
Nesse teste, foi observado que, mesmo uma regressão linear simples aplicada aos
descritores utilizados foi capaz de superar significativamente essas ferramentas.
Durante a pesquisa, também foi realizado uma adaptação do método SHAP
(SHapley Additive exPlanations) como técnica de redução de dimensionalidade,
reduzindo os descritores de 49 para 23 sem perda expressiva de desempenho, o
que favorece a interpretabilidade dos modelos. Os resultados obtidos reforçam o
potencial dessa abordagem como ferramenta de triagem molecular, com elevada
acurácia, baixo custo computacional e aplicabilidade prática. A avaliação realizada
neste estudo contribui para o aprimoramento e a escolha criteriosa dos modelos que
compõem o SL, visando sua aplicação em ambientes de triagem e análise de
interação molecular.
MEMBROS DA BANCA:
Interno - 3382657 - DANILO FERNANDES COELHO
Externo à Instituição - JOSE LICARION PINTO SEGUNDO NETO - UERJ
Presidente - 1208272 - ROBERTO DIAS LINS NETO