Banca de DEFESA: FRED EDUARDO REVOREDO RABELO FERREIRA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: FRED EDUARDO REVOREDO RABELO FERREIRA
DATA : 12/12/2024
HORA: 08:30
LOCAL: Virtual
TÍTULO:

Evaluating the impact of data denormalization on OLAP and HTAP 
architectures: guidelines for efficient Data Warehouse as a Service design


PALAVRAS-CHAVES:

Data Warehouse, SQL Distribuído, NewSQL, Banco de dados colunar, HTAP, Singlestore, MariaDB Columnstore, TiDB, Redshift, IBM Db2 Warehouse, Snowflake, Star Schema Benchmark, Modelagem de Dados, Análise de Performance


PÁGINAS: 100
RESUMO:

Data Warehouse as a Service (DWaaS) é uma abordagem moderna para Data Warehousing (DW) que utiliza Bancos de Dados (DBMSs) baseados em nuvem para fornecer armazenamento e análise de dados escaláveis e de alto desempenho sem as complexidades do gerenciamento de hardware físico. As soluções DWaaS podem suportar não apenas Online Analytical Processing (OLAP), mas também Hybrid Transactional/Analytical Processing (HTAP). Esses DBMSs podem ser categorizados em duas classes principais: Columnar Relational e NewSQL. Ambas as classes oferecem recursos avançados, como processamento distribuído, armazenamento em colunas e escalabilidade horizontal, que são essenciais para lidar com grandes volumes de dados e consultas complexas de forma eficiente na nuvem. No entanto, tais soluções apresentam diferenças importantes que impactam o volume de dados e o desempenho de consultas (por exemplo, sua arquitetura, método de armazenamento e modelos de dados). O objetivo desta tese é realizar uma avaliação experimental para analisar o impacto da modelagem de dados, especificamente o uso de um Esquema Estrela ou um Esquema de Tabela Flat (totalmente desnormalizado) no contexto de DW distribuído, baseado em nuvem e colunar. Contribuímos para a literatura realizando uma análise do desempenho de vários DBaaS, comparando verticalmente as classes OLAP e HTAP de soluções para compreender melhor seu comportamento em diferentes configurações em termos de esquema de dados, forma de armazenamento, disponibilidade de memória e escalabilidade do tamanho do cluster. A análise é feita em dois volumes de dados, gerados por um benchmark de DW bem estabelecido: um cenário onde os dados cabem totalmente na memória e outro cenário onde não cabem totalmente na memória do cluster. Também comparamos o desempenho do DW em termos de tempo médio de execução, volume de dados e tempo de carregamento para completar toda a carga de trabalho. Nossos resultados fornecem insights para ajudar a decidir o cenário mais apropriado para construir um DW distribuído eficiente na nuvem, mostrando que: i) soluções HTAP tendem a exigir mais espaço de armazenamento e se beneficiam mais do esquema FT para a maioria das consultas; ii) soluções OLAP tendem a exigir menos espaço de armazenamento e se beneficiam mais do esquema SS para a maioria das consultas, especialmente se a consulta tiver muitas junções; iii) o esquema FT fornece desempenho mais consistente em todas as soluções; iv) soluções HTAP podem superar soluções OLAP em termos de tempo geral de execução; e v) o desempenho da consulta é fortemente influenciado pelo número de junções e ligeiramente influenciado por sua seletividade.


MEMBROS DA BANCA:
Externo à Instituição - RONALDO DOS SANTOS MELLO - UFSC
Externa à Instituição - ANDREZA LEITE DE ALENCAR - UFRPE
Presidente - 2743538 - EDUARDO ANTONIO GUIMARAES TAVARES
Interno - 2886196 - LEANDRO MACIEL ALMEIDA
Interno - 1807586 - VINICIUS CARDOSO GARCIA
Notícia cadastrada em: 12/11/2024 08:08
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2025 - UFRN - sigaa01.ufpe.br.sigaa01