Uma Avaliação da Redundância e do Particionamento de Dados
Convencionais e Geoespaciais em Data Warehouses Orientados a Colunas
Data-warehouse geográfico, NoSQL, Redundância,
Particionamento, Seletividade
A crescente demanda por processamento analítico alinhada a expansão dos
ambientes de Big Data colocou em xeque a capacidade do modelo relacional de
atender tais aplicações, sem comprometer o desempenho das mesmas ou
incorrer em custos exorbitantes. Os bancos de dados NoSQL foram escolhidos
como uma alternativa viável para suprir tais necessidades. Eles relaxam os
controles de consistência, integridade e transacionais característicos de
bancos relacionais para oferecerem mais disponibilidade, poder de
processamento paralelo e escalabilidade horizontal. Estudos mostraram que a
classe de bancos de dados NoSQL orientados a colunas apresentam bons
desempenhos para o uso com finalidades analíticas, pois, os dados de cada
coluna são armazenados contiguamente e separados fisicamente das demais
colunas. O planejamento de esquemas para os bancos de dados orientados a
colunas foi objeto de diversas pesquisas, as quais, avaliaram abordagens
normalizadas e desnormalizadas, bem como, as formas mais adequadas de se
promover a separação física dos dados de cada coluna. No entanto, esses
estudos não consideraram cenários que envolvam dados geoespaciais presentes
na base e no escopo das consultas analíticas. Com o intuito de investigar
as influências da redundância e do particionamento de dados convencionais e
geoespaciais em GDWs orientados a colunas e utilizados com finalidades
analíticas, propusemos 40 esquemas que adotam abordagens distintas para
modelar os relacionamentos entre fatos e dimensões, entre dimensões
convencionais e geoespaciais, e entre as próprias dimensões geoespaciais.
Utilizamos o benchmark denominado Spadawan para gerar os dados em
conformidade com os esquemas propostos, para os fatores de escala 1 e 10, e
avaliar o volume de dados, tempo de ingestão e tempo para a execução de uma
carga de consultas geoespaciais em um cluster computacional composto por 4
nós. Nossos resultados evidenciaram que a desnormalização das dimensões
convencionais foi a abordagem que mais contribuiu positivamente para a
redução dos tempos de execução, apesar de elevar o volume de armazenamento
demandado. A normalização das dimensões geográficas de menor seletividade
contribuiu com a redução dos tempos de execução, enquanto, a normalização
ou desnormalização das mais seletivas não ocasionou impactos positivos ou
negativos expressivamente.