Regressão Linear Clusterwise para Dados do Tipo Intervalo Baseada
em Distâncias Adaptativas
Regressão linear. Regressão clusterwise. Dados do tipo
intervalo. Distâncias adaptativas.
Em diversas aplicações reais, não é possível obter dados numéricos
quantitativos, mas sim um conjunto de observações agregadas, resultando em
dados simbólicos, como intervalos. Esse tipo de representação exige métodos
capazes de lidar adequadamente com a incerteza e a variabilidade interna
dos grupos. Nesse contexto, a regressão clusterwise é uma técnica eficiente
que permite a identificação simultânea de grupos homogêneos e de modelos de
regressão associados a cada cluster. CARVALHO; SAPORTA; QUEIROZ (2010)
estenderam a regressão clusterwise para dados do tipo intervalo;
entretanto, esses métodos tradicionais podem apresentar limitações, pois a
regressão clusterwise não foi projetada para ajustar modelos lineares em
grupos homogêneos, segundo as variáveis explicativas. O agrupamento é
baseado na minimização dos resíduos e, por isso, os grupos podem ser
formados por observações bem distintas em relação às variáveis
independentes. Este estudo estende os trabalhos de CARVALHO; SAPORTA;
QUEIROZ (2010) e CARVALHO; NETO; SILVA (2021) apresentando seis variantes
dos modelos de regressão linear clusterwise para lidar com dados do tipo
intervalo, inspiradas no trabalho de SILVA; CARVALHO (2021). A abordagem
proposta considera tanto o centro quanto a amplitude, bem como os limites
inferior e superior dos intervalos, permitindo o ajuste automático dos
pesos de relevância local ou global das variáveis preditoras. Este esquema
de ponderação visa melhorar a formação de clusters e a adaptação das
variáveis explicativas, preservando a qualidade do ajuste para a variável
resposta, por meio da minimização de um critério de adequação que combina
um termo de mínimos quadrados dos resíduos da regressão linear e um termo
do tipo K-means no espaço das variáveis explicativas. Os experimentos
conduzidos em sete cenários sintéticos e em 16 conjuntos de dados reais
revelaram que as variantes ponderadas têm uma maior capacidade de
recuperação da estrutura dos dados e generalização.