Agrupamento não-supervisionado

Aprenda a avaliar a qualidade de um cluster

O mundo de Big Data possibilitou a extração de conhecimento útil a partir de dados coletados. Uma forma bastante utilizada para conhecer os usuários de algum serviço é agrupá-los de acordo com uma ou mais features, utilizando técnicas não-supervisionadas do aprendizado de máquina, muitas vezes referidas simplesmente como clustering. Esse agrupamento pode facilitar a descoberta de características de usuários similares e importantes. Tais características nem sempre são fáceis de serem identificadas, mesmo em análises mais profundas, uma vez que a diversidade dos dados pode causar interferência nos resultados de outras técnicas.

O primeiro desafio é categorizar os clientes de acordo com as features desejadas. Tais features podem ser obtidas através de cálculos matemáticos, identificação de padrões ou através de outro conjunto de características. Um outro desafio que merece atenção é a presença de outlier, uma vez que a utilização de algumas métricas estatísticas são sensíveis a valores muito fora do padrão.


Outlier em um Agrupamento

Nem sempre os outliers são simples de serem removidos, principalmente se estes forem esparsos entre si e com poucas características em comum. Em alguns tipos de features numéricas, este caso se agrava, pois é difícil classificar um valor como outlier sem maiores estudos. Com os dados ordenados, poderíamos por exemplo, decidir retirar uma porcentagem de dados do final da nossa estrutura, mas qual o valor percentual mais adequado? Ele representa bem os outliers? Será que não estamos removendo poucos ou muitos dados? Somente os outliers demandam um estudo próprio e a solução encontrada pode ser adequada para o conjunto de dados atuais. Mas será que a solução continuará eficaz com uma leve mudança nos dados? É por este motivo que muitas vezes é preferível manter os outliers, visto que a sua retirada pode resultar em uma melhoria muito baixa se comparada ao trabalho demandado. Para se chegar a uma conclusão sobre a remoção de outliers, é indicado uma avaliação de qualidade dos clusters.

A avaliação de qualidade vai mostrar possíveis inconsistências no agrupamento obtido, possibilitando uma maior compreensão dos dados e resultados, e consequentemente impedindo que tais inconsistências sejam tratadas como conhecimento. Uma inconsistência pode levar a tomada de decisão baseada em uma situação não condizente com a realidade, e isso pode custar caro! Apesar da importância de uma avaliação da qualidade dos clusters, ainda é difícil encontrar conteúdo para auxiliar nessa avaliação. Mesmo com todo o estudo e aprimoramento dos algoritmos existentes, nem sempre os clusters obtidos são considerados “bons”.

Teoricamente, uma boa clusterização possui grupos compostos por dados próximos entre si (baixa distância intra-cluster), e bem distantes em relação aos dados de outros grupos (alta distância inter-cluster). Em alguns casos, também é esperado que os grupos possuam aproximadamente o mesmo tamanho e que seus centróides, ou seja, o ponto médio de seus dados, sejam bem separados. Existem outras métricas que podem ser aplicadas para avaliação de um agrupamento (Coeficientes de Silhueta (en.wikipedia.org/wiki/Silhouette_(clustering)) e outros) , porém neste artigo trataremos apenas das métricas citadas anteriormente.

Distância entre Pontos

A primeira métrica que falaremos é a que prevê a medição entre os pontos de um agrupamento. Esse cálculo é aplicado em duas frentes: é calculada a distância entre os pontos de um mesmo grupo (distância intra-cluster) e a distância entre pontos de grupos distintos (distância inter-cluster).

        A distância intra-cluster irá representar o quão bem relacionados estão os dados. Ou seja, dados altamente relacionados estão mais próximos entre si do que dados com pouca relação.

Distância intra-cluster

Na figura acima vemos que os dados do cluster rosa claro seriam os mais bem relacionados entretanto, o outlier faz a distância média entre os pontos do cluster aumentar. Os pontos do cluster roxo são mais separados que os do grupo rosa, porém a relação entre seus pontos ainda é maior do que a do grupo de cor azul. Vemos então, que quanto menor a distância média intra-cluster, melhor o seu grupo será.

Porém, como podemos imaginar, somente estes valores não serão capazes de representar bem o agrupamento. É aqui que entra os valores de distância inter-clusters. Estes valores são obtidos através do cálculo da menor distância entre dois pontos de clusters distintos.

distância entre clusters

No mesmo exemplo, vemos que a distância entre os grupos roxo e rosa é maior que a distância entre os grupos roxo e azul. Isso acontece porque os dados presentes no cluster rosa são menos relacionados com os dados do cluster roxo do que os dados do cluster azul. Assim, vemos que quanto maior a distância inter-cluster, melhor será o agrupamento.

Porém, existem casos em que os grupos obtidos possuem tantos dados e eles são tão próximos entre si, que a aplicação desta métrica se torna, se não inviável, não tão precisa quanto deveria. Nestes casos, podemos utilizar o cálculo da distância entre centróides.

Distância entre Centróides

Os centróides são os pontos médios de um cluster, ou seja, é um ponto localizado no centro de massa de um grupo, onde existe uma maior concentração de dados. Esta é uma técnica que pode ser utilizada quando existem muitos dados e estes são relativamente próximos de pontos de outro grupo.

Distância entre os centróides dos clusters

Como vemos na figura acima, apesar da pouca distância entre os clusters azul e roxo, a distância entre seus centróides é tão grande quanto, se não maior, que a distância entre os centróides dos clusters roxo e rosa. Isso significa que, apesar de alguns dados dos grupos azul e roxo serem relacionados, essa relação não representa a maior parte dos elementos desses grupos.

Essa técnica pode ser atrelada à uma análise de pontos de fronteira, como descrito a seguir.

Densidade de Pontos na Fronteira

A análise de pontos de fronteira é uma técnica que busca calcular e estudar a densidade de pontos entre dois centróides, especificamente aqueles pontos localizados bem no meio dessa distância. Essa análise pode ser aplicada quando a distância inter-cluster é baixa, para verificar se, apesar disso existem poucos pontos na fronteira entre os clusters.

Quantidade de Pontos na Fronteira entre os Clusters

No mesmo exemplo, vemos que é apenas um ponto na fronteira entre os grupos azul e roxo que faz com que a distância inter-cluster seja pequena, logo o agrupamento não é ruim como parecia.

Tamanho dos Clusters

A última métrica prevê a análise da quantidade de pontos em um cluster. Em muitos casos, um bom agrupamento deve possuir grupos homogêneos, inclusive em seu tamanho. Para realização deste cálculo pode ser utilizada a Entropia de Shannon, dada pela fórmula abaixo:

H(X) = -i=1np(xi)logbp(xi)

No qual representa a probabilidade de se escolher o dado i no conjunto de dados X e b a base escolhida para o logaritmo. O resultado deste cálculo será um valor entre 0 e 1. Para uniformizarmos este intervalo, vamos dividir o resultado da entropia por e teremos sempre um valor no intervalo fechado entre 0 e 1. Quanto maior o valor da entropia, mais bem distribuído e homogêneo é o agrupamento.

Então pessoal, todas as técnicas têm seus prós e contras e estes devem ser avaliados antes de sua aplicação.


Compartilhar no facebook
Compartilhar no linkedin
Compartilhar no twitter
inteligência de dados

Agrupamento não-supervisionado

Aprenda a avaliar a qualidade de um cluster O mundo de Big Data possibilitou a extração de conhecimento útil a partir de dados coletados. Uma

saiba mais »
Bitnami