Orientador: |
MERISANDRA CÔRTES DE MATTOS  |
Resumo: |
Nos últimos anos cada vez mais se torna visível o tanto de informações que são armazenadas diariamente em bases de dados, porém quanto maior a quantidade de dados, maiores são as dificuldades para analisar esses dados. O data mining surge para analisar e processar essas grandes quantidades de dados armazenadas em bases de dados de forma automatizada. Tendo como principal objetivo a busca por informações relevantes e implícitas em meio aos dados, o que justifica o nome mineração de dados, pois traz só o que é mais relevante ao usuário. O data mining é composto por tarefas e métodos, onde uma dessas tarefas é a de clusterização que gera clusters de dados, por meio da semelhança entre elementos. Porém como a clusterização é um processo não-supervisionado, onde o particionamento dos dados é definido pelo algoritmo, devem ser aplicadas métricas de avaliação denominadas neste trabalho por medidas de qualidade na clusterização para avaliar e qualificar as clusterizações obtidas pelos algoritmos. Como ferramenta para a análise de algoritmos e medidas de qualidade optou-se pela Shell Orion Data Mining Engine, que é uma ferramenta de data mining que vem sendo desenvolvida pelo curso de Ciência da Computação da UNESC. No trabalho foram aplicados sete algoritmos de clusterização da Shell Orion em quatro bases de dados diferentes e avaliaram-se os resultados dos particionamentos por meio de cinco medidas de qualidade sendo estas: Coeficiente de Partição, Coeficiente de Partição Entrópica, Xie-Beni, Dunn e C-Index. Foi realizada também uma revisão de medidas existentes e da aplicabilidade das medidas de qualidade na literatura e compararam-se os resultados dos algoritmos da Shell Orion e das bases de dados com o de outros autores da área de medidas de qualidade em clusterização. Ao término da aplicação das medidas de qualidade foi possível observar que alguns algoritmos não conseguiram particionar corretamente algumas bases de dados, o que inviabilizou a coleta dos valores de algumas medidas, geralmente em bases de dados maiores como no caso da Wine e das bacias hidrográficas. Apesar disso, os resultados obtidos pelas medidas de qualidade foram bem próximos dos resultados alcançados por outros autores em outros trabalhos, o que mostra o funcionamento correto da maioria dos algoritmos e das cinco medidas empregadas. |