Logo
Olá visitante Início
EXTRAÇÃO SEMI-AUTOMÁTICA DE DADOS NÃO ESTRUTURADOS NA WEB BASEADA EM ALGORITMOS DE SIMILARIDADE PARA ARMAZENAMENTO EM BANCO DE DADOS OBJETO-RELACIONAL
Autor: MARIO LUIS SCARPARI CITADIN Enviar e-mailVer Currículo Lattes
Orientador: PARACELSO DE OLIVEIRA CALDAS Enviar e-mailVer Currículo Lattes
Resumo:
A crescente evolução e transformação da Web de forma desestruturada desencadeia uma série de dificuldades com relação ao tratamento e uso dos dados contidos neste ambiente. Com o objetivo de facilitar a manipulação destas informações e também recuperá-las de forma eficiente, este trabalho fundamenta e demonstra o funcionamento de um extrator de dados, que utiliza o conceito de wrappers para recuperar os dados do ambiente Web e transformá-los em um arquivo XML. Com a necessidade de tratar os dados extraídos e classificá-los de acordo com o que o usuário necessita, o protótipo desenvolvido na linguagem Java utiliza a biblioteca XSTREAM para realizar a leitura do arquivo XML e mapeá-lo para uma classe Java. Para classificar os dados, é utilizado o algoritmo editDistance para realizar a comparação entre as informações obtidas, e gerar um coeficiente de similaridade. Com o objetivo de armazenar um histórico das informações extraídas, estes dados podem ser armazenados, onde utiliza-se o framework Hibernate para fazer o mapeamento dos objetos para o Banco de dados. O resultado final deste processo é a obtenção de dados relevantes ao usuário operador do sistema e a possibilidade de recuperar estas informações posteriormente através dos algoritmos de similaridade.
Início: 2009.1  Término: 2010.1
Palavras-chave: Extração De Dados , Xml , Algoritmos De Similaridade , Java , Banco De Dados



Curso de Ciência da Computação (UNESC)