Logo
Olá visitante Início
ANALISE DE TÉCNICAS DE EXTRAÇÃO DE DADOS NÃO ESTRUTURADOS EM PÁGINAS HTML PARA UTILIZAÇÃO NO ARMAZENAMENTO E MANIPULAÇÃO EM BANCO DE DADOS OBJETO RELACIONAL
Autor: FELIPE COGORNI MAURICIO Enviar e-mailVer Currículo Lattes
Orientador: PARACELSO DE OLIVEIRA CALDAS Enviar e-mailVer Currículo Lattes
Resumo:
A internet hoje é o local que mais se acessa para a realização de pesquisas, porém devido a falta de padronização na construção de sites, especificamente nas páginas HTML, existe uma perda bastante significativa de dados que poderiam ser melhores aproveitados, são os casos dos dados não estruturados em páginas HTML. Para poder utilizar esses dados de uma forma relevante existem técnicas que auxiliam na sua extração. Dentre as técnicas disponíveis, estão as de Processamento de Linguagem Natural, probabilidades e árvores de decisão. Com isso esta pesquisa fundamentou-se na implementação de um protótipo que utiliza de uma ferramenta chamada TreeTagger que implementa essas técnicas, para ajudar na tarefa de extração dos dados de maneira contextualizada e para armazená-los em um banco de dados, facilitando assim a sua manipulação e obtenção de resultados mais relevantes. Para a contextualização é usada a frase de busca feita por um usuário em uma ferramenta de busca na web, no intuito de comparação da frase com o conteúdo na página HTML. Durante a pesquisa, foram realizados alguns testes no protótipo implementado, a fim de verificar os resultados obtidos pelo protótipo e comprovar o êxito nos objetivos do trabalho.
Início: 2010.1  Término: 2011.1
Palavras-chave: Dados Não Estruturados , Páginas Html , Técnicas De Extração , Processamento De Linguagem Natural , Técnicas De Contextualização , Ferramenta Treetagger



Curso de Ciência da Computação (UNESC)