Resumo: |
A constante evolução das tecnologias de redes e comunicação motiva cada vez mais o acesso à internet, onde tem-se um espaço para a produção, circulação e manifestação de diferentes discussões acerca de vários assuntos. As redes sociais tem a capacidade de espalhar a informação com rapidez, e o conjunto dessa massa de dados pode ser explorado sobre a ocorrência de casos de doenças como a dengue, zica e chikungunya. Nesse capo pode-se revelar informações sobre o teor das publicações como por exemplo o conteúdo cômico, as campanhas, e mensagens que contem informação sobre a ocorrência das doença, entre outros tipos de manifestações. Para a categorização do textos que tem relação com um caso da doença utilizou-se a técnica máquina de suporte vetorial. Essa técnica é reconhecida em diversas aplicações na área de aprendizado de máquina. Também é aplicado com sucesso na classificação de texto. A técnica procura a separação máxima entre duas classes. Para a mineração de dados proveniente da rede social foi implementada a ferramenta Coletor de Dados, desenvolvido em linguagem Java com a utilização da API do Twitter, que permite a conexão para coleta em tempo real das mensagens. Para o armazenamento dos dados utilizou-se um banco de dados relacional. Após a fase de coleta e armazenamento realizou-se o pré-processamento. Essa fase tem a finalidade de reduzir o tamanho da massa de dados, tornando viável a geração da tabela valor atributo. Ainda na etapa, os dados são separadas em tokens é aplicado as funções stemming e stop words. Então aplicou-se o método que permite atribuir peso as palavras de acordo com sua frequência, o que determina o nível de importância, para o texto. Na sequência obteve-se a tabela de valor atributo para realizar os testes na ferramenta Weka. O teste foi realizado com as mensagens que contem menção as palavras: dengue, zica, e chikungunya, separadas em arquivos para realizar os teste de classificação. Os resultados do classificador aponta que a maioria das mensagens não contem em seu conteúdo relação com caso das doenças. A implementação SMO obteve mais indicadores com resultados superiores a LibSVM. |