Navegando por Autor "Soares, Victor Hugo Andrade Soares"
Agora exibindo 1 - 1 de 1
- Resultados por Página
- Opções de Ordenação
Item Combinações de similaridade semântica e frequência de termos para agrupamento de textos(Universidade Federal de Viçosa, 2017-03-20) Soares, Victor Hugo Andrade Soares; Naldi, Murilo Coelho; http://lattes.cnpq.br/8627736641321972Um dos desafios ao se agrupar documentos é encontrar uma boa medida de simila- ridade para documentos de textos, que seja capaz de gerar grupos coesos. Algumas medidas são baseadas no clássico modelo bag of words e consideram apenas o vo- cabulário do documento. Com isso, documentos semanticamente similares podem ser atribuídos a diferentes grupos se eles não compartilham o mesmo vocabulário. Por essa razão, medidas de similaridade semântica que usam conhecimento externo, como um corpus, dicionários ou banco de palavras, têm sido propostas na literatura. Neste trabalho, a medida Frequency Google Tri-grams Measures (FGTM) é proposta para identificar similaridade entre documentos baseado nas frequências dos termos nos documentos e no corpus Google n-grams. A comparação entre as frequências de um termo em um dado par de documentos pode quantificar a importância daquele termo para o assunto dos documentos, assumindo que um termo possui maior rele- vância para um documento se ele ocorre mais vezes. Adicionalmente, as frequências dos termos dos documentos no corpus Google n-grams permitem estimar semanti- camente suas similaridades. Adicionalmente, oito variantes de dois algoritmos de agrupamento são aplicadas a vários conjuntos de dados reais, com o objetivo de avaliar experimentalmente a qualidade dos grupos obtidos com a medida proposta e compará-la com outras medidas do estado da arte. Análises de complexidade computacional das medidas comparadas são apresentadas. Os resultados experi- mentais demonstram que a medida proposta melhora significativamente a qualidade dos agrupamentos de documentos, comprovado por testes estatísticos. Também é mostrado que, combinar resultados de agrupamento obtidos com bag of words e medida semântica obtém melhores resultados que adotar uma medida individualmente. Para finalizar, é feito um estudo sobre heurísticas para estimar o número K de gru- pos em agrupamento de textos. Uma versão modificada da heurística G-means é proposta e comparada com heurísticas da literatura.