Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos

Franco, Gabriel Vita Silva

Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos

Files

Primary texto completo.pdf (11.2 MB)

Date

2021-06-08

Authors

Franco, Gabriel Vita Silva

Publisher

Universidade Federal de Viçosa

Abstract

Esta dissertação propõe estratégias para o problema de seleção de hiperparâmetros no problema de Aprendizado com Proporções de Rótulos, conhecido como LLP. Neste problema, os dados estão divididos em conjuntos, chamados bags, e apenas a proporção dos rótulos em cada bag é conhecida. Primeiro, o problema de LLP é formalmente definido. São apresentadas duas definições: uma que condiz com os cenários apresentados na literatura e outra que abrange cenários que fogem da definição padrão da literatura. Com o problema formalizado, uma estratégia genérica de seleção de hiperparâmetros para LLP é proposta. Esta estratégia divide o problema de seleção de hiperparâmetros em LLP em duas partes: divisão do conjunto de dados entre conjuntos de treino e validação e compu- tação do erro do modelo no conjunto de validação. Para a primeira parte, são propostos três algoritmos que fazem a divisão dos dados por bag. Já para a segunda parte, uma nova função de erro que utiliza pesos para as bags baseados na informação de Fisher é proposta. Com os métodos definidos, todo o cenário de avaliação dos métodos é apresentado, incluindo novos conjuntos de dados sintéticos que incorporam aspectos práticos do problema de LLP. Os resultados mostraram que utilizar amostras com repetição e um conjunto de validação maior na seleção de hiperparâmetros traz ganhos em relação ao estado da arte em cenários de LLP Geral. Palavras-chave: Aprendizado com Proporções de Rótulos. Seleção de hiperparâmetros. Aprendizado semi-supervisionado.
In this work, we study the hyperparameter selection in the Learning with Label Proportions (LLP) context. In LLP, the data is provided in bags and only the label proportion of each bag is known. The LLP problem was first formalized. Two definitions were intro- duced: the first one is consistent with the scenarios studied in literature and the second one covers scenarios that are not included in the first definition. Then, a generic strategy for hyperparameter selection in LLP was defined. This strategy can be divided into two parts: split the data into training and validation sets and compute the model error in the validation set given a hyperparameter combination. We proposed three algorithms that divide the data per bag to address the first part. For the second part, a new error function that gives weights based on Fisher information for bags was introduced. Thereafter, the evaluation scenario for these methods was presented, including the new synthetic datasets which include some LLP practical aspects. The results showed that using the proposed methods for hyperparameter selection in LLP general scenarios improves the performance when compared with the state-of-art method. Keywords: Learning with Label Proportions. Hyperparameter selection. Semi supervised learning.

Keywords

Aprendizado do computador, Mineração de dados, Aprendizado supervisionado (Aprendizado do computador)

Citation

FRANCO, Gabriel Vita Silva. Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos. 2021. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.

URI

https://locus.ufv.br//handle/123456789/28000

Collections

Ciência da Computação

Full item page

Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By