Curva ROC para comparação de modelos de predição para variáveis dicotômicas
Arquivos
Data
2020-02-28
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Viçosa
Resumo
A utilização de modelos de regressão logística e de seleção genômica ampla (GWS) tem elevada importância em ciências agrárias e, portanto, há necessidade de aplicação de metodologias eficientes para a avaliação do poder discriminatório destes modelos. Uma metodologia pouco difundida nesta área e em GWS é a Receiver Operating Characteristic, ou curva ROC. Neste trabalho, objetivou-se aplicar curva ROC para a seleção de modelos de regressão logística aplicados a dados de germinação de sementes de pimentas habanero e à GWS, considerando dados de resistência do arroz Oriza sativa à brusone. Os modelos testados para a predição da capacidade germinativa das sementes foram compostos dos fatores: variedade (laranja e vermelha), período de armazenamento do fruto (0, 7 e 14 dias), método de extração das sementes (manual e mecânico) e período de armazenamento das sementes (3, 6, 9 e 12 meses). O modelo que se mostrou mais adequado conteve a interação entre variedade, armazenamento do fruto e armazenamento da semente. Por sua vez, os métodos utilizados na GWS, para avaliação da resistência à brusone, foram o BRR (Bayesian Ridge Regression), Bayes C𝜋 e BLASSO. Esses métodos foram comparados pelos seguintes critérios: taxa de erro na validação, coeficiente de Spearman e viés com a área abaixo da curva ROC (AUC). Os valores de AUC para a seleção dos modelos mostraram-se equivalentes aos valores dos índices usuais, que indicaram os modelos BRR e Bayes C𝜋 como os melhores. Além disso, a representação gráfica das curvas ROC se mostrou ainda mais vantajosa por permitir a determinação da sensibilidade dos modelos em diferentes valores de especificidade. Abaixo de 0,25 de 1-especificidade os modelos BRR e Bayes C𝜋 foram mais sensíveis que o BLASSO, mas acima deste valor todos foram equivalentes. No entanto, o BRR apresentou menor tempo de execução (4h52min, 6h1min, 6h25min para o BRR, Bayes C𝜋 e BLASSO, respectivamente). Por fim, pode-se verificar que a análise ROC se mostrou eficiente para a avaliação de modelos de regressão logística e de GWS e, portanto, os resultados aqui apresentados indicam que a curva ROC pode ser utilizada como uma excelente ferramenta para seleção de modelos em ciências agrárias. Palavras-chave: Regressão logística. Seleção Genômica Ampla. Germinação de sementes. Brusone do arroz. Pimenta habanero. Qualidade de ajuste de modelo.
The use of logistic regression models and genomics wide selection (GWS) is very important in agricultural sciences and, therefore, the application of efficient methodologies to assess the discriminatory power of these models is needed. A poorly-used methodology in this area and in GWS is the Receiver Operating Characteristic, or ROC curve. In this work, the aim was to apply a ROC curve for the selection of logistic regression models applied to germination data of habanero pepper seeds and to GWS, considering resistance data of rice Oriza sativa to blast. The tested models for the prediction of the germination capacity of the seeds were composed of the factors: variety (orange and red), period of storage of the fruit (0, 7 and 14 days), method of extraction of the seeds (manual and mechanical) and period of seed storage (3, 6, 9 and 12 months). The most suitable model contained the interaction between variety, fruit storage and seed storage. On the other hand, the methods used in GWS to assess blast resistance were BRR (Bayesian Ridge Regression), Bayes Cπ and BLASSO. These methods were compared using the following criteria: error rate in the validation, Spearman coefficient and bias with the area under the ROC curve (AUC). The AUC values for the selection of the models were equivalent to the values of the usual indices, which indicated the BRR and Bayes Cπ models as the best. In addition, the graphical representation of the ROC curves proved to be even more advantageous as it allows the determination of the sensitivity of the models in different specificity values. Below 0.25 of 1-specificity the BRR and Bayes Cπ models were more sensitive than the BLASSO, but above this value all the models were equivalent. However, the BRR had a faster execution (4h52min, 6h1min, and 6h25min for the BRR, Bayes Cπ and BLASSO, respectively). Finally, the ROC analysis proved to be efficient for the evaluation of logistic regression models and GWS and, therefore, the results presented here indicate that the ROC curve can be used as an excellent tool for selecting models in agrarian sciences. Keywords: Logistic regression. Genomics Wide Selection. Seed germination. Rice blast. Habanero pepper. Model fitting quality.
The use of logistic regression models and genomics wide selection (GWS) is very important in agricultural sciences and, therefore, the application of efficient methodologies to assess the discriminatory power of these models is needed. A poorly-used methodology in this area and in GWS is the Receiver Operating Characteristic, or ROC curve. In this work, the aim was to apply a ROC curve for the selection of logistic regression models applied to germination data of habanero pepper seeds and to GWS, considering resistance data of rice Oriza sativa to blast. The tested models for the prediction of the germination capacity of the seeds were composed of the factors: variety (orange and red), period of storage of the fruit (0, 7 and 14 days), method of extraction of the seeds (manual and mechanical) and period of seed storage (3, 6, 9 and 12 months). The most suitable model contained the interaction between variety, fruit storage and seed storage. On the other hand, the methods used in GWS to assess blast resistance were BRR (Bayesian Ridge Regression), Bayes Cπ and BLASSO. These methods were compared using the following criteria: error rate in the validation, Spearman coefficient and bias with the area under the ROC curve (AUC). The AUC values for the selection of the models were equivalent to the values of the usual indices, which indicated the BRR and Bayes Cπ models as the best. In addition, the graphical representation of the ROC curves proved to be even more advantageous as it allows the determination of the sensitivity of the models in different specificity values. Below 0.25 of 1-specificity the BRR and Bayes Cπ models were more sensitive than the BLASSO, but above this value all the models were equivalent. However, the BRR had a faster execution (4h52min, 6h1min, and 6h25min for the BRR, Bayes Cπ and BLASSO, respectively). Finally, the ROC analysis proved to be efficient for the evaluation of logistic regression models and GWS and, therefore, the results presented here indicate that the ROC curve can be used as an excellent tool for selecting models in agrarian sciences. Keywords: Logistic regression. Genomics Wide Selection. Seed germination. Rice blast. Habanero pepper. Model fitting quality.
Descrição
Palavras-chave
Análise de regressão logística, Melhoramento genético, Germinação, Brusone, Capsicum chinense
Citação
SILVA NETO, Zeferino Gomes da. Curva ROC para comparação de modelos de predição para variáveis dicotômicas. 2020. 69 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.
