Ciências Exatas e Tecnológicas

URI permanente desta comunidadehttps://locus.ufv.br/handle/123456789/4

Navegar

Agora exibindo 1 - 20 de 39

Abordagens frequentista e bayesiana para descrição das curvas de acúmulo de matéria seca de plantas de alho
(Universidade Federal de Viçosa, 2015-12-03) Macedo, Leandro Roberto de; Cecon, Paulo Roberto; http://lattes.cnpq.br/1661203785619531
Este trabalho teve como objetivo identificar modelos de regressão não linear que melhor descrevem as curvas de acúmulo de matéria seca em acessos de alho ao longo do tempo (60, 90, 120 e 150 dias após o plantio) utilizando as abordagens Frequentista e Bayesiana. Objetivou-se também agrupar os acessos similares em cada abordagem com relação às estimativas dos parâmetros e validar este agrupamento via inferência para a igualdade desses parâmetros entre os grupos formados. Para tal estudo foram utilizados 30 acessos de alho registrados no Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa (BGH/UFV). Os modelos Logístico, Gompertz e Von Bertalanffy mostraram-se bons representantes para este tipo de estudo, sendo o modelo Logístico o que melhor se ajustou aos dados. Após a escolha do melhor modelo em cada uma das abordagens, as estimativas dos parâmetros das curvas provenientes do ajuste deste modelo foram submetidas a análise de agrupamento, em que as estimativas foram consideradas como variáveis. Para o agrupamento foi utilizando o algoritmo de Ward e a distância generalizada de Mahalanobis como medida de proximidade. O número ótimo de grupos, segundo o método de Mojena, foi de três para a abordagem Frequentista e quatro para a Bayesiana. A inferência sobre igualdade de parâmetros das curvas entre os grupos formados indicou que o método Bayesiano mostrou-se eficiente e caracterizou-se como uma ferramenta útil para o estudo das curvas de acúmulo de matéria seca em plantas de alho visto que não apresentou problemas de convergência e reportou estimativas com baixos desvios padrão a posteriori, além de determinar de forma mais efetiva o número de grupos.
Análise de fatores para redução de dimensionalidade em estudos de predição genômica
(Universidade Federal de Viçosa, 2022-12-12) Oliveira, Cristiano Ferreira; Cruz, Cosme Damião
O conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.
Análises uni e multivariada para avaliação em cruzamentos dialélicos parciais
(Universidade Federal de Viçosa, 2020-02-18) Oliveira, Ana Carolina Ribeiro de; Cecon, Paulo Roberto; http://lattes.cnpq.br/0231423029429573
A espécie Capsicum annuum L. ocupa uma posição representativa no mercado brasileiro de hortaliças. Assim, com o intuito de atender às exigências do mercado, faz-se necessário o desenvolvimento de novas cultivares, e isso dependerá, da variabilidade genética presente na população em estudo. Neste sentido, o estudo da diversidade genética entre os indivíduos por meio da adoção de técnicas multivariadas, tais como: a análise de agrupamentos e os mapas auto-organizáveis de Kohonen, tornam-se importantes, sobretudo, para seleção de genitores adequados à obtenção de híbridos, com maior efeito heterótico e que proporcionem maior segregação em recombinações, possibilitando o aparecimento de transgressivos. Ademais, o uso de cruzamentos dialélicos propiciam estimativas de parâmetros úteis na seleção de genitores para hibridação e entendimento da ação gênica envolvida na determinação dos caracteres de interesse. As metodologias de Griffing (1956) e Gardner e Eberhart (1966) fornecem informações sobre a capacidade combinatória (geral e específica) e a heterose, respectivamente. Deste modo, objetivou-se avaliar o desempenho de nove genótipos de C. annuum e seus 20 híbridos, obtidos via cruzamentos dialélicos parciais, por meio de caracteres do fruto. O experimento I foi conduzido em casa de vegetação sob delineamento inteiramente casualizado, com quatro repetições. Foram avaliados nove genótipos de Capsicum annuum L., sendo eles: Pimenta Vulcão, Pimenta Cayene, Pimenta Peter, Pimenta Picante para vaso, Pimenta Jamaica Yellow, Pimenta Doce Italiana, Pimentão Quadrado, Pimentão Cascadura Ikeda e Pimentão Rubi Gigante. Os caracteres avaliados foram: peso total do fruto (PTF, g), comprimento do fruto (CF, mm), largura do fruto (LF, mm), espessura do pericarpo (ESP, mm), número de sementes por fruto (NSF), massa da matéria total do fruto fresca (MTF, g) e porcentagem da massa da matéria total do fruto seca (%MTS, g). Os dados obtidos foram submetidos à análise de variância e as médias comparadas pelo critério de Scott-Knott (p < 0,05), para a separação de médias de tratamentos em grupos distintos, por meio da minimização da variação dentro e maximização da variação entre grupos. Para o estudo da diversidade genética, foi adotado a distância de Mahanalobis; os métodos de agrupamento da ligação média entre grupos (UPGMA) e Tocher; e os mapas auto-organizáveis de Kohonen. Observou-se a existência de variabilidade genética entre os genótipos de Capsicum annuum L.; e a formação de dois e quatros grupos, pelos métodos UPGMA e Tocher, respectivamente. A organização da similaridade, estabelecida pelo mapa auto-organizável de Kohonen, apresentou grande potencial no processo de direcionamento de genitores para formação dos dialelos, ao realçar as separações dos grupos de genótipos. O experimento II foi conduzido em casa de vegetação sob delineamento inteiramente casualizado, com quatro repetições. Foram avaliados nove genótipos de Capsicum annuum L. e suas combinações híbridas, por meio de um dialelo parcial (5x4). Pela metodologia de Griffing, adaptada por Geraldi e Miranda Filho (1988), verifica-se que os genótipos ‘Pimentão Quadrado’, ‘Pimenta Jamaica Yellow’, ‘Pimenta Picante para vaso’, ‘Pimenta Cayene’ e ‘Pimenta Peter’ apresentaram os maiores valores de capacidade geral de combinação (CGC), o que os torna potenciais pais em programas de melhoramento de novos híbridos. Os híbridos ‘Pimenta Cayene x Pimentão Cascadura Ikeda’, ‘Pimenta Jamaica Yellow x Pimentão Cascadura Ikeda’ e ‘Pimenta Picante para vaso x Pimentão Quadrado’ destacaram- se pelo melhor desempenho, com as melhores capacidades específicas de combinação e com pelo menos um dos pais com alta CGC, para os caracteres CF, LF e NSF, e %MTS, respectivamente. Adotando-se a metodologia de Gardner e Eberhart, adaptada por Miranda Filho e Geraldi (1984), observa-se que os genótipos ‘Pimentão Quadrado’ e ‘Pimenta Picante para vaso’ apresentaram maior potencial per se, considerando todos os caracteres, e entre os efeitos de heterose específica os cruzamentos ‘Pimenta Vulcão x Pimentão Quadrado’ e ‘Pimenta Cayene x Pimentão Quadrado’ têm efeitos positivos para 77% dos caracteres avaliados. Por fim, foram realizados o ajuste de modelos de regressão não linear para descrever o crescimento de pimentas (Capsicum annuum L.) ao longo do tempo, por meio do método dos mínimos quadrados ordinários (MQO); a identificação do modelo com melhor ajuste e a comparação do modelo obtido por MQO com o modelo via regressão quantílica não linear (RQ), nos quantis 0,25, 0,5 e 0,75. Como resultados, os modelos de regressão não linear Logístico e von Bertalanffy foram indicados para descrever o crescimento de pimentas. A RQ foi eficiente para ajustar modelos de crescimento, quando comparada à regressão não linear obtida por mínimos quadrados ordinários. Palavras-chave: Capsicum annuum L. Regressão quantílica. Modelos não lineares. Mapa de Kohonen. Diversidade genética.
Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados
(Universidade Federal de Viçosa, 2019-07-22) Carvalho, Vitor Prado de; Nascimento, Moysés; http://lattes.cnpq.br/1140674951892263
Na análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.
Autoencoder, análise via componentes principais e independentes aplicados no reconhecimento de padrões de populações
(Universidade Federal de Viçosa, 2022-06-10) Costa, Jaquicele Aparecida da; Azevedo, Camila Ferreira; http://lattes.cnpq.br/6939298449989672
Nos últimos tempos, diante do grande volume de informações, é essencial o desenvolvimento de metodologias que visam reduzir o tempo e esforço computacional da análise de dados com alta dimensionalidade. Nos estudos que buscam associações ou o reconhecimento de padrões, há um grande número de variáveis que apresentam informações sobrepostas ou correlacionadas, o que impossibilita a identificação de grupos divergentes, além de exigir um grande esforço computacional. A genética utiliza milhares de marcadores moleculares do tipo SNPs (Single nucleotide polymorphisms) para estimar os valores genéticos genômicos dos indivíduos, classificar genótipos dentro de determinados grupos e reconhecer padrões na população para direcionar os estudos de diversidade genética. Os principais métodos usados para redução de dimensionalidade são baseados em Análise via Componentes Principais (PCA), a versão esparsa da Análise via componentes Principais (SPCA) e Análise via Componentes Independentes (ICA). Outra técnica em destaque é a metodologia que combina os métodos PCA e ICA que é denominada Análise via Componentes Principais Independentes (IPCA), mas ainda pouco utilizada em banco de dados genômicos. Mais recentemente, têm se destacado os métodos fundamentados em inteligência artificial, como as redes neurais, sendo o Autoencoder um tipo de rede neural que também busca reduzir o espaço dimensional e reconstruir os dados com perda mínima de informação. Assim, o primeiro capítulo desta tese é uma revisão bibliográfica sobre os métodos estatísticos e baseados em inteligência computacional, destacando as vantagens e desvantagens ao utilizar cada uma das metodologias, além de apresentar as técnicas para agrupar e determinar o número ótimo de grupos nos estudos que visam reconhecer padrões. O segundo capítulo propõe a aplicação da PCA, SPCA e IPCA no reconhecimento de padrões de subpopulações do arroz asiático (Oryza Sativa) utilizando 36.901 marcadores moleculares e 413 genótipos, a fim de buscar uma técnica que seja eficiente e possa reduzir o tempo computacional na discriminação dos mesmos. As técnicas, PCA, SPCA e IPCA, apresentaram resultados similares, tais como a matriz confusão, porcentagem de acerto e correlação cofenética. O método Autoencoder foi menos eficiente, mas foi capaz de formar grupos mais compactos, menor variância dentro dos grupos, e mais dissimilares entre eles, maior variância entre os grupos, quando comparado com os métodos estatísticos tradicionais. Diante disso, foi proposto utilizar os componentes obtidos via PCA, SPCA e IPCA, como variáveis de entrada no Autoencoder. A proposta provocou melhorias no Autoencoder, sendo que o PCA-AUT (componentes principais como variáveis de entrada no Autoencoder) foi mais eficiente que os métodos estatísticos e o próprio Autoencoder, além de reduzir ainda mais o espaço dimensional para discriminar os genótipos de arroz. Além disso, a técnica conseguiu capturar parte da variabilidade mensurada antes de aplicar qualquer método de redução dimensional. Palavras-chave: Inteligência computacional. Redes Neurais. Redução de dimensionalidade. Oryza sativa. Marcadores Moleculares.
CM-generator: uma metodologia para geração de matrizes de correlação customizadas
(Universidade Federal de Viçosa, 2020-10-21) Martins, Helgem de Souza Ribeiro; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/5426301294483982
A simulação de matrizes de correlações aleatórias é um procedimento im- portante em diversas áreas de pesquisa. Este estudo propõe um método denominado Custom Matrix generator (CM-generator) para gerar matrizes de correlação que sempre atendem às premissas matemáticas, e um algo- ritmo com base na metodologia desenvolvida. A técnica proposta é capaz de gerar matrizes de correlação personalizadas, tanto em termos de in- tensidade das correlações quanto em relação à distribuição de proporções entre níveis de intensidade de correlação, para diversas aplicações, que po- dem ser usadas em vários estudos. O método produz resultados eﬁcientes quanto ao tempo computacional e minimiza erros no processo de geração de matrizes de correlação personalizadas. Palavras-chave: Matrizes de correlação aleatórias. Simulação. Matrizes de correlação personalizadas. Gencor.
Computational intelligence and statistical learning applied to Coffea canephora
(Universidade Federal de Viçosa, 2022-05-02) Sousa, Ithalo Coelho de; Nascimento, Moysés; http://lattes.cnpq.br/1025209026546066
Genomic prediction in Coffee breeding has shown good potential in predictive ability (PA), genetic gains and reduction of the selection cycle time. Many methodologies are used to predict the genetic merit, but some of them require priori assumptions that may increase the complexity of the model. Artificial neural network (ANN) has advantage to not require priori assumptions about the relationships between inputs and the output allowing great flexibility to handle different types of complex non-additive effects, such as dominance and epistasis. Despite this advantage, the biological interpretability of ANNs is still limited. In the elaboration of this research project, two basic questions were formulated. The first question, is it possible to estimate genetic parameters using ANNs? The second, is it possible to reduce the panel marker size with no penalty in predictive ability? For this, the analyzes were divided into two articles. In the first article, the aim was to estimate the heritability and markers effects for two traits in Coffea canephora using an additive-dominance architecture ANN and to compare it with genomic best linear unbiased prediction (GBLUP). In the second article, the aim was to evaluate the trade-off between density marker panels size and the PA for eight agronomic traits in Coffea canephora using machine learning (bagging and random forest) algorithms and comparing them with BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) method. For both article, the data set consisted of 165 genotypes of Coffea canephora genotyped for 14,387 snp markers, after quality control analysis. For the first article the phenotypic data used was rust (Rus) and yield (Y). For the second article the phenotypic data is composed by vegetative vigor (Vig), rust (Rus) and cercosporiose incidence (Cer), fruit maturation time (Mat), fruit size (FS), plant height (PH), diameter of the canopy projection (DC) and yield (Y). In the first article we reduced the dimensionality of the data using bagging decision tree and then run 64,000 neural networks for each trait selecting the best architecture based on predictive ability for estimating the heritability, obtained results compatibles with those in literature. In the second article, 12 different density market panels were used to evaluate the effect of dimensionality reduction in PA. The common trend observed in the analysis shows an increase of the PA as the number of markers decreases, having a peak in most of the cases when used between 500 and 1,000 markers. In general, the worst results were obtained when used the full SNP panel density. The results of the second article indicate that the reduction of the number of markers can improve the selection of individuals at a lower cost. Computational Intelligence methods prove to be powerful tools for predicting genetic values, to estimate genetic parameters and to select markers. Keywords: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability.
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
(Universidade Federal de Viçosa, 2021-04-20) Barbosa, Josino José; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/1948800098593563
Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.
Desempenho de genótipos de alfafa considerando modelos com diferentes estruturas da matriz de covariâncias e na análise multi-informação
(Universidade Federal de Viçosa, 2020-06-15) Pontes, Daiana Salles; Cruz, Cosme Damião; http://lattes.cnpq.br/6638973949782292
A alfafa (Medicago sativa L.) é uma das principais leguminosas forrageiras nos países temperados. Mundialmente, é considerada uma das mais importantes forrageiras, dado o seu potencial de produção de forragem e da sua adaptação a diversas condições ambientais. Neste estudo, os objetivos foram 1) quantificar a variabilidade genética e identificar genótipos superiores por meio da modelagem de diferentes estruturas para a matriz de erros e 2) propor a utilização de uma ficha de recomendação por meio da avaliação multi-informação de estabilidade e adaptabilidade. Foram utilizadas informações de 77 genótipos de alfafa, envolvendo um período de cultivo com 24 cortes (meses) consecutivos no período de 2015 a 2017. O delineamento utilizado em cada experimento foi o de blocos casualizados, com três repetições. O caráter avaliado foi produção de matéria seca (PMS) (kg.ha-1). Foram ajustados modelos considerando as matrizes: simetria composta, simetria composta heterogênea, auto- regressiva de 1ª ordem, auto-regressiva de 1ª ordem heterogênea, componente de variância e não estruturada. Para escolher a melhor matriz, utilizou o critério de AIC. Para comparar as produções médias dentro de cada corte utilizou-se o teste de Scott-Knott, a 5% de probabilidade. A persistência (S%) da PMS de genótipo foi estimada indiretamente pela proporção de cortes que este foi superior no teste de Scott-Knott. Na avaliação multi-informação considerou-se: a média geral, o potencial médio em diferentes condições ambientais (PM), a plasticidade, a medida da contribuição relativa para a interação, o índice de recomendação Annicchiarico, a adaptabilidade percentual, a estabilidade percentual, o padrão J de resposta do genótipo (PJR), o padrão campeão e o índice de recomendação centroide. A partir do modelo covariância simetria composta heterogênea (de menor AIC) foram indicados os genótipos 4, 21, 57, 61, 67 e 72 como os de maior persistência (S%) da PMS. Além disso, destaca-se que a análise de medidas repetidas considerando diferentes estruturas para a matriz de erros deve se preferida neste tipo de experimento, por considerar a natureza de dependência dos resíduos e por ter apresentado menor AIC do que os modelos de parcela subdividida no tempo. Na ficha de recomendação observou-se que o genótipo 21 se destacou para os parâmetros PM para ambiente geral e favorável. Já para PM no ambiente desfavorável o genótipo 61 ficou em primeira posição. Apesar disso, o genótipo 61 apresentou desvio da regressão estatisticamente diferente a zero, indicando que seu grau de imprevisibilidade deve comprometer a indicação dessa cultivar (𝑅 2 abaixo de 80%). A ficha de recomendação por meio da análise multi-informação proposta neste trabalho possibilita o melhorista a tomada de decisão na seleção de genótipos superiores de alfafa. A análise multi-informação possibilitou identificar o genótipo 21 como o mais promissor por apresentar superioridade relativa de PMS, de comportamento previsível e responsivo às variações ambientais, em diferentes cortes. Palavras-chave: Alfafa. Melhoramento. Medidas Repetidas. Estabilidade. Adaptabilidade.
Desempenhos de diferentes propostas de planejamentos de gráficos de controle multivariados
(Universidade Federal de Viçosa, 2017-07-17) Lara, Rodrigo Luiz Pereira; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6285325810018078
O desenvolvimento tecnológico iniciado no século passado, juntamente com o aumento da competição do mercado e a exigência dos consumidores no século atual acarretam o interesse em Gráficos de Controle Multivariados (GCMs). Nos trabalhos até então divulgados sobre GCMs, é comum o enfoque na comparação de desempenho entre eles, entretanto, essas comparações revelam-se restritas e direcionadas ao GCM recém proposto no trabalho em questão. O presente trabalho estudou, teoricamente, as estatísticas e aplicou, computacionalmente, os gráficos de controle multivariados T 2 de Hotelling, Multivariate Exponentially Weighted Moving Average (MEWMA), Multivariate Cumulative Sum (MCUSUM), Linear Multivariate Exponentially Weighted Moving Average (Lin- MEWMA) e Exponentially Likelihood Ratio (ELR) para o monitoramento do vetor de médias de todas as características importantes para a caracterização multivariada de processos. Para um processo sob controle estatístico, foram simulados dados de uma variável resposta p-variada e, para processos fora de controle estatístico, foram estabelecidas combinações de descontrole para o vetor de médias. Para tanto, foram realizadas 20.000 simulações por subgrupo racional e ajustes a distribuições de probabilidades multivariadas. O T2 de Hotelling foi o mais ineficaz dos GCMs ao passo que o Lin-MEWMA destacou-se pela sua baixa probabilidade do alarme falso. O ELR e MCUSUM mostraram desempenho melhores em relação aos GCMs anteriores, porém com dificuldade em detecção de pequenas mudanças no vetor de médias. Utilizando-se recomendações pouco citadas na literatura (λ = 0,03 e 0,04) o MEWMA mostrou-se o melhor dos GCMs estudados de modo a não interferir um processo sob controle, mas interromper a produção quando seus produtos estiverem sendo produzido fora do vetor de médias considerado sob controle.
Determinação do tamanho de amostra para a geoestatística
(Universidade Federal de Viçosa, 2020-02-21) Mendes, André; Santos, Gerson Rodrigues dos; http://lattes.cnpq.br/6645099142656304
A estimativa do tamanho da amostra na geoestatística é de grande importância para o planejamento e tomada de decisão, especialmente quando se objetiva a reconstrução total da população estudada. Por este motivo, muitos trabalhos sobre o tamanho da amostra geoestatística surgem com este propósito. Assim, o objetivo geral deste trabalho é utilizar a geoestatística associada ao teorema da taxa Nyquist para determinar um tamanho de amostra ideal quando se utiliza uma grade regular quadrática, na qual o modelo de dependência espacial ajustado é o gaussiano, identificando especificamente mudanças no tamanho ideal da amostra na presença de outliers. Dois conjuntos de dados altimétricos (Viçosa-MG, Brasil e Treynor-Iowa, EUA) foram analisados e o tamanho amostral ideal para ambos os conjuntos foi obtido. Posteriormente, os outliers foram removidos do conjunto de dados norte- americano e comparados os tamanhos de amostra ideais obtidos anteriormente. Além disso, utilizando os softwares R e ArcGIS, as estimativas dos parâmetros do modelo gaussiano, da média e da variância dos resíduos, provenientes da validação cruzada, foram comparadas através da construção de intervalos de confiança. Com o presente estudo concluiu-se que: (i) a distância máxima entre os pontos da grade regular quadrática é de aproximadamente 30% do alcance prático observado no semivariograma da primeira amostragem experimental; (ii) o tamanho amostral ideal obtido na presença de outliers é praticamente o dobro do tamanho de amostra ideal na ausência de outliers; (iii) o software R é o mais adequado na comparação das estimativas da média e da variância dos resíduos pois apresentou uma menor variabilidade (menores amplitudes dos intervalos de confiança construídos). Palavras-chave: Tamanho de amostra. Taxa Nyquist. Geoestatística. Outliers.
Ensaios sobre cópulas: aplicação ao agronegócio e seleção de modelos via AIC e BIC
(Universidade Federal de Viçosa, 2022-06-03) Lacerda, Mauricio Silva; Emiliano, Paulo César; http://lattes.cnpq.br/7403859031624608
A compreensão acerca da dependência entre duas ou mais séries históricas é de grande importância para pesquisadores, produtores rurais, investidores e demais en- volvidos nas séries de forma direta e indireta. Os modelos que vem ganhando desta- que na mensuração da forma e da estrutura dessa dependência tem sido os diversos modelos de cópulas presentes na literatura, em especial as cópulas: gaussiana, t de Student, Clayton, Frank, Gumbel e Joe. Esta tese é composta por dois trabalhos, um envolvendo aplicações de modelos de cópulas em conjunto de dados reais e o ou- tro metodológico. No primeiro analisou-se os impactos causados pela expansão da cana-de-açúcar no preço da soja e boi gordo para os estados de São Paulo, Goiás e Mato Grosso do Sul. O objetivo deste artigo foi analisar a associação dos movi- mentos conjuntos dos retornos dos preços regionais da cana-de-açúcar e das culturas concorrentes no uso da terra, verificando se a implantação da cana-de-açúcar vem gerando impacto nos preços dos alimentos cultivados nessa região. No segundo ar- tigo analisou-se a precisão dos métodos de seleção de cópulas (AIC e BIC) por meio de simulações. O objetivo deste segundo trabalho foi verificar os possíveis erros que se incorre ao escolher um modelo de cópulas para um conjunto de dados reais, so- bretudo para amostras pequenas, com menos de 200 observações, por exemplo. Os resultados encontrados no primeiro trabalho detectou-se dependência fraca entre as séries históricas das commodities analisadas, com destaque para a maior dependência encontrada, sendo 0,13 para o par Cana x Boi para o Estado de Goiás, indicando que a expansão da cana-de-açúcar para esses estados gerou baixo impacto nos preços das demais culturas tradicionais na região. Para o segundo artigo verificou-se taxas de acerto elevadas, acima de 90%, ainda para amostras pequenas (n < 150), quando as séries possuem medidas de dependência maiores (T = 0,5 e 0,75). Ao passo que, para a medida de dependência menor (7 = 0,25) foram necessários tamanhos amos- trais maiores (n > 200), em alguns casos (n > 400), para se obter altas taxas de acertos, acima de 90%, por exemplo. Palavras-chave: Setor sucroalcooleiro. Seleção de modelos. Tamanho amostral.
Estimação da sensibilidade e especificidade de testes diagnósticos para a brucelose bovina na ausência de padrão ouro considerando dependência condicional via inferência bayesiana
(Universidade Federal de Viçosa, 2018-03-22) Nascimento, Micherlania da Silva; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/2173284356808544
A brucelose bovina, causada pela bactéria Brucella Abortus, é uma doença presente em to- das as regiões do Brasil e provoca elevados prejuízos econômicos. O Programa Nacional de Controle e Erradicação de Brucelose e Tuberculose Animal (PNCEBT) estabeleceu os testes AAT, 2-ME, FC e DBac para realizar o diagnóstico da brucelose bovina. Na ausência de um teste Padrão Ouro, é necessário que o desempenho desses testes diagnósticos seja validado. O presente estudo, teve como objetivo empregar o modelo de classe latente Bayesiano para es- timar as sensibilidades e as especificidades dos testes diagnósticos AAT, 2-ME, FC e DBac, aplicados em amostras de sangue e carcaças de animais suspeitos de brucelose bovina, bem como a prevalência da doença. O conjunto de dados utilizado foi obtido junto ao Laboratório Nacional Agropecuário de Minas Gerais (LANAGRO-MG). Os testes foram avaliados em dois cenários: individualmente e combinados. Os modelos para a avaliação dos testes combinados foram ajustados considerando-se a independência condicional entre os quatro testes e também incorporando-se ao modelo a dependência condicional entre os testes AAT, 2-ME e FC. As aná- lises foram realizadas em R 3.2.5 usando o pacote R2OpenBUGS. Quanto à avaliação dos testes combinados, os resultados mostraram que os testes AAT, 2-ME e FC são condicionalmente in- dependentes. O teste FC foi o mais sensível, o DBac o menos sensível e os testes AAT, FC e DBac foram os mais específicos. Concluiu-se que nenhum dos quatro testes pode ser utilizado sozinho para o diagnóstico da brucelose bovina. Uma baixa sensibilidade foi encontrada para o teste AAT, resultado que diverge dos relatos geralmente encontrados na literatura. Portanto, recomenda-se que contínuos estudos sejam realizados para que a tomada de decisão dos pesqui- sadores não seja comprometida. Adicionalmente, concluiu-se que o modelo de classe latente bayesiano permitiu estimar os parâmetros de interesse satisfatoriamente.
Estruturas de covariâncias no ajuste de curvas de crescimento de bovinos da raça Guzerá
(Universidade Federal de Viçosa, 2018-02-28) Toledo, Elisabeth Regina de; Carneiro, Antônio Policarpo Souza; http://lattes.cnpq.br/4140331899080954
Este trabalho teve como objetivo avaliar a qualidade de ajuste do modelo Von Bertalanffy, para curvas de crescimento, com diferentes funções de variâncias e matrizes de covariâncias residuais nas regiões do Nordeste brasileiro: Gado-Algodão, Mata, Agreste, Sertão, Serra Geral da Bahia e Itapetinga-Valadares e depois incorporar ao modelo ajustado diferentes estruturas da matriz de covariâncias para os efeitos aleatórios, peso assintótico e taxa de maturidade. A comparação dos modelos foi através dos avaliadores de qualidade de ajuste: critérios de informação de Akaike, Akaike corrigido e Bayesiano, desvio médio absoluto, erro quadrático médio, coeficientes de determinação simples e ajustado. A estrutura da matriz de covariâncias residuais com variâncias homogêneas e erros autorregressivos de primeira ordem, AR(1) foi a mais adequada. Pela análise dos intervalos de confiança dos parâmetros de curvas de crescimento de cada região de produção identificou-se que machos das regiões Sertão e Serra Geral da Bahia possuem peso assintótico comum e taxa de maturidade comum nas regiões Serra Geral da Bahia, Itapetinga-Valadares e Sertão. Para fêmeas, as regiões de produção Gado-Algodão e Mata- Agreste apresentam menor peso assintótico; Serra Geral da Bahia, Sertão e Itapetinga- Valadares o maior peso. A menor taxa de maturidade é comum para fêmeas das regiões Mata-Agreste, Sertão e Serra Geral da Bahia enquanto as maiores taxas são para as regiões Itapetinga-Valadares e Gado-Algodão. Ao incorporar ao modelo diferentes estruturas da matriz de covariâncias para os efeitos aleatórios, a estrutura de covariâncias positiva definida geral ajustou-se melhor aos dados. Através da análise dos intervalos de confiança dos parâmetros de curvas de crescimento de cada região verificou-se que machos das regiões Mata-Agreste e Gado-Algodão possuem peso assintótico comum e taxa de maturidade comum para os animais das as regiões Itapetinga-Valadares e Sertão. As fêmeas apresentam pesos assintóticos diferentes em todas as regiões e taxa de maturidade comum nas regiões de produção Itapetinga-Valadares e Serra Geral da Bahia.
Estudos sobre a influência de afirmações populares na Geoestatística Clássica
(Universidade Federal de Viçosa, 2017-02-15) Rosa, Lidiane Maria Ferraz; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/7463240800478263
O presente trabalho teve por objetivo estudar assuntos abordados na Geoestatística de modo a preencher lacunas metodológicas que surgem naturalmente em áreas recentes da ciência e/ou que surgem de afirmações populares. Para isso, foi necessário realizar estudos teórico-práticos afim de se obter mais evidências e comprovações. Foram utilizados em todos os estudos conjuntos de dados reais. No primeiro capítulo foi feito um estudo quanto à precisão entre malhas amostrais regulares (malha hexagonal, malha quadrangular e malha triangular). No segundo capítulo foi realizado um estudo sobre a questão do uso do teste de Normalidade em uma análise geoestatística. Nesse estudo foi mostrada toda fundamentação teórica do principal teste de normalidade, teste de Shapiro-Wilk, e estudos práticos para essa comprovação. No terceiro capítulo realizou- se um estudo sobre a assimetria e o comprometimento de uma análise geoestatística para dados com essa característica. Finalmente, no quarto capítulo foram comparados três interpoladores geoestatísticos (krigagem simples, krigagem universal e krigagem regressão) quanto à eficácia na representação de modelos digitais de profundidade (MDP).
Genomic prediction models with additive and dominance effects for censored traits
(Universidade Federal de Viçosa, 2017-03-31) Santos, Vinicius Silva dos; Martins Filho, Sebastião; http://lattes.cnpq.br/5809878805245760
Recently, dominance effects have been included in the genomic selection of several species, with the GBLUP-D method being the most used. This method consists in replacing, in the REML / BLUP procedure, the pedigree-based relationship matrices by marker-based relationship matrices. This method can be performed using the GVCBLUP software or through BGLR R-package, which is based on Bayesian regression via the Reproduction Kernel Hilbert Space. The objective of this work was to evaluate the possibility and effectiveness of GBLUP-D implementation via the lmekin function implemented in the coxme package of R through the inclusion of additive and dominance genomic matrices. Thus, through simulated data analyzes, the results obtained by the lmekin function were compared with those obtained by the GVCBLUP software and the BGLR package. Subsequently, the analysis was extended considering phenotypes with censored observations in a F 2 population of pigs, where the time (in days) of the birth to the slaughter of the animal was evaluated through the Cox model and the truncated normal model, in that the censoring was considered or not in the analysis. Finally, the inclusion of the polygenic effect in the additive-dominant models was evaluated in three traits with complete and normally distributed observations of a mice population, and in censored data from a F 2 population of pigs. The results showed that the lmekin function is an efficient alternative for the fit of genomic linear models with additive and dominance effects, since it results were identical to those obtained through GVBLUP software. For the censored data, it was observed a high agreement between the Cox model and the truncated normal model in selecting the best individuals and the highest marker effects. Thus, it was possible to show the possibility of predicting genomic genetic values for censored data, considering the Cox survival model with additive and dominance effects. The inclusion of the polygenic effect in the evaluated models allowed a significative increase in the additive heritabilities of the evaluated traits.
Genômica e modelos não-lineares mistos no ajuste de curvas de lactação de bovinos da raça Girolando
(Universidade Federal de Viçosa, 2018-10-05) Teixeira, Filipe Ribeiro Formiga; Nascimento, Moysés; http://lattes.cnpq.br/4574646837472160
Pesquisas que visam a construção de curvas de lactação de diferentes raças de gado de leite têm sido realizadas com frequência nos últimos anos. Esses trabalhos usualmente têm como objetivo identificar o comportamento da produtividade leiteira do rebanho, a identificação de indivíduos superiores segundo suas características de lactação ou estudar as associações fenotípicas/genéticas entre diferentes variáveis de lactação. O presente trabalho teve como objetivo propor a utilização da Seleção Genômica Ampla para estimar os valores genéticos genômicos das características de lactação e construir as curvas de lactação genômicas de bovinos da raça Girolando (responsável por 80% da produção do leite brasileiro) baseadas em informações estimadas pelo ajuste de modelos não-lineares mistos. Objetivou-se também a identificar o melhor modelo para o ajuste de curvas de lactação dessa raça, sendo escolhido dentre nove propostos na literatura. Os dados foram fornecidos pela Embrapa Gado de Leite (Juíz de Fora-MG), referentes a 1.822 registros de controle leiteiro correspondente a 226 bovinos Girolando, juntamente com a informação de 37.673 marcadores SNPs associados aos animais em estudo. Comparando nove modelos não-lineares (Brody, Cappio-Borlino, Cobby & Le Du, Dhanoa, Nelder, Papajscik e Bodero, Rook, Sikka e Wood) com a abordagem de modelos mistos, constatou-se que a melhor equação segundo os critérios de AIC e BIC, com valores de 10.013,79 e 10.101,92, respectivamente, foi a de Wood. Através das características de lactação estimadas pelo modelo de Wood foi possível identificar um grupo seleto de 8 animais com maior produtividade (média de 10.584 Kg/lactação). A estimação dos valores genéticos genômicos (Estimated Genomic Breeding Values – EGBV) das características genômicas (produção inicial – a, taxa de ascensão – b, taxa de declínio – c, produção total, pico de lactação, persistência e tempo até o pico) através do BLASSO (Bayesian LASSO) permitiram o conhecimento genético dessas características. As herdabilidades das mesmas variaram de 0,09 para a taxa de declínio até 0,29 para a persistência. As correlações entre seus valores genéticos genômicos apresentaram resultados de -0,90 (entre a taxa de declínio e a persistência) a 0,98 (entre o pico de lactação e a produção total). Os coeficientes de Kappa para concordância entre os indivíduos selecionados de acordo com diferentes variáveis variou de 0 a 0,95. As análises realizadas permitiram o conhecimento do melhor entre os modelos não-lineares para ajuste das curvas de lactação de bovinos da raça Girolando. Com a construção das curvas genômicas foi possível identificar diferenças genéticas entre os indivíduos, estas livres dos efeitos ambientais. A abordagem proposta foi capaz de produzir resultados relevantes e pode ser aplicada para outras raças e situações diferentes.
Geoestatística e aerofotogrametria aplicadas à seleção de famílias de cana-de-açúcar
(Universidade Federal de Viçosa, 2020-10-19) Ferreira, Matheus de Paula; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/2090569770204041
Um dos desafios para os programas de melhoramento de cana-de-açúcar é a seleção inicial de genótipos. A fertilidade do solo pode influenciar no desenvolvimento das plantas e tem potencial de afetar essa seleção, porém a análise de parâmetros de fertilidade demanda mais tempo, mão de obra e gera custos adicionais. Uma possível alternativa a isto é a utilização de imagens de campo para explicar as informações do solo. Assim, o objetivo deste trabalho foi incorporar as informações dos atributos do solo, via Geoestatística e/ou Aerofotogrametria, e corrigir o ranqueamento das famílias de cana-de-açúcar com a incorporação de covariáveis no modelo de delineamento experimental, e verificar a viabilidade da utilização de imagens RGB como alternativa à análise do solo. Neste trabalho foram utilizados dados provenientes de um experimento com 60 famílias no delineamento em blocos casualizados, com quatro repetições, tendo como variável resposta a média de toneladas de colmos por hectare (TCH). Além disso, na área do experimento foram coletadas 36 amostras de solo e dois imageamentos realizados por VANT (veículo aéreo não tripulado). Os dados da análise de fertilidade foram modelados via Geoestatística e incorporados ao modelo de delineamento mediante análise de covariância. As variáveis incorporadas ao modelo foram o índice de saturação por alumínio, magnésio, fósforo, pH e a soma de bases. A inclusão dessas variáveis influenciou no ranqueamento das famílias demonstrando a sua importância na seleção durante as fases iniciais do melhoramento genético, além de possibilitar a criação de um mapa de correção do modelo para as parcelas do experimento. A partir das imagens RBG foram calculados índices e obtidos os mapas de valor médio, amplitude e desvio-padrão das unidades experimentais, porém quando comparados ao mapa de correção de médias do modelo proposto não foi observado grau de concordância satisfatório, indicando assim que imagens RGB não foram capazes de substituir os dados coletados do solo. Com a utilização dos mapas de krigagem dos atributos do solo foi possível verificar a não homogeneidade dos blocos do experimento. Dessa forma, é recomendado fazer uma investigação da qualidade do solo via análises de fertilidade e Geoestatística, para então corrigir o solo e definir os blocos experimentais corretamente, evitando assim o efeito das variáveis no ranqueamento das famílias. Caso não seja realiza esta análise anteriormente a implantação do experimento, após a colheita da cana-de-açúcar deve-se utilizar as análises de fertilidade e Geoestatística para incluir o efeito do solo no modelo empregado para ranquear as famílias. Palavras-chave: Imageamento RGB. Variabilidade Espacial. Fertilidade Do Solo. Ranqueamento De Famílias. Saccharum Spp.
Inferência via Bootstrap na Conjoint Analysis
(Universidade Federal de Viçosa, 2017-12-14) Barbosa, Eduardo Campana; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/9324723287486113
A presente tese teve como objetivo introduzir o método de reamostragem com reposição ou Bootstrap na Conjoint Analysis. Apresenta-se no texto uma revisão conceitual (Revisão de Literatura) sobre a referida metodologia (Conjoint Analysis) e também sobre o método proposto (Bootstrap). Adicionalmente, no Capítulo I e II, define-se a parte teórica e metodológica da Conjoint Analysis e do método Bootstrap, ilustrando o funcionamento conjunto dessas abordagens via aplicação real, com dados da área de tecnologia de alimentos. Inferências adicionais que até então não eram fornecidas no contexto clássico ou frequentista podem agora ser obtidas via análise das distribuições empíricas dos estimadores das Importâncias Relativas (abordagem por notas) e das Probabilidades e Razão de Escolhas (abordagem por escolhas). De forma geral, os resultados demonstraram que o método Bootstrap forneceu estimativas pontuais mais precisas e tornou ambas as abordagens da Conjoint Analysis mais informativas, uma vez que medidas de erro padrão e, principalmente, intervalos de confiança puderam ser facilmente obtidos para certas quantidades de interesse, possibilitando a realização de testes ou comparações estatísticas sobre as mesmas.
Medidas alternativas para comparação de modelos e aplicação de métodos de aprendizado de máquina e de redução de dimensionalidade para seleção genômica com dados censurados
(Universidade Federal de Viçosa, 2020-05-11) Pereira, Geraldo Magela da Cruz; Martins Filho, Sebastião; http://lattes.cnpq.br/3918050985377865
Dados censurados são encontrados em diversas características de interesse no melhoramento animal, como por exemplo, tempo ao abate em suínos, idade ao primeiro parto em bovinos, resistência à doença em peixes. A modelagem destas características é comumente realizada via modelos lineares, que podem ou não considerar a natureza censurada dos dados. Os modelos G-BLUP, RR-BLUP e ssGBLUP são exemplos de modelos que não consideram a presença de observações incompletas nos dados. A classe de modelos bayesianos BGLR (Bayesian Generalized Linear Regression), possibilita a modelagem de fenótipos censurados. Recentemente tem surgido o interesse na utilização de modelos de sobrevivência para a análise de dados genômicos com observações censuradas. Neste contexto, estudos que avaliem a utilização de medidas mais adequadas para o cálculo da acurácia e do viés, bem como a utilização de métodos de aprendizado de máquina de sobrevivência, não foram encontrados na literatura consultada. O objetivo geral deste estudo foi contribuir para a discussão acerca das metodologias mais indicadas para a comparação de modelos, e para a realização de predições em estudos de seleção genômica com dados censurados simulados e reais de juvenis de dourada (Sparus aurata). As metodologias propostas foram comparadas com as metodologias tradicionalmente utilizadas em genômica. Para os dados simulados, foram comparadas as medidas de correlação: de Pearson (CP), maximal (CM) e de Pearson para dados censurados (CPC); e de viés: regressão linear simples e regressão Tobit. A predição de valores genéticos genômicos foi realizada pelos modelos misto de Cox e normal truncado, considerando diferentes cenários. Os resultados mostraram, que principalmente no cenário com herdabilidade de QTL igual à 0,27, as medidas CM e/ou CPC, mostraram-se estatisticamente superiores à CP. O coeficiente de regressão associado aos efeitos marginais para dados censurados e não censurados apresentou valores semelhantes aos obtidos pela regressão linear. Do ponto de vista estatístico, as metodologias propostas são mais adequadas para a análise de dados censurados, visto que em sua formulação, elas consideram a presença de fenótipos não observados. Para os dados reais, foi considerada a utilização dos métodos Random Survival Forest (RSF) e Gradient Boosting Machine e Análise de Componentes Principais Supervisionados em seleção genômica, sendo estes comparados ao método Regressão Ridge Bayesiana (BRR). Os modelos foram comparados via validação cruzada 7-fold, pelas medidas Area Under the Curve, Brier Score, correlação de Spearman, e pela proporção de indivíduos selecionados, e também pela localização de SNPs ou grupos de ligação relevantes. Os resultados mostraram que, os modelos RSF e BRR, apresentaram valores estatisticamente iguais de habilidade preditiva. O rank dos Top-40 SNPs obtido pela RSF apresentou maior interseção com os ranks obtidos pelos métodos BRR e modelo misto de Cox. A maior correlação de Spearman entre os GEBVs estimados via BRR e as probabilidades de sobrevivência, foi obtida pela RSF. A utilização de subconjuntos de SNPs selecionados pelos métodos propostos, não resultou em diferenças significativas na habilidade preditiva do modelo misto de Cox. Por fim, nota-se que o método RSF, apresenta um desempenho semelhante ao da BRR, sendo possível sua aplicação em estudos genômicos. Palavras-chave: Seleção genômica ampla. Valores genéticos genômicos. Dados censurados. Modelo misto de Cox. Aprendizado de máquina.