Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
17 resultados
Resultados da Pesquisa
Item Estruturas de covariâncias no ajuste de curvas de crescimento de bovinos da raça Guzerá(Universidade Federal de Viçosa, 2018-02-28) Toledo, Elisabeth Regina de; Carneiro, Antônio Policarpo Souza; http://lattes.cnpq.br/4140331899080954Este trabalho teve como objetivo avaliar a qualidade de ajuste do modelo Von Bertalanffy, para curvas de crescimento, com diferentes funções de variâncias e matrizes de covariâncias residuais nas regiões do Nordeste brasileiro: Gado-Algodão, Mata, Agreste, Sertão, Serra Geral da Bahia e Itapetinga-Valadares e depois incorporar ao modelo ajustado diferentes estruturas da matriz de covariâncias para os efeitos aleatórios, peso assintótico e taxa de maturidade. A comparação dos modelos foi através dos avaliadores de qualidade de ajuste: critérios de informação de Akaike, Akaike corrigido e Bayesiano, desvio médio absoluto, erro quadrático médio, coeficientes de determinação simples e ajustado. A estrutura da matriz de covariâncias residuais com variâncias homogêneas e erros autorregressivos de primeira ordem, AR(1) foi a mais adequada. Pela análise dos intervalos de confiança dos parâmetros de curvas de crescimento de cada região de produção identificou-se que machos das regiões Sertão e Serra Geral da Bahia possuem peso assintótico comum e taxa de maturidade comum nas regiões Serra Geral da Bahia, Itapetinga-Valadares e Sertão. Para fêmeas, as regiões de produção Gado-Algodão e Mata- Agreste apresentam menor peso assintótico; Serra Geral da Bahia, Sertão e Itapetinga- Valadares o maior peso. A menor taxa de maturidade é comum para fêmeas das regiões Mata-Agreste, Sertão e Serra Geral da Bahia enquanto as maiores taxas são para as regiões Itapetinga-Valadares e Gado-Algodão. Ao incorporar ao modelo diferentes estruturas da matriz de covariâncias para os efeitos aleatórios, a estrutura de covariâncias positiva definida geral ajustou-se melhor aos dados. Através da análise dos intervalos de confiança dos parâmetros de curvas de crescimento de cada região verificou-se que machos das regiões Mata-Agreste e Gado-Algodão possuem peso assintótico comum e taxa de maturidade comum para os animais das as regiões Itapetinga-Valadares e Sertão. As fêmeas apresentam pesos assintóticos diferentes em todas as regiões e taxa de maturidade comum nas regiões de produção Itapetinga-Valadares e Serra Geral da Bahia.Item Genômica e modelos não-lineares mistos no ajuste de curvas de lactação de bovinos da raça Girolando(Universidade Federal de Viçosa, 2018-10-05) Teixeira, Filipe Ribeiro Formiga; Nascimento, Moysés; http://lattes.cnpq.br/4574646837472160Pesquisas que visam a construção de curvas de lactação de diferentes raças de gado de leite têm sido realizadas com frequência nos últimos anos. Esses trabalhos usualmente têm como objetivo identificar o comportamento da produtividade leiteira do rebanho, a identificação de indivíduos superiores segundo suas características de lactação ou estudar as associações fenotípicas/genéticas entre diferentes variáveis de lactação. O presente trabalho teve como objetivo propor a utilização da Seleção Genômica Ampla para estimar os valores genéticos genômicos das características de lactação e construir as curvas de lactação genômicas de bovinos da raça Girolando (responsável por 80% da produção do leite brasileiro) baseadas em informações estimadas pelo ajuste de modelos não-lineares mistos. Objetivou-se também a identificar o melhor modelo para o ajuste de curvas de lactação dessa raça, sendo escolhido dentre nove propostos na literatura. Os dados foram fornecidos pela Embrapa Gado de Leite (Juíz de Fora-MG), referentes a 1.822 registros de controle leiteiro correspondente a 226 bovinos Girolando, juntamente com a informação de 37.673 marcadores SNPs associados aos animais em estudo. Comparando nove modelos não-lineares (Brody, Cappio-Borlino, Cobby & Le Du, Dhanoa, Nelder, Papajscik e Bodero, Rook, Sikka e Wood) com a abordagem de modelos mistos, constatou-se que a melhor equação segundo os critérios de AIC e BIC, com valores de 10.013,79 e 10.101,92, respectivamente, foi a de Wood. Através das características de lactação estimadas pelo modelo de Wood foi possível identificar um grupo seleto de 8 animais com maior produtividade (média de 10.584 Kg/lactação). A estimação dos valores genéticos genômicos (Estimated Genomic Breeding Values – EGBV) das características genômicas (produção inicial – a, taxa de ascensão – b, taxa de declínio – c, produção total, pico de lactação, persistência e tempo até o pico) através do BLASSO (Bayesian LASSO) permitiram o conhecimento genético dessas características. As herdabilidades das mesmas variaram de 0,09 para a taxa de declínio até 0,29 para a persistência. As correlações entre seus valores genéticos genômicos apresentaram resultados de -0,90 (entre a taxa de declínio e a persistência) a 0,98 (entre o pico de lactação e a produção total). Os coeficientes de Kappa para concordância entre os indivíduos selecionados de acordo com diferentes variáveis variou de 0 a 0,95. As análises realizadas permitiram o conhecimento do melhor entre os modelos não-lineares para ajuste das curvas de lactação de bovinos da raça Girolando. Com a construção das curvas genômicas foi possível identificar diferenças genéticas entre os indivíduos, estas livres dos efeitos ambientais. A abordagem proposta foi capaz de produzir resultados relevantes e pode ser aplicada para outras raças e situações diferentes.Item Estimação da sensibilidade e especificidade de testes diagnósticos para a brucelose bovina na ausência de padrão ouro considerando dependência condicional via inferência bayesiana(Universidade Federal de Viçosa, 2018-03-22) Nascimento, Micherlania da Silva; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/2173284356808544A brucelose bovina, causada pela bactéria Brucella Abortus, é uma doença presente em to- das as regiões do Brasil e provoca elevados prejuízos econômicos. O Programa Nacional de Controle e Erradicação de Brucelose e Tuberculose Animal (PNCEBT) estabeleceu os testes AAT, 2-ME, FC e DBac para realizar o diagnóstico da brucelose bovina. Na ausência de um teste Padrão Ouro, é necessário que o desempenho desses testes diagnósticos seja validado. O presente estudo, teve como objetivo empregar o modelo de classe latente Bayesiano para es- timar as sensibilidades e as especificidades dos testes diagnósticos AAT, 2-ME, FC e DBac, aplicados em amostras de sangue e carcaças de animais suspeitos de brucelose bovina, bem como a prevalência da doença. O conjunto de dados utilizado foi obtido junto ao Laboratório Nacional Agropecuário de Minas Gerais (LANAGRO-MG). Os testes foram avaliados em dois cenários: individualmente e combinados. Os modelos para a avaliação dos testes combinados foram ajustados considerando-se a independência condicional entre os quatro testes e também incorporando-se ao modelo a dependência condicional entre os testes AAT, 2-ME e FC. As aná- lises foram realizadas em R 3.2.5 usando o pacote R2OpenBUGS. Quanto à avaliação dos testes combinados, os resultados mostraram que os testes AAT, 2-ME e FC são condicionalmente in- dependentes. O teste FC foi o mais sensível, o DBac o menos sensível e os testes AAT, FC e DBac foram os mais específicos. Concluiu-se que nenhum dos quatro testes pode ser utilizado sozinho para o diagnóstico da brucelose bovina. Uma baixa sensibilidade foi encontrada para o teste AAT, resultado que diverge dos relatos geralmente encontrados na literatura. Portanto, recomenda-se que contínuos estudos sejam realizados para que a tomada de decisão dos pesqui- sadores não seja comprometida. Adicionalmente, concluiu-se que o modelo de classe latente bayesiano permitiu estimar os parâmetros de interesse satisfatoriamente.Item Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina(Universidade Federal de Viçosa, 2018-02-26) Sousa, Ithalo Coelho de; Nascimento, Moysés; http://lattes.cnpq.br/1025209026546066A seleção genômica (SG) foi proposta como uma forma de aumentar a eficiência e acelerar o melhoramento genético. A SG enfatiza a predição simultânea dos efeitos genéticos de milhares de marcadores dispersos em todo o genoma de um organismo. Algumas metodologias estatísticas têm sido utilizadas em SG para a predição do mérito genético, como por exemplo a Ridge Regression Best Linear Unbiased Prediction (RR- BLUP), Bayesian Lasso (BLASSO). Porém tais metodologias exigem algumas pressuposições a respeito dos dados tais como normalidade da distribuição dos valores fenotípicos. Além disto, a presença de fatores complicadores tais como epistasia e dominância atrapalham a utilização destes modelos, uma vez que exigem que tais efeitos sejam estabelecidos à priori pelo pesquisador. Visando contornar a não normalidade dos valores fenotípicos a literatura sugere o uso dos modelos lineares generalizados sob o enfoque bayesiano (BGLR). Outra alternativa são os modelos baseados em aprendizagem de máquina (AM), representados por metodologias tais como Redes Neurais (RNA), Árvores de Decisão (AD) e seus possíveis refinamentos (Bagging, Random Forest e Boosting) as quais podem incorporar a epistasia e a dominância no modelo além de não exigirem pressuposições quanto ao modelo e a distribuição dos valores fenotípicos. Diante disso, o objetivo deste trabalho foi utilizar AD e seus refinamentos Bagging, Random Forest e Boosting para predição da resistência a ferrugem alaranjada no café arábica. Além disso, AD e seus refinamentos foram utilizadas para identificar a importância dos marcadores relacionados a característica de interesse. Os resultados foram comparados com aqueles provenientes do GBLASSO (Lasso Bayesiano Generalizado) e RNA. Foram utilizados dados da resistência a ferrugem do café de 245 plantas derivadas do cruzamento do Híbrido de Timor e do Catuaí Amarelo, genotipados para 137 marcadores. A AD e seus refinamentos obtiveram resultados satisfatórios, visto que apresentaram valores iguais ou inferiores de Taxa de Erro Aparente comparados com aqueles obtidos pelo GBLASSO e RNA. Ademais, os refinamentos da AD demonstraram ser capazes de identificar marcadores importantes para característica de interesse, visto que dentre os 10 marcadores mais importantes analisados em cada metodologia, 3-4 marcadores estavam próximos a QTL’s relacionados a resistência a doença listados na literatura. Por fim, a AD e seus refinamentos mostraram um melhor desempenho em relação ao GBLASSO e a RNA quanto ao custo computacional.Item Golias: software para análises estatística e biométrica de grande conjunto de dados utilizando as linguagens Júlia e R(Universidade Federal de Viçosa, 2018-02-21) Oliveira, Cristiano Ferreira de; Cruz, Cosme Damião; http://lattes.cnpq.br/0880202677543608A utilização de informações de marcadores moleculares para identificação de indivíduos geneticamente superiores para características de interesse é uma as principais contribuições da genética molecular no melhoramento genético. Assim, em programas de melhoramento genético, é crescente o uso de marcadores moleculares dispostos em matrizes de alta densidade, que necessitam de controle de qualidade e uso de metodologias adequadas para realizar a predição dos valores genéticos. Diante do exposto este trabalho tem como objetivo apresentar o software Golias, que é um software livre destinado ao processamento de dados de marcadores SNPs de alta dimensão. O Golias é integrado com os ambientes de programação R e Julia, utilizando o poder de processamento da linguagem Júlia e de pacotes do R otimizados em código C. Todas as análises são realizadas sem fazer necessário que o usuário tenha qualquer conhecimento em programação. O software proposto dispõe de procedimentos para o controle de qualidade de SNPs como call rate, MAF, teste de equilíbrio de Hardy-Weinberg, descarte de variáveis via componentes principais, um procedimento para imputação de informações genotípicas perdidas e algumas técnicas de predição utilizando métodos bayesianos. O Golias está disponível em português; pode ser baixado da Internet (https://www.dropbox.com/sh/ql92mzjed8735wq/AADfVadXY3oYM_3qe84Vb N-Ea?dl=0) e é compatível com sistema operacional Windows.Item Regressão quantílica sob enfoque bayesiano como alternativa no ajuste da eficiência técnica: uma aplicação para a agricultura familiar brasileira(Universidade Federal de Viçosa, 2018-02-23) neto, Raimundo Cardoso de Oliveira; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/4307953658134253O presente trabalho tem como objetivo propor o uso de Regressão Quantílica sob o enfoque bayesiano para ajustar a eficiência técnica de unidades produtivas. Para tanto, é fornecida uma breve revisão compreendendo os primeiros trabalhos relevantes para a definição de eficiência técnica, métodos tradicionais utilizados para ajustar esta medida, e as propostas de Regressão Quantílica encontradas na literatura. Foi realizado um estudo de simulação consistindo do ajuste da efici- ência por Análise Envoltória de Dados (DEA), Análise de Fronteira Estocástica (SFA) e Regressão Quantílica frequentista (RQ) e bayesiana (BRQ), em conjuntos de dados simulados. Os dados foram simulados por um modelo de SFA abran- gendo cenários com e sem quebra de suposições quanto a homogeneidade das unidades produtivas e diferentes suposições de dominância do erro por parte de fatores aleatórios. Verificou-se que a Regressão Quantílica bayesiana fornece bom ajuste da eficiência, com relação a viés e classificação das unidades produ- tivas, inclusive em cenários considerados ideais para SFA e DEA, mesmo sem ter usado informação a priori relevante. Além disso, a metodologia foi aplicada ao estudo da eficiência da agricultura familiar brasileira, a nível de microrregião. Observou-se que a eficiência técnica média das microrregiões com base no quan- til 0,95 é 41,09% com desvio padrão de 25,26%, tendo a região Nordeste a menor média de eficiência. Observou-se também, que nas microrregiões com melho- res práticas de produção a mão-de-obra é o insumo mais importante, seguido de máquinas e implementos agrícolas, e ainda, que a produção destas microrregiões não responde de forma significativa à mudanças na quantidade de área utilizada. Assim, concluiu-se que a regressão quantílica sob enfoque bayesiano caracteriza- se como uma alternativa interessante para ajustar a eficiência técnicaItem Um novo método para alocação de unidades em subamostras representativas baseado em covariáveis discretas(Universidade Federal de Viçosa, 2018-03-23) Farias, Rosielle da Costa; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/9960481120705734Em estudos experimentais, ensaios clínicos por exemplo, nos quais se deseja verificar a eficácia de alguma intervenção, é fundamental a presença de diferentes grupos que sofrerão ou não as intervenções para que futuras comparações possam ser realizadas. Para garantir que tais comparações sejam válidas, é necessário que os grupos apresentem características o mais semelhantes possíveis entre si e a amostra original. Este trabalho apresenta uma nova metodologia de divisão de uma amostra original em k subamostras representativas em relação à amostra original, com base em covariáveis que definem as características da amostra. Os resultados obtidos demonstram que a metodologia proposta apresenta resultados bastante satisfatórios, principalmente se comparados com a técnica tradicional de seleção de subamostras, o sorteio aleatório (amostragem aleatória simples). As subamostras delineadas pelo método apresentam altíssimo grau de similaridade com a amostra original, o que possibilitará estudos experimentais com viés de seleção bastante reduzido e resultados confiáveis.Item Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR(Universidade Federal de Viçosa, 2018-02-21) Ferreira, Roberta de Amorim; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6364173429092431Muitas áreas de pesquisa possuem conjuntos de dados com os desafios da alta dimensionalidade e multicolinearidade a serem superados, de modo que métodos específicos para ajuste do modelo devem ser empregados. Embora os métodos existentes sejam eficientes para construção do modelo, frequentemente se faz necessário selecionar as variáveis mais importantes em explicar o modelo, visto que essa prática pode aumentar sua capacidade preditiva, diminuir custos e tempo das análises. Esse trabalho teve como objetivo principal avaliar e construir modelos empregando três métodos de seleção de variáveis aplicados a dados de marcadores SNPs (Single Nucleotide Polymorphisms) e a dados de espectroscopia no infravermelho próximo (NIR), além de avaliar a melhoria na qualidade de predição, quando comparado ao uso dos dados completos. Os métodos avaliados foram o de seleção dos preditores ordenados associado a regressão por quadrados mínimos parciais (PLS-OPS), o Sparce partial least Square (SPLS) e o Lasso bayesiano (BLASSO) supervisionado, este último é uma adaptação do método BLASSO com a vantagem de selecionar as variáveis. Foram utlizados conjuntos de dados simulados compostos por 100 amostras e 500 marcadores SNPs avaliados em dois cenários que diferem entre si no vetor de coeficientes de regressão utilizado e quatro conjuntos de dados reais, sendo um de SNPs e três de dados NIR. Usou-se o software R para a modelagem dos dados. As amostras foram separadas em conjuntos de treinamento e de teste via algoritmo de Kennard e Stone. A qualidade preditiva do modelo foi avaliada com base no coeficiente médio de correlação (r) entre valores preditos e reais, e a raiz quadrada do erro quadrático médio (RMSE). No conjunto de dados simulados avaliado no primeiro cenário, havia 52 marcadores de maiores efeitos. Os modelos usando o BLASSO supervisionado, o SPLS e o PLS-OPS selecionaram, respectivamente, em média, 100, 310 e 124 variáveis. Em termos de capacidade preditiva os modelos após seleção foram semelhantes quando comparados ao uso dos dados completos. No segundo cenário, 10 marcadores de menor efeito foram escolhidos para serem significativos. Nesse cenário, para escolha do número de variáveis a serem selecionadas pelo BLASSO supervisionado utilizou-se dois critérios: no primeiro 20% das variáveis foram selecionadas, e no segundo o número de variáveis selecionadas eram iguais ao do SPLS e do PLS-OPS. Em média os modelos apresentaram um desempenho melhor utlizando a seleção de variáveis em relação aos modelos construídos com os dados completos, sendo o SPLS levemente superior, com r = 0,846 e intervalo de RMSE de menor amplitude. Para a predição da produção de grãos em dados de SNPs, o método BLASSO supervisionado foi superior, com menor valor de RMSE (0,56) e maior valor de r (0,569). O PLS-OPS também apresentou bom desempenho nesse conjunto de dados, atestando o uso deste método para dados dessa natureza. No primeiro conjunto de dados NIR em que foi avaliado o teor de fibra da cana-de-açúcar, de maneira geral os valores de RMSE e de r se mantiveram próximos àqueles obtidos para os dados completos. No segundo conjunto de dados reais NIR em que foi avaliado o teor de lignina da cana-de-açúcar, pode-se observar que os melhores resultados foram obtidos com o método BLASSO supervisionado (RMSE = 0,705 e r = 0,956). No terceiro conjunto de dados reais NIR em que foram avaliadas amostras de repolho roxo, os melhores resultados foram obtidos quando utlizou-se o PLS-OPS (RMSE = 13,05 e r = 0,996). No segundo e terceiro conjuntos de dados NIR avaliados as estatísticas obtidas foram próximas às obtidas com os dados completos, porém com a vantagem de possuir menos variáveis. De maneira geral, os métodos funcionam de forma semelhante, mas cada um exibe vantagens sobre o outro em determinadas situações. Ao utilizarmos os métodos de seleção, podemos observar que os modelos se tornaram mais simples, visto que o número de variáveis reduziu significamente em todos os conjuntos de dados estudados.Item Predição genômica via redução de dimensionalidade em modelos aditivo dominante(Universidade Federal de Viçosa, 2018-02-26) Costa, Jaquicele Aparecida da; Azevedo, Camila Ferreira; http://lattes.cnpq.br/6939298449989672Grandes avanços no melhoramento animal e vegetal têm sido propiciados utilizando- se informações da genética molecular. Nessa perspectiva, idealizaram a Seleção Genômica Ampla (Genome Wide Selection – GWS) cuja abordagem envolve a cobertura completa do genoma utilizando milhares de marcadores SNPs (Single Nucleotide Polymorphisms). O objetivo é estimar o mérito genético dos indivíduos e para tal, as pesquisas realizadas na GWS se baseiam na busca e na aplicação de metodologias estatísticas que visam resolver os problemas enfrentados no processo de estimação, como a alta dimensionalidade e a alta colinearidade entre os marcadores. Dentre elas, se destacam os métodos de redução de dimensionalidade: Regressão via Componentes Principais (PCR), Quadrados Mínimos Parciais (PLS) e Regressão via Componentes Independentes (ICR) e o tradicional método de regularização/shrinkage, G-BLUP (Genomic Best Linear Unbiased Predictor). Assim, o primeiro capítulo contempla as ideias centrais e a importância da GWS para o melhoramento genético, a definição de efeitos aditivos e de efeitos devido à dominância, os problemas estatísticos enfrentados na estimação dos efeitos de marcadores nos fenótipos pelo método usual baseado em quadrados mínimos ordinários, bem como as metodologias estatísticas baseadas em redução dimensional para resolver tais problemas e os procedimentos de validação que tem por finalidade comparar as metodologias estatísticas da GWS. Já o segundo capítulo refere-se a proposição e aplicação de sete critérios para a escolha do número ótimo de componentes independentes a serem utilizados na ICR, considerando apenas os efeitos aditivos. Os critérios consistem em determinar que o número de componentes independentes seja igual ao número de componentes que conduz: (i) os valores genômicos estimados via PCR a um maior valor de acurácia; (ii) os valores genômicos estimados via PCR a um menor valor de viés; (iii) a PCR a 80% de explicação da variação total de X; (iv) a PCR a 80% de explicação da variação total de Y; (v) a ICR a 80% de explicação da variação total de X; além dos critérios que consistem no número de componentes independentes igual ao número de variáveis determinadas pelos procedimentos (vi) Forward Selection e (vii) Backward Selection. O conjunto de dados simulados era composto por 2.000 marcadores SNPs e as populações simuladas totalizaram 1.000 indivíduos de 20 famílias de irmãos completos que tiveram os fenótipos e os genótipos avaliados. Além disso, os cenários simulados são baseados em dois níveis de herdabilidade e duas arquiteturas genéticas com ausência de dominância, constituindo assim, em quatro cenários, os quais foram simulados dez vezes cada. Com o intuito de demonstrar a aplicabilidade do estudo no melhoramento genético, foram avaliadas seis características de produtividade de um conjunto de dados reais de arroz asiático Oryza sativa (Número de panículas por planta, altura da planta, comprimento da panícula, número de panículas no perfilho primário, número de sementes por panícula e espiguetas por panícula) correspondente a 370 acessos de arroz, os quais foram genotipados para 44.100 marcadores SNPs. Em ambos os casos (dados simulados e reais) foi utilizada a validação independente e calculada as medidas de eficiência para comparar os critérios. De modo geral, as análises indicaram que o primeiro critério (número de componentes independentes igual ao número de componentes principais cujos os valores genômicos estimados via PCR apresentava maior valor de acurácia) se mostrou mais eficiente para os dois conjuntos de dados e apresentou as medidas de eficiência mais próximas do método exaustivo, com a vantagem de exigir menos tempo e esforço computacional. Para complementar o estudo, o terceiro capítulo consiste na aplicação dos três critérios mais eficientes do capítulo 2, os quais consistem no número de componentes independentes igual ao número de componentes que conduz os valores genômicos estimados via PCR a um maior valor de acurácia; a um menor valor de viés e a PCR a 80% de explicação da variação total de X considerando o modelo aditivo-dominante. Ainda no contexto deste modelo, foi aplicado os três métodos de redução de dimensionalidade (PCR, PLS e ICR) levando em consideração a escolha do número ótimo de componentes que conduz os valores genômicos aditivos, valores genômicos devido à dominância ou os valores genômicos totais (aditivo + dominância) a uma maior acurácia. Todos os métodos de redução de dimensionalidade foram comparados com o G-BLUP em termos de eficiência na estimação dos valores genômicos. As populações simuladas foram constituídas por 1.000 indivíduos de 20 famílias de irmãos completos, sendo genotipados para 2000 marcadores SNPs e as análises correspondentes a quatro cenários (dois níveis de herdabilidade × duas arquiteturas genéticas) sendo assumido dominância completa. Os resultados do capítulo 3 assinalaram que se manteve a superioridade do critério 1 nos modelos aditivo-dominante. Além disso, para a estimação dos efeitos aditivos e devido a dominância concomitantemente por meio dos métodos de redução de dimensionalidade, é recomendável utilizar o número de componentes que conduz o valor genômico devido à dominância a uma maior acurácia. Ademais, ao confrontar as metodologias de redução dimensional (ICR, PCR e PLS) com o G-BLUP, verifica- se que a PCR é superior em termos de acurácia e o método vantajosamente apresenta um dos menores tempos computacionais na execução das análises. Ademais, nenhum dos métodos considerados capturaram adequadamente as herdabilidades simuladas e apresentaram viés.Item Métodos de estimação do desvio-padrão para a padronização de variáveis na análise de componentes principais(Universidade Federal de Viçosa, 2018-02-26) Gomes, Juliana Vieira; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/0460142141450585Este trabalho propôs avaliar a eficiência de diferentes matrizes de covariâncias sobre as estimativas dos componentes principais (CP), de acordo com diferentes métodos de estimação do desvio-padrão utilizado na padronização da variável. Além disso, procurou também, determinar a importância relativa de cada variável aleatória avaliada, normal ou não, que fez parte da composição do CP. A estimação do desvio-padrão foi feita de acordo com quatro métodos: desvio-padrão total, Lenth, Juan e Pena e Dong. Para isso, foram simulados 60 conjuntos de dados compostos por quatro variáveis aleatórias com 10.000 observações cada, com três diferentes graus de correlação, dois tipos de médias, dois tipos de variâncias e cinco percentuais de outliers. Os outliers foram adicionados com o intuito de quebrar a aleatoriedade das variáveis. De acordo com os resultados, o fator mais importante em afetar a qualidade da estimativa do desvio-padrão foi a proporção de outliers. Nesse sentido, o melhor método de estimação foi o de Lenth para até 2% de outliers. A matriz que forneceu os melhores resultados para a análise dos CPs, foi a que utilizou a estimativa do desvio-padrão obtida pelo método do desvio-padrão total, na ausência de outliers, com variâncias iguais e diferentes. Já para o conjunto de dados com outliers e variâncias iguais e diferentes, a matriz baseada no método de Lenth forneceu resultados mias satisfatórios para a análise de CPs.
