Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
116 resultados
Resultados da Pesquisa
Item Uma abordagem para a classificação monotônica de dados correlacionados(Universidade Federal de Viçosa, 2019-12-18) Ribeiro, Marcelo Carlos; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/7535255933317217A classificação ordenada está cada vez mais atraindo o interesse de áreas como es- tatística, ciências da computação e pesquisa operacional. A restrição de monotonici- dade indica uma relação entre o rótulo da classe com uma ou mais variáveis (atribu- tos). Nesta tese, apresentam-se duas contribuições resultantes de um trabalho de in- vestigação sobre a classificação monotônica de dados correlacionados. Uma consiste em propor uma metodologia que se baseia no método CPP-tri proposto por Sant’Anna, Costa e Pereira (2015), que considere a correlação entre os atributos no cálculo da probabilidade do indivíduo pertencer a classe. A outra, consiste em fornecer um pa- cote R para o método proposto, denominado como CPP-cor Ribeiro et al. (2020). Os algoritmos desenvolvidos basearam-se no código em R disponível em Silva (2016). A metodologia proposta não só agrega a informação relacionada à correlação das va- riáveis ao método, como apresenta resultados significativamente superiores quando comparados aos resultados obtidos pela metodologia tradicional, o método CPP-tri. Palavras-chave: Classificação monotônica. Múltiplas variáveis correlacionadas.Item Modelagem com equações diferenciais estocásticas: aplicação no crescimento de frutos de pimenta(Universidade Federal de Viçosa, 2019-07-19) Guzzo, Felipe; Cecon, Paulo Roberto; http://lattes.cnpq.br/8446708398667471Equações diferenciais estocásticas (EDEs) são usadas para modelar sistemas com a presença de perturbações aleatórias. Uma maneira de se derivar uma EDE, é adicionando um termo de ruído aleatório a uma equação diferencial determinística (EDD). Assim, a diferença entre EDEs e EDDs, é de que a solução de uma EDE é uma coleção de variáveis aleatórias ou processo estocástico. Dessa maneira, diferente da modelagem com EDDs, onde é obtida uma estimativa para a resposta média da variável de interesse, a modelagem com EDEs permite, de maneira direta, uma estimativa de erro associada à resposta média da variável de interesse. O objetivo deste estudo foi modelar o crescimento de frutos de pimenta (Capsicum annuum L.) e obter a distribuição de probabilidade para a média do tamanho (i. e., comprimento e diâmetro) de frutos. Nesse trabalho, foi demonstrado como se obter a distribuição da média do comprimento e do diâmetro de frutos de pimenta, representando uma redução de custos, tempo e trabalho em relação aos métodos biométricos tradicionais. Palavras-chave: Capsicum annum. Equação logística. Tempo de Primeira PassagemItem Avaliação de uma nova modelagem proporcional dos efeitos aditivos e de dominância e reflexos na genética quantitativa e na seleção genômica(Universidade Federal de Viçosa, 2019-07-24) Miranda, Taiana Lopes Rangel; Resende, Marcos Deon Vilela de; http://lattes.cnpq.br/0513010608168896A Seleção Genômica (Genomic Wide Selection – GWS) é uma abordagem muito utilizada nos programas de melhoramento e foi desenvolvida com o intuito de utilizar as informações diretas do DNA no processo de identificação de indivíduos geneticamente superiores, através da predição do valor genético genômico (Genomic Estimated Breeding Value – GEBV). A GWS baseia-se na análise de um grande número de marcadores moleculares SNPs (Single Nucleotide Polymorphisms) extensamente distribuídos no genoma. O modelo genético básico tradicionalmente utilizado na Genética Quantitativa e na GWS (modelo infinitesimal de Fisher, 1918), atribui à variância aditiva uma grande proporção de explicação da variância genética, mesmo sob ação gênica de dominância. Isto se deve ao fato de, no processo de derivação de expressões biométricas, a variância aditiva ser maximizada e a variância de dominância ser o resíduo da variação genética total. Recentemente um modelo genético alternativo foi proposto, no qual a variância de dominância é priorizada usando uma parametrização em que heterozigotos e um dos homozigotos são codificados com valores equivalentes. Nessa proposta o componente genético aditivo ao nível de locos é introduzido no modelo depois da variância de dominância ter sido maximizada. O objetivo desse trabalho foi avaliar essa nova parametrização dos efeitos aditivos e de dominância na seleção genômica e genética quantitativa em geral, e compará-la à parametrização tradicionalmente aplicada utilizando o método G-BLUP (Genomic Best Linear Unbiased Predictor). Adicionalmente essas comparações foram estendidas contemplando diferentes MAFs (Minor Allele Frequency). O procedimento de validação cruzada foi utilizado para avaliar as estimativas dos parâmetros usados nas comparações. Estimativas dos componentes da variação genética e das herdabilidades aditiva, devida à dominância e genotípica total, bem como da capacidade preditiva e do coeficiente da regressão entre o fenótipo e o GEBV foram obtidos, visando a comparação dos modelos. Dois índices combinando as estimativas dos componentes de variância obtidos pelos dois modelos foram propostos e avaliados. Os resultados indicaram que a nova modelagem, bem como a combinação de ambas são alternativas para melhorar as estimativas das variâncias genética aditiva e de dominância e da proporção entre elas.Item Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados(Universidade Federal de Viçosa, 2019-07-22) Carvalho, Vitor Prado de; Nascimento, Moysés; http://lattes.cnpq.br/1140674951892263Na análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.Item Avaliações das interações entre os efeitos do modelo estatístico do delineamento em quadrado latino(Universidade Federal de Viçosa, 2019-07-15) Ribeiro, Alice dos Santos; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/5843119694312879Na agropecuária, muitos experimentos possuem restrições na casualização. Um delineamento utilizado quando há dois fatores perturbadores é o quadrado latino (DLQ). Porém, há a exigência de que os níveis dos fatores não interajam entre si e nem com os tratamentos. Desse modo, teve-se como objetivo, analisar a pressuposição de ausência de interações e avaliar a influência dos seus efeitos quando presentes no modelo estatístico do DQL 3x3, sobre as estimativas dos efeitos de tratamentos e dos erros experimentais. Para isso, foram formados 169 quadrados latinos, oriundos de um fatorial 13x13 referente aos parâmetros utilizados para os efeitos das interações entre o tratamento 1 e a linha 1 (τω ), e entre o tratamento 2 e a coluna 2 (τγ ). Para os DQLs, foram estimados os efeitos principais dos tratamentos, realizadas as análises de variância e obtidos os valores ajustados. Para as avaliações das pressuposições dos resíduos, foram obtidos os p- valores dos testes de Kolmogorov-Smirnov e de Bartlett, além dos resultados do teste da não aditividade de Tukey (1955). Concluiu-se que as presenças das interações interferiram nas estimativas dos efeitos de tratamentos e nos resultados da análise de variância, o que muitas vezes, implica em conclusões equivocadas sobre o melhor tratamento. Nos resíduos, as interações foram distribuídas de forma uniforme, resultando na detecção da homogeneidade de variâncias pelo teste de Bartlett, mas não, necessariamente, da normalidade pelo teste de Kolmogorov- Smirnov. Já o teste da não aditividade de Tukey (1955) não detectou as presenças das interações no DQL, o que implicou na necessidade de se utilizar, como indicativo da ocorrência de pelo menos uma interação, o aumento do coeficiente de variação em relação às de outras estimativas de experimentos similares. Palavras-chave: DQL. Efeitos de tratamentos. Pressuposições.Item Genomic prediction models with additive and dominance effects for censored traits(Universidade Federal de Viçosa, 2017-03-31) Santos, Vinicius Silva dos; Martins Filho, Sebastião; http://lattes.cnpq.br/5809878805245760Recently, dominance effects have been included in the genomic selection of several species, with the GBLUP-D method being the most used. This method consists in replacing, in the REML / BLUP procedure, the pedigree-based relationship matrices by marker-based relationship matrices. This method can be performed using the GVCBLUP software or through BGLR R-package, which is based on Bayesian regression via the Reproduction Kernel Hilbert Space. The objective of this work was to evaluate the possibility and effectiveness of GBLUP-D implementation via the lmekin function implemented in the coxme package of R through the inclusion of additive and dominance genomic matrices. Thus, through simulated data analyzes, the results obtained by the lmekin function were compared with those obtained by the GVCBLUP software and the BGLR package. Subsequently, the analysis was extended considering phenotypes with censored observations in a F 2 population of pigs, where the time (in days) of the birth to the slaughter of the animal was evaluated through the Cox model and the truncated normal model, in that the censoring was considered or not in the analysis. Finally, the inclusion of the polygenic effect in the additive-dominant models was evaluated in three traits with complete and normally distributed observations of a mice population, and in censored data from a F 2 population of pigs. The results showed that the lmekin function is an efficient alternative for the fit of genomic linear models with additive and dominance effects, since it results were identical to those obtained through GVBLUP software. For the censored data, it was observed a high agreement between the Cox model and the truncated normal model in selecting the best individuals and the highest marker effects. Thus, it was possible to show the possibility of predicting genomic genetic values for censored data, considering the Cox survival model with additive and dominance effects. The inclusion of the polygenic effect in the evaluated models allowed a significative increase in the additive heritabilities of the evaluated traits.Item Regressão multivariada para determinação de sacarose na presença de cacau usando diferentes instrumentos de espectroscopia NIR(Universidade Federal de Viçosa, 2019-02-19) Silva, Raphael Henrique Teixeira; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3045503690859643O objetivo deste trabalho foi realizar um estudo comparativo entre os dois tipos de instrumentos da técnica NIR (o NIR de bancada, com maior resolução (1000nm até 2500nm), e o portátil, com menor resolução (900nm até 1700nm)) e averiguar se o NIR portátil é um substituto ao NIR de bancada. A fim de elucidar a viabilidade, ou não, da utilização do NIR portátil, foram realizados experimentos de mistura entre cacau e sacarose (Experimento 1) e cacau, sacarose e frutose (Experimento 2). Para ambos os experimentos, observou-se que a diferença dos erros relativos entre os instrumentos (NIR portátil e de bancada) não foram tão expressivas, sendo, em média, 4% de diferença entre as amostras do NIR portátil e do bancada para o Experimento 1, e 6% para o Experimento 2. É importante dizer que quando se utiliza a mesma faixa espectral coincidente em ambos os instrumentos (1000nm até 1700nm), pode-se concluir que o NIR portátil é recomendado para estudos de mistura de cacau e sacarose, e para os que envolvem frutose na mistura. Considerando os resultados para as amostras dos produtos industrializados, observou-se que os modelos dos Experimentos 1 e 2, utilizando o NIR portátil, foram capazes de predizer, de forma significativa, os percentuais de sacarose correspondente nas embalagens dos produtos de interesse. Desta forma, o instrumento portátil apresentou ser uma boa alternativa para realizar as análises para predição de sacarose, considerando o custo-benefício, podendo-se reduzir custos com aquisição de instrumento e proporcionar rapidez e maior mobilidade para análises.Item Regressão quantílica aplicada à seleção genômica para características oligogênicas em melhoramento de plantas autógamas(Universidade Federal de Viçosa, 2019-02-21) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944O constante crescimento populacional e as limitadas áreas agricultáveis requerem o aumento da produtividade das espécies agronômicas. Nos últimos 50 anos estima-se que 50% do aumento da produtividade mundial dessas espécies foi devido ao melhoramento genético. Para que o melhoramento seja feito de forma eficiente, o conhecimento do sistema reprodutivo das espécies a serem melhoradas é de suma importância para um melhorista, uma vez que tal conhecimento auxilia na adoção de métodos adequados para cada espécie. Em geral, a obtenção de cultivares melhoradas é um processo longo e oneroso. Visando a redução de tempo e custos, além do aumento da acurácia de seleção, a Seleção Genômica Ampla (Genome Wide Selection - GWS) que utiliza informações diretas do DNA por meio dos marcadores moleculares para predição do valor genético genômico dos indivíduos, foi proposta. Dentre as diversas metodologias de GWS, recentemente, foi proposto o uso da Regressão Quantílica Regularizada (RQR). A RQR permite ajustar modelos de regressão ao longo de toda distribuição da variável dependente, possibilitando assim uma melhor descrição do fenômeno em estudo, quando comparada a metodologias tradicionais que se baseiam apenas na média condicional. O uso da RQR tem-se mostrado bastante promissor, porém, ainda não foi avaliado em todo o processo de um programa de melhoramento de plantas. Diante do exposto, objetivou-se avaliar o uso da RQR na seleção genômica, considerando dados simulados de plantas autógamas com características oligogênicas. Foi simulada uma população F 2 , com características com duas herdabilidades (0,4 e 0,8) e controladas por quatro genes. Foi realizado o avanço de gerações (até a F 6 ) considerando duas porcentagens de seleção (10% e 20%) e, como critério de seleção, o valor genético genômico obtido por meio da RQR, além da seleção fenotípica e de outros métodos tradicionais de seleção genômica, especificamente RR-BLUP e o BLASSO. Observou- se que o modelo de RQR apresentou, em relação a fixação dos alelos favoráveis, resultados melhores ou iguais aqueles obtidos por todos métodos avaliados. Especificamente, em cenários de herdabilidade 0,4, independente da porcentagem de seleção, somente a seleção dos indivíduos baseados no modelo de RQR no quantil (τ = 0,5) foi capaz de fixar os alelos favoráveis até a sexta geração. Por outro lado, em cenários de maior herdabilidade (0,8) e com porcentagem de seleção de 10%, a seleção baseada nos métodos RQR (τ = 0,5) e BLASSO permitiram a fixação dos alelos ainda na geração F 4 . Quando a seleção se baseou nos métodos RR-BLUP e seleção fenotípica os alelos favoráveis não foram fixados até a sexta geração em nenhum cenário avaliado. Em relação ao ganho de seleção, a RQR (τ = 0,5) obteve ganhos maiores ou iguais aos métodos tradicionais de seleção genômica em todos os cenários avaliados. Especificamente, os ganhos da RQR (τ = 0,5) foram até 4,5% maiores que aqueles obtidos pelo BLASSO, até 6,1% maiores que os do RR-BLUP e até 4,6% maiores que a seleção fenotípica. Dessa forma verificou-se com aplicação da RQR no melhoramento de plantas considerando populações simuladas de plantas autógamas com características oligogênicas, seria possível uma redução de tempo e consequentemente de custos, devido a diminuição das gerações de autofecundações para a fixação dos alelos favoráveis em todos os cenários avaliados ou a obtenção de genótipos melhorados.Item Aprendizagem de máquina e técnicas multivariadas no estudo da qualidade do carvão vegetal(Universidade Federal de Viçosa, 2019-02-18) Pereira, Kaléo Dias; Carneiro, Antônio Policarpo Souza; http://lattes.cnpq.br/6853931004500288Os estudos sobre as variáveis que determinam a qualidade do carvão vegetal e a influência do material de origem norteiam o planejamento de programas de seleção de melhores genótipos para a produção de carvão. O emprego de novos métodos de análise que se adequem ao estudo das propriedades do carvão vegetal, possibilita a avaliação dos dados por ângulos diferentes e amplia as possibilidades das pesquisas na área. Nesse sentido, o objetivo do presente trabalho foi utilizar procedimentos de aprendizagem de máquina e técnicas multivariadas na análise do rendimento e qualidade do carvão vegetal produzido a partir de clones de Corymbia. As amostras analisadas foram obtidas a partir de um plantio clonal com sete anos de idade estabelecido no município de Dionísio, MG. No primeiro capítulo são apresentados os resultados da utilização do algoritmo random forest no estudo da influência das propriedades da madeira sobre o rendimento e propriedades de qualidade do carvão vegetal, bem como a comparação da acurácia dos valores preditos pelo random forest com os preditos pelo support vector regression e regressão linear múltipla. As variáveis teor de holocelulose, relação cerne/alburno e densidade básica da madeira foram as mais importantes para a modelagem via aprendizagem de máquina. Quanto a acurácia, o random forest foi superior aos demais métodos considerando o coeficiente de determinação, correlação linear entre valores observados e preditos, erro médio absoluto e raiz quadrada do erro quadrático médio, inclusive mostrando desempenho adequado para que seja viável a utilização do algoritmo para a estimação das propriedades do carvão vegetal. No segundo capítulo relata-se o emprego da função discriminante de Fisher na classificação dos clones de Corymbia quanto ao potencial para a produção de carvão vegetal em termos de rendimento e qualidade. Os dados foram inicialmente testados quanto às pressuposições de normalidade multivariada e homogeneidade de matrizes de variâncias/covariâncias, para em seguida aplicar a análise de variância multivariada (MANOVA). Pelos resultados da MANOVA, constatou-se que existe diferença no campo multivariado entre os clones e, a partir das matrizes de soma de quadrados e produtos do resíduo e do efeito de clones, foram estimados os coeficientes das duas primeiras funções discriminantes, que juntas retiveram aproximadamente 80% da informação contida no conjunto de dados. As duas funções discriminantes foram utilizadas para calcular duas variáveis canônicas que são funções das variáveis observadas do carvão vegetal. Comparando os clones por meio das médias das variáveis canônicas, verificou-se que o genótipo AMF 1119 é o mais indicado para a produção de carvão vegetal.Item O uso da geoestatística espaço-temporal e aprendizagem de máquina na predição da temperatura máxima do ar(Universidade Federal de Viçosa, 2019-02-21) Viana, Rosane Soares Moreira; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/5692282198888503Dados espaço-temporais são caracterizados pela descrição da variabilidade no tempo e no espaço. Atualmente, os estudos desses tipos de dados têm proporcionado grandes avanços em áreas como ciências ambientais, geofísicas, biologia, epidemiologia e outras. Os procedimentos comuns de estatística, frequentemente, não são suficientes para descrever os processos espaço-temporais, pois não conseguem captar a variabilidade nas dimensões espaço e tempo conjuntamente. Para estes processos existem três tipos de abordagem: análise puramente espacial, que considera cada tempo separadamente, ou seja, desconsidera a dependência temporal e analisa os dados do processo utilizando técnicas usuais de estatística espacial para cada tempo; análise puramente temporal, onde cada localização desconsidera-se a dependência espacial e analisa os dados do processo utilizando técnicas usuais de séries temporais; e análise espacial e temporal, que é capaz de analisar conjuntamente tanto as dependências espaciais quanto as temporais existentes no conjunto de dados. Ainda não existe um consenso sobre quais são as técnicas mais adequadas de modelagem que atendem às necessidades de aplicações que envolvam simultaneamente tempo e espaço. O desenvolvimento destas técnicas e a construção de representações computacionais apropriadas é um dos grandes desafios da geoinformação. Desta forma, este trabalho tem como objetivo fazer uma exposição teórica de algumas metodologias disponíveis na geoestatística espaço-temporal e/ou aprendizagem de máquina, bem como utilizar um conjunto de dados reais para fazer predição via estrutura de funções de covariâncias espaço-temporais e via modelos de regressão baseados em aprendizagem de máquina, em especial, os algoritmos de random Forest e support vector machine.