Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características

dc.contributor.advisorCruz, Cosme Damião
dc.contributor.authorMoraes, Francyse Edite de Oliveira Chagas de
dc.contributor.authorLatteshttp://lattes.cnpq.br/8188454663294888pt-BR
dc.date.accessioned2023-09-18T13:16:03Z
dc.date.available2023-09-18T13:16:03Z
dc.date.issued2022-07-25
dc.degree.date2022-07-25
dc.degree.departmentDepartamento de Biologia Geralpt-BR
dc.degree.grantorUniversidade Federal de Viçosapt-BR
dc.degree.levelDoutoradopt-BR
dc.degree.localViçosa - MGpt-BR
dc.degree.programDoutor em Genética e Melhoramentopt-BR
dc.description.abstractO presente estudo avaliou o impacto do uso de diferentes conjuntos de marcadores sobre a eficiência da predição utilizando as técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest. As técnicas foram analisadas em relação a seis características. As características foram controladas pelos mesmos quarenta genes com diferentes herdabilidades (0,4, 0,6 e 0,8) acrescidos, ou não, por quatro genes com efeitos maiores de herdabilidade igual a um. O grau médio de dominância adotado foi um para todas as características. Dentro de cada gene havia um marcador. Os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Ao simular a aleatorização envolvida na formação dos gametas que originaram a população, pode segregar as marcas diferentemente do que era desejado. Além disso, os dados fenotípicos e genotípicos gerados podem ser diferentes dos pretendidos. No primeiro capítulo foi analisada a qualidade dos dados em relação a esses fatores. Foi testado se o conjunto de dados obtido por simulação expressava o padrão fenotípico e/ou genotípico das diversas características e se os marcadores segregavam corretamente. Encontrou-se que das 2010 marcas simuladas, somente cinco não segregavam como o esperado. As marcas estavam distribuídas equitativamente em dez grupos de ligação e por meio dos resultados de desequilíbrio de ligação. Mesmo com as marcas distorcidas, foi possível recuperar a ordem e a posição desses grupos. Em relação aos dados fenotípicos, encontrou-se que as características controladas por quarenta genes (x1, x3 e x5) possuíam uma média de 127,97 e as características controladas por quarenta e quatro genes (x 2, x4 e x6) possuíam uma média de 220,21, independentemente da herdabilidade. As variâncias foram todas diferentes, mas com o padrão das que eram controladas por quarenta genes serem menores do que as controladas por quarenta e quatro genes. Ao se fazer a correlação entre os valores fenotípicos e valores genotípicos, recuperou- se o valor da herdabilidade das características próximo ao estipulado pela simulação. Observou-se que a presença de genes de efeitos maiores aumentava a herdabilidade, facilitando o estabelecimento de classes de discriminação genotípica. Ao se plotar os dados para análise da distribuição fenotípica, observou-se distribuição contínua em x1, x3 e x5. Em x2, x4 e x6 foi visto padrão contínuo com tendência a estabilização e formação de duas regiões modais. Os dados simulados remetiam ao que era esperado, podendo ser usado nas análises. No segundo capítulo, foi analisada a eficiência da predição por meio da capacidade preditiva (r2) e da raiz do erro quadrado médio (REQM) das técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest em cinco diferentes conjuntos de marcadores. Como mencionado anteriormente, os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Como foram simulados dez grupos de ligação com 201 marcas codominantes em cada, havia 1608 marcas diretamente ou indiretamente relacionadas aos genes e 402 marcas desnecessárias a predição. A formação dos conjuntos de marcadores levou essas informações como critério. No grupo um, estavam todos os marcadores. No grupo dois, os 1608 marcadores diretamente ou indiretamente relacionados aos genes. No grupo três, os quarenta e quatro marcadores dentro dos genes e os 402 marcadores não relacionados. No grupo quatro, os 402 marcadores desnecessários a predição. No grupo cinco, os quarenta e quatro marcadores diretamente relacionados aos genes controladores. Ao se analisar o r2 e REQM das técnicas, observou-se que a maioria delas promoveu resultados péssimos na situação quatro. A técnica árvore de decisão chegou a não obter os valores em algumas repetições. Como nessa situação não havia marcadores relacionados as características, era esperado que em nenhuma técnica fosse possível obter resultados. A explicação veio pelo RR-BLUP. Ele forneceu o efeito dos marcadores sobre as características. Foram encontrados efeitos falsos positivos relacionados às 402 marcas desnecessárias a predição. Continuando-se as análises, foi observado que as técnicas bagging e boosting obtiveram os maiores valores de r2 entre todas as técnicas (0,880 e 0,815, respectivamente) e os menores valores de REQM (5,852 e 5,853). A maioria dos valores foi obtida do quinto conjunto de dados e, ou não diferiu significativamente dos outros conjuntos, ou foi diferente apenas do conjunto quatro (sem marcadores relacionados). Resultado diferente foi observado para a random forest. Ela foi a mais sensível, tanto aos diferentes subconjuntos de marcadores quanto as diferentes características. Para o quinto conjunto de marcadores, obteve r2 para as características x3, x4, x5 e x6, respectivamente iguais a 0,371; 0,720; 0,514 e 0,788. Para REQM, obteve, naquele mesmo conjunto, em x 3 e x5, respectivamente, 10,280 e 8,371. Esses valores foram os melhores e diferentes significativamente dos obtidos para as mesmas características nos outros quatro conjuntos. Os resultados obtidos mostram que o uso de diferentes técnicas exploram melhor o conjunto de dados. Também mostra que o descarte de marcadores desnecessários não prejudica o processo preditivo, algumas vezes até o melhora, sendo recomendável. Trabalhos futuros deveriam se concentrar na identificação dos marcadores diretamente envolvidos com as características. Palavras-chave: Simulação. Capacidade preditiva. Raiz do erro quadrado médio. RR- BLUP. Aprendizado de máquina.pt-BR
dc.description.abstractThe present study evaluated the impact of the use of different sets of markers on the prediction efficiency using the RR-BLUP, decision tree, bagging, boosting and random forest techniques. The techniques were analyzed in relation to six characteristics. The traits were controlled by the same forty genes with different heritability (0.4, 0.6 and 0.8) plus, or not, by four genes with greater heritability effects equal to one. The average degree of dominance adopted was one for all characteristics. Within each gene was a marker. The minor-effect controller genes were evenly distributed in the first eight linkage groups (GL) and the four major-effect genes were in the first four GL. By simulating the randomization involved in the formation of gametes that gave rise to the population, it can segregate the marks differently from what was desired. In addition, the phenotypic and genotypic data generated may differ from those intended. In the first chapter, the quality of the data in relation to these factors was analyzed. It was tested whether the dataset obtained by simulation expressed the phenotypic and/or genotypic pattern of the different traits and whether the markers segregated correctly. It was found that of the 2010 simulated brands, only five did not segregate as expected. The marks were evenly distributed across ten linkage groups and across linkage disequilibrium results. Even with the distorted marks, it was possible to recover the order and position of these groups. Regarding the phenotypic data, it was found that the traits controlled by forty genes (x1, x3 and x5) had an average of 127.97 and the traits controlled by forty-four genes (x2, x4 and x6) had an average of 220.21, regardless of heritability. The variances were all different, but with the pattern of those controlled by forty genes being smaller than those controlled by forty-four genes. By making the correlation between the phenotypic and genotypic values, the heritability value of the traits close to that stipulated by the simulation was recovered. It was observed that the presence of genes with greater effects increased heritability, facilitating the establishment of genotypic discrimination classes. When plotting the data for analysis of the phenotypic distribution, a continuous distribution was observed in x1, x3 and x5. In x2, x4 and x6 a continuous pattern was seen with a tendency to stabilization and formation of two modal regions. The simulated data referred to what was expected and could be used in the analyses. In the second chapter, the prediction efficiency was analyzed through the predictive capacity (r2) and the root mean square error (REQM) of the RR-BLUP, decision tree, bagging, boosting and random forest techniques in five different sets of markers. . As mentioned earlier, the minor-effect controller genes were evenly distributed in the first eight linkage groups (GL) and the four major-effect genes were in the first four GL. As ten linkage groups were simulated with 201 codominant markers in each, there were 1608 markers directly or indirectly related to genes and 402 markers unnecessary for prediction. The formation of the marker sets took this information as a criterion. In group one, there were all the markers. In group two, the 1608 markers directly or indirectly related to the genes. In group three, the forty-four markers within genes and the 402 unrelated markers. In group four, the 402 markers unnecessary the prediction. In group five, the forty-four markers were directly related to the controlling genes. When analyzing the r 2 and REQM of the techniques, it was observed that most of them promoted poor results in situation four. The decision tree technique did not obtain the values in some repetitions. As in this situation there were no markers related to the characteristics, it was expected that in no technique it would be possible to obtain results. The explanation came from RR-BLUP. It provided the effect of markers on traits. False positive effects were found related to the 402 unnecessary marks for prediction. Continuing the analysis, it was observed that the bagging and boosting techniques obtained the highest values of r2 among all the techniques (0.880 and 0.815, respectively) and the lowest values of REQM (5.852 and 5.853). Most values were obtained from the fifth dataset and either did not differ significantly from the other sets or differed only from set four (no related markers). Different result was observed for random forest. She was the most sensitive, both to different subsets of markers and to different characteristics. For the fifth set of markers, r2 was obtained for the characteristics x3, x4, x5 and x6, respectively equal to 0.371; 0.720; 0.514 and 0.788. For REQM, he obtained, in that same set, at x3 and x5, respectively, 10.280 and 8.371. These values were the best and significantly different from those obtained for the same characteristics in the other four sets. The results obtained show that the use of different techniques better explore the dataset. It also shows that discarding unnecessary markers does not harm the predictive process, sometimes even improves it, which is recommended. Future work should focus on identifying the markers directly involved with the traits.Keywords: Simulation. Predictive capability. Root mean square error. RR-BLUP. Machine learning.en
dc.identifier.citationMORAES, Francyse Edite de Oliveira Chagas de. Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características. 2022. 82 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.pt-BR
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2022.578pt-BR
dc.identifier.urihttps://locus.ufv.br//handle/123456789/31504
dc.language.isoporpt-BR
dc.publisherUniversidade Federal de Viçosapt-BR
dc.publisher.programGenética e Melhoramentopt-BR
dc.rightsAcesso Abertopt-BR
dc.subjectMapeamento cromossômico - Métodos estatísticospt-BR
dc.subjectMarcadores genéticospt-BR
dc.subject.cnpqGenética Quantitativapt-BR
dc.titlePredição genômica sob diferentes cenários que incluem, ou não, locos controladores de característicaspt-BR
dc.titleGenomic prediction under different scenarios that include, or not, trait-controlling locien
dc.typeTesept-BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
texto completo.pdf
Tamanho:
944.41 KB
Formato:
Adobe Portable Document Format
Descrição:
texto completo

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: