Development of a new machine learning-derived method for high-throughput prediction of plant receptor-like proteins

Silva, José Cleydson Ferreira da

Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/28726

Tipo:	Tese
Título:	Development of a new machine learning-derived method for high-throughput prediction of plant receptor-like proteins Desenvolvimento de um novo método derivado de aprendizado de máquina para previsão da família de receptores proteínas-like
Autor(es):	Silva, José Cleydson Ferreira da
Abstract:	Machine learning (ML) is a field of artificial intelligence that has rapidly emerged in plant molecular biology, thus allowing the exploitation of massive data. The main challenges are to analyze massive datasets and extract new knowledge of cellular systems. Here, we just presented a systematic review to disentangle ML approaches is relevant for plant scientists (Chapter 1). We presented the main steps for ML development, including data selection, features extraction, training algorithms and evaluation of classification/prediction models, indicating role ML algorithm in the post-genomic era. Additionally, based on the systematic review we also developed a framework machine learning method for cell surface receptors prediction (Chapter 2). Two classes of cell surface receptors designated receptor-like protein kinase (RLK) and receptor-like protein (RLPs) are essential for perceiving and processing external and internal signals in plants and animal. Both are involved in plant development and pathogen responses and share a similar extracellular domain, capable of initial sensing environmental signal. However, RLPs have short divergent C-terminal regions not associated with conserved kinase domain characteristic of RLKs. The absence of C-terminal phylogenetic relationships between RLK and RLPs precludes the use of sequence comparison algorithms for high-throughput predictions of the RLP family. Thus, we developed the first RLP predictor in plants designated RLPredictiOme. The RLPredictiOme was implemented based on machine learning models associated with Bayesian inference. The ML models were developed in three stages to distinguish RLPs from noRLPs, RLPs from RLKs and classify new subfamilies of RLPs in plants. The evaluation of the models resulted in a high accuracy, precision, sensitivity, and specificity and relatively high probability ranging from 0.79 to 0.99 for RLPs predictions. In addition, a complete validate the of RLPredictiOme was performed with LRR-RLPs of previously characterized Arabidopsis RLPs, Arabidopsis and rice and more than 90% of known RLPs were correctly predicted. In addition to predicting previously characterized RLPs, RLPredictiOme uncovered new RLP subfamilies in the Arabidopsis genome. These include a probable lipid transfer (PLT)-RLP, plastocyanin-like-RLP, ring finger-RLP, glycosyl-hydrolase-RLP, and glycerophosphoryl diester phosphodiesterase (GDPDL)-RLP subfamilies, yet to be characterized. In comparison with the only Arabidopsis GDPDL-RLK, molecular evolution studies confirmed that the ectodomain of GDPDL-RLPs from Arabidopsis might have undergone purifying selection with a predominance of synonymous substitutions. Expression analyses revealed that predicted GDPGL-RLPs display a basal level of expression and respond to developmental and biotic signals. The results of these biological assays substantiate the notion that the members of this subfamily have maintained functional domains during evolution and may play relevant roles in development and plant defense. Therefore, RLPredictiOme can provide new insights into the functional role of surface receptors and their relationships with different biological processes. Keywords: Machine learning. Receptor-like protein. RLPredictiOme. O Machine learning (ML) é um campo de inteligência artificial que emergiu rapidamente na biologia molecular de plantas, permitindo assim a exploração de grandes conjuntos de dados. Os principais desafios são analisar esses dados e extrair novos conhecimentos de sistemas celulares. Nesta investigação, considera-se que uma revisão sistemática para desembaraçar as abordagens de ML seria relevante para os cientistas de plantas (capítulo 1). As principais etapas do desenvolvimento do ML, como seleção de dados, extração de recursos, algoritmos de treinamento e avaliação de modelos de classificação/previsão. Além disso, discute-se o papel do ML na era pós-genômica. Além disso, com base na revisão sistemática, foi desenvolvido um método de aprendizado de máquina para classificação de receptores de superfície celular (Capítulo 2). Duas classes de receptores da superfície celular, designados receptores do tipo cinase (RLK) e receptores do tipo proteína (RLPs), são essenciais para perceber e processar sinais externos e internos em plantas e animais. Ambos estão envolvidos no desenvolvimento da planta e na resposta a patógenos e compartilham um domínio extracelular similar, capaz de detectar o sinal ambiental externo do evento de detecção inicial. No entanto, as RLPs têm regiões C-terminais curtas e divergentes, não associadas com característica de domínio das quinases conservadas das RLKs. A ausência de relações filogenéticas C-terminais entre RLK e RLPs impede o uso de algoritmos de comparação de sequência para previsões de alto rendimento da família RLP. Assim, foi desenvolvido o primeiro preditor de RLP em plantas designadas como RLPredictiOme. O RLPredictiOme foi implementado com base em modelos de aprendizado de máquina em conjunto com a inferência bayesiana. Os modelos de ML incorporam em três estágios para distinguir RLPs de noRLPs, RLPs de RLKs e classificar novas subfamílias de RLPs em plantas. Os resultados da avaliação dos modelos mostram alta precisão, sensibilidade, especificidade e probabilidade relativamente alta variando de 0,79 a 0,99 para RLPs. Além disso, uma validação completa do RLPredictiOme foi realizada com LRR-RLPs de Arabidopsis e arroz previamente caracterizados e mais de 90% dos RLPs conhecidos foram previstos corretamente. Além de prever RLPs previamente caracterizados, o RLPredictiOme descobriu novas subfamílias de RLP no genoma de Arabidopsis. Isso inclui probable lipid transfer (PLT)- RLP, plastocyanin-like-RLP, ring finger-RLP, glycosyl-hydrolase-RLP, e glycerophosphoryl diester phosphodiesterase (GDPDL)-RLP, ainda a serem caracterizadas. Em comparação com o único GDPDL-RLK, os estudos de evolução molecular confirmaram que o ectodomínio dos GDPDL-RLPs pode ter sido submetido a uma seleção purificadora com predominância de substituições sinônimas. As análises de expressão revelaram que o GDPGL-RLPs previstos exibem um nível basal de expressão e responde a sinais de desenvolvimento e sinais bióticos. Os resultados desses ensaios biológicos substanciam a noção de que os membros desta subfamília mantiveram domínios funcionais durante a evolução e podem desempenhar papéis relevantes no desenvolvimento e na defesa das plantas. Portanto, o RLPredictiOme pode fornecer novas idéias sobre o papel funcional dos receptores de superfície e suas relações com diferentes processos biológicos. Palavras-chave: Aprendizagem de máquina. Receptores proteínas-like. RLPredictiOme.
Palavras-chave:	Receptores de células Aprendizado do computador Proteínas Proteínas quinases
CNPq:	Biologia Molecular
Editor:	Universidade Federal de Viçosa
Titulação:	Doutor em Genética e Melhoramento
Citação:	SILVA, José Cleydson Ferreira da. Development of a new machine learning-derived method for high-throughput prediction of plant receptor-like proteins. 2020. 135 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2020.
Tipo de Acesso:	Acesso Aberto
URI:	https://locus.ufv.br//handle/123456789/28726
Data do documento:	28-Fev-2020
Aparece nas coleções:	Genética e Melhoramento

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
texto completo.pdf	texto completo	2,04 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas