Classificação estrutural de proteínas por meio de aprendizado não supervisionado

dc.contributorComarela, Giovanni Ventorim
dc.contributor.advisorSilveira, Sabrina de Azevedo
dc.contributor.authorMonteiro, Cleiton Rodrigues
dc.contributor.authorLatteshttp://lattes.cnpq.br/7327899182639244pt-BR
dc.date.accessioned2024-03-08T15:54:47Z
dc.date.available2024-03-08T15:54:47Z
dc.date.issued2019-06-25
dc.degree.date2019-06-25
dc.degree.departmentDepartamento de Informáticapt-BR
dc.degree.grantorUniversidade Federal de Viçosapt-BR
dc.degree.levelMestradopt-BR
dc.degree.localViçosa - MGpt-BR
dc.degree.programMestre em Ciência da Computaçãopt-BR
dc.description.abstractA bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eficientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o fluxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desafiadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classificação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classificação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classificador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeficiente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da verificação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classificação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classificação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente.pt-BR
dc.description.abstractStructural bioinformatics is dedicated to the study of three-dimensional structures of proteins and macromolecules. In this work, the interest is in protein structures. The availability of new sequences and protein structures in public databases has been occurring at a very fast pace, also increasing the need for automatic and effici- ent methods for extracting and understanding this large volume of data. According to Gao et al. [2018], bioinformatics is a science of mining and interpreting biological data. For them, the continuous and increasing flow of this data, as well as the need to address increasingly complex biomedical problems, has created challenging op- portunities for data mining and machine learning researchers. Several strategies for structural protein classification have been proposed in recent years using sequence and structure based descriptors. In this research, evaluated the possibility of struc- tural protein classification using unsupervised methods associated with successfully proposed characteristics in a well established structural classifier. Experiments were performed using 5 clustering algorithms from 4 different paradigms. The quality of the clusters was evaluated by the Silhouette Coefficient and the predicted labels were compared to the CATH database superfamily classifications using the Fowl- kes Mallows Index and the verification of clusters homogeneity and completeness. The results show the unfeasibility of class level classification, since the rates achie- ved with Fowlkes Mollows did not reach 60%. On the other hand, they indicate a considerable ability to classify at the superfamily level - an Index of over 70% was achieved with the Complete-Link method in the general clustering. The results are even more interesting when restricting the number of clusters, reaching an index of 78.5% for topologies with up to 25 superfamilies and 82.8% for topologies with up to 5 superfamilies. If still considered, clusters with an index equal to or greater than 85%, they represent approximately 40% of the topologies used, and of this group, almost half of the clusterings (48.19%) obtained a 100% similarity index, that is, in about 20% of the topologies, all proteins were clustered correctly.en
dc.identifier.citationMONTEIRO, Cleiton Rodrigues. Classificação estrutural de proteínas por meio de aprendizado não supervisionado. 2019. 79 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.pt-BR
dc.identifier.urihttps://locus.ufv.br//handle/123456789/32255
dc.language.isoporpt-BR
dc.publisherUniversidade Federal de Viçosapt-BR
dc.publisher.programCiência da Computaçãopt-BR
dc.rightsAcesso Abertopt-BR
dc.subjectBioinformáticapt-BR
dc.subjectProteínas - Estruturapt-BR
dc.subjectAnálise por agrupamentopt-BR
dc.subject.cnpqCiência da Computaçãopt-BR
dc.titleClassificação estrutural de proteínas por meio de aprendizado não supervisionadopt-BR
dc.titleProtein structural classification through unsupervised learningen
dc.typeDissertaçãopt-BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
texto completo.pdf
Tamanho:
1.72 MB
Formato:
Adobe Portable Document Format
Descrição:
texto completo

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: