Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna

Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Universidade Federal de Viçosa

Abstract

Bacterial small RNAs (sRNAs) are usually non-coding RNAs (ncRNAs) with a size of 50–500 nucleotides, and act mainly as post-transcriptional regulators. Prediction of sRNAs is a challenging issue in bioinformatics. The current computational tools deliver a high number of false positives. Hence, the development of more precise predictive methods is of fundamental importance to narrow the number of costly and time-consuming sequence validations on the laboratory workbench. In this work, we collected a series of features from the existent computational tools for ncRNA prediction in order to select the best ones for classifying putative bacterial sRNA sequences. Out of the 264 initially-chosen features, 22 relevant and non-redundant features could be selected by using feature-selection algorithms. To validate this proposal we used a dataset built with only experimentally-validated sRNAs from different bacteria sub-strains, considered as model organisms in genetics, as well as non-sRNA sequences. Finally, a Random Forest algorithm was applied for the classification task. Our first validation experiment of this proposal covered the single sequence prediction task, using 6 testing sets. Our pipeline presented better results than the only ab initio method we could find in literature. The differentiating characteristics of our method are the lower computational cost, the dimensionality reduction and the analytic power analysis due to the single 22 features selected. Our approach could reach an average of 80% of Accuracy, 71.28% of Precision, 82.11% of Specificity and an area under the ROC curve of 0.879. Furthermore, we presented a Genome-wide framework to sRNA prediction, obtaining a 39% lower False Positive Ratio and the double of Specificity than the above-mentioned ab initio method.
Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado.

Description

Citation

REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.

Endorsement

Review

Supplemented By

Referenced By