Análise de dados de RNA-Seq com diferentes números de fatores e repetições

Imagem de Miniatura

Data

2015-07-22

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso.
The RNA-Seq technology show to be revolutionary for gene expression studies. However, more studies in literature about the analysis of RNA-Seq data are necessary, even because it is a costly method. Because of that high cost, it is important to take the full advantage of the available samples to conclude about more factors and its interactions. The aim of this work is to perform a comparative of the performance of DEGs (differential expression genes) identification analysis in experiments with different numbers of factors and replicates, but all of them with the same number of samples, or, in other words, with the same cost. For the analysis, was simulated a dataset from experiments with different numbers of factors and replicates. The package TCC, developed to the free software R, was used to perform that simulation. For the normalization of the data, TCC was also used, and for the DEGs identification the package DESeq was used, also developed to R. Finally, the performance of the analysis of each experiment was calculated with the use of ROC (Receiver Operating Characteristics) Curves, using the package ROCR, also available for R. After the implementation of the methodology, it was possible to observe that, when absence of interactions between factors, do not occur loss of analysis's performance when more factors are added, and, when there are interactions of factors, that loss happens. Therefore, the use of more factors, to the cost of having less replicates, may be advantageous.

Descrição

Palavras-chave

Biologia molecular, Expressão gênica, Bioinformática, Análise de dados (Estatísticas), Biometria

Citação

SOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015.

Avaliação

Revisão

Suplementado Por

Referenciado Por