Número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq

Imagem de Miniatura

Data

2015-02-27

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

Um dos principais desafios da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes tecidos biológicos com o objetivo de entender os mecanismos de transformação molecular. O método RNA-Seq usa transcriptoma a partir de tecnologias de sequenciamentos de nova geração (SNG), utilizados para sequenciar cDNA que é derivado de uma amostra de RNA, e, assim, produzir milhões de sequenciamentos de leitura. Porém, apesar do custo dessas tecnologias vir diminuindo, é comum realizar experimentos com pouca ou nenhuma repetição. Assim, torna-se necessária a descoberta e o aprimoramento de metodologias estatísticas eficientes para a otimização das análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse trabalho consistiu na comparação de metodologias estatísticas a fim de estudar o padrão de expressão gênica relacionado à quantificação desses genes conforme determinadas condições/tratamentos, em experimentos de RNA-Seq. Para a realização das análises utilizou-se um conjunto de dados simulados através do pacote TCC do R, com diferentes cenários, para comparar os métodos estatísticos DESeq e baySeq. Foram exploradas tecnologias de RNA-Seq do perfil de expressão gênica de um banco de dados contendo 1000 genes em duas condições, nos cenários com cinco repetições, três repetições, 2 repetições e sem repetição. Em um primeiro momento, tais dados foram analisados pelos dois métodos separadamente, comparando-se o efeito do número de repetições dentro de cada um. Em seguida, foi realizada a comparação entre os métodos, levando em conta também o número de repetições em cada cenário. De acordo com os resultados gerados nas análises não podemos afirmar que um método, entre os avaliados, é ótimo em todas as circunstâncias, pois o método de escolha para uma situação em particular depende das condições experimentais. No entanto, sob as condições utilizadas no desenvolver do experimento, o método abordado pelo baySeq foi o que apresentou um bom desempenho, nas combinações ocorridas entre os métodos e os tipos de genes analisados, ou seja, esse foi o método que obteve uma maior capacidade de identificação dos genes diferencialmente expressos.
One of the main challenges of molecular biology is to measure and assess the gene expression profiles in different biological tissues in order to understand the molecular mechanisms of transformation. The method uses RNA Seq transcriptome from Young generation sequencing technologies (NGS), used to sequence the cDNA which is derived from an RNA sample, and thus produce millions of reading sequencing. However, despite the cost of these technologies come decreasing, it is common experiment with little or no repetition. Thus, it becomes necessary discovery and improvement of efficient statistical methods to optimize the data analysis generated genome sequencing platforms. The aim of this study was to compare statistical methodologies to study the pattern of gene expression related to the quantification of these genes as certain conditions / treatments in RNA-Seq experiments. To carry out the analysis used a set of simulated data via the R TCC package with different scenarios to compare the statistical methods DESeq and baySeq. RNA-Seq technology of gene expression profile of a database containing 1000 genes were explored in two groups, in scenarios with five repetitions, three replicates, 2 repetitions and without repetition. At first, these data were analyzed by two methods separately, comparing the effect of the number of repetitions within each. Then, the comparison between the methods was carried out, taking into account also the number of repetitions in each scenario. According to the results generated in the analyzes can not be said that a method, among the evaluated, is great in all circumstances, as the method of choice for a particular situation depends on the experimental conditions. However, under the conditions used in developing the experiment, the method was approached by baySeq which performed well, in combinations that occurred between the methods and the types of genes analyzed, that is, that was the method that obtained a greater capacity Identification of differentially expressed genes.

Descrição

Palavras-chave

Estatística aplicada, Biometria, Biologia molecular - Métodos estatísticos, Transcriptoma, Regulação de expressão gênica

Citação

AMARAL, Regiane Teodoro do. Número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq. 2015. 48 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015.

Avaliação

Revisão

Suplementado Por

Referenciado Por