ChIP qPCR引物设计

如何使用GEO数据库ChIP-Seq数据和UCSC genome browser数据库设计ChIP引物?

GEO数据库

简介:(https://www.ncbi.nlm.nih.gov/geo/)
GEO数据库是NCBI数据库下面专门存储基因芯片数据和高通量测序数据的一个子数据库。一般发表研究论文时高通量测序数据都需要提交到该数据库,文章接收之后这部分的数据都是需要公开的,因此读者可以从别人已经发表的ChIP-Seq数据中查看目的蛋白在基因组上富集的区域。

UCSC genome browser

简介:(https://genome.ucsc.edu)
UCSC genome browser数据库是由美国加州大学圣克鲁兹分校维护的一个数据库,存储了人,小鼠,大鼠等多个物种不同版本的基因组信息。通过该数据库我们可以很方便的查看常见物种基因组不同基因的坐标信息,基因可变剪接模式,外显子和内含子信息,基因组上的突变信息,序列保守型等。

案例

在本案例中,我们首先需要在GEO数据库中查找文章中高通量测序数据的相关记录信息。高通量测序数据提交到GEO数据库之后会分配一个GSE编号,在撰写科研论文过程中需要在文章中描述测序数据的GEO数据库编号。一般在文章的结尾或者方法部分会有这条相关记录。我们以Richard A. Young 教授课题组2013年发表的Cell关于Super enhancer的文章为例。

1

在上述文章中我们找到测序数据 GSE编号为:GSE51522。
我们也可以在NCBI Pubmed数据库中查询对应的文章,然后点击网页右侧GEO数据库的链接,跳转到GEO数据库中对应的数据。

2

然后我们在GEO数据库根据该编号查找相关数据。

3

GEO数据库查询结果。GEO数据库会记录高通量数据相关的课题背景,实验设计,物种信息,样本的处理过程,测序的平台信息和测序模式,数据分析过程中使用的软件和基因组注释文件信息。我们一定要注意作者分析数据过程中选择的基因组版本信息,不同版本分析结果的坐标不一样。我们在接下来使用UCSC genome browser数据库时基因组版本信息一定要选择和GEO数据库中一致。

4

在同一个页面的下半部分,我们可以看到作者提交了多组不同的ChIP-Seq数据和RNA-Seq数据。在本案例中我们选择组蛋白H3K27ac ChIP-Seq数据作为例子。

5

点击GSM1246865链接进入H3K27ac ChIP-Seq数据详细页面,我们可以看到更多的信息,红色标记的都是比较关键的信息。

6

我们可以看到在这个案例中,作者分析数据采用的人类基因组hg19版本。

7

在网页的下面,我们可以找到ChIP-Seq比对基因组之后生成的WIG格式的文件。我们在这里不详述WIG格式文件的细节,大家如果感兴趣可以关注我们之后的文章。这个FTP和HTTP链接就是我们在GEO数据库中最终需要查找的内容。找到这个链接之后GEO数据库部分告一段落,我们可以将这个链接复制粘贴保存,接下来在UCSC genome browser数据库中我们会用到这个链接。

8

下一步我们打开UCSC genome browser数据库(https://genome.ucsc.edu),选择网页上方的 ‘Genome Browser’ 链接。

9

打开Genome browser网页之后我们可以看到如下界面,然后选择界面下方 ‘manage custom tracks’ 按钮。UCSC genome browser每一行基因组信息称为一个track,有的tracks记录的是基因的坐标信息,有的tracks记录的是SNPs位点信息等,我们在本案例中不详述。‘manage custom tracks’ 可以让我们自由编辑自己想要查看的基因组相关信息,可以提交自己分析之后的结果,也可以像我们本案例中展示的提交其他数据库(如GEO数据库)中存储的数据。

10

进入到Add Custom Tracks界面之后,我们一定要记得选择正确的物种和基因组注释文件。然后我们将GEO数据库中最后找到的FTP或者HTTP连接粘贴到文本框中。然后点击 ‘submit’ 按钮。

11

数据提交成功之后会显示如下界面,点击 ‘go’ 按钮。

12

urkat_treat_all’ track就是H3K27ac ChIP-Seq 峰图结果(如图15),我们可以选择自己感兴趣的区域,滑动鼠标进一步放大,也可以在网页上方的文本框中输入基因名或者基因组坐标信息,跳转到相应的区域。

13

高亮区域就是我们希望放大之后进一步查看的区域。

14

下图显示我们选择的TNFSF10基因的启动子区域有一个明显的H3K27ac peaks,我们可以选择网页上方View->DNA,点击进入下一个界面,得到我们选择区域DNA的序列信息。

15

点击 ‘get DNA’ 查看DNA序列信息。

16

我们最终得到的DNA序列信息,读者也可以选择自己感兴趣的基因或者区域,查看对应的DNA序列信息。得到DNA序列信息之后我们就可以按照常规的引物设计流程设计ChIP实验的引物。
我们推荐大家设计ChIP引物长度18-22nt,扩增产物长度在100-200bp,GC含量在40-60%,Tm值在55-65°C。