查看原文
其他

零基础大数据挖掘实例讲解—基因芯片数据库(二)

2016-02-24 Freescience 弗雷赛斯

先来解答下上期几个问题,文章的创新点在于首次整合了他人的肝内胆管癌(ICC)、肝细胞肝癌(HCC)和混合型肝癌基因芯片研究,做了类似meta一样的工作。

对于肝癌和正常肝这样的设计进行类似meta整合研究已经有许多报道,所以重复一样的工作是比较难发的。而要寻找类似的idea可以从临床特征和分子角度去思考,例如找一些罕见的病理类型或原发灶v转移灶或复发灶v原发灶的设计,还可以从miRNA,lncRNA,拷贝数,甲基化等不同分子角度去做类似meta一样的工作,只要是别人没做过的,都是好的idea。


接下来就是解决芯片数据哪里来,怎么找的问题。





这是文章中用到的数据库GEO和Array Express,也是全球最大两个基因芯片公共数据。





用过pubmed的小伙伴应该对geo的搜索不陌生吧。





这是Array Express的搜索界面




本期先重点介绍
geo数据库

搜索流程

1.确定关键词

2.限定类型

3物种选择

4检测类型选择

5记录信息

6不断选择关键词反复验证




根据流程共26个数据集,需进入到项目中具体查看实验设计的内容进一步查询判别。





具体解析:

1.确定关键词:这里就以肝内胆管癌为关键词搜索,然后进入到项目中具体查看实验设计的内容,来人工寻找到肝内胆管癌(ICC),肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。当然也可以"intrahepatic cholangiocarcinoma and hepatocellular carcinoma"关键词搜索来缩小范围。因为数据量不多,本着”宁可多搜不放过一个”的原则,尽量放宽搜索条件。

 

2.限定类型:这里选择Series,表示按数据集显示。

 

3.物种选择:这里选Homo sapiens,表示选人,当然根据自己的实验设计可以选其他物种。

 

4.检测类型选择: 这里选Expression profilingby array,表示选基因芯片表达数据,当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化,测序,SNP等。

 

5.记录信息:进入到项目中具体查看实验设计的内容,记录基本信息,例如样本数,设计等和一些特殊的信息。例如下表:



6不断选择关键词反复验证:为了搜全,也可不断放松关键词例如以cholangiocarcinoma搜索。总之,不断查漏补缺,记录好信息。

 

这期就先到这里,下期将继续生物医学大数据解读和分析——找差异分子案例实践——数据库(三),解决如何看懂别人上传的数据集

本期也有几个思考问题

1.为什么别人要上传自己的实验芯片数据?

2.为什么有些上传的数据集未见其对应的发表文章?

3.不怕自己的实验数据外泄吗?


大数据挖掘交流群

加小秘书后拉进去哦
长按二维码加小秘书为好友


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存