零基础大数据挖掘实例讲解—基因芯片数据库（二）

2016-02-24 Freescience 弗雷赛斯

先来解答下上期几个问题，文章的创新点在于首次整合了他人的肝内胆管癌(ICC)、肝细胞肝癌(HCC)和混合型肝癌基因芯片研究，做了类似meta一样的工作。

对于肝癌和正常肝这样的设计进行类似meta整合研究已经有许多报道，所以重复一样的工作是比较难发的。而要寻找类似的idea可以从临床特征和分子角度去思考，例如找一些罕见的病理类型或原发灶v转移灶或复发灶v原发灶的设计，还可以从miRNA，lncRNA，拷贝数，甲基化等不同分子角度去做类似meta一样的工作，只要是别人没做过的，都是好的idea。

接下来就是解决芯片数据哪里来，怎么找的问题。

这是文章中用到的数据库GEO和Array Express，也是全球最大两个基因芯片公共数据。

用过pubmed的小伙伴应该对geo的搜索不陌生吧。

这是Array Express的搜索界面

本期先重点介绍

geo数据库

搜索流程

1.确定关键词

2.限定类型

3物种选择

4检测类型选择

5记录信息

6不断选择关键词反复验证

根据流程共26个数据集，需进入到项目中具体查看实验设计的内容进一步查询判别。

具体解析：

1.确定关键词：这里就以肝内胆管癌为关键词搜索，然后进入到项目中具体查看实验设计的内容，来人工寻找到肝内胆管癌(ICC)，肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。当然也可以"intrahepatic cholangiocarcinoma and hepatocellular carcinoma"关键词搜索来缩小范围。因为数据量不多，本着”宁可多搜不放过一个”的原则，尽量放宽搜索条件。

2.限定类型：这里选择Series，表示按数据集显示。

3.物种选择：这里选Homo sapiens，表示选人，当然根据自己的实验设计可以选其他物种。

4.检测类型选择: 这里选Expression profilingby array，表示选基因芯片表达数据，当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化，测序，SNP等。

5.记录信息：进入到项目中具体查看实验设计的内容，记录基本信息，例如样本数，设计等和一些特殊的信息。例如下表：

6不断选择关键词反复验证：为了搜全，也可不断放松关键词例如以cholangiocarcinoma搜索。总之，不断查漏补缺，记录好信息。

这期就先到这里，下期将继续生物医学大数据解读和分析——找差异分子案例实践——数据库（三），解决如何看懂别人上传的数据集。
本期也有几个思考问题：
1.为什么别人要上传自己的实验芯片数据？
2.为什么有些上传的数据集未见其对应的发表文章？
3.不怕自己的实验数据外泄吗？

大数据挖掘交流群

加小秘书后拉进去哦
长按二维码加小秘书为好友

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！