别瞎折腾了！搞懂geo数据库和tcga数据库，科研小白也能少走弯路-金汇商贸

真的，我现在看到那些刚进实验室的师弟师妹还在为找数据头秃，心里就一阵无语。你们知不知道，现在做生信分析，最缺的不是技术，是找数据的耐心和方法。很多人一上来就抱着个Excel表格死磕，或者去那些乱七八糟的论坛问“有没有现成的数据”，我都想笑。

咱们今天不聊虚的，就聊聊两个真正能救命的神器：geo数据库和tcga数据库。别被这名字吓住，其实没那么复杂。

先说geo数据库。这玩意儿就像是一个巨大的公共图书馆，里面堆满了各种各样的芯片测序数据。它的优点是数据量巨大，几乎涵盖了你 imaginable 的所有疾病和样本类型。但是！它的缺点也很明显，就是乱。真的乱。你搜一个基因，出来的结果可能有一百个文章，每个文章的样本量、分组方式、甚至实验平台都不一样。

我之前带过一个学生，想找一个肺癌的数据做验证。他在geo里搜了半天，下了几十个数据集，结果发现有的用的是Affymetrix平台，有的用的是Illumina，连探针ID都对不上。最后折腾了一周，啥也没干成。所以，用geo数据库的时候，一定要看清实验设计。别光看标题，要去点进去看里面的Sample information。还有，记得去NCBI的GEO2R功能里看看，有时候直接在线分析比你自己下载再处理要快得多，虽然功能简陋点，但胜在方便。

再说说tcga数据库。如果说geo是杂乱的图书馆，那tcga就是精心整理的档案馆。它是癌症基因组图谱，专门针对各种癌症。它的优势在于临床信息非常完整。你不仅能有基因表达数据，还能拿到病人的生存时间、分期、分级甚至治疗反应。这对于做预后模型或者生物标志物筛选来说，简直是宝藏。

但是，tcga也不是完美的。它的样本量虽然对于单癌种来说够了，但比起geo那种海量数据，还是显得有点“小气”。而且，tcga的数据主要基于RNA-seq和芯片，如果你要做甲基化或者蛋白水平的验证，还得去其他数据库找。我之前帮一个博士改文章，他非要用tcga的数据去推论某种罕见病的机制，我直接告诉他：别闹了，tcga里根本就没几个样本，统计效力根本不够。

很多人问我，这两个数据库到底怎么选？我的建议是：如果你做的是探索性研究，或者样本量要求极大，先刷geo数据库，但要做好清洗数据的心理准备。如果你做的是临床相关性分析，特别是癌症领域，tcga数据库是首选，因为它的临床注释太完善了，省去了你很多手动整理表格的痛苦。

这里有个小窍门，很多人不知道。在搜geo数据库的时候，不要只搜疾病名称。试试加上“microarray”或者“RNA-seq”，这样能过滤掉很多不相关的数据。还有，tcga数据库虽然好用，但它的原始数据下载有时候很慢，建议大家用GDC Data Transfer Tool，比浏览器直接下稳定多了。

总之，工具只是工具，关键还是看你会不会用。别指望有一个数据库能解决所有问题。geo数据库和tcga数据库，一个广，一个深，结合起来用，效果最好。我见过太多人因为数据质量差，导致最后结果出不来，白白浪费几个月时间。真的，前期多花点时间筛选数据，后期能省一半的力气。

别总想着走捷径，生信分析没有捷径，只有扎实的基础和对数据的敬畏。希望这篇能帮到正在迷茫的你。要是还有不懂的，多看看官方文档，比在这里问我要靠谱得多。毕竟，我也不是万能的，我也经常去翻那些晦涩的说明书。加油吧，科研人。