您现在在位置: » 内容
解读单细胞RNA-seq技术
作者: 来源: 2014-06-23

  导读:多年来,跟踪一个单细胞的转录组,超出了我们的能力。但是现在,时代已经变了,新的单细胞RNA-seq方法,可以分析大量的细胞及它们的命运。

  


 

  多年来,跟踪一个单细胞的转录组,超出了我们的能力。但是现在,时代已经变了,新的单细胞RNA-seq方法,可以分析大量的细胞及它们的命运。

  我们都参加过大型生日派对:在拥挤的房间里,与许多人聊天、吃饭和庆祝。但是,试想你并不知道寿星是谁,只是像一个局外者看待这个派对。你可能会觉得整个事件看起来与其他的生日派对没有什么不同。然而,派对上的每个人都在寿星的生活故事里担当独特的角色。所以,如果不知道每位来宾和他们的角色,一个局外人可能就会做出错误的假设,或错认聚会上的人。

  复杂器官的细胞成分,有点类似于生日派对。细胞群体在特定的时刻聚在一起,执行关键的功能,形成一种器官。细胞亚群以不同的方式起作用,在特定的时间点履行专门的职责。(如同在聚会上,不同的人带来礼物、吃食或帮助安排活动)。从技术的角度来看,仔细分析这些细胞如何单独起作用,制造一个器官,为研究人员带来了巨大的挑战。但是,随着科学家们不断设计出的巧妙新技术,梳理每个细胞在许多复杂过程中所起的作用,这些挑战都会逐渐消失。

  一系列事件

  当进入一个生日聚会时,大多数人所做的第一件事情就是,简单的观察,跟来宾交谈。他们是谁?他们做什么?他们来自哪里?他们认识寿星多久了?

  在解决“单个细胞如何在复杂系统中起作用”的过程中,科学家采取了相似的路径。他们选择单个细胞并孤立地研究它们。然而,分离单个细胞进行分子分析,非常棘手,而接下来的问题是,一旦分离出它们之后,如何研究它们?那就是,测定特定时刻每个细胞正在制造的RNA转录本,对正在发生的事情获得一个快照。有了足够多的快照,就有可能渐渐弄清复杂的细胞事件和不同生物学过程所需的时间。

  单细胞RNA测序(RNA-seq),是从2008年高通量测序变革阴影中出现的新一代测序(NGS)应用,当时有几个实验室报道了测定生物学样本RNA含量的不同方法。在过去的六年中,RNA-seq已经给我们展示了RNA世界的惊人多样性,从我们已经知道的转录合成蛋白质的mRNA,到在细胞中发挥调节作用的非编码RNA。

  早期的RNA-seq研究主要集中在细胞群体,在细胞周期不同时间点的细胞混合物,对其进行测序,以确定正在表达的RNA转录本。而这些转录谱能提供已知的和新的RNA目录,这一信息可告诉你参加聚会的宾客名单。这是一个很好的开始,但没有提供你可能会喜欢的详尽细节。

  时间就是一切

  哈佛大学医学院的再生生物学和干细胞助理教授John Rinn,致力于探索RNA世界。他已经发现了一些新的功能性非编码RNA(ncRNA),ncRNA一度被认为是跟转录噪声差不多的分子。

  长非编码RNA(LncRNA,例如XIST)是一类专门的RNA,其生物学作用最近才开始为人所了解。Rinn称:“我们可以利用单细胞测序,进一步了解XIST的功能。”

  在2012年,Rinn的研究小组开始寻找更多功能形式的长非编码RNA,特别寻找充当强大细胞调控因子的RNA。为此,他和同事们应用单细胞RNA-seq,来检测细胞分化这类过程中基因转录的pseudotemporal动力学。通过编目所有的细胞RNA,连同它们在细胞中的出现和消失时间,Rinn希望找到一些有趣的新lncRNA,他能够将特定的功能归因于这些新lncRNA。但是,很奇怪的事情发生了:他发现了无聊的旧mRNA。

  Rinn将这些结果发表在今年3月份的《Nature Biotechnology》杂志,介绍了肌细胞生成的6种新细胞调控因子,他解释说:“细胞没有定义明确的mRNA表达模式,它不像‘现在打开’和‘关闭’那么简单。”然而,对Rinn来说最大的惊喜可能就是,他在数据中观察到了基因表达的随机性,相当于在生日聚会上不断来去的人们,每一分钟都在改变着房间的动态。你如何捕捉所有这些变化并分析这些数据呢?

  随机性总是为生物学家带来挑战。在这种情况下,在单个细胞之间基因表达数据显示出非常高程度的可变性。生物学变化不是唯一的问题——Rinn也需要考虑测序文库制备过程中的实验可变性。但是可变性也提出了可能性。

  Rinn指出:“实际上,可变性和多样性会告诉你调控因子在哪里。”想象一个调控因子不受可变性的影响——这会产生更多的数据可信性。他们的解决方案是,开发一种无人监督的聚类算法,称为Monocle,能够提高单细胞RNA-seq数据的时间分辨率,并处理基因表达数据中的变化。利用Monocle的分类方法,Rinn能够找到六种新的肌细胞生成调控因子,同时解释数据集中的实验和生物学变化。

  诸如Monocle的程序的出现,最终会为研究人员提供一种途径,以一种有意义的方式,检测生物学过程的基因表达动力学,使他们能理解来自RNA-seq转录本目录的所有数据,较全面地了解细胞动力学。

  准备一个大型聚会

  当研究很少数的细胞时,用今天的测序技术和分析平台,去确定在转录级联早期或晚期阶段中正在打开的是什么,是一个相当简单的实验。但是,怎样处理较大数量的细胞,获得更详细的信息呢?

  通过在小型生日聚会上与别人交谈,可以了解更多关于寿星的事情。然而,这不难看出,随着聚会越来越大,很难发现那些相同的模式、趋势和信息。如果你只跟一小部分的客人交谈,如果偶然他们告诉我们关于寿星的完全不同的故事、给我们的信息太少,以至于不能建立联系并得出结论,会发生什么情况?显而易见的答案是,我们需要跟更多的人交谈。在单细胞分析中同样如此。

  Rinn说:“用200个细胞,你开始了解情况。但是原则上,你采用的细胞越多,分辨率就越高。”分析几百个单细胞全转录组的实验,即使用今天的测序系统,工作量也很大,这还不考虑数据分析在内。

  魏茨曼研究所免疫系的Ido Amit面临着这种情况。测定有限数量细胞的转录组,特别是那些已经用特殊细胞标记分离出来的细胞,因此,这对复杂的细胞过程和每个细胞所起的作用,只能提供有限的认识。此外,需要公正的信息来了解从每个分析的细胞所获得的独特转录谱。

  为了解决这个通量限制,产生较高容量的转录组数据,Amit及其同事开发出一种大规模并行RNA-seq工作流程,能够同时破译数百甚至数千个转录组,而不需要特定的标记,相关研究结果发表在今年4月份的《Science》杂志。这一工作流程的关键是,能够收集单细胞样本,然后barcode和多重RNA-seq反应。

  最初,通过荧光激活的细胞分选(FACS)将单个细胞分类到384孔板中。然后,利用标记的材料和三个级别的barcoding,集中处理细胞。Amit研究小组利用该工作流程,能够测定4000多个小鼠脾脏的单细胞RNA,这些细胞被浓缩用于表达CD11c表面标记。多路复用实验可让1536个细胞在一个单轨道进行测序,在来自每个细胞的200和1500种不同RNA分子之间,产生22000个对齐的读长(reads)。类似于Rinn的发现,Amit的数据也显示大量基因的高度细胞变异,这明确表明,检测的脾脏细胞群具有异质性,并且有机会发现新的调控因子和通路。

  近年来,RNA-seq方法和分析工具有了很大的提高,这使得单细胞分析不仅能表明变异存在,也为研究人员提供了一种方法,来了解这一转录变异背后的生物学意义。