用户故事

麻省理工学院将癌症研究整合到实验室和课堂中

挑战

通过识别蛋白质和分析它们的相互作用来改进癌症的诊断技术

解决方案

使用MathWorks工具使学生和研究人员能够分析质谱数据,模拟复杂的蛋白质相互作用,并将结果可视化

结果

  • 教育与研究相结合
  • 计算时间缩短了一个数量级
  • 获得研究资助

“研究人员通常对结果感兴趣,而不是编程。MATLAB使我们能够在更高的抽象层次上思考,并花费更少的时间来开发、调试、测试和创建图形。因此,我们可以更快地得到研究结果。”

吉尔·阿尔特洛维茨博士,麻省理工学院和哈佛大学
Alterovitz博士介绍生物分子网络。

在癌症的早期阶段进行诊断可以大大提高患者的生存机会。例如,卵巢癌通常只有在发展到第三或第四期后才会被发现。对于在第一或第二阶段被诊断出患有这种疾病的患者,在五年内生存的几率从不足50%增加到约95%。

麻省理工学院(MIT)的研究人员和学生正在探索通过检查血液蛋白质来诊断早期癌症的方法。使用MathWorks工具,这些研究人员正在识别仅存在于癌症患者中的蛋白质浓度和蛋白质相互作用,以实现早期癌症检测。学生们使用MathWorks工具来学习研究小组的成果,并为其做出贡献,同时获得知识和经验,以推动未来生物医学的进步。

“在生物信息学领域,两年前进行的研究被认为是过时的。有了MathWorks工具,我们可以让学生参与到我们小组目前正在进行的前沿研究中来,”Gil Alterovitz博士说,他是麻省理工学院/哈佛健康科学与技术部门的NIH生物医学信息学研究员。MathWorks工具使研究小组和学生(包括生物学专业和工程师)能够专注于研究,花更少的时间编程。”

将复杂的生物分子网络(左)转换为抽象表示(右)的新方法促进了对其固有成分的发现和描述。

挑战

为了更好地识别可能预示癌症存在的蛋白质,麻省理工学院和哈佛医学院的研究人员,包括Alterovitz、Marco F. Ramoni和Isaac S. Kohane,试图将质谱分析(MS)结果与蛋白质相互作用的知识结合起来。质谱数据包括特征峰和谷,可以通过分析来区分样品中的分子化合物。研究人员需要工具来处理这些数据,并建立一个复杂的模型来表示蛋白质的相互作用。

“我们必须分析包括数百万个数据点的质谱数据,”Alterovitz解释说。“我们还需要建立一个相互作用的生物分子网络模型,进行统计计算,以及对该网络特性的其他分析,并将这些与质谱结果结合起来。”

在这项研究的同时,Alterovitz还发起并指导了一门名为生物信息学和蛋白质组学:基于工程解决问题的方法.高年级的本科生以及一年级和二年级的研究生都参加了该课程。阿尔特罗维茨希望通过一套工具将课程标准化,使学生能够从正在进行的研究中受益,同时又容易学习。

阿尔特罗维茨解释说:“由于时间有限,我们不想浪费时间教授学生一门新语言。”“我们需要一种大多数学生已经熟悉的工具,一种生物学家和工程师都能轻松掌握的工具。”
使用MATLAB分析并生成生物网络,用于通过3D立体眼镜、语音识别和头部跟踪进行交互研究。

解决方案

麻省理工学院的研究人员正在使用MathWorks工具来推进生物信息学和蛋白质组学。麻省理工学院的学生正在使用同样的工具来获得这些领域的实践经验。

在实验室里

Alterovitz和他的研究小组使用MATLAB®开发用于分析质谱数据的算法,并对蛋白质相互作用网络进行建模,该网络由2万多个节点和10万条边组成。每个网络节点代表一个与蛋白质相关的质量,每条边代表节点之间的相互作用。

研究人员还使用MATLAB来可视化数据,绘制结果,并访问与其他生物医学研究人员共享的数据库。

由于MS数据类似于声音或语音数据中的一系列峰值和低谷,研究人员可以应用信号处理技术来处理数据。麻省理工学院的研究人员使用信号处理工具箱™来处理这些MS数据,并应用滤波器来消除噪声和不相关的数据,使他们能够专注于更易于管理的数据集。

生物信息学工具箱™使团队能够从各种互联网资源中快速获得有关蛋白质的信息。该团队使用生物信息学工具箱计算分子量,获得氨基酸序列以及特定蛋白质的其他属性,并将信息下载并解析为MATLAB可访问的数据结构。

麻省理工学院的研究人员使用统计和机器学习工具箱™来计算网络属性,包括连通性和幂律分布。他们使用模型来计算样本中的蛋白质数量,使用统计和机器工具箱来简化曲线拟合,并生成负二项式、伽马和指数分布。

该小组的研究涉及数百名患者的数百万个MS数据点。然而,由于每个患者的数据是独立的,处理信息的任务非常适合并行化。使用并行计算工具箱™和MATLAB并行服务器™,该小组在一个大型计算机集群上并发执行他们的MATLAB算法。

该小组在不同的处理器上独立分析了每位患者的MS数据。Alterovitz解释说:“除了显著减少计算时间外,并行计算工具箱还使我们能够快速编程这种方法。我们没有学习分布式编程,而是使用了现有的MATLAB代码,并使用并行计算工具箱使其并行。”

该团队还使用了一种分布式方法,通过将网络划分为块并并行运行任务来加快网络属性和统计数据的计算。

在教室里

对于生物信息学和蛋白质组学课程,Alterovitz和他的其他课程讲师选择了MATLAB,因为它易于使用,与其他工具的互操作性,以及能够在不断增加的抽象级别上呈现概念。

“班上大约90%的学生已经使用过MATLAB,”Alterovitz说。“每个人都立即开始使用MATLAB,即使是那些之前没有经验的人,因为你不需要知道如何编程来使用它。”

此外,MATLAB为学生提供了一种简单的方法来访问和学习在麻省理工学院和哈佛大学进行的领先研究。

本课程的教学方法以阐述理论为基础。它涉及使用有限的概念和例子,并逐渐增加复杂性。Alterovitz解释说:“MATLAB本质上支持不同层次的复杂性,通过不同层次的抽象。一开始,学生们运行代码并可视化结果。之后,他们可以探索、更新,甚至将代码与其他编程语言集成,以添加更多细节。”

课程作业也在生物学层面上反映了这种方法。学生们首先使用MathWorks工具来分析基本的DNA序列信息。然后,他们进一步研究更复杂的表达数据、蛋白质,最终使用网络模型研究蛋白质和其他分子之间的相互作用。

结果

  • 教育与研究相结合.“通过MATLAB,我们可以为学生提供我的小组和其他小组的最新代码和研究结果,”Alterovitz指出。“有了这些经验,学生们可以帮助研究小组,为我们的努力做出贡献。”

  • 计算时间缩短了一个数量级.“使用MATLAB代码的分布式方法,我们在计算机集群上运行了我们的分析,并将计算时间减少了一个数量级——从大约一周减少到不到一天。这是至关重要的,因为我们面临着会议的最后期限,而结果在我们的工作被接受方面发挥了关键作用,”Alterovitz说。

  • 获得研究资助.Alterovitz说:“完成课程后,一个生物学学生在我的研究小组工作了一个学期,并赢得了麻省理工学院本科生研究机会计划的资助。”“有了MATLAB,他很快就变得非常富有成效,并及时得到了结果,以便申请拨款;否则,这是不可能的。”

麻省理工学院是全球1300所提供MATLAB和Simulink校园访问的大学之一。有了校园范围的许可,研究人员、教师和学生可以访问最新版本的产品的公共配置,以便在任何地方使用——在教室、在家里、在实验室或在现场。2022世界杯八强谁会赢?

Baidu
map