麻省理工学院的机器学习技术帮助绘制全球海洋社区的地图

麻省理工学院开发的一种机器学习技术可根据浮游植物物种之间的相互作用,梳理全球海洋数据,以发现海洋位置之间的共性。使用这种方法,研究人员已经确定,海洋可以分为100多种“省”和12种“巨型省”,它们的生态构成各不相同。

麻省理工学院开发的技术可以帮助跟踪海洋的健康和生产力。

在陆地上,一个生态区的终点和另一个生态区的起点是很明显的,例如在沙漠和稀树草原之间的边界。在海洋中,生命的大部分是微观的,并且流动性强得多,这给科学家们绘制生态上独特的海洋区域之间的边界图带来了挑战。

科学家描绘海洋群落的一种方式是通过卫星图像的叶绿素(浮游植物产生的绿色色素)。叶绿素浓度可以表明一个区域与另一个区域相比,潜在生态系统的丰富程度或生产力。但是叶绿素图只能给出给定区域中可能存在的总生命量的信息。实际上,叶绿素浓度相同的两个区域实际上可能具有植物和动物生命的不同组合。

“就像您要看一看陆地上所有生物量不多的地区,包括南极洲和撒哈拉沙漠,即使它们的生态组合完全不同,”前博士后迈克·索纳瓦尔德(Maike Sonnewald)说。麻省理工学院的地球,大气和行星科学系。

研究人员将海洋模型中的每个可用位置分配给了100个省中的一个,并为每个省分配了一种颜色。然后,他们生成了一份全球海洋地图,按省份类型进行了着色,如这些ps所示。左上角显示了每种功能类型中生物量的解释,右上角显示了营养通量。

现在,麻省理工学院的Sonnewald和她的同事们开发了一种无监督的机器学习技术,该技术可以自动梳理高度复杂的全球海洋数据集,以根据其比例和多种浮游植物物种之间的相互作用来找到海洋位置之间的共性。通过他们的技术,研究人员发现,海洋可以分为100多种类型各异的“省份”,这些省份的生态结构各不相同。可以想象,海洋中任何给定的位置都可以容纳这100个生态省中的一个。

然后,研究人员在这100个省之间寻找相似之处,最终将它们分为12个更一般的类别。从这些“大省”中,他们可以看到,尽管有些人在一个区域内的生活总量相同,但他们的社区结构或动植物种类的平衡却大不相同。索纳瓦尔德说,捕捉这些生态微妙之处对于追踪海洋的健康和生产力至关重要。

Sonnewald说:“生态系统随着气候变化而变化,需要对社区结构进行监控,以了解对渔业的影响以及海洋吸收二氧化碳的能力。”“我们无法通过传统方法完全理解这些至关重要的动力,迄今为止,还没有包括那里的生态环境。但是我们的方法与卫星数据和其他工具相结合,可以提供重要的进步。”

Sonnewald现在是普林斯顿大学的副研究员以及华盛顿大学的访问者,他于2020年5月27日在《科学进展》杂志上报告了这一结果。她在MIT的合著者是高级研究科学家Stephanie Dutkiewitz,首席研究工程师Christopher Hill和研究科学家Gael Forget。

推出数据球

团队的新机器学习技术(被称为SAGE)适用于系统化聚合生态省方法,旨在处理大型,复杂的数据集,并有可能将该数据投影到一个更简单的低维数据集。

“就像制作饼干一样,” Sonnewald说。“您需要收集这些极其复杂的数据并将其推出以揭示其元素。”

特别是,研究人员使用了Sonnewald所说的聚类算法,该算法旨在“沿着数据集爬行”并在点密度较大的区域中进行磨练-这表明这些点具有某些共同点。

“就像制作饼干一样,” Sonnewald说。“您需要收集这些极其复杂的数据并将其推出以揭示其元素。”在此p中,在左侧显示了由SAGE识别的t-SNE空间中的星团,然后将其投影到地球上。ps之间的颜色是一致的,但其他方面则是任意的。

索纳瓦尔德(Sonnewald)和她的同事们在麻省理工学院的达尔文计划(Darwin Project)的海洋数据上放宽了该算法,该计划是全球海洋的三维模型,将海洋气候模型(包括风,洋流和温度模式)与海洋生态模型结合在一起。该模型包括51种浮游植物,以及每种植物的生长和相互作用方式以及与周围气候和可用养分的相互作用。

Sonnewald表示,如果人们试图浏览这个非常复杂的51层数据空间,以了解海洋中每个可用点的共同特征,那么这项任务将是“人类难以处理的”。利用该团队的无监督机器学习算法,这种共性“开始变得清晰起来”。

该小组的SAGE方法中的第一个“数据清理”步骤能够将全球海洋解析为大约100个不同的生态省,每个省都有独特的物种平衡。

研究人员将海洋模型中的每个可用位置分配给了100个省中的一个,并为每个省分配了一种颜色。然后,他们生成了一张全球海洋地图,并按省份类型进行了着色。

索纳瓦尔德说:“在南极洲周围的南大洋,在环绕南极洲的这些带状条纹中,有勃艮第和橙色两种颜色塑造了我们对它们的期望。”“与其他功能一起,至少在模型中,这给了我们很大的信心,使我们的方法有效并且有意义。”

生态统一

然后,研究小组寻求方​​法来进一步简化他们确定的100多个省,以查看即使在这些生态截然不同的地区之间,他们是否也可以找出共同点。

“我们开始考虑类似的事情,如何将一群人彼此区分开?我们如何看待彼此之间的联系?我们使用这种直觉来了解我们是否可以量化不同省份在生态上的相似程度。” Sonnewald说。

为此,研究小组运用图论技术,根据生物量,在一张图中代表了所有100个省。这类似于一个地区产生的叶绿素数量。他们选择将100个省分为12个大类,即“特大省”。当他们比较这些大型省份时,他们发现那些具有相似生物量的省份是由非常不同的生物物种组成的。

“例如,省D和K的生物量几乎相同,但是当我们深入研究时,K的硅藻几乎没有原核生物,而D的硅藻几乎没有,原核生物很多。但是从卫星看,它们看起来可能一样。”索纳瓦尔德说。“因此,我们的方法可以开始将生态信息添加到大量叶绿素措施中的过程,并最终有助于观察。”

该团队开发了一个在线小部件,研究人员可使用该小部件查找100个省之间的其他相似之处。索纳瓦尔德(Sonnewald)的同事在论文中选择将这些省分为12类。但是其他人可能希望将省份分为更多的组,并深入研究数据以查看这些组之间共有哪些特征。

索纳瓦尔德(Sonnewald)正在与海洋学家共享该工具,这些海洋学家希望精确地确定特定生态构成的区域位于何处,因此他们可以例如在这些区域而不是在物种平衡可能略有不同的其他区域中发送船只进行采样。

“与其使用基于大量叶绿素的工具指导采样,并猜测使用此方法可以发现有趣的生态学,您还可以通过手术说:‘这就是您在这里可能会发现的模型,” Sonnewald说。“了解诸如海洋科学和全球渔业之类的物种组合的确非常重要。”

参考:“阐明生态复杂性:迈克·索内瓦尔德(Maike Sonnewald),斯蒂芬妮·迪特凯维奇(Stephanie Dutkiewicz),克里斯托弗·希尔(Christopher Hill)和盖尔·福格特(Gael Forget)于2020年5月29日发表于《科学进展》。
10.1126 / sciadv.aay4740

这项研究部分由NASA和喷气推进实验室资助。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。