科学家要开发能从面部照片识别任何一条存活的北大西洋露脊鲸身份的算法
《大西洋月刊》报道,为了保护濒临灭绝的北大西洋露脊鲸,美国生物学家前不久发起了一个鲸鱼面部识别算法众包开发活动,以便他们能即时辨识鲸鱼的身分。
北大西洋露脊鲸是所有鲸鱼中最濒临灭绝的一种,目前全球仅存约500头。这个月,许多数据科学家都在努力完成一个项目,这个项目也许可以帮助研究者保护北大西洋露脊鲸免于绝灭。这些数据科学家们的目标是:开发出一种能从面部照片识别任何一条存活的北大西洋露脊鲸的身份的算法。
这个竞赛活动的发起人是美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)东北渔业科学中心(Northeast Fisheries Science Center)生物学家克莉斯汀·卡恩(Christin Khan)。克莉斯汀一直在寻找一种方法,以解决她和其他鲸鱼研究者每天在工作中都会遇上的困难。
克莉斯汀是一个鲸鱼研究团队的成员,该团队的任务是乘飞机在美国东海岸附近海面上巡航,寻找北大西洋露脊鲸。(另外两种露脊鲸生活在南半球和北太平洋。)为了密切监视目标群体,研究人员利用每条鲸鱼独特的面部标记对它们进行个别追踪。(他们甚至还为一些鲸鱼起了名字,例如1611号鲸鱼名叫“三叶草”,1006号鲸鱼名叫“加西莫多”,1250号鲸鱼叫“香草”。)但这个跟踪过程是困难而单调的。
当巡航团队看到一条鲸鱼时,他们就打开飞机的后窗拍一张快照。有些鲸鱼很有特色,很容易识别。但更常见的情况是,研究者认不出他们找到的是哪条鲸鱼,他们需要回到办公室去查阅北大西洋露脊鲸图片数据库。这个网上数据库由新英格兰州水族馆(New England Aquarium)管理,保存了近700条存活或已死去的露脊鲸照片和详细描述。研究人员根据刚拍到的那条鲸鱼的某些特征,找到数据库中具有类似特征的鲸鱼,然后逐一排除,直到确认最相符合的那一头鲸鱼。
克莉斯汀的团队每年作大约60 次巡航,巡视范围是从缅因州到纽约州长岛(Long Island)南部大约25000平方海里的海洋。北大西洋露脊鲸在美国的主要聚食区就在长岛南部。克莉斯汀说,查看图片编目来鉴定鲸鱼身分,棘手时可能要花好几个小时。如果在一次飞行找到了100条鲸鱼,给它们逐一作鉴定是很让人崩溃的。
几年前,克莉斯汀坐在办公室里,暂停手上的工作,登入Facebook,收到了一个通知。通知中要她确认一张照片里面是否有她本人。克莉斯汀照做了,那一刻她顿悟:是Facebook的算法识别出了她的脸。那么,为什么不能用类似的方法来识别鲸鱼呢?
克莉斯汀首先与Facebook联系,询问该公司是否对一个救援濒危鲸鱼的小型公益活动有兴趣?(她得到的回答是没有兴趣)。试了其他几个公司之后,她想到了Kaggle——一个专门主办数码科技竞赛的网上平台。该网站是她一位同事、在康奈尔大学任职的科学家克里斯多弗·克拉克(Christopher Clark)推荐的,他曾利用Kaggle的竞赛成功征集到一个利用录音识别露脊鲸叫声的算法。
克莉斯汀告诉Kaggle的团队,她的梦想是要找到一个能扫描任何一张露脊鲸照片──不管是从飞机上俯拍的还是在轮船上从侧面拍的,用它来识别露脊鲸的身份。但处理俯拍照片和从侧面拍摄的照片对计算机来说是两个不同的挑战,因此她最后降低了要求,仅要一个能通过俯拍照片识别鲸鱼身份的算法。
参赛者必须写出这样一个算法,使它能够在几千张北大西洋露脊鲸航拍图片中识别哪几张照片属于同一条鲸鱼。一个叫MathWorks的软件公司赞助了这个竞赛,奖金为1万美元,并为参赛者提供免费软件。克莉斯汀只需提供图片。
竞赛在2015年8月底开始,有364支团队共470人参加。参赛团队在2016年1月7日前提交算法。
他们要面对的第一个难关是让电脑校准正对每条鲸鱼的头部。鲸鱼头部的白色斑块──或者叫“茧突(callosity)──是头像识别的关键。但在航拍图片中,海面上的白色喷沫看上去和这些白斑极为相似。(有一位名叫阿提姆·库尔苏道夫的参赛者在博客里描绘了他编写程序时的困难。)
克莉斯汀自始至终关注着Kaggle论坛,参赛者在那里分享想法和遇到的问题。有一个参赛者问道:“这些像涂鸦一样的东西会随着时间改变吗?”克莉斯汀在回帖中介绍了一些关于鲸鱼的术语和识别方法:那些白色的涂鸦是茧突,鲸鱼的鼻端是角赘。
“w_8026号图片上的鲸鱼是在拉屎吗?”
“是!”克莉斯汀回答,“我们海洋生物专家管这叫排便。”
竞赛的优胜者在今年一月初已经揭晓,胜出者是数码科技公司deepsense.io的华沙办事处的团队。他们的算法识别鲸鱼的精确度高达87%。
获奖团队核心成员之一、数码研究员Jan Kanty Milczek说,这一次挑战和编写人脸识别程序的相似度比他所想的还要大。在修剪鲸鱼头部的照片后,下一步就是用电脑按某种方式将它们排序,他把这个过程称为“为每条鲸鱼拍证件照”。
该团队使用了一个神经网络。神经网络是一种能够通过例子进行学习的电脑程序。通过训练,科学家让神经网络在许多照片中寻找模式,最初在低像素的照片中寻找,然后逐渐在像素更高的照片中寻找。
克莉斯汀说,下一步她将和她的研究团队的其他成员讨论,决定是否着手用获奖的算法来制作一个软件,或是征集第二个算法,最后将两个算法结合成一个软件。
克莉斯汀说,deepsense.io的算法可以在几个方面帮助研究者:例如,即时识别鲸鱼将有助于对鲸鱼进行活组织检查的科学家研究鲸鱼的遗传特征。如果他们能在海中即时识别某条鲸鱼是否已经被检查过,就不需要再打搅它了。
克莉斯汀说,鲸鱼辨识软件带来的最大方便是节省研究者的时间,他们不再需要办公室长时间查阅数据库。有朝一日,类似软件甚至能帮助研究人员去研究其它海洋哺乳动物──比方说依靠背鳍辨认宽吻海豚,或依靠尾鳍识别座头鲸。
这个软件将使研究者有更多的时间来作实地考察,同时也就能帮助鲸鱼更长久地生活在地球上。