一种新的机器学习模型为早期语言习得提供了新的线索;该模型所受的训练为某个幼童以第一人称录制的长达一年多的视频和音频。这些发现不仅为理解孩童如何学习单词和概念提供了宝贵框架,而且它们可能对以更类似人类学习语言的方式开发人工智能(AI)系统至关重要。幼童从6至9个月大开始获取其第一批词汇,即他们能将口语词汇与现实世界的物体与概念联系起来。到他们年满1岁半至2岁时,多数幼童所能理解的单词量平均为300个。然而,人们对幼童如何获得其第一批词汇以及这些词汇如何植根于其视觉对应物则所知甚少。尽管人们对该话题进行了广泛争论且提出了数种假说,但对早期语言习得的研究传统上是在实验室中进行的,所得到的结果也难以在现实世界中得到泛化。更好地了解幼童中的这一过程可以为下一世代的词汇与视觉描绘间联系的多模式AI系统开发提供信息。
Wai Keen Vong和同事在此用了一种新颖的方法来解决这些问题。他们推出了幼童的对比学习模型(CVCL)观。Vong等人用对某个孩子(在6-25个月大时)所进行的第一人称体验的头盔式摄像机纵向记录对CVCL(一个相对普通的神经网络)在视频框架(代表该幼童所见)上进行了训练;该视频框架与幼童所主导的语言发声(即该幼童所听到的声音)同时出现。作者通过这一研究证明,该模型可以了解幼童在日常体验中的词汇-指称对象映对。即使该模型是在严格的实际自然体验中进行培训的,但它所能概括的特定视觉对象可超越该幼童在训练过程中在其环境中所见的视觉对象,并能将其视觉及对其的语言描述进行对接。据Vong等人披露,该感官输入有限且为相对通用学习机制的模型为探索幼童如何获取其首批词汇以及这些单词如何植根于视觉世界提供了一个计算基础。尽管该研究得到这些结论,但作者还是强调了其模型在充分填补幼童词汇学习中的空白所存在的几个局限性。