我们在我们的机器汽车中喊叫悠久,这些汽车分解,电视广播我们的失败团队。但现在,我们的机器了解我们。他们正在回来。他们正在挖掘厨房里的食谱,导航我们的汽车旅行,在互联网搜索引擎上完成我们的句子,并翻译外语。
为此,我们有计算语言学,也称为自然语言处理(NLP),要感谢。这是Dragomir Radev的研究重点之一,A.Bartlett Giamatti计算机科学教授。这是一个研究领域,计算机科学,语言学和人工智能相交,它在我们的生活中越来越突出,从Apple的Siri自动化客户服务。
简而言之,NLP是一种培训计算机以了解人类语言的手段。这并不容易。人类语言是流体;单词随着时间的推移或背景而变化。以例如,“简而言之”短语。它可以是“几句话”或“在一种水果的硬壳内发现的可食用核。”区分这两个非常不同的含义可以很容易地对我们来说,但可以对计算机混淆。自然语言是为人类的思维设计的 - 措辞可能是不精确的,仍然是清晰的。用正式的语言 - 计算机代码 - 例如 - 每个角色都需要按顺序,或者一切都消失了。NLP桥梁那个差距。
Radev的工作采用了许多计算技术,包括人工神经网络,也称为深度学习。基本上,计算机学会通过馈送巨大和广泛的数据量来识别复杂的模式。单词,短语,语法和语法规则是分配的数学值。这个想法并不是新的,但它在过去几十年里拿起,因为数字数据存储和计算机处理能力急剧增加。如果您最近使用谷歌翻译,并注意到结果的速度和准确性,这是因为该公司切换到神经网络系统。
有些人认为计算机不是真正的学习语言,因为他们没有获得人类的方式。幼儿学会不要通过困扰大规模的文本,而是通过所有五种感官与周围的世界融合。差异不关心拉迪夫。
“它不会影响我们如何进行研究,因为我们不与人类打交道,”他说。“我们如何向计算机教语言不必与人类了解语言的方式。当你建造一架飞机时,你没有说'鸟儿拍打他们的翅膀,让我们建立翻转他们的翅膀的飞机。这不是如何做到这一点,至少不是在实践中。我们只希望他们飞,无论他们的翅膀是否搬家。“
作为这些科目的兴趣水平的一个迹象,132名学生在去学期的Radev的NLP课程中签约。此前,他在大规模开放的在线课程(MOOC)中向超过10,000名学生教授NLP。他堕落,他教导了人工智能的课程,研究计算机的研究,以执行人类的做法,这将被认为是聪明的任务。课程涵盖逻辑,学习和推理。它包括具有挑战性的作业,让学生建立可以打两个玩家游戏的系统,如othello,解决迷宫,模拟自治车驾驶,使用神经网络翻译文本,并学习与环境进行交互。这是计算机科学部中最大的阶级,本学期拥有200多名招生的学生。
通过另一个项目,AAN(关于NLP),Radev还帮助那些对NLP感兴趣的人在越来越多的主题研究方面导航。他和他的学生来自Lily Lab(耶鲁语言,信息和学习)收集了超过25,000个论文和3,000多名教程,调查,演示文稿,代码库和NLP和计算语言学讲座。最终的目标是使用NLP自动为寻求它生成教育资源,并以正确的方向转向它们。它包括单纸摘要,算法的多源描述,研究主题调查和教学资源的用户建议。
对电脑教授幽默
计算机可以PUT OUT如何通过难以想象的数据筛选,并计算超过1700万位数的素数。但他们可以讲一个笑话吗?Radev说,可能不是一段时间,但他仍然会尝试。
作为正在进行的项目的一部分,Radev一直与Robert Mankoff,最近退出的纽约人的漫画编辑。具体而言,他们专注于杂志的每周标题比赛,读者向漫画家的插图提交标题。标题判断最有趣的胜利。
Radev正在与纽约人合作,蒸馏成千上万的提交,它收到其每周的标题竞赛。礼貌的纽约人。
该杂志每周收到数千份提交,从WILS-BE漫画家。编辑然后将那些纽约人读者判断为三名决赛选手。在NLP的帮助下,这是一个艰巨的过程,可能会更容易。Radev解释说,每场比赛都会根据同样的想法激发多个提交。例如,一个插图可能会激发许多提交的提交,与站在酒吧的马的单词上有类似的戏剧。同样,一只调酒鹅在同一张图片中为马提供了不同批次与密切相关的笑话。
哥伦比亚大学和雅虎实验室的Radev,Mankoff和合作者设计了一个计划,打算在提交的标题中识别主题。
“目的是让编辑每周不必阅读5,000份提交”,“Radev表示。“如果100个是相同的笑话,他们只能只读一两个。如果基本的想法很有趣,那么他们可以深入挖掘并挑选特定的。如果它不好笑,他们只能跳过整个群集。“
分支从这是一个项目,其中计算机会产生自己的有趣字幕。他们遇到的一个早期绊脚石是,虽然电脑已经很好地挑选了照片的物品,但是插图仍然给他们很多麻烦。为了绕过那个,他和他的学生用程序可以识别的语言描述了大约500个漫画的图像。
“现在,通过查看漫画的描述和已经制作的提交的描述可能更容易提出新的笑话 - 因为这是一个很好的起点,”他说。“我们可以将两个标题组合成一个,或通过添加几个单词来修改现有标题,以使其声音更有趣。”
这是一个特别棘手的挑战。到目前为止,电脑在棋子,古老的比赛中达到了人类,甚至琐事表现出危险。但幽默是一种独特的人形特质,拉塔夫夫人不指望这些结果将在随时将任何漫画人员从工作中脱离(也不,他认为,他认为自动翻译将取代他们的人类同行)。“它可能会或可能不起作用,但能够看到计算机是否可以理解纽约人漫画并获得笑话,这将是非常有趣的,”他说。
Radev对所谓的计算创造力感兴趣。这是允许Watson,Siri等程序等程序,不仅提供正确的答案,甚至会显示一些个性。已经尝试使我们的设备变得有点聪明。例如,SIRI偶尔会给一些温柔的鼻子:问:“Siri,生命的意义是什么?”A:“42”(参考经典书籍“Hitchhiker Galaxy指南”)。
“但它并没有真正有一种幽默感 - 这是人类预先编程的,”拉德夫说。“将来会有很有趣的是,有实际上可以理解和产生有趣的文本的系统。”
教练下一代计算语言学家
在保加利亚长大的Radev精通多种语言。“我喜欢多么相似,但不同的语言是如何不同的,”他说。“事实上有规则,但规则并不严格,这使得它更有趣。我不喜欢纯粹的数学,因为事情太严格了。语言在中间的某个地方。“
2006年,Radev公司共同创立了北美计算语言学奥林匹克(Naclo),一年一度的竞争,汇集了来自美国的中高中学生,除了识别语言学中的学生,还向他们介绍了计算语言学领域。
Naclo有超过20,000名学生参与者。与许多与计算机科学相关的高中活动不同,Naclo的近50%的参与者是女性。最重要的决赛者继续参加国际语言学奥林匹克。今年的NACLO(包括耶鲁在内的200个网站举办了200个网站),八月向都柏林举行了八名参与者。
Naclo参与者获得了一系列问题,从各种语言中汲取,通常涉及翻译。一些呼吁传统语言学方法,其他人要求计算到达解决方案。逻辑和推理是唯一需要的技能参赛者。Radev表示,他和另一个组织者认识到语言学很少在高中授课,因此在某种程度上没有必要先知道特定语言或语言学知识。
问题通常基于相对晦涩的语言。例如,一组句子可能会在博茨瓦纳和纳米比亚的大约2,600人中编写了一组句子 - 每个句子,然后是英文翻译。基于他们可以从这些句子推断的模式,那么学生们必须翻译下一组TAA句子,没有伴随英语翻译。
“我们使用图表,因此高中学生更容易理解,”2015年的Radev说,Radev被评为计算机科学最高荣誉的计算机械协会。“这是这个词的语义呈现,这个词,这个词,'然后你必须pu出这个方法如何运作和将一些额外的单词翻译成这些演示文稿。”
歧义“astro”这个词作为填字游戏。
Tom McCoy今年毕业于耶鲁耶鲁斯,在语言学中,开始在Naclo竞争时,他是居住在匹兹堡的高中学生。他当时不知道计算语言学,但他喜欢拼图和违反守则,他的妹妹建议他竞争尝试。Radev是他的教练之一。
“他真的很棒,”麦考伊说。“我认为描述他是”一种自然力量“的最佳短语。他只是做了这么多的事情,并一切顺利。他是一位非常活跃的教授/研究员,而且他也设法给奥林匹克捐赠了这么多时间。“
McCoy致力于在加入Naclo之前学习生物学,将他送到另一个课程。他堕落,他进入了着名的博士学位。 Johns Hopkins认知科学的计划,重点是计算语言学。
Radev于2017年1月在耶鲁后不久招募了他的Lily实验室。他迅速组建了一支耶鲁学生的团队,以便在神经网络系统上汇总相关新闻文章。由此产生的纸张,其第一作者是Michihiro Yasunaga,YC'19,在8月温哥华的计算自然语言学习的着名会议上被接受。由Radev领导的百合(语言,信息和学习实验室)Lab,现在包括六个博士学位,超过十几个耶鲁大学生。百合团队正在研究一些关于调查生成,医疗文件理解,交叉语言信息检索和对话系统的新论文。
合作
NLP是一种研究领域,可以很好地为跨学科合作,而Radev则没有任何时间浪费。甚至在他在1月到达耶鲁耶莱之前,Radev也与来自其他领域的若干教师联系,了解有关罢工合作的其他领域,包括来自医学院,人文学科和社会科学计划的其他领域。
他说:“现在存在一般意识,现在自然语言处理和这些其他工具对那些其他领域有所帮助,”他说。“十年前,来自其他领域的许多人甚至都不知道你可以做这种工作。如果我们与政治科学或医学中的人合作,他们会出现一些东西,因为现在他们可以以之前无法分析数据。计算机科学人们通过有趣的数据集来获得其中的东西,以便为自己的理论工作。“
政治学家可以利用这项技术,例如,分析演讲和民选官员的文本。例如,在辩论中对战略和修辞进行客观分析,可以帮助辨别候选人是否呼吁民族主义或对经济的担忧。姓名呼叫多久用作辩论策略?Radev的学生之一Lincoln Swaine-Moore分析了官员和贡献者对其运动的演讲之间的最后学期联系。
“例如,如果参议员从制药行业获得一定的资金,那么这是否意味着他们会在演讲中有关药物问题的更多信息?”
医疗保健和医学的领域也从自然语言处理中掌握了受益。
“另一种可能性是看看医学院推荐信中是否有任何偏见,”他说。“有些研究表明申请某些工作的女性得到不同的对待。人们更频繁地打断它们,或者他们以消极的方式感知某人的某个特征 - 他们可能会使用“火热”这个词,而一个人将用温和的话语描述。“
他还与耶鲁医学院讨论了Harlan Krumholz教授可能的合作。Krumholz,Harold H. Hines Jr.医学教授,耶鲁开放数据访问项目主任,以及耶鲁研究计算中心的教师联合主任,说,护士说明,放射学报告等许多其他文件已创建医学中的一座非结构化数据。Radev的专业知识可能有助于理解这一切。作为一个例子,他指出,将患者在1到5的等级中征收患者患者的症状。
“我们给了他们五种选择,但事实是他们必须告诉我一个故事让我了解他们的感受,”克鲁穆兹说。“圣杯是如何弄清楚如何采取在医学中的任何地方存在的大量未纪念的数据,并将其转化为可以引发新知识和洞察力和更好地照顾的东西。”
这样做意味着远离一个要求人们谈论并像计算机一样思考的系统。相反,他说,我们需要计算机从人们自然沟通方式上提出洞察力。这是一个令人抱负的,而不久前,可能似乎无法触及。与像Radev这样的人的工作,它开始发生。
“这就是为什么我立即认为他会在这里是一个如此伟大的补充,为什么我寻找与他一起工作的方法,”Krumholz说。“他对我们的教师来说是一个壮观的补充,给了我们更多世界级的专业知识。当像这样的人到达校园时,你会立即抽出来看看是否有合作有机会。“