2015年的NLP应用:音乐创作,打击犯罪和寻找爱

Olga Korobova

http://idibon.com/composing-musicals-fighting-crime-finding-love-nlp-applications-of-2015/


我在Idibon开始干的最好玩工作之一,就是浏览每天的在线新闻源和Twitter流,找寻AI和NLP领域发生的最有趣的事情,并发布在我们的社会媒体频道上。趁着2015年即将结束,我想分享一下这一年中最有趣的NLP应用。

今年,世界各地的人工智能系统已经将NLP用做艺术家、评论家和算命大师。

作为艺术家的AI


计算机生成音乐剧

musical
自动为歌曲生成歌词

明年年初将在伦敦首次亮相的Beyond the Fence,将会前所未见地演出通过机器学习、自然语言处理和人类智慧合作生成的音乐剧。

伦敦大学的What-if机器自动为音乐剧生成一段情节(“如果一个受伤的士兵不得不为找到真正的爱情学习如何了解孩子将会怎么样?”),来自马德里康普卢滕塞大学的一个讲故事软件书写剧本,还有一个杜伦大学开发的计算机作曲系统为音乐剧谱曲。出演这部计算机生成音乐剧的演员都是人类——尽管再过几年机器人演员也不是不可能出现!

计算机生成说唱歌曲

rap
一首有关爱情、科学和真实的说唱歌曲,自动生成

DeepBeat是一种机器学习算法,根据一个数据库自动生成说唱歌词,数据库共有来自12500首歌的641000行,覆盖从Lil Wayne到Jay-Z的著名说唱歌手。该应用由一个来自芬兰几所大学的联合研究小组涉及,允许任何人以英语或芬兰语生成他们自己独一无二的说唱歌曲。软件还有一个开启深度学习的选项,自称可以得到更好的结果。

计算机生成密码诗

unicorn
加利福尼亚大学进行的一项研究认为最安全和容易记住的密码是由四个随机押韵的词组成的。如果你很难自己想出这样的“密码诗”,可以使用研究人员创建的自动生成程序。将一个60位安全字符串赋给程序,它会为一个327868个单词的词典中的每个词分配一个代码。然后一个NLP算法挑选最有逻辑,容易记住的押韵词组合作为密码诗。你可以在这里试用。

 

作为评论家的AI


对即将到来的总统选举

politics
总统初选候选人的演讲风格映射到文学作品

无论你支持共和党还是民主党,NLP已经被用于评论即将到来的2016年总统大选。在共和党方面,一个对初选中候选人演讲句子长度的分析已经用于为每个候选人匹配和他们演讲风格最相似的世界文学著作。

例如,唐纳德·特朗普的演讲介于《哈克贝利·费恩历险记》和安徒生童话之间,而特德·克鲁兹的演讲最像《贝奥武甫》。可以查看完整分析,其中也包含了每个候选人演讲的总体情感。在另一方面,如果你支持希拉里·克林顿,可能有兴趣看看对她今年早些时候提交给公共领域的30000封电子邮件数据库的NLP分析。

对一盘美食

cuisines
Yummly上全部菜谱基于菜系的映射,一些菜肴非常独特,例如墨西哥菜和日本菜。其他的菜肴,例如法国和美国南部配料重叠。

有些菜谱配料非常典型。例如如果一个菜谱包含辣酱和韩国泡菜,它最可能来自韩国;如果包含甜菜和荞麦花,则可能来自俄罗斯。菜谱网站Yummly使用NLP基于配料、制作方法和网站上其他菜谱的名称自动识别新菜谱的菜系。

对回答孩子的问题

hellobarbie
跟她说得越多,Hello Baebie就会变得越聪明!

今年,Mattel公司发布了Hello Barbie,一个可以与孩子们对话的芭比娃娃。Hello Barbie预装了8000种可能的回复,当孩子与她说话时,语音识别软件从芭比娃娃项链上安装的麦克风录下对话,并上传到云端。在那儿,NLP算法找到孩子们最经常和娃娃说的问题与短语。接下来创建者将新的回复加载到娃娃的系统中。这样,Hello Barbie随着时间推移变得越来越聪明,可以与孩子们谈论更多的话题。

作为算命大师的AI


预测爱情

love
寻找爱情更容易一点

Tinder是一个在线交友应用,有5000万用户,每天有超过10亿次点击“左边”(不感兴趣)和“右边”(感兴趣)。加拿大创业者Justin Long通过构建Tinder机器人自动化了这一过程,基于过去点击数据使用面部识别算法自动对那些看起来像你的“类型”的人点击右边。此外,他还创建了一个机器人,使用斯坦福NLP情感分析软件自动识别Tinder收件箱中消息的积极性,从而使在虚拟世界中寻找爱情变得容易一点。

预测犯罪发生

crime
PCA界面提供颜色编码的地图,展示地区中各种犯罪指标

有成百上千的变量影响犯罪:天气、社交媒体、地铁站、枪弹创干起、911电话……所有这些数据对分析人员来说通常太多而不便追踪。科技公司Hitachi开发了一个叫做预测犯罪分析(Predicitive Crime Analytics,PCA)的机器学习界面,使用深度学习预测犯罪的发生。该系统收集和分析来自遍布城市的传感器以及社交媒体的数据。一个NLP算法实时搜寻社交媒体发布内容,识别有关犯罪行为将会发生的可疑词汇或地理信息,例如毒品交易。所有可疑区域被绘制在PCA界面的地图上,显示了最有可能的地区。警察可以被派去这些地区,以防止潜在的犯罪。

探测和追踪世界范围的地震

earthquakes
USGS使用NLP快速而准确地追踪地震和它们的影响

美国地质调查局(USGS)在全球仅有2000个地震传感器。这不足以快递追踪大多数地震的影响或位置。USGS转向twitter探测和追踪地震,而不是安装更多的地震传感器,传感器是侵入性的,而且很昂贵。通过使用NLP算法识别相关推文,USGS能够快速探测地震导致的破坏范围,识别只被少数人感觉到,传感器没有捕捉的小地震,还可以发出快速、实时的地震警报。

要了解更多在自然灾害面前使用NLP的例子,可参阅idibon博客上用于灾害管理的分布式计算和众包飓风桑迪损害两篇博文。

微信公共号