DuerOS普罗米修斯计划:30页国际专家PPT全面剖析对话式AI数据集-鸭脖app下载

  • 时间:
  • 浏览:361
  • 来源:鸭脖官方网站
本文摘要:变更和重新发表。

变更和重新发表。Kaldi这个命名源于传说中第一个找到咖啡的人,以这个名字为目的,获得像咖啡一样灵活、方便、受欢迎的语音识别工具包,开发人员使用方便。

Kaldi项目在过去6、7年中已有约150名不同的贡献者,主干版本外有8个分支,2000多名关注者,该项目的工具和活跃的邮件列表也很多。下载量已经达到2万次以上,论文ThethekaldispeechRechrecognitionToolkit数约为1700次。Kaldi是C编写的一系列资料库,命令工具,搭建特定的语音识别系统的脚本,这些程序告诉我们在特定的情况下该怎么办。例如,远程语音资料和各种语言混合的语音资料很多。

Kaldi在学术界和工业界也被广泛使用:MIT、CMU、微软公司、谷歌等在Kaldi进行研究。Kaldi主干版由DanPovey博士确保。随着语音识别技术的进步,Kaldi工具也有效地维持改版:从高斯模型到应用于神经网络,获得资源短缺条件下的语音识别解决方案,反对GPU训练,从近距离识别扩展到远距离识别,反对训练数据来自多样式和多设备源,效率和性能更高的Chain此外,更多的研究人员和开发人员在Kaldi的基础上开展新技术的探索和改良。对于大数据量的训练速度优化问题,Kaldi使用多GPU数据分段战略。

另一方面,用于自然梯度(NG-SGD)代替通常的梯度,加快当前训练目标函数的上升率,另一方面,GPU共享模型参数同时计算适当的batch数据,统计数据梯度,改版共享参数。在语音识别系统中,发音人的口音、语速不同的发音人的场景千变万化,一般预示着各种噪音的声音收集的硬件设备和代码形式的不统一。这三个因素使语音识别系统在实际使用时面临着巨大的挑战。

开发了对各种不确定性有效的识别系统,发挥了语音识别技术的终极目标。这也是美国国家信息高级研究计划局举办的ASpIRE竞赛的目标。

在2015年IARPA举行的ASpIRE比赛中,Kaldi取得了第一名的成绩。在这次比赛中,Kaldi使用的黑色技术主要用于1.下采样的TDNN网络,有更高效、更好的上下信息的可能性。2.数据预处理,融合现实远场环境的冲击呼吁和噪音状况,转换训练数据,模拟各种远场景。

3.用于i-vector特征,在TRAP特征之外再次添加提取人和环境的i-vector特征。ChainModel的启发源于CTC训练方法,我们新设计了状态和HMM移动的流形结构(hmm状态数从3或5下降1,实际上作为磁矩可以重复0次或多次的空白状态),减少了帧率(从100Hz下降33Hz)此外,传统的SDT(序列区分性训练方法)必须用于交叉瞌睡目标函数训练初始模型,然后在该模型中分解lattice,lattice包括正确的路径和概率高的其他路径,计算相互信息和梯度的偏移传播。Kaldi中的ChainModel是LatticeoFree的训练方法,在网络输入层中计算了所有可能显示序列的后检查概率,需要计算MMI和梯度。

实验结果表明,与传统的TDNN模型相比,ChainModel(LF-MMI)TDNN模型在解码速度和精度方面显着提高。ChainModel(LF-MMI)比传统TDNNsMBR(最小化状态错误率)在解码时字符错误率减少6%-11%,训练速度提高5-10倍,解码速度提高3倍。另外,实验指出,在ChainModel(LF-MMI)训练后的产量模型基础上,再次开展序列区分训练(sMBR)的获得并不大。数据:对话AI与数据的关系Antoine,Raux博士是Facebook前开发科学家,对话AI创业公司CTO和领先创业者。

他指出,目前对话式AI发展过程中,数据非常不足,丰富有效的数据需要大大协助解决问题对话式AI发展过程中的一些挑战。因此,数据很重要,以下两个问题是我们必须问题:1)哪些数据需要使用?2)在对话数据的收集中,什么样的设计是合理的?例如,右图是典型的对话AI系统,数据通过这些子系统,最后向用户输入系统:首先,用户的声音通过自动语音识别(AutomaticSpeechReconition、ASR)识别为文本数据,通过自然语言解读(Naturalllaglanglanglerstanding、NLU)模块处理成为NLU结果。再次在对话状态下追踪,该模块根据多个NLU识别结果和对话过程中的历史数据改版了当前对话状态的dialoguestate),通过该模块输入intentframe。

intentframe被自然语言分解,最后通过语音合成(Texttospeech、TTS)模块转换为语音播音员。这里有很多数据,其中从audio、text、intent、dialogue到state,所需的数据量逐渐增加,但各任务的特殊性逐渐减少。左手有很多数据。

这些数据不是特定的任务,中途数据增加,任务更加明确。以下报告内容不分为以下三个部分首先不谈数据收集问题,其次不谈数据显示问题,最后举出Antonie参加的例子,也代表了领域最近的工作。

首先,让我们来谈谈数据收集的问题。要求必须用于什么类型的数据,是静态的语料库,还是制作语料库发送,还是限于现场对话,也就是说,要求他人用于想测试的系统,必须与现实的人和系统交流。首先,对于静态语料,具有以下四个优点:我们可以建立大型语料。

我们可以分享它们。我们可以通过重复使用方便的对比数据分析来降低成本,但受到数据收集的限制。

静态语料有一定的局限性,你不能探索数据以外的对话方法。让我们来谈谈在线互动的好处。测试不同的Policy,探索新的Policy,通过系统实现A/Btest(这种静态语料是不可能的)数据分布与现实用户相似,但在线互动数据收集非常便宜,不花费大量的时间和金钱,很难提供大量的数据。

收集的对话数据分为两种类型:一种是人与人与人的交流。一个是人与机器的交流,首先是人与人的交流特征。

交流变得更加自然,不允许不构筑系统的场景。数据,如呼叫系统,没有电话录音的演员可以模拟系统。也就是说,一个人扮演系统,一个人扮演用户,但是每个人的对话问题不能应用。

因为这些对话是开放的,而且自然的,比起一定的控制范围的数据没有用。这样的数据也不会远离你想做的应用。再谈嵌入式的特征:与实际应用于无线收集相似,成本低,但必须构建系统,系统能力的优劣也影响数据收集质量。

由于系统能力的限制,很难探索新的特性。如果想要用户的对话录音的话,无论是作为语料库还是在线交流,都有两种用户可以自由选择。一个是实际用户:为了解决更多的问题,实际上需要产生出乎意料的输出数据。

缺点:收集非常便宜,不需要花费很多时间和金钱。另一个是模拟用户:需要生产大量的数据,需要大大测试不同的战略,选择模拟用户的呼吁,收集成本低,需要大量的时间和金钱。缺点:与实际用户的不道德有偏差,些情况可能相当偏差,同时很难开发出好的模拟用户。

【注释:参考文章LEARNINGEND-TO-ENDGOAL-ORENTEDIALOGBordes,Y-LanBoureauJasonWeston】这是Facebook在2017年公开发表的论文,其中对语库的方式进行了评价:文章中的数据集分为3类:一类是指模板中分的语言,一类是雇佣者和系统对话分解的语言。从实验结果可以看出,在拆解的对话数据中效果很好,效果也有60%到100%,但在人机对话数据中,效果上升了一半,达到了41.1%,而在人与人对话的语料中,效果更加折扣,达到了16.7%。因此,分解对话的结果不能确保简单案例的顺利性。这个实验效果也证明了以前的分析结论:1)静态资料限于数据收集的战略,有一定的局限性,与看不到数据中的效果的实际用户数据没有偏差的2)人和人的数据不能实际应用于对外开放,过于自然,无法控制数据与最后应用的数据大不相同。

接下来,我们再次考虑实际用户和雇佣者的区别。实际用户:实际应用于享受大量潜在用户问题,必须生产和确保竞争力的产品,具有潜在的隐私,考虑到对象没有有有效的系统信号,不能告诉对话是否顺利雇佣者:在产品初期使用(即产品公开使用前),需要允许探索未成熟风险的战略(需要损害用户体验,因为不是实际用户)没有隐私)缺点和实际用户不道德的差异用户数量受到限制,必须使用大众包来说明现实和招聘用户的差异。

我想说2010年CMU的这篇论文,他们组织比赛,让其他大学和他们学校的现有系统交换,每天都有现实用户通知公共汽车,他们让其他学习的系统和自己的系统交换,完成了一定程度的任务,但系统几乎不同。这实际上有机会召集实验室的用户数据和后来的现实用户数据。【录音:参考文章的SpokenDialogChallenge2010:ComparisonLive.Live.ControlTestResults左上角是语音识别测试,实验中有三个不同的系统,系统1是CMU的基准词系统,系统3是学界顶尖研究者制作的系统,系统4是业界参加团队制作的,从实验室招募用户数据(control组)转移到现实用户数据系统3显着上升,对话成功率从90%下降到65%,但系统4没有明显上升。

系统4因为商业应用更加谨慎,不执着华丽,系统3使用先进的设备强化自学等技术,这些技术在明确的语料环境下运行良好,但在现实用户数据下质量显着下降。另一个问题是,请看下面的图表。

左边是control组,右边是live组。在control组中,最上面的系统3,即使ASR的精度低,其表现也没有大幅度上升。也就是说,他们需要利用对话技术来补偿好的ESR表现。

但是,在live中,所有系统对付ASR的精度几乎一样,随着ASR的精度的上升,实时上升。在数据分布不同的情况下(即实验室招募用户数据(control集团),转移到现实用户数据(live集团)的不同,系统对tasro的准确性的容错能力也消失了。

另一篇2007年的文章也通过实验数据解释了雇员和实际用户的不道德差异。左边的这张图表明对话的长度、每次的长度等,雇佣者一般不会使用更简单、更长的传达。他们的系统中还有一个是/按钮或问题功能,有些问题是用户只需要按钮或问题或问题,但是在实验室状态下,完全没有用户使用/功能,他们更偏向于不时说话,但是现实用户只要有机会就会立即转换到/模式必须协助功能的差异更加显着,实验室用户完全不协助,但现实用户非常频繁地寻求协助。

因此,雇佣者和实际用户的道德有很多不同,在数据收集中,实际用户的数据是不可或缺的部分。下下来的内容是关于数据显示的问题数据显示的问题,你得到了数字。据此,如何处理。一种做法是释放原始数据,包括音频和拉丁化的文本,或者两者一起释放,这是对话最容易被吸引的一面,不需要坚决的分类系统和对话和语言学派,只要释放数据,就能同意音频中的语言是什么。

但是,从文本到终端自学很困难,需要很多数据。【录音:None2eapproachesrelyonownannnotation(这是不明白的)】另一方面,可以得到统一的标志,但必须解决问题多的语言评价问题、形式标准化等问题,使大家有不同的数据自由选择什么样的显示系统(包括什么样的intent,slots等),比一般的预想要花费更多的时间。显示对话状态是很困难的事情,首先必须定义正确的对话状态包括什么。

其次,人工显示很难有统一的标准。在DSTC中,显示对话状态时有问题,显示NLU时不明确,各系统使用的分类方法不同,某个特定的间隙值也不统一标准,因此被迫采购,通知员工某个特定的NLU是否正确。最后,确认哪个NLU参考标签,确认哪个NLU是正确的,用这个结果估算对话状态。

其次,讨论下现在的对话数据计划首先是第一界对话状态追踪挑战,收集以前的对话数据集,包括匹兹堡巴士乘客的电话记录,共计a、b、c三种不同的对话系统用户数据收集。数据集中在系统和用户的对话和slot和dialogstate上。其中NLU的输入是slots,nbest列表,dialogstate是slots上的概率分布估计。

最后委托现有的一些建议,也许已经听说过了。CMU现在有一个项目,对于刚刚提到的比赛的沿袭,他们的方法是向学界的对话系统获得统一的界面,可以去他们的网站和他们的系统进行对话,这个系统融合了学界的很多系统。如果是实验室,可以添加系统,提供用户与系统聊天的数据。

另一个亚马逊组织的比赛,为了制作聊天系统,可以和你聊25分钟,不会有很多团队竞争。普通的Alexa用户可以试试。

这是现实用户的开放比赛。目前正在开展总决赛,期待看到亚马逊竞赛的结果。另一个项目来自Facebook,对话共享很多数据集,报告的第一篇论文是通过该项目发送的数据集,也可以让他人用于系统,看系统的质量。这些项目的有趣之处在于,很多项目更加注重现场对话,其中有些项目不是语料库,而是让现实用户与系统对话,而是把重点放在数据读取和发送的标准化上,有些项目用于模拟任务。

最后,AntoineRaux博士总结了对话系统是一项非常复杂的任务,需要各种数据集。研究人员和参与者在设计语料收集时,必须注意权衡。最近的趋势是积极开展在线互动收集数据,在某种程度上是相同的语言。

正如百度秘密事业部总经理景鲲所说,人工智能操作系统必须自学和进化,数据越少越智能。百度DuerOS普罗米修斯计划发表的三个大型数据集不仅能有效地唤起,还能有效地唤起优秀的对话式AI人才和项目,推进该领域的生产-学-研究同步发展,推进智能语音的落地和应用。人工智能的变革由每组数据填充,人工智能的未来也产生在这些数据和背后的大自学中。

原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:鸭脖官方网站,首页APP下载,鸭脖app下载

本文来源:鸭脖官方网站-www.notaresponsable.com