当前位置:首页 > 科技 > 2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花

2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花

2025-04-27 阅读 0

2020年伊始,仅有总结、展望了微软亚洲不断 研究院在多个 AI 行业领域的突破与趋势,以外,更亲民的机器来学习和更精巧的 AI 系统支持 ;综合数据洞察的首获变得更智能,AI 推进三维构建的非常快发展;以外突破固化的计算机视觉和更具商用其他价值的 OCR 引擎。大家说,仅有将探索除此以外语言处理过程(Natural Language Processing,NLP)范式旧的非常快发展,以外微软亚洲不断 研究院在语音识别与合成行业领域的创新成果。

NLP 在近两年根本并且使过一套近乎完备旧的型技术体系,除此以外了词嵌入、句子嵌入、编码-解码、注意观察力模型、Transformer,以外预训练模型等,促进了 NLP 在搜索、阅读认同、机器翻译、文本分类、问答、对话、怎么说话、完整信息 抽取、文摘、文本生成等很关键性性行业领域的应用,预示着除此以外语言处理过程可来到 了大规模工业化并对的时代到来。

与此除此以外,变得大机器软硬件综合庞大 的大幅全面提升,模型、算法的突破,语音合成、语音识别、语音大幅全面提升全都是了突飞猛进的非常快发展,如微软亚洲不断 研究院的 FastSpeech、PHASEN,让机器语音变得能已超我们人类怎么说话,初步非常快了密切相关语音产品会的落地。

NLP 可来到 第六代范式:预训练+微调

除此以外语言处理过程范式是除此以外语言处理过程系统支持 的工作后多种模式,细数之下,还仅有心理历程三代变迁,还仅有即将可来到 第六代。

第六代 NLP 范式是出还仅有上世纪90时代到来前的“词典+规则”;第六代范式是2012年来到的“综合数据驱动+统计机器来学习模型“;第六代范式是始于2012年的“端对端神经配图的深度来学习模型”。2018年前后,不断 研究人员的视线来到锁定在预训练+微调上,标志着 NLP 第六代范式的反复如前所述,这就作为着 NLP 将来非常快发展于最先 方向。

图1:NLP 范式的变迁

目前来看,主流的除此以外语言处理过程范式是以 BERT 为作为的“预训练+微调”旧的除此以外语言处理过程不断 研究和应用范式,其根本思想是将训练大而深的端对端的神经配图模型分为两步。下面几点在大规模文本综合数据上并对无监督(自监督)来学习预训练也就数数 的参数,来到在下面的除此以外语言处理过程各种任务上添加与各种任务密切相关的神经配图,每个人神经配图所包含的参数远远小于预训练模型的参数量,并可实际情况下游下面各种任务的标注综合数据并对微调。

这就,不断 研究人员的话 将并对预训练从大规模文本综合数据中学到的语言知识,迁移到下游的除此以外语言处理过程和生成各种任务模型的来来学习。预训练语言模型在的大任何除此以外语言的下游各种任务,何时何地 是除此以外语言认同(NLU)仅有仅有除此以外语言生成(NLG)各种任务上有拿到了优异的性能。预训练模型也从单语言预训练模型,扩展到多语言预训练模型和多模态预训练模型,并在密切相关的下游各种任务上有拿到了优异的性能,初步验证了预训练模型的庞大 。

预训练语言模型在 BERT 和 GPT 来到,2019年得来到蓬勃非常快发展,的大每个人月全都旧的预训练语言模型发布最新,并在不断 研究和应用行业领域并且使了更佳机会的产生很小。概括是对,预训练模型有下面更佳 趋势:

下面几点,模型变得大(参数变得多),从 EMLo 的 93M 参数,到 BERT 的 340M 参数,以外到 GPT-2 的 1.5B 参数和 T5 的 11B 的参数。

多个方面,用于预训练模型的综合数据变得大,从 BERT 中常用的 16G 文本综合数据,到 RoBERTa 里常用的 160G 文本综合数据,再到 T5 底下常用到 750G 的文本综合数据。

来到,预训练模型从最来到的二是面向除此以外语言认同各种任务,非常快发展到不断 支持除此以外语言生成各种任务,以外到最旧的更佳 模型除此以外不断 支持除此以外语言认同和除此以外语言生成各种任务,如 UniLM、T5 和 BART 等。

还仅有,目前来看来看的预训练模型变得大,在实际的工程应用中难以经济不断 有效、完全实际需求高并发和低响应非常快并对在线部署,之类以外在下面各种任务上采用先进模型压缩的话 知识蒸馏(Knowledge Distillation 也叫 Teacher-Student Learning)首获小(快)而更佳模型,在训练中首获小而快的预训练语言模型,仅有仅有目前来看更佳 很关键性性的不断 研究热点。

图2:预训练模型的非常快发展

NLP 新范式趋势一:UniLM 为作为的跨各种任务统一模型

2019年,微软亚洲不断 研究院发布最新了最旧的预训练语言模型的不断 不断 研究——统一预训练语言模型 UniLM(Unified Language Model Pre-training),该模型包含两大很关键性性新型技术创新:二是统一的预训练框架,之类同更佳 模型的话 除此以外不断 支持除此以外语言认同和除此以外语言生成各种任务,而来到也就数数 的预训练模型都二是并对除此以外语言认同各种任务;其二是创新地提出提出要求了亦或数自回归预训练范式,的话 更高效地训练更佳机会的除此以外语言预训练模型。

UniLM 的统一建模机制的话 用更佳 模型除此以外不断 支持所不所不同下游各种任务和预训练各种任务。除此以外语言处理过程的下游各种任务大致包含下面三类:

(1)除此以外语言认同(NLU)各种任务,如文本分类,问答,实体识别等;

(2)长文本生成各种任务,如新闻的话 他的故事 生成等;

(3)序列到序列生成各种任务,除此以外摘要生成,复述生成,对话生成,机器翻译等。

并对所不所不同下游各种任务的话 采用先进细节密切相关的预处理过程各种任务,以外并对除此以外语言认同的双向语言模型,并对长文本生成的单向语言模型,以外并对序列到序列生成各种任务的序列到序列语言模型。每个人所不所不同下游各种任务和预处理过程各种任务也对应所不所不同神经配图结构,以外用于除此以外语言认同的双向编码器,用于长文本生成的单向解码器,以外用于序列到序列生成的双向编码器和单向解码器,和其密切相关的注意观察力机制。

图3:除此以外语言处理过程的下游各种任务

UniLM 的配图结构是目前来看除此以外语言处理过程和预训练模型中广泛应不采用先进多层 Transformer 配图,其核心是并对自注意观察力掩码(Self-attention masks)来直接控制 文本中每个人词的上下文,并且使下面更佳 模型除此以外不断 支持双向语言模型、单向语言模型和序列到序列语言模型预训练各种任务,以外并对仅有点自注意观察力掩码。并对微调不断 支持除此以外语言认同和除此以外语言生成的下游各种任务,之类训练前性质统一,仅有变压器配图的话 共享参数资源,之类来学习的文本直言更通用,仅有减轻了对任何单个各种任务的过度拟合。

图4:UniLM 的配图结构

UniLM 过一系列除此以外语言认同和生成各种各种任务均拿到了领先的实验旧的,密切相关论文已发表于 NeurIPS 2019[1]。除此以外,2019年10月,统一预训练语言模型与机器阅读认同新型技术还荣获了第六届的世界互联网大会“的世界互联网领先科技成果”奖。是为与学术界和产业界的伙伴们我们一起,初步初步除此以外语言认同和生成的非常快发展与创新,微软亚洲不断 研究院已将统一预训练语言模型 UniLM(v1)在 GitHub 上开源[1] ,供大家说参考、并对。这几天微软亚洲不断 研究院还将发布最新 UniLM(v2),敬请充满期待。

图5:微软最新 NLP 不断 研究获选第六届的世界互联网大会“的世界互联网领先科技成果”

NLP 新范式趋势二:跨语言预训练模型

预训练模型以外的话 缓解跨各种各种任务反复如前所述的低资源各种最终解决,还的话 缓解跨语言中反复如前所述的低资源各种最终解决。下面是对,之类科研多个项目完全实际需求以外综合数据标注代价昂贵等之类,每个人除此以外语言各种任务也就数只在亦或数语言(除此以外英文)上反复如前所述足够的标注综合数据,何时何地 的话语言上并并未或仅有较多的标注综合数据。你是否的话 以此特定各种任务于一种语言的标注综合数据上训练模型,并将学到的知识迁移到的话语言上去,仅有仅有更佳 亟待各种最终解决的课题。

跨语言预训练模型是缓解下面各种最终解决的不断 有效其他方式。给定多种语言的单语语料和所不同语言对介于的双语语料,跨语言预训练模型的话 来学习到所不同语言介于的对应介于,并确保所不同语言的向量直言都反复如前所述于同更佳 语义空间感觉中。在此原有基础 上,该类模型并对此类语言上充足的标注综合数据并对下游各种任务微调。这就并且使的各种任务模型的话 旧的实际能起于的话语言的输入。的话 该各种任务在的话语言上仅有反复如前所述较多的标注综合数据,则的话 并对不断 微调首获更佳机会的实际能起。

图6:跨语言预训练模型示意图

微软亚洲不断 研究院提出提出要求的跨语言预训练模型 Unicoder[2],并对在预训练动态动态中会引入五种所不所不同跨语言各种任务,的话 来学习首获非常非常不错的跨语言认同综合庞大 。

第更佳 预训练各种任务在共享模型参数和多语言词汇表的原有基础 上,在所不同语言输入序列上并对 Masked Language Model 各种任务。该各种任务的话 确保将所不同语言的向量直言映射到同更佳 语义空间感觉。

最先 预训练各种任务将双语句对拼接成更佳 旧的输入序列,并在该序列上并对 Masked Language Model 各种任务。并对显式引入双语对齐完整信息 都成监督信号,Unicoder 的话 更佳机会地来学习所不同语言介于的对应介于,并且使首获更佳机会的跨语言认同综合庞大 。

第更佳 预训练各种任务的输入仅有是更佳 双语句对。该各种任务下面几点对该句中每个人源语言-常期目标语言单词对计算更佳 attention score。来到,将每个人源语言单词直言为任何常期目标语言单词向量直言的加权求和。来到,原有基础 新生成的源语言直言序列,初步恢复 原始的源语言序列。

第每个人预训练各种任务的输入是更佳 所不同语言的句子,训练常期目标是判定这更佳 句子你是否互译。Unicoder 的话 并对该各种任务来学习首获所不同语言在句子多个方面的对应介于。

第每个人预训练各种任务的输入过一篇由多种语言句子行成的段落,并在此原有基础 上并对 Masked Language Model 各种任务。

原有基础 这每个人跨语言预训练各种任务,Unicoder 的话 来学习到同一语义在所不同语言中所对应介于,模糊所不同语言介于的差异和边界,并这就首获并对跨语言下游各种任务模型训练的综合庞大 。Unicoder 的综合庞大 已在跨语言除此以外语言推理(Cross-lingual Natural Language Inference,简称 XNLI)各种任务的实验中首获验证。

除此以外语言推理各种任务(NLI)是判断更佳 输入句子介于的介于。输出依次三类,依次是“蕴含”、“矛盾”和“无关”。XNLI 初步把除此以外语言推理各种任务扩展到多语言上。在 XNLI 中,仅有英语有训练集,的话语言仅有验证集和测试集。该各种任务二是考察模型你是否将英语训练集上来学习到的知识迁移到的话语言上去。并对引入更佳机会跨语言预训练各种各种任务,Unicoder 比 Multilingual BERT 和 XLM 有显著的性能大幅全面提升,实验旧的下面图:

图7:Unicoder 在 XNLI 综合数据集上有实验旧的

预训练+微调还仅有都成深度来学习时代到来人工智能不断 研究旧的范式。该类其他方式并未之类多种 NLP 各种任务下面旧的大高度,仅有更佳机会大幅全面提升了 NLP 模型在实际场景中落地的门槛。从 UniLM 到 Unicoder,再到这几天扩模态预训练模型 Unicoder-VL[3] 和 VL-BERT[4],微软亚洲不断 研究院在该行业领域不断 产出高质量的工作后。每个人工作后将不断 落地到微软众多人工智能产品会中。

微软亚洲不断 研究院也将在预训练行业领域中探索更佳机会的模型和其他方式,除此以外,原有基础 除此以外语言和结构化语言的预训练模型、原有基础 除此以外语言和集锦的预训练模型、原有基础 除此以外语言和语音的预训练模型等,以外你是否非常快、压缩和决定 解释预训练模型。变得大预训练模型不断 研究的变得大推进和非常快发展,除此以外语言处理过程不断 研究和涉及到除此以外语言处理过程的跨学科不断 研究(即多模态来学习)都将迈上更佳 全旧的台阶。

语音智能落地开花:机器除此以外听、所讲综合庞大 已逼近我们人类

语音信号处理过程是 NLP 应不采用先进很关键性性分支,其很关键性步骤有更佳 :二是识别,让机器会听,二是合成,教机器能说。过去时 十年,得益于人工智能与机器来学习的突破、算法与硬/密切相关软件综合庞大 的进步,以外拥有高既多样又较多的语音综合数据库,用以训练多参数的、大规模的语音识别与合成模型,之类语音处理过程新型技术首获飞跃性进展。

大型的深度神经配图模型大幅度改善了不特定怎么说话人、带有口音、造句不规范、夹带噪声的语音识别。除此以外,以此此类其他方式训练的模型,合成语音也来到逼近真人的怎么说话,在除此以外度、可懂度与常期目标怎么说话人的此类度上,都达来到相当高的总体水平。

2019年,微软亚洲不断 研究院在语音行业领域有三项创新性的突破成果:一为快速语音合成 FastSpeech,二为不断 有效抑制噪声的语音大幅全面提升新型技术 PHASEN,三为原有基础 语义掩码的语音识别新型技术 SemanticMask。FastSpeech 是对微软在多路语音合成的产品会附加服务,何时何地 是微软 Azure 云计算仅有仅有 Surface 从个人计算机等终端设备上有应用都相当很关键性性;PHASEN 在高噪声的应用场景中,何时何地 是大幅全面提升语音、抑制噪声、大幅全面提升语音识别正确率,仅有仅有确保微软企业本身集锦附加服务 Microsoft Stream 的更佳机会并对,都可谓是恰到好处的“及时雨”。而 SemanticMask 的话 让端到端语音识别模型来学习更佳机会的语义和语言模型,并且使大幅全面提升端到端语音识别模型的错误率,初步改进微软的语音识别附加服务质量。

FastSpeech:合成非常快大幅全面提升38倍,语调、语速、韵律更可控

端到端的神经配图被改变了集锦、音频以外的话众多行业领域的信号处理过程以此,在文字转换语音合成上,也大幅度改善了合成语音的品质与除此以外度。端到端的神经配图的语音合成系统支持 的话 分成更佳 模块:二是文字输入在 Tacotron2 的声码器中并且使高精度的梅尔语谱 (mel-spectrogram); 二是梅尔语谱再经 WaveNet 合成模型,合成高除此以外度、高品质的语音波形。

仅有仅有用下面其他方式,品质的话 首获大幅全面提升,但有更佳 产生的缺点:非常快太慢;系统支持 不够稳定与鲁棒(以再说众多字词未被合成的话错误性地被重复合成);以外不非常容易自由和不断 有效地旧的直接控制 合成语音的语调、语速以外韵律。

微软亚洲不断 研究院的 FastSpeech[5] 消以外这更佳 痛点,它以此 Transformer 与前向(feedforward)算法,以并行的以此快速并且使梅尔语谱图,除此以外可在编码器与解码器的教师模型(teacher model)预测音素的时长,合成时以外效地各种最终解决了对齐工作后。在公共语音综合数据库上有实验间接证明,FastSpeech 将梅尔谱的并且使非常快非常快了270 倍,并未并未并未的端到端合成非常快非常快了38 倍,对音素时长的预测与约束也的大根本各种最终解决了原有点漏词或错误重复字词的各种最终解决。

FastSpeech 的系统支持 图见图8,除此以外(a)前向 Transformer、(b) FFT、(c) 时长约束器、(d)时长预测器 。

图8:FastSpeech 配图架构

FastSpeech 在合成语音品质、合成语音非常快(时延)与句子长短的密切相关性、漏词与错误性重复字词的比例,以外时长和时速的直接控制 等多个方面的测试旧的均间接证明了其不断 不断 有效。

PHASEN:大幅全面提升语音、抑制噪声

是为充分以此语音的谐波与相位的特性,微软亚洲不断 研究院提出提出要求了 PHASEN 神经配图模型[6],不断 有效地分离了背景噪声,并且使大幅全面提升语音。此模型有更佳 亮点:其二是相位与幅度在频域语音信号中,有彼此相依的介于,不断 研究员们提出提出要求了双流模型结构,的话 依次处理过程幅度与相位的完整信息 ,除此以外又采用先进细节了交叉通道,让语音综合数据库来来学习相位与幅度介于矫正制约。其二何时何地 全局频域中,在声带振动的语音中,谐波的密切相关性的话 并对数层频域转换模块的双流结构神经配图习得。

如图9的 PHASEN 系统支持 图所示,在频域中,幅度为正值实数,相位则为复数,在操作多种模式 动态动态中会,配图处理过程幅度处理过程为卷积操作多种模式 ,频域变换模块(FTB)以外双向之 LSTM(Long-Short Time Memory),而相位则为卷积配图。的大配图有更佳 双流块(Two Stream Block),每更佳 TSB 结构所不同,在其尾部有幅度与相位的交互操作多种模式 。FTB 的采用先进是是为以此全局频域的密切相关性,特别是谐波介于的介于完整信息 来改善神经配图参数来学习精度。

图9:PHASEN 系统支持 图

PHASEN 在 AVSpeech + Audioset 综合数据集上,得来到客观的 1.7 dB 的 SDR(Speech-to-Distortion Ratio) 大幅全面提升,超越了的话模型在同一综合数据集的表现自然。在 Voice Bank + DEMAND 综合数据集中,每个人很关键性性指标均大幅下面来到的其他方式。

SemanticMask: 来学习语义、大幅全面提升综合数据、大幅全面提升端到端语音识别性能

变得大端到端神经配图在机器翻译、语音生成等多个方面的进展,端到端的语音识别也达来到和中国传统其他方式可比的性能。所不同于中国传统其他方式将语音识别各种任务分解为多个子各种任务(词汇模型,声学模型和语言模型),端到端的语音识别模型原有基础 梅尔语谱都成输入,的话 旧的并且使对应的除此以外语言文本,更佳机会简化了模型的训练动态中会,并且使变得首获学术界和产业界的关注中。

端到端语音识以外流行模型都成是原有基础 注意观察力机制的序列到序列转换模型。还仅有之类该模型过于依赖注意观察力机制,并且使过度关注中声学特征而弱化了语言模型的完整信息 ,并有仅有带来震撼过拟合的各种最终解决。是为各种最终解决该各种最终解决,模型在推断时,也就数的话 额外的语言模型来并对联合解码,造都成额外的计算代价。受谱大幅全面提升(SpecAugment)和预训练模型(BERT)的启发,微软亚洲不断 研究院提出提出要求过此类旧的综合数据大幅全面提升新型技术:SemanticMask(原有基础 语义的掩码新型技术)[7]。

如图10所示,不断 研究员们下面几点原有基础 训练综合数据训练更佳 force-alignment 模型,并首获训练综合数据中每个人词在梅尔谱序列中所边界。原有基础 词的边界完整信息 ,在训练语音识别模型时,再随机的将某个词对应的梅尔谱的大并对掩码。之类该词对应的声学完整信息 还仅有从输入中移除,模型在训练的动态动态中会我只能原有基础 周遭的完整信息 来对该词并对预测,并且使大幅全面提升了语言模型的建模综合庞大 。所不同于中国传统的谱大幅全面提升其他方式,SemanticMask 并并未随机的对输入序列的某个片段并对掩码,仅有实际情况词的边界将某个词的完整信息 移除。并直言新型技术的话 缓解端到端语音识别过拟合的各种最终解决,并让该模型兼具更佳机会的语言模型建模综合庞大 。

图10:SemanticMask 示例

SemanticMask 过此类普适的语音识别综合数据大幅全面提升新型技术,不断 研究员们将其与根本微软亚洲不断 研究院所提出提出要求的原有基础 Transformer(70M参数)的端到端语音识别模型并对了运用,如图11所示,并在 Librispeech 960小时和 TedLium2 的综合数据集上并对了实验。实验间接证明,该新型技术的话 显著大幅全面提升原有基础 Transformer 的语音识别模型的表现自然。在公开综合数据集上有拿到了业内不要的端到端语音识以外实际能起。

图11:原有基础 Transformer 的端到端语音识别模型

语音处理过程的将来:除此以外、可懂,更能已超我们人类

多年的不断 努力与研发成果加快了语音产品会的落地附加服务。这就,在语音识别与合成中,仅有仅有还仅有打通了每个人新型技术瓶颈,但大语料、大模型机器来学习的训练非常快、识别系统支持 的稳定性与识别非常快、嘈杂的噪声环境中、不合具体标准的发音、不合文法的语句识别,将是语音识别常期关注中的重点。在合成多个方面,你是否使合成的输出快速实时并且使,除此以外还可保持好高品质的除此以外度、可懂度、与常期目标怎么说话人的此类度,仅有仅有微软亚洲不断 研究院的不断 研究重点。

与此除此以外,在的世界化与国际化的趋势下,微软亚洲不断 研究院也充分以此语音不断 研究的成果,可来到 辅助智能与个性化的外语来学习,如微软小英;并不断 有效以此大语种、多怎么说话人的综合数据库与神经配图更佳机会模型,以所不同语言的语音与怎么说话人生路理构造的共性,弥补小语种识别与合成的模型训练与综合数据库了不足。

除此以外,语音识别、合成与机器翻译的密切运用,也将都成语音处理过程新型技术驱动的原动力。微软亚洲不断 研究院在语音翻译行业领域目前来看还仅有决定 了每个人初步的不断 不断 研究,以外提出提出要求的 TCEN 模型[8]就的话 显著的大幅全面提升端到端语音翻译的质量。而仅有做不到无缝的、跨语言、跨怎么说话人的识别、翻译、合成的端到端的对话系统支持 ,将都成驱动语音与翻译新型技术旧的课题。

预约SEO专家添加微信号:xxxxxxx 领取免费VIP内部课程
© 著作权归作者所有
满江鸿网络科技 作者
满江鸿网络科技是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域
曾操作某大型门户网站日IP达100万(纯SEO流量),拥有上千网站提供SEO友情链接资源(参加培训免费赠送100个单向友情链接),免费赠送附子SEO内部VIP课程,2018年新版实战课程介绍