第240章 意义深远的交流(2/2)
不过尹芙·卡莉尽管猜对了,但却只是猜对了一部分,并没完全对。
所谓的“内容表示”指的是在自动文本摘要的流程中将原始文本划分为文本单元的过程。
这一过程包含有分字、词、句等预处理工作;
其主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。
传统的抽取式摘要这样传统自动文本摘要不怎么注重内容表示这一环节。
生成式文本摘要则稍稍有些不同。
生成式文本摘要还是比较注重内容表示这一环节的。
尤其是应用了词嵌入技术和预训练机制的生成式文本摘要更是格外注重“内容表示”这一环节。
没办法,不得不重视,传统的文本摘要各步骤的重要程度其实是差不多的。
但应用了词嵌入技术和预训练机制的生成式文本摘要的工作很多时候都是“头重脚轻”的。
即开始的环节在整个环节中权重是最高的。
或者说在实际构建生成式文本摘要模型的时候,虽然要设计到很多的步骤。
但通常情况下越靠前的工作也往往更重要。
就以“内容表示”来说吧,在构建生成式文本摘要模型的时候。
很多时候内容表示的完成水平的高下将直接影响到后续的步骤。
而尹芙·卡莉所搞得《文本判断甄别比较的一种新方法》这项专利在内容表示方面确实有一定的价值。
借助于该专利所提供的价值,林灰以后在进行文本摘要的后续升级换代的过程中可以少一些逻辑层面的漏洞。
但如果仅仅是因为这点价值,还不足以让林灰大费周章进行一项跨国专利的收购。
林灰之所以煞费苦心将尹芙·卡莉搞出的《文本判断甄别比较的一种新方法》这项专利最最根本的原因还是因为林灰比较在意尹芙·卡莉在这一专利中所应用的模型。
在《文本判断甄别比较的一种新方法》这项专利中就文本甄别尹芙·卡莉极其有创意地鼓捣出一个用于文本判断甄别的模型。
如果仅仅就自然语言处理机器学习方面来看,这不过只是一个平平无奇的用于文本判别的模型。
但当思维跳脱出自然语言处理这个小领域之后,这个模型可不能够等闲视之。
当初在翻阅这个时空的学术方面的一些资料时,林灰敏锐地注意该专利所蕴含的价值。
尽管专利所提供的技术路线很多时候都是
这个专利提及的技术路线就很林灰却知道这个模型几乎稍加变形就能在此基础上形成一种颇为高效的判别式模型。
仅仅是判别式模型即便是效率高或许没啥意义。
但是稍微做点小改动那事情就不一样了。
当高效的判别式模型邂后高效的生成式模型。
此二者进行有机结合,并在此基础上再继续进行一定的专门架构之后。
完全可以藉此搞出全新的效率颇高的深度学习模型。
这个深度学习模型在前世有个大名鼎鼎地称呼:
——生成式对抗网络
在前世图灵奖获得者、卷积神经网路之父Yann Le Cun在某次学术论坛上甚至将生成式对抗网络模型称之为机器学习方面二十年来最酷的想法。
能得到图灵奖级别大老这样高度肯定,生成式对抗网络模型的价值可想而知。
前世生成对抗网络作为非监督式学习的一种方法。
是由尹恩·古德费洛等人于2014年提出的。
不过这个时空由于机器学习方面的研究整体滞后。
这个前世颇为有名的深度学习模型在这个时空想要如约而至似乎是有些难度了。