首页 > 都市言情 > 穿越：2014 > 第236章赢在起跑线上

第236章赢在起跑线上（2/2）

好书推荐：出名后太烦啦从香江开始崛起奶爸搬运工诸天：从射雕开始游戏诸天之旅长生从锦衣卫开始美人玻璃心姬唐非凡女友蔓蔓仙途

毕竟涉及到语料训练这已经是一个语言模型构建很靠前的问题了。

除了这个例子之外，还有此次来到中國和林灰的第一次谈话。

当时两人聊到了对“语料向量化之后再处理可能导致的维度爆炸”相关问题的处理时。

原本伊芙·卡莉设想的降维做法有将高维模型转化为低维模型、将分析后得到的高维数据降低成低维数据等等。

而林灰提出的思路却是将语料向量化之后得到原始高维向量数据直接进行降维处理。

而在此前涉及到维度爆炸这件事几乎没啥研究者想到直接对维度本就比较高的原始数据做文章。

毕竟这涉及到将语料信息抽象成向量原始数据已经差不多其对应研究中特别靠前的一个环节了。

伊芙·卡莉觉得这些都可以佐证她先前的判断。

依据她先前的判断的话，还可以在此基础上进一步推断。

如果一个科研项目涉及到多个环节，每个环节都有可施为的空间。

那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道。

知道这个有什么用呢？

当然有用，甚至是有大用。

此前伊芙·卡莉对林灰为什么要收购她搞出的那项专利即《文本判断甄别比较的一种新方法》这个专利是很不明所以的。

在林灰提出了生成式文本摘要算法之后。

现在的自动文摘实现方法主要分为抽取式方法和生成式方法：

这两种摘要方法有很多原理和实际效能的区别。

但此二者本质上都是自动文本摘要。

举凡是自动文本摘要，其技术框架就都可以概括为：

内容表示→权重计算→内容选择→内容组织。

1内容表示是将原始文本划分为文本单元的过程，主要是分字、词、句等预处理工作；

内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。

2权重计算则是要对文本单元（即预处理后原始文本）计算相应的权重评分，权重的计算方式多样，如基于特征评分、序列标注、分类模型等提取内容特征计算权重。

这个步骤的目的是通过这一系列计算完成对预处理后的原始文本实现初步分析。

3内容选择是对经过计算权重后的文本单元（即经过步骤2权重分析过的文本）选择相应的文本单元子集组成摘要候选集，可根据要求的摘要长度、线性规划、次模函数、启发式算法等选择文本单元；

4内容组织是指对候选集的内容进行整理形成最终摘要，可根据字数要求按顺序输出，也有研究者提出使用基于语义信息、模板和神经网路学习的方法来产生符合要求的摘要。

从技术框架的这几个层次的对应描述来看，可以看出无论是权重计算还是内容选择抑或是内容组织此三者都是很重要的。

如果搞不定权重计算和内容选择的话则根本搞不清楚摘要的时候具体对文本哪些地方进行摘要。

如果搞不定内容组织的话更是直观影响用户体验。

在这种情况下，这个时空的人们在进行自动文本摘要方面的研究时也确实是比较重视自动文本摘要的权重计算、内容选择和内容组织这三个方面。

曾经，按照伊芙·卡莉的思维，她是很不理解林灰为什么会对《文本判断甄别比较的一种新方法》这样一个侧重于内容表示的专利很感兴趣的。

甚至一度无论是伊芙·卡莉还是埃瓦尔德·切瑞都认为林灰只是单纯地通过购买一些和伊芙·卡莉有关但实际上无关轻重的鸡肋专利来向伊芙·卡莉示好。

但就现在来看，很明显不是这样的。

毕竟如果关于林灰在学术方面的习惯推定：

即“如果一个科研项目涉及到多个环节，每个环节都有可施为的空间，

那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道”

成立的话。

那么林灰在涉及到自动文本摘要的框架做动作的话反而最有可能会侧重别的研究人员所淡漠的“内容表示”这一环节。

如此一来《文本判断甄别比较的一种新方法》这样一个专利对林灰而言非但不是鸡肋专利。

反倒有可能是一项意义十分重要的专利。

以林灰几乎从来不做无意义的事情这一习惯来说的话，伊芙·卡莉越发觉得这一判断是正确的。

对于这样的推断伊芙·卡莉简直是哭笑不得。

一项自己搞了很久的专利，在自己手中没有发挥出真正的价值。

在别人那反而却具有了更大的价值？

额……

新书推荐：七零大厂美人，改造反派崽暴富人在斗罗，我的系统去哪了？小师妹重生发癫，全宗门瑟瑟发抖随军海岛，反骨男主被我带飞逆袭神印：断情后，我白玥成魔族女帝斗罗：千道流暗恋我许久娇软知青太撩人，嫁糙汉被宠哭了斗罗绝世：武魂脑电波，念力通神人在吞噬，大器晚成娱乐：有外挂了谁还谈恋爱啊

第236章 赢在起跑线上（2/2）

第236章赢在起跑线上（2/2）