第241章 巨额的隐形财富(2/2)
虽然学术方面无心插柳柳成荫的例子很多,很多学术成果最开始问世的时候目的往往是跑偏的。
但林灰内心信奉的原则是“吾道一以贯之”那种。
无论是游戏开发还是学术进展上,林灰都不想给别人一种割裂感。
总之,林灰是觉得科技树还是按顺序点比较好。
虽然说不按顺序点科技树也可以,但在多元化的社会下不按规矩办事往往就意味着风险。
乱点科技树,自己的科技逻辑链没形成。
潜在对手却形成了相应的发展脉络,那么科技成果很有可能被对手所窃取。
这是林灰所不愿意看到的。
现在在林灰看来学术方面他所要做的依然是深耕自然语言处理,深耕生成式文本摘要。
通过不断的深耕,从自然语言处理这一领域找到破局或者说点亮相邻于此时林灰已点亮科技成果的下一个科技树分支才是最好的。
而且即便是一时之间未找到合适的破局点其实也关系不大,短时间内(起码是一个月)林灰还是不虚要太担心的。
毕竟就生成式文本摘要这方面取得的“突破性进展(成功的搬运)”林灰也是要消化一段时间了。
关于生成式文本摘要这方面的成果获得一个硕士学位几乎不在话下。
其实林灰原本的估计更加乐观。
林灰原本是觉得将生成式文本摘要这个方向的论文搞清楚,就差不多就能博士了。
不过通过最近跟尹芙·卡莉的交流,林灰觉得是他过于乐观了。
就像诺奖级成果不一定真的能获得诺奖一样。
就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。
但想藉此一步到位获得博士毕业论文也是很有难度的。
毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。
这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西。
亦即工程上的成果。
而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。
虽然这个稍微低于林灰的预期,不过问题不大。
学术上步子太大也不完全是好事情。
既然短时间不搬运生成式对抗网路,那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?
当然不是。
关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。
那就是前世的人工标注数据。
涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。
往往一个模型需要很多的人工标注的数据。
例如在图象识别里面,经常我们可能需要上百万的人工标注的数据,
在语音识别里面,我们可能需要成千上万小时的人工标注的数据。
涉及到机器翻译更是需要数千万语句标注数据。
说实话作为一个来自后世的技术人员。
涉及到人工标注数据的价值林灰还真没太当回事。
但现在看来,显然不能用后世的思维来思考维妮塔。
林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。
一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。
如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。
可以看到数据标注的费用是非常非常高的。
而这仅仅是2017年的数据标注成本。
在更早期的标注成本岂不是意味着更高的数据标注费用?
以这个角度来衡量的话林灰所拥有的一些现成的人工标注数据岂不是一笔巨额的隐形财富?