第326章“暗数据”(2/2)
比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”
这种格式的都叫结构化数据。
这类数据很容易以固定的格式存储到数据库里。
而半结构化数据值得是一些 XML 或者 HTML 的格式的数据。
对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
所谓的非结构化的数据:就是不定长、无固定格式的数据。
例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。
子啊比如说例如 Word 文档、语音,视频、图片都是非结构化的数据。
而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。
这个词语也不是林灰定义的。
相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。
单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。
两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。
更何况说拿几亿美元去换暗数据呢?
可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。
林灰那有很多前世的信息。
但也绝不可能有满足苹果胃口的暗数据。
不要说是林灰前世那点信息了。
就是像国内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足苹果的胃口。
这种情况下如果林灰对苹果的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。
至于如何去收集呢?
暗数据的收集方式多种多样。
因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。
暗数据还可能包括由于存储在过时设备上而无法再访问的数据。
这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。
【讲真,最近一直用野果阅读看书追更,换源切换,朗读音色多, 安卓苹果均可。】
除此之外还有很多种收集暗数据的方式。
说起来虽然很容易。
但正所谓抛开剂量谈毒性都是耍流氓。
同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。
像苹果所图规模的暗数据肯定不是传统的数据挖掘方式能满足的。
似乎时下也没太好的挖掘暗数据的方式。
传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。
这种方法费时费力。
不过也仅仅只是对于时下的科技公司来说。
对于林灰来说他还是有很多数据挖掘方式的。
没人比林灰更懂如何挖掘数据了。
对于大规模的数据挖掘,似乎最方便的方式就是借助于人工智能来挖了。
甚至于林灰前世电脑里有一些现成的挖掘暗数据的方式。
虽然效率受限于时下的硬件可能会大打折扣。
但相比于现在传统的挖掘方式也是降维打击般的存在了。
不过新的问题又来了,从哪挖掘暗数据呢?