首页 > 都市小说> 穿越:2014 > 第363章 角落的数据暗数据

第363章 角落的数据暗数据

2023-08-01 作者: 猪熊
  第363章 角落的数据暗数据
  黄静觉得林灰是在含蓄地向黄静转达下让海外的原创团队多搞一些符合中國用户习惯的设计。

  同时在设计上要尽量照顾一下中國的用户。

  之所以林灰先前在订制任务里面没明说?
  黄静觉得林灰只是顾念她和F.FSG这个线上办公软件的原创团队认识而已。

  于是林灰没当着黄静的面提出过多的方案修改意见。

  能如此体恤下属的情绪,黄静越发觉得追随林灰是个正确的选择。

  当然黄静内心深处的自我攻略,林灰对此是并不知晓的。

  林灰之后和黄静也没聊线上办公。

  而是又聊了一些美國科技巨头的讯息。

  虽然基本都是八卦之类的无聊消息,不过也不是所有信息都是八卦。

  至少林灰不是一无所获。

  从跟黄静的后续谈话中林灰从黄静那得知了一个颇为重要的信息。

  那就是蘋淉方面似乎致力于在谋求一笔总额大概在两亿美元到三亿美元大宗数据交易。

  对于这条消息黄静在描述的时候有点含糊其辞。

  似乎生怕不小心坑了林灰似的。

  以前黄静描述的信息往往都言之凿凿。

  很少出现不自信的情况。

  涉及到这宗交易黄静先说是数据交易后来又说不是数据交易。

  搞得林灰都有点糊涂。

  即便是小道消息林灰也很看重相应的价值,毕竟很多时候无风不起浪。

  至于黄静说得这个讯息到底是什么,经过进一步的询问以及多方查验。

  以及更进一步的一番推敲,林灰还是搞明白了。

  所谓的两三亿美元的数据交易指向的确实是数据,但又不是一般类型的数据交易。

  蘋淉方面此次谋求的数据收购实在是一桩比较特殊的数据交易。

  因为通过各方面渠道获得的信息,林灰觉得蘋淉方面的目标指向的实际是:

  ——“暗数据”。

  图谋于此,也可以看出来蘋淉似乎在明修栈道暗渡陈仓啊。

  暗数据有时候也被称为尘埃数据。

  暗数据或者说“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的。

  这些数据是公司和组织在其活动过程中收集的,但随后又不使用。

  暗数据往往是无结构、无标记、无分析的信息。

  比起此前林灰忽视的标注数据。

  暗数据就更没啥存在感了。

  暗数据这类数据几乎是被无视的。

  毕竟这类数据存在于网络和服务器中,只会占据了宝贵的空间。

  一般来说,暗数据主要有三种类型:

  第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。

  第二种类型是非传统数据。

  这包括未标记的音频和视频文件、静止图像和声音文件。

  第三种类型是深度数据。

  这包括深层网络中搜索引擎无法触及的信息。

  这些深度数据大多是私有的,由政府或私人机构控制。

  它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。

  以上这些数据都可以称之为暗数据。   
  ……

  暗数据这类数据相比传统意义上数据要更隐晦一些。

  暗数据这种未标注过的数据虽然不能拿来直接用吧。

  但却不能否定这种东西的潜力。

  反正绝对不能说这些信息不重要。

  至于果子为什么对这类东西感兴趣。

  因为收集这类一贯不被视为数据的数据。

  实际上通过深耕是能得到跟传统数据差不多的功效的。

  而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。

  这对于树立企业形象岂不是很有妙用??
  总之,对于既当又立的企业不能说是没有诱惑力。

  反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。

  类比林灰以前估量的价格。

  如果说几千万美元就能买上千万条双语标注数据。

  可想而知像蘋淉所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。

  涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。

  而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。

  结构化的数据一般是即有固定格式和有限长度的数据。

  例如填的表格就是结构化的数据。

  比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”

  这种格式的都叫结构化数据。

  这类数据很容易以固定的格式存储到数据库里。

  而半结构化数据值得是一些 XML或者 HTML的格式的数据。

  对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。

  所谓的非结构化的数据:就是不定长、无固定格式的数据。

  例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。

  子啊比如说例如 Word文档、语音,视频、图片都是非结构化的数据。

  而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。

  这个词语也不是林灰定义的。

  相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。

  单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。

  两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。

  更何况说拿几亿美元去换暗数据呢?
  可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。

  林灰那有很多前世的信息。

  但也绝不可能有满足蘋淉胃口的暗数据。

  不要说是林灰前世那点信息了。

  就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。

  这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。

  至于如何去收集呢?

  这是个问题,暗数据的收集方式多种多样但并不是每种都能直接上。

  (本章完)