分类筛选
分类筛选:

关于思维论文范文资料 与大数据思维离我们有多远有关论文参考文献

版权:原创标记原创 主题:思维范文 科目:发表论文 2024-01-25

《大数据思维离我们有多远》:这篇思维论文范文为免费优秀学术论文范文,可用于相关写作参考。

大数据是一个含糊不明确的词,用来形容一种大规模现象,这种现象目前已经迅速成为企业家、科学家、政府以及媒体追寻的焦点.

大数据令人瞩目

5年前,谷歌的一个研究团队在世界上最著名的科学期刊《自然》杂志上发布了一项令人瞩目的研究成果.不需要任何医疗检验结果,该小组竟能够追踪到当时扩散在全美的流感趋势,而且追踪速度甚至比美国疾病控制中心(CDC)要快得多.谷歌的追踪只比流感的爆发晚了一天,而CDC却花了一周甚至更多时间, 来汇总一张流感传播趋势图.显然,谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势.

谷歌流感趋势不仅快速、准确、成本低,而且不需要任何理论支持.谷歌的工程师们没心思去开发一套假设理论来追究什么样的词条(“流感症状”或者“离我最近的药店”)可能和疾病本身的存在的关键词,而是谷歌团队挑出了5000万条最靠前的词条,然后让搜索法则自行运算,得出的结果.

谷歌流感趋势成为了商业界、技术界、科学界具有代表意义的成功案例:“大数据”.接来下记者们就会激动的问道:科学界是否也可以向谷歌学习呢?

正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被那些手里有什么要推销的人信手拈来又随手抛去.有人会特别提到数据组的规模,例如Large Hadron Collider的电脑,一年能够储存15千兆字节,基本相当于你最喜欢的音乐播放1500年留下的数据.

吸引了众多公司注意力的“大数据”实际上可以被我们称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台.谷歌流感趋势是建立在已经被寻获的数据上的,就是这种信息吸引我们来到这里.这样的数据组可以更庞大,甚至大过LHC的数据——Facebook.值得注意的是,相对于这些庞大的规模,这些数据的收集实际上很便宜.数据点的随意拼贴,收集起来用于不同的目的,同时可以实时更新.现代社会随着我们的沟通、休闲和商务活动都转移到网络上,网络则渐渐迁徙至移动网络,生活在以一种10年前难以想象的方式,被记录和被量化.

大数据的拥护者们得出了以下四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:

1.数据分析产生了惊人的准确结果;

2.每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;

3.数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;

4.科学或数据模型是不需要的.

虽然大数据向科学家、企业家以及政府展现出了那么多光明前景,然而,这四条理论完全是出于最乐观最单纯的角度,如果我们忽略了一些过去的经验教训的话,它也注定会让我们失望.

大数据为何让人失望

在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了.过去几年冬天,“谷歌流感趋势”信心满满地提供了一系列迅速准确的流感爆发情况统计信息.但是不知从何时开始,这项无理论依据,使得数据基础丰富的模型渐渐失去它对流感的灵敏嗅觉.在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将慢得不着边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍.

问题是谷歌不知道,甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起.谷歌的工程师也并没有试图去搞清楚背后的原因,他们只是简单地寻找数据中的规律.比起前因后果,他们更在乎数据之间的相关性.这种情况在大数据分析中相当常见.

搞清楚前因后果很困难(几乎是不可能的,有人这么说),但是搞清楚哪些数据是相互关联的则显得成本更低更容易.

这就是为什么V i k t o r M a y e rSch?nberger和Kenneth Cukier会在他们的著作《大数据》中写道,“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位”.

一项没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的.如果你不明白表象相关性背后的事情,那么你就不会知道什么原因会导致那种相互关联性的破裂.谷歌流感趋势之所以失败的解释可能是,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群的在线搜索的兴趣.另一个可能性解释就是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息.

统计学家们在过去200年里一直致力于弄清楚是什么阻挡了我们单纯地通过数据来理解这个世界?虽然当前世界中数据的量更大,传播速度更快,但是我们不能假装过去那些陷阱都已经安全处理了,因为事实上他们并没有消失.

1936年,共和党人Alfred Landon参加和总统Franklin Delano Roosevelt一起的总统竞选,一家备受尊重的知名杂志《文学文摘》肩负起了大选结果的预测责任.杂志社发起了一次邮政民调活动,目的在于将测验送达1000万人民手中,这个数字接近了真实选民数的1/4.回复如洪水般涌来,让人难以想象.杂志社也很享受这种大范围的任务.在8月末期,报道说,“下周,这1000万名选票中的第一批人将开始经历候选人的第一轮,进行三次检验,核实,五次交叉分类和汇总.”

在统计了两个月内收回的数量惊人的 240万张选票后,《文学文摘》杂志最终发布其调查结果:兰登将以55%对41%令人信服地赢得大选,其中有少数倾向于第三方候选人.

但是竞选最终却呈现出非常不同的结果:罗斯福以61%对37%的绝对优势大胜兰登.让《文学文摘》杂志更加郁闷的是,由民意调查先驱人物George Gallup实施的一个小范围的调查得出的结果却和最终结果非常接近,成功预测了罗斯福将轻松获胜.由此可见,Gallup先生理解了《文学文摘》杂志社所不能理解的一些事:当谈到数据时,规模不代表一切.

思维论文参考资料:

思维和智慧杂志

大学生思维论文

思维论文

结论:大数据思维离我们有多远为适合不知如何写思维方面的相关专业大学硕士和本科毕业论文以及关于思维论文开题报告范文和相关职称论文写作参考文献资料下载。

和你相关的