让数据说话
信息协会的果实很容易看到,例如每个口袋中的手机,每个袋中的计算机以及各个办公室中的大型后端系统。但是,不容易看到的是信息本身。半个世纪以来,计算机进入主流社会以来,数据已经开始积累到某个地点,并且即将发生一些新的和特殊的事情。信息不仅爆炸,而且信息增长速度更快。规模的变化导致状态变化。数量的变化导致质量变化。大象空间和基因的学科首先在2000年经历了这种爆炸,这是“大数据”一词。这个概念现在迁移到人类的所有领域。
大数据没有非常严格的定义。最初的意义在于,这些信息已经增长过多,并且不再适合在计算机内存中处理,因此工程师需要开发更好的工具来分析数据。这是新加工技术的来源,例如Google的MapReduce,并从Yahoo开设了类似的Hadoop。这使人们可以管理比以前更大的数据,而且重要的是,这些数据不需要存储在表或经典数据表中。其他数据处理技术将数据分配给不容易更改的级别,并且先前的均匀性也在该级别上。同时,由于互联网公司可以收集大量数据并具有财务激励措施,因此它们已成为大数据处理的领导者,以数十年的经验代替离线公司。
考虑当今问题的方法以及本书中我们所做的方法是这样的:我们可以大规模做与数据相关的大型事情,我们不能小规模地提取新想法或创造新价值,更改在方法,组织与公民与政府之间的关系等方面。
但这只是一个开始,大数据的时代挑战了我们与世界的生活和互动方式。更令人惊讶的是,社会将发挥一些妄想的因果关系和简单的关系交流:不知道为什么,但知道什么。这改变了几个世纪以来建立的实践,并挑战了我们如何做出决策和理解现实的最基本考虑。
大数据标志着主要转换的开始。大数据将成为臭名昭著的硅谷炒作周期的受害者:在邀请了杂志封面和工业会议的邀请之后,趋势将消失,数据命中将战斗。但是,对这种重要性的痴迷和诅咒都是难以理解的。就在望远镜使我们能够理解宇宙时,显微镜使我们能够了解细菌,收集和分析大数据的新技术有助于我们了解我们的世界。在这本书中,我们不是大数据的传教士,我们只是使者。而且,真正的革命不是计算大数据的机器,而是一个大数据本身以及我们如何使用它。
欣赏信息革命的范围已经启航,考虑到真实社会的趋势,我们的数字宇宙正在不断扩大。以天文学为例。当斯隆数字天空调查始于2000年时,望远镜在几周内收集了更多的信息,而不是在整个发展历史上收集的天文学。到2010年,这项调查获得了大量140TB的信息。但是,到2016年,一位继任者是智利的一项大型天气调查望远镜,每五天将收到大量数据。
此类天文数字也更靠近我们。当科学家在2003年首次解码人类遗传图时,这将使他们在接下来的十年艰苦的工作中分解300万个基因组。现在,一个简单的设施可以在十年后的一天(一天之后)逗弄更多的DNA。在金融中,每天在美国发生约700万笔股票交易,并降低风险,大约三分之二的交易是根据数学模型通过计算机算法处理的。
互联网公司已经陷入困境。 Google每天处理24%的数据,这是美国国会印刷材料量的数千倍。 Facebook是一家十年前不存在的公司,每小时收到1000万张照片。 Facebook成员单击“喜欢”按钮或每天写下评论近三百万次。创建一个数字跟踪公司可以利用用户偏好的数字跟踪。同时,每天有8亿Google YouTube用户每秒上传超过一个小时的视频。 Twitter上的信息每年增加200次,到2012年,它在一天内已超过4亿Twitter。
从健康科学,互联网银行业务中,该领域将使这些领域多样化,这些领域共同讲述了一个简单的故事:世界上的数据量不仅增长,不仅是我们的机器,而且我们的想象力变得更好。
许多人试图计算我们周围的信息量,并计算其增长速度。他们使成功程度多样化,因为它们衡量了不同的事物。南加州安嫩伯格学校的马丁·希尔伯特(Martin Hilbert)进行了一项有关通信和新闻的广泛研究。他试图对生成,存储和传达的每一件事提出数字。这不仅包括书籍,绘画,电子邮件,照片,音乐和视频(模拟和数字),还包括视频游戏,电话,甚至是汽车导航系统,以及通过电子邮件发送的信件。还包括基于接触每个观众的电视和广播信号。
通过Hilbert的计算,2007年将有300多个数据存储的EB。了解这意味着什么并考虑这是什么样的。电影工厂有一部全长电影,可以压缩到GB文件中。一个EB相当于一百万GB。简而言之,有太多。有趣的是,在2007年,只有7%的数据被模拟(文章,书籍,照片等)。其余的都是数字。但是不久前的照片看起来很不一样。尽管自1960年以来,信息革命和数字时代的含义已被广泛宣传,但它们通过某些设备成为现实。自2000年以来,存储的四分之一的信息一直是数字化的。其他四个季度在纸上,电影,乙烯基记录,磁带设备等。
那些长期以来在网上浏览互联网并在线购买书籍的人认为,数字信息并不大(实际上,1986年的计算设备中约有40%是袖珍设备,它代表了当时比个人更多的计算能力。有更多的计算机),但是由于数字数据的扩展太快,因此它将每三年翻一番以上,这种形式将迅速改变自身。相反,仿真信息却很少。因此,在2013年,世界上存储的信息量约为1,200 EB,其中2%是非数字的。
没有一个好方法可以考虑这一数量的数据含义。如果全部印刷到书中,它将覆盖整个美国地区,厚52层。如果将其放置在CD-ROM中,它将堆积到5个堆中,直到月球。埃及的托勒密二世想存储每本书和一本书的副本,亚历山大图书馆代表了世界各地的知识之和。现在,洪水扫描世界等同于给居住在地球上的每个人的320倍估计存储在亚历山大图书馆中的信息。
事情确实在加速。存储的信息的增长相当于世界经济增长的四倍,计算机的加工能力是量的九倍。人们抱怨信息太多,每个人都受到这种变化的影响。
从长期的角度来看,与早期信息革命相比,当前的数据洪水泛滥,古腾堡可移动型印刷是在1439年发明的。在接下来的五十年中,大约有800万本书从1453年到1503年出版,并由伊丽莎白进行了研究,并进行了研究。爱森斯坦历史研究所。自从1200年前建立君士坦丁堡以来,这被认为比在欧洲出版的所有书籍都要多。换句话说,与今天的每三年相比,它花费的时间几乎是欧洲信息的两倍。
这种增长意味着什么? Google人工智能专家彼得·诺埃尔(Peter Noel)喜欢进行图像比较。首先,他让我们考虑了大约17,000年前的旧石器时代时代的拉什科洞穴家具的图标马。然后考虑一匹马的照片,帕勃罗·毕加索(Pablo Picasso)的画,看起来不像洞穴中的画。实际上,毕加索(Picasso)展示了以拉什科(Rashco)为模型的壁画,从那时起,“我们什么也没发明。”
毕加索的话一方面是真理,而不是另一方面。看着马的照片,画一匹马需要很长时间。现在可以使用照片更快地制作代表。这是一个变化,但它可能不是最基本的,因为它仍然是一样的:马的图像。但是现在,诺埃尔(Noel)考虑捕获一匹马的图像,以辩护,速度为每秒24帧。现在,数量的变化带来了质量的变化。电影与静态照片根本不同。这与大数据相同:通过更改数量,我们更改基本定理。
考虑一下纳米技术的类比,那里的情况变小而不是更大。纳米技术的原理是,当您达到分子水平时,可以改变物理特性。了解这些新功能意味着您可以发明材料来做事,而您以前做不到。例如,在纳米级,更灵活的金属和可伸缩的陶瓷是可能的,相反,当我们增加数据的大小时,我可以做新的事情,但是有了较少的事情,我们就无法做新的事情。
有时,我们生活在局限性上,盲目相信一切都是相同的,我们只运行规模的功能。从科学中进行第三次模拟。对于人类而言,最重要的物理规则之一是重力传感:它统治着我们所做的所有行动。但是对于小昆虫来说,重力几乎并不重要。对于水中的流浪者来说,这个物理世界的定律是表面张力,这使他们可以沿池塘行走而不会掉落。
对于物理,请使用信息来测量事物的大小。但是,Google能够诊断出流感的患病率,官方数据是基于对医生的实际访问。仔细搜索数十亿个搜索关键字可以产生实时答案,这比官方消息来源快。但是,Ezioni的Farecast能够预测航空公司机票中的波动,并将许多财务能力转换为消费者的手中。因此,这两个部分都可以通过分析数万数据来完成。
这两个例子表明了大数据的科学和社会属性的重要性,也是大数据可以成为经济价值的来源。他们表明,通过这两种方式,大数据准备好动摇从商业和科学到医疗保健,政府,教育,经济,人类以及社会其他各个方面的一切。
即使我们正处于大数据的开始,我们也每天都依靠大数据。不需要的电子邮件过滤旨在自动采用:无法编程软件以阻止“ Via6ra”或Infinite变体。配对网站配对夫妇基于与以前的成功匹配相关的大量属性。智能手机中的自动校正功能指导我们的动作,并根据我们键入的内容在拼写词典中添加新单词。但是,这些应用程序才刚刚开始。从检测汽车转弯或刹车到IBM的沃森计算机在游戏中击败人类的沃森计算机表现出危险的情况。这种方法将改变我们生活的世界的许多方面。
核心,大数据是关于预测的。尽管它被描述为计算机科学中人工智能分支的一部分,但它更具体地称为机器学习,这是一种误导性。大数据不会试图教会计算机像人类一样思考。相反,它将数学应用于大量数据以推断可能性的结论:这些可能性包括电子邮件是垃圾邮件;打字单词“ teh”被认为是“”;穿越道路轨迹和速度的人意味着自动驾驶汽车会放慢脚步,但看到他越过马路。这些系统如何工作的关键是,它们基于大量数据进行预测。此外,该系统的构建始终是通过根据最佳信号和模式保留标签来始终不断改善自己的,以查找所需的更多数据。
将来,许多先驱者认为,我们世界的许多方面将被计算机系统扩展或取代,而当今的许多方面被认为是人类判断的唯一领域。它不仅是由对接会驱动的,而且还因为复杂的任务。亚马逊可以推荐理想的书,Google可以对最相关的网站进行排名,Facebook知道我们喜欢什么,社交网站可以使我们想要的人神圣。同样的技术将应用于诊断疾病,建议处方,甚至能够在人犯罪之前识别罪犯。通过向计算机添加通信,互联网从根本上改变了世界。因此,大数据还将通过给予大量纬度来改变生活的基本方面。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.sjiceo.com/html/tiyuwenda/9618.html