Linux.中国 - 开源社区

 找回密码
 骑士注册

QQ登录

微博登录


tag 标签:
  • 大数据 [23]


相关文章

Apache Spark 不过时的六大理由
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。 YARN(负责资源分配和管理)是大数据环境下一个适用的架构。 或许是最为重要的一点,目前并不存在一个能解决所有问题的框架结构。尽管MapReduce是一项非常了不起的技术,但是它仍不能解决所有问题。
2015-8-27 10:09
大数据工具比较:R 语言和 Spark 谁更胜一筹?
本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库。 背景介绍 由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。 你是否曾把一个机器学习的问题丢到R里运行,然后等上好几个小时?而仅仅是因为没有可行的替代方式,你只能耐心地等。所以是时候去看看Spark的机器学习了,它包含R语言大部分的功能,并且在数据转换和性能上优于R语言。 曾经我尝试过利用不同的机
2015-12-8 10:04
这 9 个关键字,妹子和你聊聊 2015 年的大数据
2015年,大数据市场的发展迅猛,放眼国际,总体市场规模持续增加,随着人工智能、物联网的发展,几乎所有人将目光瞄准了数据产生的价值。行业厂商 Cloudera、DataStax 以及 DataGravity 等大数据公司已经投入大量资金研发相关技术,Hadoop 供应商 Hortonworks 与数据分析公司 New Relic 甚至已经上市。而国内,国家也将大数据纳入国策。 数梦工场邀请专家和您聊聊 2015 年大数据行业九大关键词,管窥这一年行业内的发展。 战略:国家政策 今年中国政府对于大数据发展不断发文并推进,这标志着大数据已被国家政府纳入创新战略层面,成为国
2015-12-30 17:30
Cassandra 和 Spark 数据处理一窥
Apache Cassandra 数据库近来引起了很多的兴趣,这主要源于现代云端软件对于可用性及性能方面的要求。
2016-7-17 17:35
构建你的数据科学作品集:机器学习项目
数据科学公司在决定雇佣时越来越关注你在数据科学方面的作品集。这其中的一个原因是,这样的作品集是判断某人的实际技能的最好的方法。好消息是构建这样的作品集完全要看你自己。只要你在这方面付出了努力,你一定可以取得让这些公司钦佩的作品集。
2016-10-28 10:21

相关图书

      Oracle内核技术揭密
      作者:吕海波|关注:0
       Oracle数据库领域传奇人物、前阿里B2B最高级别Oracle DBA吕海波(VAGE)10余年职业生涯的集大成之作。
      深入分析和挖掘Oracle数据库内核中的精髓与秘密,揭示了大量鲜为人知的原理和算法,并详细阐释了如何建立一套自己的调优排故模型。 ...
      本书是首本国内作者深入剖析Oracle原理的技术书籍。虽以内部原理为主线,但又不乏实际的应用案例,希望读者可以将学到的原理与实际应用相结合,提高对Oracle的运维能力。 ...
      出版:2014-09-24
      Storm实时数据处理
      作者:【澳】Quinton Anderson|关注:0
      在大数据领域,Hadoop无疑是最炙手可热的技术。作为分布式系统架构,Hadoop具有高可靠性、高扩展性、高效性、高容错性和低成本的优点。然而随着数据体积越来越大,实时处理 ...
      本书通过丰富的实例,系统讲解Storm的基础知识和实时数据处理的最佳实践方法,内容涵盖Storm本地开发环境搭建、日志流数据处理、Trident、分布式远程过程调用、Topology在 ...
      此外,本书旨在围绕Storm技术促进DevOps实践,使读者能够开发Storm解决方案,同时可靠地交付有价值的产品。
      出版:2014-06-01
      深入实践Boost:Boost程序库开发的94个秘笈
      作者:【俄】Antony Polukhin|关注:0
      Boost库是由专业人员开发,在多个平台和处理器架构上测试,并适用于广泛任务的可靠解决方案。本书将带你踏上简化应用程序开发过程的旅程,引导你更快地编写完美的应用程序 ...
      本书详细阐述多线程、网络编程、元编程和泛型编程,并探讨如何只编写一次程序,就能在Linux、Windows、Mac OS和Android操作系统中使用。书中汇集Boost库开发者创建的许多清 ...
      本书主要内容:
      出版:2014-04-01
      分布式云数据中心的建设与管理
      关注:169
      人算不如天算,天算不如云计算。大数据时代浪潮来袭,云数据中心建设智慧分享。
      华为公司第一线团队亲力写作,介绍最新分布式云数据中心解决办法,该办法为业界首创,解决企业、政府等的数据管理难题! ...
      目前,数量众多的数据中心给企业、政府机关带来了非常沉重的运维负担。业界流行的云计算技术还旨在解决单个数据中心内部的问题,无法解决多个数据中心之间资源共享、统一管 ...
      出版:2013-09-01
      大数据营销:定位客户
      作者:【美】麦德奇(Dimitri Maex),【美】保罗B.布朗(Paul B. Brown)|关注:18
      今天,我们的一切行为都在产生数据,而且数量巨大。每次浏览网页、搜索或者用智能手机上网,几乎都会增加数十亿字节之多的数据,而且这个增量还在扩大。 ...
      如此庞大的数据可以帮助我们更好地理解并预测客户的行为。
      最大的好消息是,我们再也无须精通数学或者统计学、甚至无须依赖昂贵的建模软件来分析客户。数据分析领域正在掀起一场革命。仿佛一夜之间,挖掘这些“大数据”的方法与工具 ...
      出版:2013-12-01
返回顶部

分享到微信朋友圈

打开微信,点击底部的“发现”,
使用“扫一扫”将网页分享至朋友圈。