Hadoop+Spark大数据分析实战

? 基本信息

  • 书名:Hadoop+Spark大数据分析实战
  • 作者:迟殿委 编著
  • 出版社:清华大学出版社
  • 出版时间:2022/6/1
  • 字数:281千字

? 推荐语

本书全面讲解Hadoop生态圈各组件的核心知识、操作和分析技术,系统介绍Spark框架搭建、操作和典型的机器学习分析技术。

? 内容简介

本书是Hadoop Spark大数据分析技术入门书,基于Hadoop和Spark两大框架体系的3.2版本,以通俗易懂的方式介绍Hadoop Spark原生态组件的原理、集群搭建、实战操作,以及整个Hadoop生态系统主流的大数据分析技术。

全书共分14章。

第1章讲解Hadoop框架及新版本特性,并详细讲解大数据分析环境的搭建工作,包括Linux操作系统的安装、SSH工具使用和配置等;

第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;

第3~12章讲解Hadoop生态系统各框架HDFS、MapReduce、输入输出、Hadoop集群配置、高可用集群、HBase、Hive、数据实时处理系统Flume,以及Spark框架数据处理、机器学习等实战技术,并通过实际案例加深对各个框架的理解与应用;

第13~14章分别通过影评分析、旅游酒店评价分析实战项目来贯穿大数据分析的完整流程。

本书可以作为大数据分析初学者的入门指导书,也可以作为大数据开发人员的参考手册,同时也适合作为高等院校大数据相关专业的教材或教学参考书。

✍️ 作者简介

编著者迟殿委,计算机软件与理论专业硕士,系统架构设计师。有多年企业软件研发经验和丰富的Java EE培训经验,熟练掌握Java EE全栈技术框架,对Java核心编程技术有深刻理解。

主要擅长Java EE系统架构设计、大数据分析与挖掘。著有图书《Hadoop Spark大数据分析实战》《Spring Boot企业级开发实战(视频教学版)》《Spring Boot Spring Cloud微服务开发》《深入浅出Java编程》。

? 出版社介绍

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。