大数据采集与处理

📚 基本信息

  • 书名:大数据采集与处理
  • 作者:张雪萍
  • 出版社:电子工业出版社
  • 出版时间:2021/11/1
  • 字数:333千字

💡 推荐语

大数据时代关键技术:采集、预处理、存储、计算和安全

📖 内容简介

在大数据时代背景下,如何从大数据中采集出有用的信息并合理地存储起来已经是大数据发展的最关键因素,数据采集与处理是大数据产业的基石。本书首先介绍了大数据概念及特征、大数据处理关键技术、开源 Hadoop安装与使用、Hadoop生态系统及主要组件,在此基础上重点介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等关键技术,并且每一部分都以案例为依托进行项目实战。大数据采集部分具体包括:大数据采集方法、常用采集工具及平台、网络爬虫、Apache Kafka等;大数据预处理技术包括:清理、集成、变换、数据仓库与ETL;大数据存储与计算部分介绍了RDB、MPP、HDFS、HBase、Alluxio、ElasticSearch等存储架构,Redis、Cassandra、ongoDB、Neo4j等常用的NoSQL, MapReduce计算框架、Hive数据仓库,Spark、Storm 、Flink等流计算模式,以及Pregel图计算;大数据安全部分介绍了大数据安全面临的技术问题和挑战、大数据安全关键技术以及大数据安全管理及应用;最后介绍了电商、交通、医院、电信、煤炭、教育等行业大数据采集与处理。

🏢 出版社介绍

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。