? 基本信息
- 书名:深入大型数据集:并行与分布化Python代码
- 作者: (美) 约翰·沃勒翰 (John T. Wolohan)
- 出版社:电子工业出版社
- 出版时间:2021/2/1
- 字数:175千字
? 推荐语
这本书教授可伸缩编程,涵盖Hadoop、Spark、AWS等技术,旨在帮助你处理大数据集和加速决策过程。
? 内容简介
这本书教你写代码,让你可以处理任何大小的数据集。你将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以自动运行的小任务来教你并行处理数据分析。然后将这些相同的程序扩展到云服务器上的工业级数据集。根据地图坚定地降低范式,你将探索像Hadoop和PySpark这样的工具来有效地处理大量的分散式的数据集,通过使用机器学习来加速决策过程,和通过使用AWS S3来简化数据存储。本书的目标是教授一种可伸缩的编程风格。为了做到这一点,我们将涉及一些你可能不熟悉的编程或技术书籍。虽然其他书籍可能只会介绍某一个函数库库,而本书则会涉及许多函数库—既有内置的模块,例如functools和itertools,也有第三方库,例如toolz、pathos和mrjob。其他的书籍可能只会涉及某一项技术,而这本书会涉及很多技术,包括Hadoop、Spark和Amazon Web Services (AWS)。本书选择覆盖更广泛的技术是为了承认这样一个事实:为了让代码具有可伸缩性,你需要能够适应新的情况。
? 出版社介绍
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
