干净的数据:数据清洗入门与实践

📚 基本信息

  • 书名:干净的数据:数据清洗入门与实践
  • 作者:[美] 梅甘·斯夸尔
  • 出版社:人民邮电出版社·图灵出品
  • 出版时间:2016/5/1
  • 字数:175千字

💡 推荐语

掌握高效数据清洗方法,让用户更好地体验大数据价值。

📖 内容简介

理解数据清洗在整个数据科学过程中的作用,掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等。

发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能,学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式,采用三种策略来解析和清洗HTML文件中的数据,揭开PDF文档的秘密,提取需要的数据。

借助一系列解决方案来清洗存放在关系型数据库里的坏数据,创建自己的干净数据集,为其打包、添加授权许可并与他人共享,使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目。

✍️ 作者简介

作者梅甘·斯夸尔,依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。

🏢 出版社介绍

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。