编辑推荐
掌握Python分布式计算!从语言概述到核心技术,从集群部署到机器学习、强化学习,全面解析Dask和Xorbits,还有分布式数据预处理与mpi4py的应用。无论你是Python开发者还是数据科学家,本书将带你领略分布式编程的威力,让你在大规模数据处理和并行计算中事半功倍。拓展你的技术领域,加速你的项目进程,成为分布式计算的大师!
内容简介
当前,数据驱动的理念已渗透到各个领域,数据科学和人工智能技术在制造业、金融、教育等多个行业中得到了广泛应用。Python作为一种编程语言,已成为数据科学和人工智能领域的事实标准,它丰富的生态系统进一步增强了它在这些领域中的重要性。然而,随着数据量的不断增长,如何利用Python加速数据科学处理,并将它扩展到集群上的并行计算,已成为数据科学家面临的重要挑战。《Python数据科学加速:Dask、Ray、Xorbits、mpi4py》详细介绍了4种数据科学工具:Dask、Ray、Xorbits和mpi4py,这些工具可以帮助数据工程师和科学家处理更大规模的数据集、训练更复杂的模型,并更高效地进行机器学习模型的迭代和部署。 《Python数据科学加速:Dask、Ray、Xorbits、mpi4py》面向具备一定数据科学基础的数据工程师、数据科学家或领域专家,同时也适合大学生和研究生作为进入高性能数据科学领域的入门读物。
作者简介
鲁蔚征毕业于北京大学,目前就职于中国人民大学,曾在互联网公司工作,具有丰富的业界大数据和机器学习工作经验。除此之外,还发表了多篇CCF A类论文,已出版《Flink原理与实践》,并负责过多个产学合作项目。秦续业毕业于上海交通大学,前阿里巴巴技术专家,现任未来速度CEO,多款大数据和机器学习开源框架开发者和引领者,其开发的项目Xorbits Xinference等在 GitHub上收获上千星标。
目 录
第1章 并行计算基础11.1 现代计算机体系结构 11.1.1 CPU 21.1.2 网卡 21.1.3 异构计算 21.2 串行执行与并行执行 21.3 线程和进程31.3.1 进程与线程 ·31.3.2 线程安全 51.3.3 全局解释器锁 61.4 并行程序设计方法 71.4.1 PCAM 71.4.2 切分方式 81.4.3 案例:MapReduce 8
显示全部信息
前 言
我们已经进入智能时代,智能应用层出不穷,数据驱动的理念正在深入渗透到各行各业。无论是金融建模、政府决策还是智能制造,这些领域无一不依赖于大数据和人工智能。Python编程语言已成为数据科学和人工智能领域的事实标准。Python社区提供了大量的数据科学和人工智能库,例如NumPy、Pandas、Scikit-learn、PyTorch等,这些库和框架能够帮助数据科学家高效地进行数据分析和机器学习建模。然而,一些库主要面向单机场景,