《Python爬虫、数据分析与可视化 工具详解与案例实战》成立明,胡书敏,黄勇|(epub+azw3+mobi+pdf)电子书下载

图书名称:《Python爬虫、数据分析与可视化 工具详解与案例实战》

【作 者】成立明,胡书敏,黄勇
【页 数】 252
【出版社】 北京:机械工业出版社 , 2020.08
【ISBN号】978-7-111-66775-9
【分 类】软件工具-程序设计
【参考文献】 成立明,胡书敏,黄勇. Python爬虫、数据分析与可视化 工具详解与案例实战. 北京:机械工业出版社, 2020.08.

图书封面:

图书目录:

《Python爬虫、数据分析与可视化 工具详解与案例实战》内容提要:

本书共13章:第1-4章为基础篇,主要讲述Python基础知识、Python数据结构、面向对象编程思想、Python异常处理和读写文件的技巧;第5-7章为数据分析的工具篇,主要讲述NumPy库、Pandas库和Matplotlib库的基本功能和应用;第8-9章为数据分析高级技能篇,主要通过爬取技术博客案例讲述基于Scrapy爬虫框架的实用技巧,以及数据分析的常用方法;第10-13章为综合案例篇,主要讲述图书分析案例、二手房数据分析案例、股票数据分析案例和基于sklearn库的机器学习相关实践,涉及线性回归分析、岭回归分析、SVM分类、KNN分类和逻辑回归等机器学习算法。

《Python爬虫、数据分析与可视化 工具详解与案例实战》内容试读

第1章

Python编程基础

本章首先介绍运行Python代码的方法,包括如何安装Python解释器、如何安装PyCharm集成开发环境以及如何安装第三方包。

在此基础上,我们将通过案例介绍Pythor的基础语法点,包括分支和循环语句的写法以及函数的基本定义方式

此外,本章还将讲述函数的特殊写法,包括函数作为参数传入、函数作为结果返回以及匿名函数(lambda表达式)的知识点,通过这种特殊定义函数的方法,可以提升代码的可读性和可维护性。

1.1搭建Python开发环境

Python是跨平台的,在Windows平台上开发出来的程序,在Linux等其他操作系统上也能运行,原因是Python的解释器能屏蔽各操作系统的差异,也就是说,开发Python首先得装解释器。

集成开发环境能提升Python的开发效率,本书使用的是PyCharm。在本节里,大家不仅能看到相关工具的安装方式,还能通过搭建好的环境开发并运行第一个Pytho如程序。

1.1.1安装Python解释器

我们可以从官网(htps:www.python..org/downloads/windows/)下载解释器。本书是基于

Windows开发的,所以下载Windows版本的解释器,相关下载页面如图1.1所示。其中,仅包含x86的版本只适用于32位操作系统,而x86-64适用于64位:web-based表示通过网络安装,就是在运行安装程序时会通过网络下载Python解释器;embeddable zipfile格式的安装包是zin压缩格式的,而executable是可执行文件格式的安装包,下载后单击即可按提示步骤安装。

2|Python爬虫、数据分析与可视化:工具详解与案例实战

X Python Software Foundation [US]python.org/downloads/windows/

Python Releases for Windows

.Latest Python 3 Release-Python 3.7.4

Latest Python 2 Release.Python 27.16

Stable Releases

Python 3.7.4-July B,2019

Note that Python 3.7.4 cannot be used on Windows XP or eartier.

Download Windows help file

Download Windows x86-64 embeddable zip fite

Download Windows x86-64 executable installer

Download Windows x86-64 web-based installer

Download Windows x86 embeddable zip file

Download Windows x86 executable installer

Download windows x86 web-based installer

图1.1在官网上下载解释器的示意图

这里大家可以自行选择对应的安装包,建议选择executable格式。下载并安装完成后能在相应的路径里看到python..exe,比如本机是C:Users\think\AppData Local\Programs\Python\

Python.37。这里请把该路径添加到机器环境的Path路径里,这样在任何路径都可运行python.exe命令。

大家可以根据自己的操作系统,在官网上下载并安装对应的版本,比如可以安装基于

Linux的,也可以安装基于Python2的解释器。对此,本书有如下两点说明。

第一,Python3.X和2.X解释器分别对应着Python3和Python2的语法,它们有略微的不同,本书的代码都是基于Python3的。

第二,Window XP操作系统最高能安装的版本是3.4.4,也就是说,之后的版本无法在XP环境上安装。本书用到的某些第三方开发包(比如用于开发爬虫的Scrapy)可能需要3.5及之后的版本,所以建议大家在Windows7或Windows 10上安装Python开发环境。

1.1.2安装Python第三方开发包

不同的Python开发包封装着不同的功能代码,比如之前提到的Scrapy包就封装了爬虫相关的功能代码,又如NumPy包含了大量数学函数库。

Pytho解释器包含不少默认库,通过它们能实现若干基础功能。如果要实现若干扩展性的功能点,可以通过如下步骤来安装对应的第三方开发包。

第一步,在cmd命令窗口里,通过cd等命令进入Python解释器所在的路径,比如本书是C:Users\think\AppData Local Programs Python\Python37,在该路径里,再进入Scripts路径,在其中能看到pip3命令。

第二步,通过“pip3 install包名”的方式安装第三方包,比如要安装NumPy包,对应的命令是pip3 install NumPy。此时,pip3命令会自动到对应的网站上下载支持本解释器的包,并在本地安装。

第1章Python编程基础|3

第三步,安装完成后,能通过pip3ist命令确定所安装的包,并能查看所安装包的版本,如图l.2所示。此外,还能通过“pip3 uninstall包名”的格式卸载对应的包。

AUsers\think \AppData\Local\Programs\Python\Python37\Scripts pip3 list

isnlcryto

0.24.0

attrs

19.0

Automa tcertifi

201.5,10

f11

11

chardet

3.0.4

constantly

15.1.0

ryptography

ssseleet

1.1.0

0.10.

get

2019.4.10

hyperlin山

19.0.0

17、5.0

1.1.0

atplotlib

andas

图1.2通过pip3命令查看安装包的示意图

在本书的后续章节里会用到不少第三方包,比如在介绍可视化编程时会用到Matplotlib包。使用之前会有提示性文字,比如请用pp3命令安装此包,看到此文字时即可用本小节提示的方法下载并安装对应的包。

1.1.3在PyCharm里新建项目和文件

PyCharm是Python的集成开发环境,在其中能高效地开发、运行和管理Python代码。下载PyCharm后,我们可以按照提示安装该集成开发环境,之后可以通过如下步骤新建项目和py文件(注:Python文件的扩展名是py)。

第一步,打开PyCharm,能看到如图1.3所示的欢迎界面。单击Create New Project项,可以新建Python项目。如果已经有创建好的项目,则可以通过Open项打开。

PyCharm

第二步,在随后弹出的窗口左侧选择Pure Python项,因为

Version 2018.3.5

本次我们创建的是基本Python项目。在Location项里,输入待创建项目的位置和项目名,其中Chapterl是项目名。

Create New Project

在project interpreter项里,选择本项目用到的解释器。这

Open

里可以选用默认的,也可以如图1.4所示选择在1.1.1节中安装

Check out from Version Control

好的Python解释器。完成后单击下方的Create按钮创建项目。

图l.3 PyCharm的欢迎界面

第三步,如图l.5所示,在创建好的Chapterl项目上右击,

选择New→Python File菜单项,创建一个Python文件。在随后弹出的界面里,输入文件名“HelloPython”,如图1.6所示。

4 Python爬虫、数据分析与可视化:工具详解与案例实战

图New Project

Pure Python

Location:D:\work\pythonCode\Chapter1

Django

Flask

Project Interpreter.Python 3.7

Google App Engine

Pyramid

ONew environment usingVirtualenv

Web2Py

Location:

D:work\pythonCode\Chapter1venv

Scientific

Base interpreter Python 3.7 cnthoPthon

Angular CLI

Inherit global site-packages

AngularJS

Make available to all projects

BBootstrap

Existing interpreter

Foundation

Interpreter:Python 3.7-

HTML5 Boilerplate每React App每React Native

Create

图l.4 PyCharm的创建项目界面

Chapter1 [D:\work\pythonCode\Chapter1]-PyCharm

File Edit View Navigate Code Refactor Run Iools VCS Window Help

Chapter1

☐Project

8÷中

File

I Externa

New

Scratch Cut

Ctrl+X置New Scratch File

Ctrl+Alt+Shift+Insert

后Copy

Ctrl+C■Directory

Copy Path

Ctrl+Shift+Ci Python Package

Copy Relative Path

Ctrl+Alt+Shift+C

Python File

自Paste

Ctrl+V Jupyter Notebook

图1.5在Python项目里创建文件

第四步,在创建好的文件里,输入“print("Hello Python")”打印语句,如图1.7所示。注意,语句没有缩进。

Chapter1 [D:\work\pythonCode\Chapter1]--\HelloPython-py [Chapter1]-PyCharmile Edit yiew Navigate Code Refactor Ryn Iools VCS Window Help

图New Python file

■Chapter1)4 HelloPython-py回Project

B÷女一福HelloPython..pyx

Name:HelloPython

Chapterl D:\work\pythonCode\Chapter1

prnt(Hollo Python')

Kind:

Python file

HelloPython.py

External Libraries

OK

Cancel

Scratches and Consoles

图1.6输入文件名

图1.7在文件里编写打印语句

第五步,在空白处右击,在随后弹出的菜单里单击Run 'HelloPython'项运行代码。运行后能在控制台里看到“Hello Python”的输出,如图l.8所示。

第1章Python编程基础|5

Chepter1 [D:workipythonCode\Chapter1]--WelloPythonpy IChapter1]-PyCharme Edit Yiew Navigate Code Befactor Rayn Tools VCS Window Help

属Project

3÷章一HelloPython-pyx

printHollo Pythen'T

HelloPython-py》External Libraries

Scratches and Consoles

Copy Reference

CuleAk+Shift+C

日Pacte

Ctrl+V

Pastg fromoy

Cul+Shilt+V

Paste without Formatting

Chrl+At+ShittV

At+Sht+nse时

Find Usages

Alt+F7

Befactor

Folding

Go To

Generate

Alt+insert

Bun 'HelloPython'

Cd56a510

D Debug 'HelloPython'

CRun HelloPython'with Coyerage

图1.8查看运行结果

1.1.4在PyCharm里更换Python解释器

PyCharm也自带Python解释器,但我们在l.l.1节安装的Python解释器通过pip3命令安装了不少第三方包,所以在PyCharm集成开发环境里,采用自己安装的解释器而不用默认解释器。

通过1.1.3节所述的步骤,我们在新建项目时已经指定了正确的解释器,如果没有用对解释器,就单击菜单File→Settings.,可以看到如图l.9所示的设置界面。

图Sng甲

Project Chapterl)Project Interpreter

For current project

Project interpreter:Python 1.7

Keymap

Editor

Plugins

a70

Clek

70

303

205

Project Structure

PyHamere国

1.90

Build Excecution,Deployment

093

Scrapy

173

Tools

19.70

asgiref

323

asnlcrypto

a240

1910

图1.9设置解释器的界面

在左侧打开当前项目Chapter1,并选中Project Interpreter;在右侧可更改解释器,并能查看该解释器所包含的第三方包。

如果本项目所需要的第三方包不包含在当前解释器里,则可以如1.1.2节所述,通过pi3命令安装,装好后再次打开如图1.9所示的设置界面,就能看到所需要的包了。

1.2实践Python基本语法

在学习Python语法前,请大家务必注意,Python是通过缩进来定义代码层次的,即同一

6|Python爬虫、数据分析与可视化:工具详解与案例实战

层次的代码都是左对齐,而下一个层次的代码块与当前代码块相比会有4个空格的缩进。注意,这里缩进的空格数是约定俗成的。

1.2.1针对基本数据类型的操作

Pytho程序的基本元素是各种类型的数据,比较常见的基本数据类型有整型、浮点型、字符串类型和布尔型,除了字符串类型的数据将在1.2.2节讲述之外,在如下的DataDemo.py案例中,演示了针对其他各种基本数据类型的操作。

01age=16

02print(age+1)#1703 returnVal=0xff

04 print (returnVal)#25505 price=20.8

06 print(20.8*2)#41.607 lightspeed=3e5 300000km08 print(lightspeed*10)#300000009 oneNm=1e-9

10 print (oneNm*5)#5e-0911 isExpensive=price<3012 print (isExpensive)#True

在分析代码前,请大家注意两点:第一,由于所有代码都处于同一层次,所以均是靠左对齐,且没有缩进:第二,在诸如第2行和第4行的后面,使用#来编写单行的注释。

在第1行里,我们定义了一个整型变量age,赋值为l6,在第2行的print语句中,我们对age进行了加1操作,所以输出是17。在第3行的returnVal变量赋值之前,我们用0x前缀表示十六进制,通过第4行的打印语句,我们能看到该变量的值是255。以上我们演示了针对整型变量的操作。

在第5行里,我们定义的pice带有小数点,是浮点型数据。除了直接用小数点定义外,还可以用带e的方式定义,比如在第7行中我们通过35定义了光的速度,单位是千米,表示的数字是300000,在第9行里,我们通过1e9定义了一个纳米的长度,这表示具体的单位是1乘以10的-9次方。以上我们演示了针对浮点型数据的操作,其中第6、8、10行的输出结果如对应行后面的注释所示。

在第1l行里,isExpensive变量的结果是布尔值True,因为price小于30,所以这个结果能从第12行的输出语句中看出。布尔类型变量可以直接赋值成True或False,也可以用类似第11行的语句通过表达式赋值。

这里请大家注意,Python里定义变量时无须指定数据类型,比如在第1行定义age时无须用int age=l6的方式定义,所以在定义和使用时千万别混淆。另外,若用age=16.5语句给age变量赋浮点型数据,则代码的可维护性会变差。

而且,在定义变量时,变量名尽量要有意义,比如从第5行定义的变量名pice里就能看出它是浮点型数据,不建议用a或者b之类无意义的单词来定义变量。

···试读结束···

阅读剩余
THE END