当前位置：首页 > news >正文

Python的Numpy、Pandas和Matplotlib（随笔）

news 2025/10/14 21:10:26

Python--Numpy
import numpy as np

1、扩展程序库（维度数组与矩阵运算、针对数组运算提供大量的数学函数库）

2、N维数组对象对象：ndarray（别名array，用于存放同类型元素的多维数组
，以 0 下标为开始进行集合中元素的索引。

3、属性：

4、创建Numpy数组：
使用array()函数，在调用该函数时传入一个列表或者元组。

linspace 函数用于创建一个一维数组，数组是一个等差数列构成的

logspace 函数用于创建一个对数等比数列

zeros()函数创建元素值都是0的数组；通过ones()函数创建元素值都为1的数组。

empty()函数创建一个新的数组，该数组只分配了内存空间，它里面填充的元素都是随机的。

arange()函数可以创建一个等差数组，它的功能类似于range()，只不过arange()函数返回的结果是数组，而不是列表。根据 start 与 stop 指定的范围以及 step 设定的步长，生成一个 ndarray

有些数组元素的后面会跟着一个小数点，而有些元素后面没有，比如1和1.，产生这种现象，主要是因为元素的数据类型不同所导致的。

5、数据类型：
NumPy的数据类型是由一个类型名和元素位长的数字组成。（例如float64）

常用的数据类型如右表所示：

每一个NumPy内置的数据类型都有一个特征码，它能唯一标识一种数据类型。

ndarray.dtype可以创建一个表示数据类型的对象，如果希望获取数据类型的名称，则需要访问name属性进行获取。

数据类型可以通过astype()方法进行转换。

6、数组运算

7、ndarray的索引和切片、排序
索引
一维数组

多维数组

想获取二维数组的单个元素，则需要通过形如“arr[x，y]”的索引来实现，其中x表示行号，y表示列号。

切片

排序
可以通过sort()方法实现

检索
all()函数用于判断整个数组中的元素的值是否全部满足条件，如果满足条件返回True，否则返回False。

any()函数用于判断整个数组中的元素至少有一个满足条件就返回True，否则就返回False。

8、数组的转置
数组的转置指的是将数组中的每个元素按照一定的规则进行位置变换。
T属性：进行轴对换而已。
transpose()方法：对数组的shape进行调换时，需要以元组的形式传入shape的编号，比如(1,0,2)。

只需要转换其中的两个轴，这时可以使用swapaxes()方法实现，该方法需要接受一对轴编号，比如(1,0)。

9、统计函数
NumPy 数组中提供了一些简单的统计函数，可以帮助我们计算数组的最大、最小值、平均值、中位数等。

最大、最小值¶
可以使用.max()/.min()或np.amax()/np.amin()，计算数组的最大最小值
a = np.random.randint(low=0,high=99, size=(7,9))
print (a,"\n",a.max(),"\n",a.min())

平均值
可以使用np.mean()/np.average()或.mean()方法获取数组中所有元素的均值
a.mean()

中位数
使用np.median()计算数组的中位数
np.median(a)

标准差
使用np.std计算标准差
np.std(a)

Python--Pandas
import pandas as pd

1、Pandas是基于NumPy数组构建的，也是Python语言的第三方库，Pandas使数据预处理、清洗、分析工作变得更快更简单，主要用于数据分析。专门为处理表格和混杂数据设计的，相当于Python的Excel，而Numpy更适合处理统一的数组数据。

2、对象
series用于保存一维类的数据，DataFrame用于保存二维类的数据，panel（不常用）用于保存三维类或者可变维度的数据。

3、
3.1创建Dataframe对象
pd.DataFrame(data=None, index=None, columns = None, dtype=None)
data: 可以是嵌套列表，二维数组，字典或者DataFrame对象
index: 可以是索引对象或者类数组对象
跟Series一样，index=None时，则会按照默认的0,1,2...顺序建立索引
columns: 可以是索引对象或者类数组对象，其含义是列索引

字典法创建

data = {"grammer":['Python', 'C', 'Java', 'GO', 'css', 'SQL', 'PHP', 'Python'],
"score":[1.0, 2.0, 6.0, 4.0, 5.0, 6.0, 7.0, 10.0]}
df = pd.DataFrame(data)
df