Python_Data_Mining_Functions

Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(可视化).

基本统计特征函数

统计特征函数用于计算数据的均值, 方差, 标准差, 分位数, 相关系数和协方差等, 这些统计特征能反映除数据的整体分布.

Pandas主要统计特征函数:

方法名

函数功能

sum()

计算数据样本总和(按列计算)

mean()

计算数据样本的算数平均数

var()

计算数据样本的方差

std()

计算数据样本的标准差

corr()

计算数据样本的Spearman(Pearson)相关系数矩阵

cov()

计算数据样本的协方差矩阵

skew()

样本值的偏度(三阶矩)

kurt()

样本值的峰值(四阶矩)

describe()

给出样本的基本描述(基本的统计量如均值, 标准差等)

扩展统计特征函数

除了基本统计特征外, Pandas还提供了一些非常方便使用的计算统计特征的函数, 主要有累积计算(cum)和滚动计算(pd.rolling_)

方法名

函数功能

cumsum()

依次给出前1, 2, ... , n 个数的和

cumprod()

依次给出前1, 2, ... , n 个数的积

cummax()

依次给出前1, 2, ... , n 个数的最大值

cummin()

依次给出前1, 2, ... , n 个数的最小值

方法名

函数功能

rolling_sum()

计算数据样本的总和(按列计算)

rolling_mean()

数据样本的算数平均数

rolling_var()

计算数据样本的方差

rolling_std()

计算数据样本的标准差

rolling_corr()

计算数据样本的Spearman(Pearson)相关系数

rolling_cov()

计算数据样本的协方差矩阵

rolling_skew()

样本值的偏度(三阶矩)

rolling_kurt()

样本值的峰值(四阶矩)

统计作图函数

作图函数名

作图函数功能

所属库

plot()

绘制线性二维图, 折线图

Matplotlib/Pandas

pie()

绘制饼形图

Matplotlib/Pandas

hist()

绘制二维条形直方图, 可显示数据的分配情况

Matplotlib/Pandas

boxplot()

绘制样本数据的箱形图

Pandas

plot(logy=True)

绘制y轴的对数图形

Pandas

plot(yerr=error)

绘制误差条形图

Pandas

最后更新于

这有帮助吗?