Python_Data_Mining_Functions
Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(可视化).
基本统计特征函数
统计特征函数用于计算数据的均值, 方差, 标准差, 分位数, 相关系数和协方差等, 这些统计特征能反映除数据的整体分布.
Pandas主要统计特征函数:
方法名
函数功能
sum()
计算数据样本总和(按列计算)
mean()
计算数据样本的算数平均数
var()
计算数据样本的方差
std()
计算数据样本的标准差
corr()
计算数据样本的Spearman(Pearson)相关系数矩阵
cov()
计算数据样本的协方差矩阵
skew()
样本值的偏度(三阶矩)
kurt()
样本值的峰值(四阶矩)
describe()
给出样本的基本描述(基本的统计量如均值, 标准差等)
扩展统计特征函数
除了基本统计特征外, Pandas还提供了一些非常方便使用的计算统计特征的函数, 主要有累积计算(cum)和滚动计算(pd.rolling_)
方法名
函数功能
cumsum()
依次给出前1, 2, ... , n 个数的和
cumprod()
依次给出前1, 2, ... , n 个数的积
cummax()
依次给出前1, 2, ... , n 个数的最大值
cummin()
依次给出前1, 2, ... , n 个数的最小值
方法名
函数功能
rolling_sum()
计算数据样本的总和(按列计算)
rolling_mean()
数据样本的算数平均数
rolling_var()
计算数据样本的方差
rolling_std()
计算数据样本的标准差
rolling_corr()
计算数据样本的Spearman(Pearson)相关系数
rolling_cov()
计算数据样本的协方差矩阵
rolling_skew()
样本值的偏度(三阶矩)
rolling_kurt()
样本值的峰值(四阶矩)
统计作图函数
作图函数名
作图函数功能
所属库
plot()
绘制线性二维图, 折线图
Matplotlib/Pandas
pie()
绘制饼形图
Matplotlib/Pandas
hist()
绘制二维条形直方图, 可显示数据的分配情况
Matplotlib/Pandas
boxplot()
绘制样本数据的箱形图
Pandas
plot(logy=True)
绘制y轴的对数图形
Pandas
plot(yerr=error)
绘制误差条形图
Pandas
最后更新于
这有帮助吗?