数据探索

数据质量分析

任务

  • 检测原始数据是否有脏数据

脏数据

脏数据一般是指不符合要求, 以及不能直接进行相应分析的数据.

包括:

  • 缺失值

  • 异常值(离群点)

  • 不一致的值

  • 重复数据及含有特殊符号的数据

异常值(离群点)分析

  • 简单统计量分析

    给出数值合理的范围.

  • 3σ原则

    如果数据服从正态分布, 在3σ原则下, 异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值.

  • 箱型图分析

代码

运行结果

  • 不在上下界范围内的数据可能是异常值

数据特征分析

分布分析

分布分析能揭示数据的分布特征和分布类型.

  • 定量数据

    • 频率分布表

    • 频率分布直方图

    • 茎叶图

  • 定性分类数据

    • 饼图

    • 条形图

定量数据分析

对于定量变量而言,选择"组数"和"组宽"是做频率分布分析时最主要的问题. 一般步骤如下:

  • 求极差

  • 决定组距和组数

  • 决定分点

  • 列出频率分布表

  • 回执频率分布直方图

遵循的主要原则:

  • 各组之间必须是相互排斥的

  • 各组必须将所有的数据包含在内

  • 各组的组宽最好相等

定性数据分析

对于定性变量, 常常根据变量的分类类型来分组, 可以采用饼图和条形图来描述定性变量的分布.

对比分析

对比分析是指吧两个相互联系的指标进行比较. 从数量上展示和说明研究对象规模的大小, 水平的高低, 速度的快慢, 以及各种关系是否协调.

对比分析主要有以下两种形式:

  • 绝对数对比

    绝对数对比是利用绝对数进行对比, 从而寻找差异的方法.

  • 相对数比较

    相对数比较是由两个有联系的指标对比计算的, 用以反映客观现象之间数量联系程度的综合指标, 其数值表现为相对数.

    相对数可以分为以下几种:

    • 结构相对数

    • 比例相对数

    • 比较相对数

    • 强度相对数

    • 计划完成程度相对数

    • 动态相对数

统计量分析

用统计指标对定量数据进行统计描述, 常从集中趋势和离中趋势两个方面进行分析.

  • 平均水平的指标是对个体集中趋势的度量, 使用最广泛的是均值和中位数

  • 反映变异程度的指标则是对个体离开平均水平的度量, 使用比较广泛的是标准差(方差), 四分位间距

集中趋势度量

均值

均值是所有数据的平均值.

  • 作为一个统计量, 均值的主要问题是对极端值很敏感

  • 可以使用截断均值或者中位数来度量数据的集中趋势

中位数

中位数是将一组观察值按从小到大的顺序排列, 位于中间的那个数.

众数

众数是指数据集中出现最频繁的值.

离中趋势度量

极差

  • 极差对数据集的极端值非常敏感,

  • 并且忽略了位于最大值和最小值之间的数据的分布情况

标准差

标准差度量数据偏离均值的程度.

变异系数

变异系数度量标准差相对于均值的离中趋势.

变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离中趋势.

四分位数间距

四分位数包括上四分位数和下四分位数. 将所有数据由大到小排列并分为四等分, 处于第一个分割点位置的数值为下四分位数, 处于第二个分割点位置的数值是中位数, 处于第三个分割点位置的数值是上四分位数.

四分位数间距, 是上四分位数与下四分位数之差, 其间包含了全部观察值的一半.

其值越大, 说明数据的变异程度越大; 反之, 说明变异程度越小.

周期性分析

周期性分析是探索某个变量是否随时间变化而呈现某种周期性变化的趋势.

贡献度分析

贡献度分析又称帕累托分析, 它的原理是帕累托法则, 又称20/80定律.

相关性分析

分析连续变量之间线性相关程度的强弱, 并用适当的统计指标表示出来的过程成为相关分析.

  • 绘制散点图

    判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图

  • 绘制散点图矩阵

    需要同时考虑多个变量间的相关关系时, 利用散点图矩阵同时绘制各变量间的散点图, 从而快速发现多个变量间的主要相关性, 这在进行多元线性回归时显得尤为重要

  • 计算相关系数

    • Pearson相关系数

    • Spearman秩相关系数: 要求连续变量的取值服从正态分布

    • 判定系数: 判定系数是相关系数的平方

最后更新于

这有帮助吗?