数据分析与挖掘基础

数据挖掘基本任务

  • 分类与预测

  • 聚类分析

  • 关联规则

  • 时序模式

  • 偏差检测

  • 智能推荐

数据挖掘建模过程

  • 目标定义

    • 任务理解

    • 指标确定

  • 数据采集

    • 建模抽样

    • 质量把控

    • 实时采集

  • 数据整理

    • 数据探索

    • 数据清洗

    • 数据变换

  • 构建模型

    • 模式发现

    • 构建模型

    • 验证模型

  • 模型评价

    • 设定模型评价标准

    • 多模型对比

    • 模型优化

  • 模型发布

    • 模型部署

    • 模型重构

挖掘建模

样本抽取完成并经预处理之后, 接下来考虑的问题是:

  • 本次建模数据数据挖掘应用中的哪类问题(分类, 聚类, 关联规则, 时序模式, 智能推荐等)

  • 选用哪种算法进行模型构建

以餐饮行业数据挖掘为例, 挖掘建模主要包括:

  • 基于关联规则算法的动态菜品智能推荐

  • 基于聚类算法的餐饮客户价值分析

  • 给予分类与预测算法的菜品销量预测

  • 给予整体优化的新店选址

以菜品销量预测为例, 模型构建是对菜品历史销量, 是综合考虑了节假日, 气候和竞争对手等采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征, 并与该采样数据的具体结构基本吻合. 模型的具体化就是菜品销量预测公式, 公式可以产生与观察值有相似结构的输出, 这就是预测.

数据挖掘建模工具

  • SAS Enterprise Miner

  • IBM SPSS Modeler

  • SQL Server

  • Python

  • WEKA

  • KNIME

  • RapidMiner

  • TipDM

最后更新于

这有帮助吗?