数据挖掘项目.md

接手SLB项目,发现自己以前对数据挖掘的东西了解太少了。

数据归一化

  1. 目的:不同数量级和量纲单位的数据,要进行归一化,来消除指标之间的数量级影响,解决数据之间的可比性。否则会引起:
    • 训练时间增大,可能无法收敛
    • 系数不均匀
  2. min-max标准化,对原始数据的线性变化。 X* = (x - min) / (max - min). 将数据映射到0 ~ 1之间。问题是来新的数据超过这个范围呢?
  3. Z-core标准化方法:对原始数据的均值和标准差进行数据的标准化。X* = (x - u) / q, 这样是按照正态分布来模拟数据的。
  4. 更多的方法,这里面介绍了对数,中值,反切函数等方法。
  5. 有关Weka的指标介绍,主要的是absolute error和relative error的区别。
  6. 有关特征工程的一些知识,有时间细细看吧
  7. 简单讲述了线性回归和特征归一的应用
  8. weka实现SVM算法的教程