机器学习(机器学习与数据挖掘)

机器学习的优缺点分为线性回归、逻辑回归和KNN三方面来说。

一、线性回归

原理：通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者一个超平面，使得预测值与真实值之间的误差最小化。

优点：

1、思想简单，容易实现。建模迅速，对于小数据量、简单的关系很有效。

2、是许多强大的非线性模型的基础。

3、线性回归模型十分容易理解，结果具有很好的解释性，有利于决策分析。

4、能解决回归问题。

缺点：

1、对于非线性数据或者数据特征见具有相关性多项式回归难以建模。

2、难以很好的表达高度复杂的数据。数据需要归一化或者标准化，对共线性敏感。

二、逻辑回归

优点：

1、模型简单，训练速度快，且对于输出变量有很好的概率解释。

2、可以适用连续型和离散型自变量。

3、可以根据实际需求设定具体的阈值。

缺点：

1、由于其是基于线性回归模型之上，因此其同样会出现多重共线性问题。

2、很难处理数据不均衡问题。

3、容易欠拟合，精度不高。

三、KNN（K—近邻）

优点：

1、简单，易于实现，易于理解，无需参数估计。

2、训练时间为0，它没有显式的训练，不像其他有监督的算法会用到train，然后验证集或测试集用该模型分类，KNN只是把样本保存起来，收到测试数据时再处理，所以KNN训练时间为0。

3、KNN可以处理多分类问题，适合对稀有事件进行分类。

4、特别适合多分类的问题，比SVM表现要好。

5、KNN还可以处理回归问题。

6、和朴素贝叶斯对比，对数据没有假设，准确度高，对异常点不敏感。

缺点：

1、计算量大，尤其是特征数非常多的时候，每一个待分类的样本都要计算它到全体已知样本的距离，才能得到它的第K个最近邻点。

2、可理解性差，无法给出像决策树那样的规则。

3、是惰性算法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢。

4、样本不平衡的时候，对稀有类别的预测准确率低。当样本不平衡时，如一个类的样本容量很大，而其他样本容量很小时，很有可能导致输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

5、对训练数据依赖度特别大，对训练数据的容错性太差，如果训练集中，有一两个数据时错误的，刚刚又是在需要分类的数据旁边，这样就会导致预测数据不太准确。

机器学习与数据挖掘

数据挖掘：也就是datamining，是一个很宽泛的概念。

字面意思就是从成吨的数据里面挖掘有用的信息。

这个工作BI（商业智能）可以做，数据分析可以做，甚至市场运营也可以做。

你用excel分析分析数据，发现了一些有用的信息，然后这些信息可以指导你的business，恭喜你，你已经会数据挖掘了。

机器学习：machinelearning，是计算机科学和统计学的交叉学科，基本目标是学习一个x->y的函数（映射），来做分类或者回归的工作。

之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的，例如广告的ctr预估，PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型，从而提高互联网广告的点击率和回报率；个性化推荐，还是通过机器学习的一些算法分析平台上的各种购买，浏览和收藏日志，得到一个推荐模型，来预测你喜欢的商品。

深度学习：deeplearning，机器学习里面现在比较火的一个topic（大坑），本身是神经网络算法的衍生，在图像，语音等富媒体的分类和识别上取得了非常好的效果，所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。