常见的人工智能机器学习算法优缺点 / 开普饭

众所周知机器学习是人工智能领域中的主要领域之一，机器学习算法有很多，例如：分类、回归、聚类、推荐、图像识别领域等等。要想找个合适算法是非常不容易的，为了能够寻找到合适的算法，需要明白机器学习算法的优缺点是什么。

朴素贝叶斯：优点：朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集，针对每个项目通常也只会有相对较少的特征数，并且对项目的训练和分类也仅仅是特征概率的数学运算而已；对小规模的数据表现很好，能个处理多分类任务，适合增量式训练（即可以实时的对新增的样本进行训练）；对缺失数据不太敏感，算法也比较简单，常用于文本分类；朴素贝叶斯对结果解释容易理解。缺点：需要计算先验概率；分类决策存在错误率；对输入数据的表达形式很敏感；由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。

逻辑回归：优点：实现简单，广泛的应用于工业问题上；分类时计算量非常小，速度很快，存储资源低；便利的观测样本概率分数；对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决该问题；计算代价不高，易于理解和实现。缺点：当特征空间很大时，逻辑回归的性能不是很好；容易欠拟合，一般准确度不太高；不能很好地处理大量多类特征或变量；只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分；对于非线性特征，需要进行转换；

线性回归：优点：实现简单，计算简单。缺点：不能拟合非线性数据。

最近邻算法——KNN：优点：理论成熟，思想简单，既可以用来做分类也可以用来做回归；可用于非线性分类；训练时间复杂度为O(n)；对数据没有假设，准确度高，对outlier不敏感；KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练；

KNN理论简单，容易实现。缺点：样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）效果差；需要大量内存；对于样本容量大的数据集计算量比较大（体现在距离计算上）；样本不平衡时，预测偏差比较大。KNN每一次分类都会重新进行一次全局运算；k值大小的选择没有理论选择最优，往往是结合K-折交叉验证得到最优k值选择；

常见的人工智能机器学习算法优缺点

相关推荐