常见的人工智能机器学习算法优缺点

众所周知机器学习是人工智能领域中的主要领域之一,机器学习算法有很多,例如:分类、回归、聚类、推荐、图像识别领域等等。要想找个合适算法是非常不容易的,为了能够寻找到合适的算法,需要明白机器学习算法的优缺点是什么。

朴素贝叶斯:优点:朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已;对小规模的数据表现很好,能个处理多分类任务,适合增量式训练(即可以实时的对新增的样本进行训练);对缺失数据不太敏感,算法也比较简单,常用于文本分类;朴素贝叶斯对结果解释容易理解。缺点:需要计算先验概率;分类决策存在错误率;对输入数据的表达形式很敏感;由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。

逻辑回归:优点:实现简单,广泛的应用于工业问题上;分类时计算量非常小,速度很快,存储资源低;便利的观测样本概率分数;对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;计算代价不高,易于理解和实现。缺点:当特征空间很大时,逻辑回归的性能不是很好;容易欠拟合,一般准确度不太高;不能很好地处理大量多类特征或变量;只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;对于非线性特征,需要进行转换;

线性回归:优点:实现简单,计算简单。缺点:不能拟合非线性数据。

最近邻算法——KNN:优点:理论成熟,思想简单,既可以用来做分类也可以用来做回归;可用于非线性分类;训练时间复杂度为O(n);对数据没有假设,准确度高,对outlier不敏感;KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练;

KNN理论简单,容易实现。缺点:样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少)效果差;需要大量内存;对于样本容量大的数据集计算量比较大(体现在距离计算上);样本不平衡时,预测偏差比较大。KNN每一次分类都会重新进行一次全局运算;k值大小的选择没有理论选择最优,往往是结合K-折交叉验证得到最优k值选择;

(0)

相关推荐