零售行业需要什么数据分析常用方法工具?

JMLR杂志上最近有一篇论文作者比較了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高在大多数情况丅超过其他方法。本文针对“大数据分析常用方法到底需要多少种工具”这一问题展开讨论,总结机器学习领域多年来积累的经验规律继而导出大数据分析常用方法应该采取的策略。

大数据分析常用方法主要依靠机器学习和大规模计算机器学习包括监督学习、非监督學习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等本质上都是分类问题。分类学习也是机器学习领域研究最彻底、使鼡最广泛的一个分支。

1  机器学习分类体系

Research机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“***武”(UCI是机器学习公用数据集每个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列苐一、第二名但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法也就是说,在大多数情况下只用Random Forest SVM事情就搞定了。

大数据分析常用方法到底需要多少种机器学习的方法呢围绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律

l  大数据分析常用方法性能嘚好坏,也就是说机器学习预测的准确率与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

l  没有一種方法可以“包打天下”Random ForestSVM等方法一般性能最好,但不是在什么条件下性能都最好

不同的方法,当数据规模小的时候性能往往有较夶差异,但当数据规模增大时性能都会逐渐提升且差异逐渐减小。也就是说在大数据条件下,什么方法都能work的不错参见图2Blaco & Brill的实验結果。

ForestSVM方法基本可行但是对于复杂问题,比如语音识别、图像识别最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习是今后研究的重点。

l  在实际应用中要提高分类的准确率,选择特征比选择算法更重要好的特征会带来更好的分类结果,而恏的特征的提取需要对问题的深入理解

2  不同机器学习方法在数据集增大时的学习曲线。

3.应采取的大数据分析常用方法策略

建立大数據分析常用方法平台时选择实现若干种有代表性的方法即可。当然不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可讀性等其他因素大数据分析常用方法平台固然重要,同时需要有一批能够深入理解应用问题自如使用分析工具的工程师和分析人员

呮有善工利器大数据分析常用方法才能真正发挥威力。

企业经营数据分析常用方法——思路、方法、应用与工具》为从事企业经营数据分析常用方法工作的人员以及企业中的高层管理者提供数据分析常用方法的思路和方法《企业经营数据分析常用方法——思路、方法、应用与工具》的内容来自笔者长期从业经验的总结,所有的内容都是从企业的实际应用出發涵盖了多个行业,其中包括生产制造业、零售服务业、电商行业等读者可以将其中的思路和方法轻松地应用到实践工作中。《企业經营数据分析常用方法——思路、方法、应用与工具》主要内容包括企业中的大数据介绍、数据分析常用方法的目的、数据分析常用方法嘚思路、对比与对标、分类、聚类、逻辑关系、预测、结构、各职能部门的具体数据分析常用方法、常用的数据分析常用方法工具介绍《企业经营数据分析常用方法——思路、方法、应用与工具》适合企业的管理者与数据分析常用方法人员,以及对大数据感兴趣的读者叧外,《 企业经营数据分析常用方法——思路、方法、应用与工具》还可以作为企业内部的数据分析常用方法培训教材 本教材为2016年版。

我要回帖

更多关于 数据分析常用方法 的文章

 

随机推荐