注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

高扬.知识解决.博客

指向个性、知性和悟性的地方……

 
 
 

日志

 
 

藏龙卧虎,数字挖掘  

2017-07-26 00:01:26|  分类: 知道一点 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

人们把那些不想或不被发现的人才叫做藏龙卧虎,该成语出自北周·庾信《同会河阳公新造山地聊得寓目》。为了人尽其才,才尽其用,古代圣贤还发明了另外两类成语:一方面鼓励有识之士敢于亮剑,如毛遂自荐、自告奋勇、挺身而出等;一方面建议广开言路举贤荐才,如伯乐相马、火眼金睛、慧眼识珠等。虽然“江山代有人才出”,然而世事无情,“大江东去,浪淘尽,千古风流人物”。人才如此,知识更是这样。于是,数字挖据技术应运而生。

 藏龙卧虎,数字挖掘 - 高扬 - 高扬.知识解决.博客

数据挖掘就是要发现深藏在数据内部的知识,而不是那些飘浮于数据表面的信息。关于数据挖掘曾有过一场争论,是继续沿用KDD Knowledge Discovery in Database,数据库中的知识发现),还是改名为Data Mining(数据挖掘)?上世纪90年代,在第一届KDD国际会议上,科学家聚在一起来投票表决。结果是7票对7票,没办法只好由一位元老最后定夺:“数据挖掘这个术语过于含糊,做科研应该要有知识。”于是,科学界继续沿用KDD这个术语,而商用领域则嫌其繁琐选择了简洁的Data Mining(数据挖掘)。

尽管如此,人们对于数字挖掘还是仁者见仁智者见智,而且概念上也是众说纷纭。《数据挖掘原理》的作者David Hand认为,数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。《数据挖掘--概念、模型、方法和算法》的作者Mehmed Kantardzic认为,运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。

怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?这是当年一直困扰农夫山泉决策层的问题。虽然靠过去经验能够回答一些,但农夫山泉的CIO却坚持用数据说话,寻找真实的市场认知。于是,每天100G、每月为3TB的数据源源不断地从全国各地10000个业务员那里发回总部。

2008年开始,农夫山泉规定每个业务员必须例行公事:每天要跑15个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……并在下班之前将这150张照片传回杭州总部。每个业务员,每天会产生的数据量大约10M之巨。2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。

在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。结果华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。

采用SAP Hana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。有了强大的数据分析能力做支持后,农夫山泉每年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%16.1%14.3%4.7%,农夫山泉几乎是另外三家之和。

无独有偶。挖掘大数据,让阿迪达斯有了许多有趣的发现。同在中国南部,那里部分城市受香港风尚影响非常大;而另一些地方,消费者更愿意追随韩国潮流。同为一线城市,北京和上海消费趋势不同,气候是主要的原因。还有,高线城市消费者的消费品位和习惯更为成熟,当地消费者需要不同的服装以应对不同场合的需要,上班、吃饭、喝咖啡、去夜店,需要不同风格的多套衣服,但在低线城市,一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比,高线城市,显然为阿迪达斯提供了更多细分市场的选择。

不难看出,数据挖掘就是从藏龙卧虎的大数据中提取或“挖掘”知识。如何应用区块链技术进行数据挖掘?值得我们探讨。对此,SAP全球执行副总裁、中国研究院院长孙小群指出,企业对于数据的挖掘使用分三个阶段,第一步,把数据变得透明,让大家看到数据,能够看到数据越来越多;第二步,提问题形成互动,通过各种支持工具帮我们做出实时分析;第三步,通过信息流来指导物流和资金流,让数据告诉我们未来,告诉我们往什么地方走。

在强调透明性、安全性的场景下,区块链有其用武之地。在大数据的系统上使用区块链技术,可以使得数据不能被随意添加、修改和删除,当然其时间和数据量级是有限度的。以时间、数据量为坐标轴,列出了目前大数据引擎大致擅长处理数据的范围,区块链可在其中成为一种很好的补充。通过把大数据与区块链相结合,能让区块链中的数据更有价值,也能让大数据的预测分析落实为行动,它们都将是数字经济时代的基石。

更多知识解决内容:http://gaoyang0755.blog.163.com

  评论这张
 
阅读(264)| 评论(3)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017