数据模式详解(模式标准及类型分享)

seoxin 09-13 15:43 7次浏览

大数据的产生

在网络面世之后,信息爆炸的说法就开始盛行,用爆炸来形容一个事物是很恐怖的事情,说明了事物的不可控。随着网络的发展,“爆炸”的能量也越来越大,直到近年来,大数据技术应运而生,终于开启了信息爆炸的“和平”利用之路。

大数据,英文名big data或mega data,由维克托•迈尔-舍恩伯格及肯尼斯•库克耶于2008年8月中旬提出。Gartner研究机构给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。抛开这些限定和修饰,简而言之大数据就是一种的信息。但是,信息一直在产生,为什么大数据的概念近来才兴起呢?主要原因在两方面:第一,通讯工具的全面发展、电子设备的广泛使用,使信息的采集和汇集速度大大增加,很多企业都能轻易的获得了大量信息;第二,电子产品的发展使信息的存储、检索、处理变得轻而易举,拓展了数据挖掘和分析的渠道。也就是说大数据其实一直都存在,只是获取和利用的手段不足,才导致大数据的行业应用未能扩展开来,大数据其实一直都在我们身边。

既然如此,大数据都应用在哪里呢?

大数据与小概率

不要说什么“啤酒与尿布”的经典故事了,不谈这个故事的真实性,这其实是借用大数据的壳描述的一个因果规律,根本就没有说明大数据的本质。对比达尔文讲的猫和苜蓿的故事,再看看小学语文中蛇与庄稼的故事,就知道“啤酒与尿布”只是一种多层因果关系。而大数据是只关心统计结果,不在乎推理过程的应用模式。舍恩伯格认为,大数据只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。

最经典的大数据应用在哪里?是保险。什么是保险众所周知,保险的定义是指投保人根据合同约定,向保险人支付保险费;保险人对于合同约定的可能事故和因其发生所造成的损失承担赔偿保险金的责任的一种行为模式。简单来说就是针对某种意外,支出小额的保费,应对大额的风险。很显然对于每一个已发生的意外来说,投保人支付的保费是远低于赔偿金的,如果每一单保险都需要支付,保险公司显然是无法承受的。那么这里就需要考虑两个数据的对比关系:支付占比=平均单笔保险金额和赔偿金的比率,收入占比=赔付数量和投保数量的比率;当支付占比小于收入占比时,保险公司就有了利润的空间。

举例来说,我国白血病的概率为万分之0.165,设定保费(终身)为100元,赔偿金额为100万。当卖出100万份保险后,收入为1亿,支出保费约为1600万,毛利润8400万。在这个过程中,保险公司不需要考虑投保人患病原因的不同,年龄性别的不同,只要关心一个统计结果——白血病的发生概率——万分之0.165即可。对数据进行深入分析后发现,白血病得病率男性高于女性,青少年多于成年人,急性多于慢性,于是在保费和赔偿金上也就可以做出对应的调整:男性保费增高,成年人保费降低,急性保费增高……实际上这种细节方面的调整也是当前的保险机构常用手段,而所有这些都不需要关心具体的客户和具体的销售,也不用分析白血病的发生原因(当然分析后可以制定出更丰富的险种,但不是必要条件),这就是大数据的思维模式。

再看博彩业。不管是赌马赌球,还是体彩福彩,还是最直接的骰子轮盘,庄家制定的赔率一定是低于中奖率的,比如3D一共有1000个中奖号码,但是赔率只有500倍。所以他们不关心谁胜谁负,只要参与的人多,他就必赢。

再比如最近热炒的抢红包,看似投入上亿,单次中奖10万,但是对于商家来说,这个广告费与广告受众比是非常低廉的,不管谁中10万。

无关对象,无关过程,无关结果,不怕偶然,只关心最后的一个统计概率,然后针对这个概率制定对策,这就是大数据的思维方式。

大数据与大概率

大数据仅仅是对统计对象的小部分进行应用吗?当然不是,更早的大数据应用正是针对统计对象的大多数。

这类的例子多不胜举,因为经过几千年的发展,人们已经将大数据与大概率之间的关系做了高度的概况,那就是一个毫不陌生的词——“经验”。有天文,朝霞不出门,晚霞行千里;有地理,南人善舟,北人善马;有历史,分久必合,合久必分;有生物,户枢不蠹,流水不腐……

所谓经验不正是通过大量的实践证明获得的结论,而说出其中的道理就显然是多数人的难题了,而大家也并不在乎知道其中的道理:无关过程,只要结果。

将大数据放在传统经验的位置讨论似乎显得不太高端,我们还是看看近代西方的研究。据佛洛依德的研究,相比于直接向顾客推销商品,通过先送花再推销的方式,顾客的购买意愿会增加四成。

谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词来判断全美地区的流感情况。这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的。

再看美国选举,2004年布什竞选期间,为获得年轻人的支持,在某次竞选演说中特意以一身运动服的打扮登场。竞选团队通过对选民的分析,了解多数选民的倾向,从而有针对性地包装候选人。旁观日本的选举,在每次竞选期间总会出现拜鬼的报道,也正是出于争取多数选票的行为,而并不关心具体选民。

通过了解目标的行为规律,发现其主要特征,从而拟定“制胜策略”,正是大数据的另一个应用方向。

此时,我们也发现大数据的应用的限制条件。首先收集大数据要足够大,大就不必考虑各种偶然因素,越大就可以将目标施加越广;其次应用大数据的能力,能将策略施加到的群体足够大,“一把定输赢”的行为不是大数据应用;最后是大数据的应用环境相同,即取之于“民”用之于“民”,对象改变则结论要改变。

大数据与精准投放

商业逐利而行,大数据既然依赖于概率,那么自然希望制胜概率越大越好,因此,精准投放的概念产生了。

广告投放是一种标准的大数据应用,通过广告宣传,促进观众转化为顾客,很显然一部分观众完全不会购买,但是只要转化率足够就好。转化率低就会亏本,要么降低广告成本,要么提高转化率。提高转化率有什么途径呢?就是精准投放,只将广告投放给最有可能转化的客户群。

早教机构会不厌其烦地给新晋爸妈发放调查问卷,或是打电话进行课程推销,“新晋爸妈”就是他们的第一轮筛选过程,未婚青年几乎不会收到。通过多次电话联络,早教机构会给潜在客户赠送试听课程,参与了试听的家长就是他们多次过滤后的最有价值客户,之后他们就会针对这部分客户进行重点营销工作,从而实现广告的精准投放。不论调查问卷、电话咨询和试听课程都是他们的广告成本,如果直接对所有的客户都进行试听,显然无力承担,也是巨大的资源浪费,因此通过层层的“精准”过程,提高了“制胜概率”。

每一轮的精准过程,都来自于大数据的统计应用,通过对大数据的分类分析,逐步降低低价值群体占比,其中难免有漏网之鱼,但是大数据应用只做最有价值的事情,正所谓“量小利大利不大,量大利小利不小”。

大数据与金融

金融是从国家到个人都无比关注的一个主题,与之相关的大数据也是无处不在。生活中处处有交易,乘以60秒,乘以24小时,乘以365天,乘以13亿,处处都形成了大数据。

数据有了,应用在哪里?有困难就有需求,有需求就有应用。

我国的居民存款率一直保持在一个较高的比例,但是柜台存取款手续繁琐,阻碍了存款的吸纳。自助银行和社区银行可以缓解这个问题,可是在哪里设立自助银行和社区银行,设立多大规模,则需要依据网点的营业数据统计后进行决策,然而符合要求的区域不多。这是因为总体网点数量虽然很多,但是针对单个银行分布就很稀疏了。有鉴于此,银行可以设立无属性存取款机,开发通存通取服务。用户存款时通过通存服务将钱存入无属性个人账户,再通过网络转账方式将金额转入个人的指定银行账户;取款时则先通过网络转账将银行账户的钱转入无属性个人账户,再通过通取服务进行取款。从服务模式来看,支付宝已经开始提供这个中间服务,如果银行再不行动,支付宝和微信的自助存取款机器很快就将产生。

微小企业贷款是当前银行的服务重点,也是服务难点,如何把控风险是其中的关键。在这方面,可以参考保险行业的做法。第一,统计微小企业的整体生存状态,获取企业的生存概率和还款能力,从而忽略企业的差异性与各种缺陷,制定出整体的贷款标准,最终降低贷款门槛,提高贷款速度。第二,进一步分析各微小企业的差异,从行业类别,企业规模,经营地点……等多个方面进行多维分析,制定出多样化的服务套餐,实现贷款的精准投放。第三,针对贷款的回收数据再次分析,发现优质企业和亏损企业特性,修正“精准”标准,提高“制胜策略”的概率。

个人贷款相比微小企业贷款具有更大的不确定性,但是没关系,不确定性更适合大数据的应用模式。个人贷款时,所能提供的担保与抵押有限,放贷缺乏参考依据。但是在大数据思维模式下,将个人的征信记录、就业信息、购物记录、居住记录、旅行记录等各类可用信息进行统计分析,找出相关度较高的概率,决定出风险平衡点,从而为不符合常规要求的个人提供一条融资之路。

农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。在信息社会,要有大数据的思维模式,从数据发掘应用,从应用开发服务。高屋建瓴的大数据思维是每个国家,每个企业,每个设计师必须掌握的利器。

  • 暂无推荐