大数据分析怎么做(工资待遇及发展前景分析)

seoxin 10-05 15:21 10次浏览

什么叫做大数据分析?

大数据分析(Big Data Analysis)是当前信息技术的一个重要应用领域,对我们的工作和生活产生着巨大的影响。

相对于传统的数据概念,“大数据”的定义为四个“V”:数量大(volume)、多样化(variety)、变化快(velocity)和有价值(value)。具体,请参阅我之前的文章《三分钟读懂大数据》。本文着重介绍对于大数据的分析方法。

大数据分析的流程一般为:

数据采集→数据传输→数据预处理→数据统计与建模→数据分析/挖掘→数据可视化/反馈

下面依次加以说明:

数据采集:

数据采集的功能包括:

  • 通过物联网设备采集数据。(参见《三分钟读懂物联网》)
  • 通过在应用程序中插入特定代码(“埋点”)来采集数据。
  • 将采集的数据传输到指定的服务器。

不论是采集数据,还是传输数据,都要求最大限度地保证数据的准确性、完整性和及时性,这就要求数据采集能处理很多细节方面的问题,比如用户标识、网络策略、缓存策略、同步策略、安全保障等。

数据预处理:

主要包括数据清理和数据整理。

1. 数据清理

数据清理是指发现并处理数据中存在的质量问题,如缺失、异常等。例如,某用户在填写调查问卷时,没有填写“年龄”一栏的信息,那么对于该用户填写的这条数据来说,年龄就是缺失值;异常是指虽然有值但值明显偏离了正常取值范围,如针对18~30岁成年人的调查问卷中,某用户填写调查问卷时将年龄误填为2。

必须处理好包含缺失值或异常值的数据,否则会严重影响数据分析结果的可靠性。

2. 数据整理

数据整理是指将数据整理为数据建模所需要的形式。例如,在建立房屋价格预测模型时,通常需要将对房价预测无用的数据项(如房屋的ID编号)去除,将用于预测目标值的特征(如房龄、朝向等)和目标变量(房屋价格)分开。

数据统计与建模:

数据统计是指对数据计算均值、方差等统计值,通过统计分析掌握数据特性,完成对已知数据的解释。建模则是根据已有数据建立模型以对未来数据进行预测、分类,解决实际应用问题。

数据分析/挖掘:

数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。

数据可视化/反馈:

数据可视化是指将数据统计分析及建模结果通过图形化的方式表现出来,直观展示数据特性及数据模型的性能。可视化的形式有数字图、饼图、条形图、折线图、散点图、热力图、气泡图等。

那么,大数据分析有什么实际的用途?

下面列举数据分析的几个典型应用场景。

历史分析

通过对历史数据的统计分析(如产品季度销量、平均售价等),使分析者能够有效掌握过去一段时间的数据全貌,进而制定出更有利的决策。例如,对于一家超市,可根据过去一个月各种产品不同促销活动下的销量数据进行统计分析(如哪些产品更受哪些客户欢迎),从而制定出提高利润的销售方案。

未来预测

通过对历史数据进行建模,使分析者能够对数据的未来走势进行预判,进而制定出合理的应对方案。例如,对于一家生产型企业,可根据历史市场数据建立市场需求预测模型,基于未来市场对各种产品的需求量进行预估,确定各种产品的产量。

影响分析

一个结果通常是由大量因素共同决定的,但有些因素起的作用较小,而有些因素起的作用较大。通过关键因素分析,可以挖掘出那些重要的影响因素,并从重要因素入手来有效改善最终的结果。

例如,对于酒店管理者,可根据用户在酒店订购网站上的文字评论和打分进行影响酒店评价的关键因素分析,利用挖掘出的关键因素(如早餐是否丰富、房间是否干净、交通是否方便等)改进酒店管理,进一步提高用户满意度、增加客源。

个性推荐

基于用户的历史行为,挖掘用户的兴趣点,为用户完成个性化推荐。例如,对于一个电子商城,可以根据用户的浏览记录、购买记录等历史行为数据,分析用户可能感兴趣的商品,并向用户推荐这些商品,从而在节省用户搜索商品所用时间的同时增加商品销量。

以上就是对于大数据分析的概要介绍。当然,这只是一个非常粗略的介绍,如果大家对其中任何一部分感兴趣,都可以搜索到大量相关的书籍、文章和开源代码。后续我还会在本公众号中继续介绍关于“数据”这个目前受到各方关注的问题的方方面面。

  • 暂无推荐