数据分析是指用适当的统计分析方法对收集来的大量数据进行分析。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。
数据分析是数学与计算机科学相结合的产物。
定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的类型
1、探索性数据分析
探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。
2、定性数据分析
定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
3、离线数据分析
离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。
Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数+PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。
什么是数据分析的前提
统计分析的程序包括收集数据,整理数据以及分析数据,分别介绍如下:
一、收集数据:
收集数据是进行统计分析的前提和基础,收集数据的途径众多,可通过实验、观察、测量、调查等获得直接资料,也可通过文献检索阅读等来获得间接资料。
收集数据的过程中除了要注意资料的真实性和可靠性外,还要特别注意区分两类不同性质的资料,一是连续数据,也叫计量资料,指通过实际测量得到的数据,二是间断数据,也叫计数资料,指通过对事物类别等级等属性点计所得的数据。
二、整理数据:
整理数据就是按一定的标准对收集到的数据进行归类汇总的过程,由于收集到的数据大多是无序的的,在进入统计运算之前,需要按照研究的目的和要求对数据进行核实,剔除其中不真实的部分,再分组汇总或列表,从而使原始资料简单化,并能初步反映数据的分布特征。
数据整理主要是指对原始数据进行加工处理,使之系统条理化,以符合统计分析的需要,用图表形式将数据展示出来,以便简化数据,使之更容易理解和分析。
统计工作经过了统计调查阶段之后,搜集到了大量的统计资料,但所取得的统计资料主要是反映总体单位特征的原始资料。
三、分析数据:
分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核心和关键。
数据分析通常可分为两个层次,第一个层次是用描述统计的方法计算出反映数据集中趋势、离散程度和相关强度的具有外在代表性的指标。
第二个层次是在描述统计基础上,用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和规律。
还没有评论,来说两句吧...