集体智慧算法——统计学基础1

集体智慧 everyinch 1574℃ 0评论

一、导论

1. 什么是统计学

统计学(statistics)是收集、分析、表述和解释数据的科学。

描述统计(descriptive statistics)研究数据收集、整理和描述的统计学分支。

推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学分支。

2. 统计数据的类型

(1)分类数据、顺序数据、数值型数据

分类数据(categorical data):只能归于某一类别的非数字型数据

顺序数据(rank data):只能归于某一有序类别的非数字型数据

数值型数据(metric data):按数字尺度测量的观察值

(2)观测数据和实验数据

观测数据(observational data):通过调查或观测而收集到的数据

实验数据(experimental data):在实验中控制实验对象而收集到的数据

(3)截面数据和时间序列数据

截面数据(cross-sectional data):在相同或近似相同的时间点上收集的数据

时间序列数据(time series data):在不同时间上收集到的数据

3. 统计中的几个基本概念

(1)总体和样本

总体(population):包含所研究的全部个体(数据)的集合

样本(sample):从总体中抽取的一部分元素的集合

样本容量(sample size),或称为样本量:构成样本的元素的数目

(2)参数和统计量

参数(parameter):用来描述总体特征的概括性数字度量

统计量(statistic):用来描述样本特征的概括性数字度量

(3)变量

分类变量(categorical variable):说明事物类别的一个名称

顺序变量(rank variable):说明事物有序类型的一个名称

数值型变量(metric variable):说明事物数字特征的一个名称

离散型变量(discrete variable):只能取可数值的变量

连续性变量(continuous variable):可以在一个或多个区间中去任何值的变量

二、数据整理与展示

1. 数据的预处理

1.1 数据审核

原始数据(raw data)应从完整性和准确性两个方面审核。完整性审核主要检查是否有遗漏、是否填写齐全等。准确性审核主要是检查是否有错误,是否存在异常值等。

1.2 数据筛选

数据筛选包括:(1)剔除不符合要求或有明显错误的数据;(2)筛选出符合特定条件的。

1.3 数据排序

2. 分类和顺序数据的整理与显示

2.1 分类数据的整理与图示

(1)频数和频数分布

频数(frequency):落在某一特定类别(或组)中的数据个数

频数分布(frequency distribution):把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来

比例(proportion):一个样本(或总体)中各个部分的数据与全部数据之比

百分比或百分数(percentage):将比例乘以100%得到的数值

比率(ratio):样本(或总体)中各不同类别数值之间的比值

statics_ch2_1

(2)分类数据的图示

条形图(bar chart)

statics_ch2_4

饼图(pie chart)

statics_ch2_5

2.2 顺序数据的整理与图示

(1)累积频数和累积频率

累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来得到的频数。

累积频率(cumulative percentages):将各有序或组的百分比逐级累加起来。

(2)顺序数据的图示

累积频数分布图

statics_ch2_6

环形图(annular chart)

statics_ch2_7

3. 数值型数据的整理与显示

3.1 数值分组

组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。

确定组数的经验公式:k = 1 + lgn/lg2

组距:一个组的上限与下限的差。一个组的最小值称为下限(low limit),一个组的最大值称为上限(upper limit)

组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。

3.2 数值型数据的图示

(1)分组数据:直方图

直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形

statics_ch2_8

(2)未分组数据:茎叶图和箱线图

茎叶图(stem-and-leaf display):由“茎”和“叶”两部分组成的、反应原始数据分布的图形。

statics_ch2_9

对于一组数据,茎叶图有多少行比较合适?经验表明,如果数据的个数为n(20≤n≤300),则茎叶图的最大行数不超过:

L = [10 * lgn]

箱线图(box plot):由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。

简单的箱线图:

statics_ch2_10

(3)时间序列数据:线图(line plot)

statics_ch2_11

(4)多个变量间的图示

两个变量间的关系—二维散点图(2D scatterplots)

statics_ch2_12

两个变量间的关系—散点图矩阵(2D scatterplots)

statics_ch2_13

三个变量间的关系—三维散点图(3D scatterplots)

statics_ch2_14

三个变量间的关系—气泡图(bubble chart)

statics_ch2_15

多变量数据—雷达图

statics_ch2_16

 



转载请注明:陈童的博客 » 集体智慧算法——统计学基础1

喜欢 (2)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

无觅相关文章插件,快速提升流量