第二章 数据认知与预处理
数据类型
属性的定义
是一个字段,表示数据对象的一个特征
属性的取值范围决定了属性的类型,通常可以分为两大类:
- 定性描述:标称属性,布尔属性,序值属性
- 定量描述:数值属性
标称属性
标称属性取值仅是一些不同的符号或事物的名称,每个值提供了足够的信息以区分对象
可以将这些值看成枚举的,如邮政编码,学生ID,头发颜色等
二元属性
是只有两个可选值的属性
序值属性
- 提供了足够的信息确定数据对象之间的序,但是值之间的差是未知的,例如产品的优,良,差
- 数值属性可以转换为序值属性——通过值域的离散化
- 序值属性可以定义众数,中位数,百分位数,但是不能定义均值
数值属性
可度量,用整数或实数值来表示,定量地描述对象
一些文献中将数值属性又划分为区间标度或比率标度属性
数据的统计描述方法
主要讨论两种基本统计描述:
- 度量整个数据集合的中心趋势的方法:均值,中位数,众数,中列数
- 度量整个数据集的离散趋势的方法:极差,分位数,五数概括,方差,标准差
中心趋势度量
均值,众数,
中位数:
中列数:数据集最大值和最小值的平均值
离散趋势度量
极差(全距)
一组数据中的最大值和最小值之差
k分位数(以四分位数为例)
将有序数据集分为4个间距相等的部分,这时产生三个数据点,称之为四分位数
假设12个数据:
- Q1(12+1)*0.25
- Q2 (12+1)*0.5
- Q3(12+1)*0.75
- 四分位距:IOR=Q3-Q1
- 最小观测值:min=Q1-1.5*IQR
- 最大观测值:max=Q3+1.5*IQR
以上Q1,Q1,Q3计算结果均取整
五数概括与盒图
为了完整地描述数据的分布情况,引入五数概括:中位数,四分位数(Q1和Q3),最大和最小观测值
一般按次序:min,Q1,中位数,Q3,max写出
通常使用盒图来直观地对五数进行可视化表示:
- 盒的端点在四分位数上,下端点是Q1,上端点是Q3,盒的长度是IQR
- 中位数在盒内用横线进行标记
- 盒外用两条虚线分别延伸至最小和最大观测值,这两条虚线又称为胡须
数据对象关系的计算方法
数据相似性计算方法
标称属性相似性
假设标称属性的状态数目是M,p是刻画对象的属性总数,m是两个对象取值相同的属性数,则计算公式如下:
1 |
|
二元属性相似性
分为对称的和非对陈两种情况
假设: q是对象i,j都取1的二元属性数;r是i=1,j=0;s是i=0,j=1;t是i=j=0
则对称的话:
1 |
|
如果非对陈且当属性值为1时权重最高,则t可忽略:
1 |
|
数值属性相似性
欧式距离
曼哈顿距离(街区距离)
切比雪夫距离(确界距离)
闵可夫斯基距离
标准化欧式距离
序值属性相似性
将数值属性的值域划分为有限个类别,再离散化数值属性得到序值属性。
比如 苹果,梨,白菜,桃子
对应的品级分别为·优 优,良,良
而值域类别为优 ,良,中,差。
假设f是用于描述n个对象的一组序值属性之一,关于f的邻近性计算步骤如下:
- 第i个对象的f值为Xif,属性f有Mf个有序的状态,表示排位1,2,..Mf,
对应的排位rif{1,2,…Mf}取代Xif - 用Zif代替第i个对象的rif来实现数据标准化
$Z_if$=${r_if-1 \over M_f-1}$
苹果 =优 ,$r_if$=1 , $Z_if$=${1-1 \over 4-1}$=0
白菜 $X_if$=良,$r_if$=2 , $Z_if$=${2-1 \over 4-1}$
Jaccard相似性
通过获得两个对象的特征集合的交集的大小来获得集合之间的相似性。
两个集合A,B
sim(A,B)=${A \cap B \over A \cup B}$
编辑距离
字符串A到B的编辑距离等于将字符串A变换为字符串B所需要的单字符插入及删除等操作的最小数目
汉明距离
两个向量中值不相同分量的个数
余弦相似度
sim(A,B)=${AB \over ||A||X||B| |}$
数据相关性计算方法
协方差
一组数据的期望值E(X)即为数据的均值
期望值分别为E(X)=u,E(Y)=v的两个实数随机变量X与Y之间的协方差定义为:
cov(x,y)=E((X-u)(Y-v))
=E(XY)-uv
E(XY)等于x,y对应位置数据相乘之和/一组数据的数据个数
数据准备
数据收集——数据预处理——数据挖掘——数据应用
数据预处理包括:数据清洗与集成,数据归纳,数据转换
数据清洗
分箱法:
• 等深分箱 :数据从小到大排序,等分为k部分
• 等宽分箱 :变量的取值范围分为k个等宽区间,每个区间当做一个分箱
• 平滑技术:箱均值平滑,箱中位数平滑,箱边界平滑(箱中所有值用最近的边界值替换)
数据归纳
得到数据集的一个简化版本 放回的随机抽样,不放回的随机抽样,分层抽样
数据转换
数据规范化:
- 最小—最大规范化
- z分数规范化