数据归一化方法对比

地下水功能评价的要素指标多达30组项,彼此相互联系、相互补充,又具有层次性和结构性,是一个有机整体。但是,30多个要素指标中,类型多样,既有渐变规律的点源监测数据,又有斑块状高度均化的区片统计数据,还有通过地下水资源评价获取的分区成果数据,以及不连续、不全、无规律的数据。既有反映单一变量数据,又有抽象或相关分析数据,例如“比率”和“关联度”等。如何使这些复杂的数据服务于地下水功能评价,反映地下水功能及不同次属性的时空特征或状况,既要容纳较齐全的信息量,又要求最大限度地降低重叠度和减小混沌度,同时还要明显地反映出不同层次的状况等级特征,反映地下水的资源、生态、环境功能方面的30个指标量纲不一致,反映问题的角度不同。为使这些指标之间具有可比性,从而完整地组合到一起,实现对研究区各功能和属性较准确地描述或表达,唯一办法是将不同单位表示的指标作无量纲化处理,同时还不能改变原指标的数据排序和等级关系,保证变量的信息不失真。因此,需要对所有指标归一化[0,1]的标准化处理。

指标无量纲、归一化的方法很多,各有其特点。哪一种方法适宜地下水功能评价的数据归一化,这是一个需要重视的问题,否则会影响最终的评价结果。本节通过对不同类型的数据采用不用方法对比和分析,确定了比较适宜地下水功能评价数据最后合适的标准化方法。

(一)数据状况

地下水功能评价与区划指标体系是针对我国北方地区。在西北、华北或东北不同地区开展地下水功能评价与区划,需要根据工作区实际情况从34个指标选取或增补。包括地下水的补给资源占有率、储存资源占有率、可利用资源占有率、补储更新率、补给可用率、补采平衡率、降水补给率、水位变差补给比、水位变差开采比、水位变差降水比、可采资源模数、可用储量模数、资源质量指数、资源开采程度、天然植被变化与地下水关联度、绿洲变化与地下水关联度、土地盐渍化与地下水关联度、土地质量与地下水关联度、地面沉降与地下水关联度、海咸侵与地下水关联度、地下水质量与地下水关联度和地下水补给变率与水位变差比。涉及包含的变量有区内获取补给资源模数、储存资源模数、可动用地下水储存资源量、近5~12年年均开采量、近5~12年年均水位变差、近5~12年年均降水量、地面沉降量、实际开采量、天然植被变化(面积或其他指标)、绿洲变化(覆盖率或其他指标)、土地盐渍化程度情况和地下水质量等级共12组。

根据上述变量的表达形式,分为“数值型”和“非数值型”两类指标。“数值型”指标是具体的数据,“非数值型”是相对等级的指标。“数值型”指标能够直接代入“标准化公式”进行运算,然后比较和验证,“非数值型”指标只能凭借专家意见给出评分。

(二)标准化计算公式

1.统计标准化法

这是广泛使用的方法,公式为

区域地下水功能可持续性评价理论与方法研究

式中:Zi为标准化后数值;Xi为原始数据; 为Xi的均值;S为标准差。

2.极值标准化法

极值标准化方法是将一列数据的最小值和最大值作为[0,1]的界限值,然后通过式(5-2)转换,使该列所有数据转变成[0,1]之间数据,并保持原有的位置和相对大小等级特征。

区域地下水功能可持续性评价理论与方法研究

式中:min(Xi)和max(Xi)分别为指标Xi的最大值和最小值,其他同前。

3.定基转化法

定基转化法是一种比较简单的归一化方法,它采用最大值作为基值,通过式(5-3)公式将所有数据转化为[0,1]之间的数据。

区域地下水功能可持续性评价理论与方法研究

式中:X0是用于比较的基准值,其他同前。

4.环基转换法

环基转化法适合于处理指数型序列数据的归一化问题,计算公式为

区域地下水功能可持续性评价理论与方法研究

式中:Xi,Xi-1为原始数据,其他同前。

5.极值标准化修正法

极值标准化修正法是一种相对复杂的归一化方法,它需要求解a,b两个系数,主要优点是避免了“0”的出现。

计算公式为

区域地下水功能可持续性评价理论与方法研究

式中:a,b为一组数据的率定系数,不同组数据的系数各不相同。其他同前。

(三)各种方法对比与分析

归一化方法选用的是否合适,影响到确定指标的标准化数据的区间分布,进而影响到指标的等级划分。通过对式(5-1)至式(5-5)的适用范围和特点对比与分析,认为式(5-1)和式(5-4)不适宜地下水功能评价基础数据的归一化处理。

1.不适宜公式及依据

(1)排除式(5-1)的原因

考虑到多元指标的比较和指标等级划分,归一化后的数据要求介于[0,1]之间,同时还要求标准化后的数据的离散程度或等级不应出现本质性改变。而式(5-1)处理的数据不都在[0,1]间,而且还有负值(表5-15)。因此,式(5-1)被排除。

表5-15 利用统计标准化处理的单元沉降量数据结果

续表

(2)排除式(5-4)的原因

式(5-4)适合于构造时间序列指数的数据归一化处理,不适宜地下水功能所用的各种数据。

2.三类数据比较选择最佳公式

数据标准化方法有多种,包括统计标准化、极值标准化、定基转换、环比转化和修正极值标准化方法。根据上述公式的适用范围,排除统计标准化和环比转化公式。下面采用三类数据对极值标准化、定基转换和修正极值标准化公式进行验证和筛选分析,以期从中选择适合公式。

第三类数据为分类数据,没有具体数值,也就不可能代入公式进行检验和比较,此类变量直接根据专家组打分,在[0,1]之间赋值,然后划分到各等级。在这里重点对第一类和第二类数据进行验证和比较。

(1)利用剖分单元前数据的规律性分析结果

采用频数直方图法对在华北平原地下水功能评价示范研究中所用的10组D层要素指标数据(每组数据5645个)进行规律性分析,其中横轴表示数据的分组,纵轴表示频数。为了观察数据分布的特征和规律,应保持组数和组距的等距,避免数据分布过于集中或分散。

调整的方法是利用Sturges提出的公式,确定组数(K)和组距(K=1+lgn/lg2,n为数据的个数;组距=[最大值-最小值]/组数)。

调整步骤如下:

A.确定组数

组数的多少,一般与数据本身特点及数据多少有关。实际分组时,应按照Sturges公式确定组数。在此基础上,为避免出现部分组距间没有数据分布的局限,可作适当调整。

B.确定组距

根据全部数据的最大值和最小值及数据组数,确定组距。为了便于计算,组距应取整数。

依照上述步骤,绘制10组单元数据的频数直方图,如图5-9所示。

对比结果,8组直方图形状各不相同,差别较大,组距的数据变化明显。这表明地下水功能评价所用基础数据难以取得统一性规律。

图5-9 实际资料频数直方图

(2)按数据空间分布特征分类

在地下水功能评价中所有变量划分为两类:数值型数据和分类型数据。数值型数据通过标准化量化为评价所需要的数据,分类型数据没有具体数据表达,量化评价时由专家组根据经验在指标等级[0,1]区间直接赋值。示范研究过程中收集的资料有两种形式,即图件或源数据,图件如资源分布图、开采强度分布图、给水度分布图、水位变差图等,都是根据实际观测或调查的第一手数据资料绘制,在利用Excel绘制数据变化曲线时,需要反过来从图件中提取数据。以源数据形式存在的则直接应用,查找不同变量的规律性。

数值型数据是否具有同样的空间分布规律,能否可以根据资料数据再详细分类,究竟单元剖分前数据有规律,还是剖分后数据有规律,或者两者的数据分布都由一致的规律性,下面进一步分析。

A.利用单元剖分后数据找寻分布规律

在没有确定采用何种归一化方法之前,先总结10组变量的剖分单元数据分布规律,对其进行分类。通过数据分组后形成的频数分布表,初步寻找数据分布的一些特征和规律。为了探讨地下水功能区划多元指标之间的关系难题,首先基于单元水体的各变量之间的关系,提供单元系统的各“比率”、“关联度”以及某些单一指标数据。在考虑研究区面积大小的条件下,把整个研究区划分为5645个单元。因此,本次工作中首先绘制单元剖分后10组指标数据(每组数据5645个)的频数直方图,绘图时横轴表示数据分组,纵轴表示频数,为了观察数据分布的特征和规律,注意调整组数和组距(组距等距),不使数据分布得过于集中和分散。调整每一个直方图的组数和组距,在满足所有变量都在图中显示、每一组距都有数据的基础上,确定直方图最后的分布形状。Sturges提出的公式给出确定组数K(K=1+lgn/lg2,n为数据的个数)和组距(组距=(最大值-最小值)/组数)的经验,步骤如下:①确定组数。组数的多少一般与数据本身的特点及数据的多少有关。实际分组时按照公式确定组数,在此基础上为消除部分组距之间没有数据分布的影响,作了适当调整。②确定各组的组距。组距的确定根据全部数据的最大值和最小值及所分的组数来确定,为便于计算,组距取整数。依照上述步骤,绘制了剖分单元的10组变量频数直方图(图5-9),图5-9中曲线为GAUSS曲线,似乎变化趋势一致,观察和比较后发现8组变量的直方图形状各自都不相同,而且差别很大,直方图错落变化,组距中的数据变化大起大落。因此,单元剖分后的数据整理后利用频数直方图不能发现不同指标之间的规律。没有规律可言,也就无法进行分类,而且直方图调整到什么形状最为合理是个模糊概念。所以,利用剖分后数据对评价指标变量进行分类不可行。

B.利用单元剖分前数据找寻规律

项目研究过程中收集的资料图件,如资源分布图、开采强度分布图、给水度分布图、水位变差图等的表达形式只有两种:分区或等值线,现在反过来从图件提取数据,利用不同变量剖分前数据变化情况,查找不同变量的规律性。

指标变量剖分前数据分散性较强且量小,可以通过利用Excel软件分析数据点的分布特征来探究其中的分布规律。根据评价指标所受外界驱动力的来源不同,从评价体系的34个指标中,分别选取了受自然因素影响的典型指标,如晚更新世底板埋深、给水度和降水量,受人类活动驱动的指标,如开采强度、开采资源模数,还选取了受自然和人类综合因素影响的指标,如资源分布图、浅层地下水变差,囊括了地下水功能评价指标体系中的34个指标所受外界影响的三种类型。

这三种类型数据利用Excel绘制的效果图如图5-10所示。其中,资源分布图、晚更新世底板埋深、浅层地下水变差和给水度分布图数据几乎呈直线分布,而开采强度、降水量和开采资源模数数据趋势线转折点较多,弯曲变化很明显。主要原因是由于地层岩性从山前到中部平原依次为卵砾石、粗砂、细砂、粉砂,砂层厚度逐渐变薄。前一类数据的资源分布主要与砂层厚度和岩性有关。给水度数据主要受岩性、水文地质条件、地层埋藏条件等影响,曲线表现比较平缓。而浅层地下水变差虽然受开采的影响,但人为规定的数据变化等值线为等间距,所以数据变化趋势也呈直线。此类数据划为第一类变量数据。第二类数据中的开采强度和开采资源模数是描述与人类活动有关的数据,受自然条件、经济发展、文明程度、社会水平等综合因素的影响,数据变化没有规律性。降水量数据虽然只是受到自然条件影响,但项目组在整理现状资料时,只是收集到各县的年平均降水量资料。而各县在测降水量时程序、步骤、器材和观测人员认真程度不一样,所以即使邻县有的降水量数据也相差很多,表现在变化曲线上就为折线,弯曲点很多。因此,把受人为因素影响占主导的数据归为第二类变量。如果收集到的降水量资料为整个研究区的降水量分布图,表现形式为降水量等值线或降水量分区图,此时可以把降水量指标划归为第一类变量数据。

在下面数据变化趋势中只罗列了34组变量中的7组典型数值型变量,还有地下水质量分布、土壤盐渍化程度分区、矿化度分布等变量数据没有绘制数据变化曲线。这类变量为分类数据,只是划分等级,没有具体的数据表示。例如地下水质量分布按照国家地下水质量标准划分为Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ级,土壤盐渍化分区划分为极重度盐渍化、重度盐渍化、中度盐渍化和轻度盐渍化,地下水矿化度分布按照1g/L,1~3g/L,3~5g/L,﹥5g/L划分为淡水、半咸水、微咸水和咸水四类。此类分类数据划分为第三类变量。在地下水功能评价指标体系中还有一些变量属于分类数据,如土地沙化状况、土地质量(综合指标)等,也都划归为第三类变量数据。

综上所述,地下水功能评价与指标体系的指标变量数据分为三类数据:第一类为主要受自然影响的自然变化规律数据,第二类为主要受人类活动影响的变量数据,第三类为分类变量数据。

图5-10 地下水功能评价中指标的原始数据分析

所以,按数据空间分布特征将各类数据划分为连续渐变型数字数据(即规律性数据,记作CR类数据)、非规律性数字数据(记作NR类数据)和非数字性的定性数据(记作NF类数据)三类。

(3)利用单元剖分前数据规律性分析结果

地下水功能评价所用基础数据,主要有三类:第一类是主要受自然因素影响而呈现规律性变化数据,如降水量;第二类为主要受人类活动影响而呈现规律性变化数据,如开采量;第三类属于相对定性、依靠专家评价的数据,如地下水质量等级的数据。

对于上述三类数据,应用式(5-2)、(5-3)和(5-5)对比与分析,首先确定第三类数据只能依靠专家评分,建立[0,1]间值,直接进入单元数据库参加评价。对于第一类数据和第二类数据的分析结果,如下面所述。

A.第一类数据分析结果

采用极值标准化公式(5-2):采用该方法标准化处理第一类数据之前,首先要采用递增或递减序列模式对原始数据进行排序(表5-16),尽量采用一种方法处理各组数据的排列,便于标准化后各组数据的比较。

从表5-16可见,利用式(5-2)标准化处理的第一类数据,其特点是:所有数据组的第一个数据都是“1”,最后一个数据都是“0”,中间数据逐渐过渡,而且所有数据都归[0,1]间,基本符合地下水功能评价的技术要求。主要缺点是不管哪一组的第一个数据在该组中处于何种等级或重要性,都被归一化“1”,成为“强”级;同理,各组的最后一个数据都被归一化“0”,成为“弱”级。这样处理,不利于区域性之间成果对比,也难以合理调整评价平台的基数。

表5-16 利用极值标准化法处理第一类数据的结果

采用定基转换公式(5-3):采用该方法进行数据标准化,最重要的是每一组变量基准值的确定。表5-17为四组变量定基标准化处理后数据,其中所有变量的基准值都采用本系列的最大值。该方法的优点是所有数据标准化后全部集中在[0,1]之间,每组变量系列对应数据的顺序没有改变。基准值在取每组变量系列最大值的基础上,公式(5-3)既承接了公式(5-2)简捷、快速的特点,又没有使数据失真,尤其利用式(5-3)标准化处理后的数据,摆脱了在最小值区域出现大片“0”的问题。缺点是①基准值难以选取。处理相同问题,考虑的角度不同,采用的基准值就不同,由此定基标准转化后的数据反映到综合评价指数中就会得到不同的R值。②最小值没有确定性,数据分布区间不一致。在示范效验时,每组变量的基准值都采用变量系列中的最大值,这样,标准化后数据系列的最大封闭值都为1,最小值由本系列数据的最小数据决定,大小不一,易出现偏态现象。例如补给资源占有率的最小值就为0.334,在(0,0.334)之间没有数据过渡,难以克服原数据高度集中的局限性。另外,不同组的基准值无法统一。

采用式(5-3)标准化处理第一类数据的结果,如表5-17所示。

表5-17 利用定基转换法标准化处理第一类数据的结果

采用修正极值标准化公式(5-5):采用该方法对变量数据标准化处理,可以克服上述几种方法存在的问题,而且也不会出现最小值区域大片“0”问题(表5-18)。如果原始数据确实为“0”,标准化后数据也不会违背真实性,仍然为“0”,这种线性变换没有使原数据组性质发生质变,从而保证信息表达的真实客观性,同时修正了公式(5-2)的不足。相对于公式(5-3),该公式摆脱了基准值选取的不确定性,不会因基准值取值不同,得出不同的结果,而且,a,b值的求取简便、快捷,没有增加太大的工作量。所有变量标准化后都收敛到[0.99,0.01]区间,数据分布合理、有序,没有数据堆积和偏态现象,便于比较。这种线性变换没有使变量产生性质上的变形,从而保证信息没有失真,提供给上一级属性层合理真实信息,为属性层综合评价指数的计算结果提供准确的评价参数。

表5-18 利用式修正极值法标准化处理第一类数据的结果

a,b值的取值方法如下,对于地下水的补给资源变量,最大值为35,最小值为2.5,根据修正归一化公式,建立对应方程组:

区域地下水功能可持续性评价理论与方法研究

解此方程组得出a,b值分别为1.15和5.74。依次类推,其他变量都可轻松得到a,b值。

B.第二类数据分析结果

采用极值标准化公式(5-2)对第二类数据标准化处理的结果,如表5-19所示,结论与第一类数据标准后情况相同。

表5-19 利用极值标准化处理第二类数据的结果

续表

采用定基转换公式(5-3)标准化处理第二类数据的结果,如表5-20所示,结论与第一类数据标准后情况基本相同。

表5-20 利用定基转换标准化处理第二类数据的结果

采用修正极值标准化公式(5-5)处理第二类数据的结果,如表5-21所示,结论与第一类数据标准后情况基本相同。

表5-21 利用修正极值标准化处理第二类数据的结果

通过上述利用不同公式对不同数组标准化的对比与分析,可获得如下几点认识:

1)式(5-1)和式(5-4)转化功能及其转化后的数据都不适宜地下水功能评价的数据标准化处理,式(5-2)、式(5-3)和式(5-5)具有可用性,各有优缺点。

2)采用式(5-2)标准化,在第一类和第二类数据中都出现“0”现象,容易造成最小值全部为“0”的现象,难以区别原始数据为“0”的客观存在,因此,该法在地下水功能评价中应慎用或不用。

3)采用式(5-3)虽然可以排除“0”问题,但是“基准值”难统一,随意性较大,而且若“基准值”选取不合理,容易发生数据偏向堆积问题,所以该法也不宜在地下水功能评价中应用。

4)采用式(5-5)能够同时避免式(5-2)和(5-3)的不足,即最小值皆为“0”问题,也不会造成原始数据为“0”而标准化后非“0”问题,因此,式(5-5)可作为地下水功能评价基础数据归一化处理的首选公式。

图.左边是原始数据的分布情况、中间是经过中心化的分布情况、右边是经过标准化后的情况。来自知乎

说明:本文纯属胡说,没有加入严谨的数学推导,如有问题还请查看专业的书籍和博客文章

Zero-centered 或者 Mean-subtraction

中心化,就是把数据整体移动到以0为中心点的位置

将数据减去这个数据集的平均值。

例如有一系列的数值

计算平均值为 (1 + 3 + 5 + 7 + 9 )/ 5 = 5

数据变为

Standardization

把整体的数据的中心移动到0,数据再除以一个数。

在数据中心化之后,数据再除以数据集的标准差(即数据集中的各项数据减去数据集的均值再除以数据集的标准差)

再拿上面的数值举例

原始数据为

经过计算得到数据的标准差约为 σ = 2.8

标准化之后的结果为

Normalization

把数据的最小值移动到0,在除以数据集的最大值。

官方版

首先找到这个数据集的最大值 max 以及最小值 min ,然后将 max - min ,得到两个的差值 R ,也就是叫做 极差 ,然后对这个数据集的每一个数减去 min ,然后除以 R 。

民间版

这里你要是不记得中心化的话,先看一下中心化。然后开始,首先我们把数据仍然当做整体,然后把最小的点移动到0这个位置,然后回过头看计算公式是不是变了。由于 min 变成了 0 ,那么计算的公式就是 x / max' ,这里的 max' 是经过移动之后的数值。

还是拿上面的例子举例

首先用官方版的方式计算一下

原始数据

最大值 9 ,最小值 1 ,极差 9-1 = 8

接下来计算归一化后的数值

然后用民间版的方式计算一下

原始数据

按照整体把最小值移动到0,得到

然后除以最大值

可以看到,其实这个归一化还是那种计算小的占最大的比例。那么问题来了,那为什么不这样算呢?就是说不移动整体,直接把每一个数占据最大数的比例求出来不就行了吗?

也就是这样:

额,说实话,这里我觉得没什么不妥当,同样也是将数据收缩在 0~1 的范围内,但是我换了个数据好像就...

再拿一个数据

按照上面的计算,这里暂时简称为“简单除法法”

而使用归一化进行计算是这样的:

可以看到使用“简单除法法”进行计算得到的位于 0~1 范围内的数值没有经过归一化后的数据“拉得开”,好像腻乎在一块一样;同样是相对于某一数值的比例,使用归一化就不仅能将数据在收缩在 0~1 范围内,而且还让数据在这个范围内展开。这里不是太好想象为什么是这样?这样,我们打开 photoshop ,你没有看错,打开它

然后 文件 -> 新建 -> 确定 -> 新建一个图层 ,好,新建了一个,然后我们画一个方块, 矩形工具 -> 按住shift拖动 ->得到一个方块,然后 按住alt 对着方块拖动鼠标,直到拖出三个,然后按照下图所示的方式排列。

之后 按住ctrl 加选图层,把这三个方块的对应的图层都选中, 右键 -> 合并形状 。然后把三个方块拖到画布的右上角

按 ctrl + t ,可一看到在中心有一个点,这个点是变形时候的参考点,我们把点移动到 最下面这个方块 的左下角。然后把鼠标移动到缩放框的右上角 按住shift+alt 进行拖动,感受一下拖动的感觉;然后这个时候把大小还原,将那个中心点移动到这个 画布 的左下角,然后再次把鼠标移动到缩放框的右上角 按住shift+alt 进行拖动,感受一下拖动的感觉 。

中心化上面的过程我们看到了,相当于把数据 位移 了一下。在说这个之前,我们来玩一下 找不同 ,百度搜一下 找不同 ,我随便找了一张,我还记得这是朵拉,哈哈,你能快速找到不同吗?

这里有没有骚一点的操作呢?还记得上面的家伙吧你应该还没有关吧,进入 photoshop 。然后,现在你手上有 ps ,你怎么快速找不同呢?

我用 photoshop 把连在一起的两张图裁剪开,分别放到两个图层中。得到下面的图。

然后将两张叠在一起,就像这样,然后来回调整最上面一个图层的不透明度或者关闭打开最上面图层的眼睛,可以看到明显变化的位置就是不同啦!你可以试一下啊!

归一化、标准化可以说都是线性的,在 知乎 - 微调 的回答中,他通过公式的转变最后认为归一化、标准化很相似,都是 x + b / c 这样一种形式,具体的可以看参考中的知乎链接。对应到这篇文章中就可以这样做,你可以把那三个方块的中心点放到中心然后拖动缩放框进行缩放就是标准化啦。在说归一化、标准化的作用之前,首先来看一句话

看这句话我就想起了我们和宇宙的“体型”的极大悬殊,宇宙浩瀚无垠,极其庞大;沙粒,微乎其微,极其渺小。另外除了上面这句话之外,还有“一花一世界,一叶一菩提”也比较常听到,这种“以小见大”的境界其实有一种理论模型的说法,我记得在一些初高中的化学或者物理课本上都画有原子图,中心一个原子核,然后又三个电子围绕着中心旋转,我相信很多人脑子里只要有过太阳系和这幅原子图的映像后会将它们联系起来。

原子 的半径为 10^(-10) m ,太阳系的半径为 6*10^(12)m ,它们的“体型”的差别用“天壤之别”似乎也不够,但是这种内部的“运转”形式又是如此的相似,难道说我们这个世界存在着一种特殊的规律?其实之前就有人提出过一个观念,叫做 分形宇宙(Fractal Universe) 。

这个是混沌动力学里面研究的一个饶有兴趣的课题,它给我们展现了复杂的结构如何在不同层面上一再重复。所谓的分形宇宙也只是一家之言罢了。

读到这里,你的脑海中是不是已经浮现出了一个“小宇宙”、“大原子”呢?你的脑子是不是进行了一次归一化或者说标准化的过程呢?

最近回过头来看看之前写的,没有特别说明其中归一化与标准化的中的差别。另外也发现标准化与归一化的形式还不单单只是一种。

说明:公式截取自 机器学习中的特征缩放(feature scaling)浅谈

可以看到最前面两种(Rescaling 和 Mean normalisation)与前面说到的归一化是相似的,我觉这里这两个可以归为一类。

它们的分母是是一样的,都是 max(X) - min(X) ,也就是说它们以自己内部的最大的差距最为分母,但是分子不一样,分别是 x - min(X) 和 x - mean(X) ,这是个什么意思呢?

这里的 x - mean(X) 就是之前说到的 中心化

因为分母相同,这里先暂时不管分母。

假如有六个点,在每条路上都一条标杆,这里我们来计算一下每一个距离标杆的长度

以 x - min(X) 计算距离

以 x - mean(X) 计算距离

通过图来看, x - min(X) 中的 min(X) , x - mean(X) 中的 mean(X) 是两幅图中各自的标杆,如果移动这条标杆的位置就可以互相转换。所以这两个是相似的。但是我们可以看到,第一种得到的数值均为 正数 ,但是第二种是有 正负值的 ,分布于均值两侧。

那么第三种呢?这个对应到上面我们说到的标准化的东西。但是与上面归一化有什么差别呢?

我们拿第二种(Mean normalisation)与第三种(Standardization )进行对比会比较好理解,这两个的分子都是相同的,但是分母不同,前者是 max(X) - min(X) (也就是极差),后者是 std(X) (也就是标准差),我们看看这两者的计算方式的特点

如果说数据存在特别大的或者特别小的数据的时候,归一化可能会导致数据黏糊在一起的情况(因为归一化的分母始终是数据中距离最大的点的距离),但是标准化(不仅仅会考虑单个极其特别的点,其他的点都会考虑,得到)出现这种情况会好一些(特别是数据量较大的情况下可能会抹除奇异值的影响)。

另外,归一化求得的数值最后会在 [-1, 1] 之间,而标准化不一定,有可能会大于 1 或者小于 -1 。

中间如果有错误,望能告知。

版权声明 :本文采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

(2)

猜你喜欢

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2026年04月20日

    我是清络号的签约作者“admin”

  • admin
    admin 2026年04月20日

    本文概览:地下水功能评价的要素指标多达30组项,彼此相互联系、相互补充,又具有层次性和结构性,是一个有机整体。但是,30多个要素指标中,类型多样,既有渐变规律的点源监测数据,又有斑块状高...

  • admin
    用户042005 2026年04月20日

    文章不错《数据归一化方法对比》内容很有帮助

联系我们:

邮件:清络号@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信