当前位置:首页 > 问答百科 > 正文内容

显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南

福瑞号2023-01-24 07:33:16问答百科72
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图1
主分量分析(PCA)是一种统计技术,它允许在数据集中识别潜在的线性模式,这样就可以用其他数据集来表示,而不丢失大量信息。最后的数据集应该能够通过减少变量来解释原始数据集的大部分方差。最后的变量将被命名为主分量。下图是主分量分析的每个步骤的活动图。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图2
为了说明上图中描述的过程,我们将使用以下具有两个维度的数据集。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图3
下图显示了变量x 1与变量x 2的值。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图4
我们的目的是计算主分量,以便将其转换为只有一维的数据集,同时信息损失最小。
1.从数据中减去平均值
PCA的第一步是减去数据集中每个变量的平均值,如下图所示。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图5
从上图中可以看到,这一均值的减法导致了现在零均值的数据的平移。
2.建立协方差矩阵
两个随机变量的协方差度量了他们各自之间的变化程度。协方差的标志提供了以下关于它们之间关系的信息:
·如果协方差为正,则两个变量一起增减。·如果协方差为负,那么当一个变量增加,另一个减少,反之亦然。
这些值将决定用于减少数据集维度的变量之间的线性依赖关系。回到我们的例子,以下是协方差矩阵。
对角线上的值表示每个变量的协方差,它们等于方差。方差是一个度量如何从平均值传播数据的概念。非对角值表示两个变量之间的协方差。在这种情况下,这些值是正的,这意味着两个变量一起增加和减少。
3.确定特征向量和特征值
特征向量指的是在它们应用任何线性变换后方向保持不变的向量。然而,向量的长度在转换之后不可能保持不变,即,该变换的结果是向量乘以标量。该标量被称为特征值,每个特征向量都有与之关联的一个特征向量。
我们可以为每个数据集计算特征向量,或者组件的数量等于数据集的维数。在这种情况下,我们有一个二维数据集,所以特征向量的数量是2。下图是我们举例的特征向量。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图6
由于是根据前述协方差矩阵计算的,所以特征向量表示数据具有更多方差的方向。另一方面,它们各自的特征值决定数据集在该方向上具有的方差量。
一旦我们获取了这些新方向,我们可以按照下图来绘制数据。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图7
请注意,数据没有改变,我们只是根据这些新方向重写它们,而不是以前的x 1 -x 2方向。
4.主分量
在上一步中计算出的所有可用特征向量中,我们选择需要数据投影的部分。所选择的特征向量就是主分量。为了建立一个准则来选择特征向量,我们首先必须定义每个特征向量的相对方差和一个数据集的总方差,一个特征向量的相对方差度量了多少信息可以归为它。数据集的总方差是所有变量的方差之和。
这两个概念由特征值决定。对于我们的例子,下表显示了每个特征向量的相对方差和总方差。
正如我们所看到的,第一个特征向量可以解释几乎所有数据方差的85%,而第二个特征向量解释了其中的15%。下图显示了组件的累积方差。
显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南-图8
选择变量的常用方法是确定我们希望最终数据集解释的信息量。如果信息的数量减少,我们将选择的主分量的数量也会减少。在本例中,当我们想要将二维数据集减少到一维数据集时,我们将只选择第一个特征向量作为主分量。因此,最终减少后的数据集将解释约85%的原始数据。
5.减少数据维度
一旦我们选择了主分量,就必须将数据投影到它们上。下图是示例中的投影结果。
虽然这个投影可以解释原始数据的大部分方差,但是我们已经失去了第二个特征向量的相对方差和总方差的信息。一般来说,这个过程是不可逆的,这意味着我们无法从投影中恢复原始数据。
结论
主分量分析是一种可以帮助我们识别数据集基础依赖关系的技术,并且显著降低数据集的维度。
这种技术对于处理具有数百个变量的数据集非常有用,同时可以还原原始数据集中的大部分信息。
主分量分析也可以在神经网络中实现。然而,由于这个过程是不可逆的,因此数据的减少可能只针对输入而不是目标变量。
来源:neuraldesigner作者:Pablo Martin智能观 编译

扫描二维码推送至手机访问。

版权声明:本文由福瑞号发布,如需转载请注明出处。

本文链接:http://furui.com.cn/49512.html

标签: 什么叫pca

“显著降低数据集维度!这可能是主分量分析(PCA)最简单的操作指南” 的相关文章

属鼠人的婚姻与命运如何(属鼠人的婚姻与命运)

属鼠人的婚姻与命运如何(属鼠人的婚姻与命运)

属鼠人的性格和命运,在鼠年出生的人无论做什么事,都有可能取得成功。由于他有很强的随机应变能力,能够克服困难,能够做到临危不惧。因为他沉着冷静,警觉,又有敏锐的直觉,有远见,还有对商业的敏感,所以灾难只会使他的智慧更突出。 他们就是小白鼠,想要一心一意,甘于奉献,并默认设定自己喜欢的就是另一方喜欢的...

信息技术的积极影响(信息技术2.0对新时代教育教学的影响)

信息技术的积极影响(信息技术2.0对新时代教育教学的影响)

信息技术对新时代教育教学的影响 信息技术2.0对新时代教育教学的影响 戴直楷 在人工智能、大数据、云计算、5G的人与机器的交互对接时代,改变人们的生产生活方式,改变了人们的行为习惯,也增强了人们的智慧。信息技术2.0主要就是人们对信息技术的运用时代,新时代各行各业高度关注与运用信息技术,有效提...

一生平庸的动物是什么动物(成语鹿鹿鱼鱼是用来形容人平庸无作为吗)

一生平庸的动物是什么动物(成语鹿鹿鱼鱼是用来形容人平庸无作为吗)

蚂蚁庄园:成语鹿鹿鱼鱼是用来形容?A、人平庸无作为 B、动物种类多。 蚂蚁庄园:成语凿壁偷光的典故讲述了谁勤奋苦读的故事?A、匡衡 B、孔子。 成语“凿壁偷光”的典故,讲述了谁勤奋苦读的故事?成语鹿鹿鱼鱼是用来形容?这些都是蚂蚁庄园的题目,关于成语“凿壁偷光”的典故,讲述了谁勤奋苦读的故事?的答案,...

金榜题名是什么生肖(本月中旬)

金榜题名是什么生肖(本月中旬)

本月中旬,几大生肖,金榜题名,生活幸福美满 中国的十二生肖是猪,人的五行是水。中国十二生肖中的一个95岁的人是猪,发音为"山火",通常被称为"火猪"。年底,59岁的"木猪"有望帮助你形成"海中木火"之宝。到那时,下一层次的财富将到来,你的财富将增加,你将获得意想不到的财富,可以过上平静的生活。此外...

老式硬脆沙琪玛叫什么(这些老式糕点)

老式硬脆沙琪玛叫什么(这些老式糕点)

大家还记得几种小时候吃的老式糕点?那些没有颜值,很普通很简单的糕点,但是味道却一直停留在哪个年代,再吃上几口满满都是回忆,小编今天再带大家重新回味一下这些老式糕点,8090后小时候可能大多都吃过,满满的回忆杀! 桃酥 说到桃酥,可能8090后都知道,它是一种历史悠久的传统特色小吃了,又酥又甜的...

英寸和寸有啥关系(搞清楚英寸与厘米之间的换算关系才能知道显示器大小)

英寸和寸有啥关系(搞清楚英寸与厘米之间的换算关系才能知道显示器大小)

16:9长宽比的21.5寸显示器=>长:47.6cm;宽:26.8cm。16:10长宽比的21.5寸显示器=>长:46.3cm;宽:28.9cm。下面我们针对这两种长宽比的显示器给出一个详细的计算过程。 显示器的长宽小知识 1、英寸与厘米的换算关系 显示器21.5寸,这里的寸是指英...