• 爱情文章
  • 亲情文章
  • 友情文章
  • 生活随笔
  • 校园文章
  • 经典文章
  • 人生哲理
  • 励志文章
  • 搞笑文章
  • 心情日记
  • 公文文档
  • 英语文章
  • 当前位置: 星星阅读网 > 人生哲理 > 正文

    数据降维的常用方法分析

    时间:2021-05-10 12:11:54 来源:星星阅读网 本文已影响 星星阅读网手机站

    摘   要:数据降维一直是科学研究和工程应用的一个重要课题,降维方法主要有特征选择和特征变换两类,而特征变换又分为线性降维和非线性降维两类。线性降维算法实现起来较为简单快速,在现今的科学研究和工程实践中仍有应用。本文主要分析了线性降维方法中的主成分分析和线性判别分析,对它们的算法原理进行了较为详细的分析,并比较了它们在数据降维方面的异同。

    关键词:数据降维  主成分分析  线性判别分析

    中图分类号:TP311.1                               文献标识码:A                        文章编号:1674-098X(2019)11(b)-0118-02

    1  降维方法概述

    随着科学技术的进步,特别是物联网和大数据的快速发展,当今社会对数据处理能力的要求越来越高,随着数据维数的增大,高维数据通常存在较大的相干性和冗余度,并且数据本身的信息量增长往往比数据维度的增长要慢,从而信号维度越高,数据冗余度就会越大,如视频图像比单幅静止图像的可压缩性要大得多。研究如何充分利用高维数据间的稀疏性和冗余性进行数据降维,是对高维数据进行有效采集、处理和重构的重要前提。

    降维方法主要分为特征选择和特征变换两种,特征选择是从给定的特征中选择提取若干重要特征,典型的特征提取算法有穷举法,启发式,随机方法和智能优化等。特征变换是通过某种变换将原始的输入空间数据映射到一个新的空间中。特征变换通过移除原特征集中的相关性与冗余性,可以减轻维数灾难,增强模型的泛化能力。特征变换主要有线性降维和非线性降维两类,其中线性降维方法有主成分分析,线性判别分析,非负矩阵分解,因子分析,奇异值分解和独立成分分析等;非线性降维方法有局部线性嵌入法,拉普拉斯本征映射,等距映射和核主成分分析等;本文主要讨论了线性降维中的主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)。

    2  主成分分析和线性判别分析

    2.1 主成分分析

    主成分分析(PCA)[1]源于K-L变换(Karhunen-Loeve Transform),是将高维空间中的数据投影到低维仿射子空间的一种线性降维方法。设数据集,存在RD的一个仿射子空间Sd(d

    其中,U为D×d维矩阵,它的列向量为子空间S的一组基,为在子空间S中的对应坐标。

    设,它的奇异值分解(Singular Value Decomposition,SVD)为

    其中X的奇异值矩阵ΣX的元素按从大到小排列,则由ΣX的每一个元素σi及其对应的左右奇异值向量和就构成了矩陣X的每一个主成分,这些主成分之间相互正交,通过截断后面对表征矩阵X贡献较小的主成分,可以达到降维的目的。

    PCA是无监督的线性降维方式,它对异常值(outlier)非常敏感,观测数据中的元素一旦受到破坏,PCA的精确性会受到很大打击。但现实中数据常常会不可避免的受到污染,比如传感器失效,数据被恶意修改等等,当异常值存在时计算主成分的算法称为鲁棒主成分分析(Robust Principal Component Analysis,RPCA)[2]。

    2.2 线性判别分析

    线性判别分析(Linear Discriminant Analysis,LDA)[3]是另一种常用的线性降维方法,也称为费舍尔(Fisher)线性判别,是模式识别的经典算法。LDA把较高维度的样本投影到最佳鉴别向量空间,从而达到能够抽取分类信息和压缩样本特征空间维数的目的。设原始数据中含有两个不同类的样本A和B,它们各自的均值分别为

    PCA和LDA是线性降维中两种经典的算法,但两者的关注重点不同,PCA是将样本空间作为一个整体,期望对数据降维后还能够最大化保持原始数据集的内在信息;而LDA不仅可以进行数据的降维,还能够对原始数据进行分类,使得原始的数据集在降维后能将不同类的数据区分开。从机器学习的角度来看,PCA是无监督的降维方法(降维过程中对原始数据没有使用标签),而LDA是有监督的降维(在求类内散度和类间散度时应用了原始数据的标签)。

    3  结语

    现实中的数据符合线性要求的只有很少的一部分,大部分数据都是非线性的,对这些非线性的数据运用线性降维手段的话,效果并不理想。由之,研究非线性的降维方法是非常有必要的,现有的非线性降维算法主要有核PCA,局部线性嵌入(Locally Linear Embedding,LLE),等距特征映射(Isometric Feature Mapping,ISOMP),多维尺度法(Multidimensional Scaling,MDS)等等。但当数据并不是存在于单一子空间或子流形时,比如同时存在于多个低维结构中时[4],非线性降维方法也将失效,研究复杂情况下的数据降维问题一直是科研和工程应用的一个重要领域。

    参考文献

    [1] Candès E J, Li X D, Ma Y, et al. Robust principal component analysis? [J]. Journal of the ACM. 2011, 58(3): 37.

    [2] Qiu C L, Vaswani N, Lois B, et al. Recursive robust PCA or recursive sparse recovery in large but structured noise[J]. IEEE Transaction on Information Theory. 2014, 60(8): 5007–5039.

    [3] S.B. Kotsiantis. Supervised Machine Learning: A Review of Classification Technique [M]. Artificial Intelligence Applications in Computer Engineering, 2007.

    [4] René Vidal, Yi Ma, S. Shankar Sastry. Generalized Principal Component Analysis [M]. Interdisciplinary Applied Mathematics, 2016.

    • 爱情文章
    • 亲情文章
    • 友情文章
    • 随笔
    • 校园
    • 哲理
    • 励志文章