1. LDA的思想

LDA线性判别分析也是一种经典的降维方法,LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。 可能还是有点抽象,我们先看看最简单的情况。假设我们有两类数据分别为红色和蓝色,如下图所示,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。

在这里插入图片描述

上图中提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了,当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

在这里插入图片描述 在这里插入图片描述


2.实例结合源码

导包

import numpy as np
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import warnings 

warnings.filterwarnings("ignore") 
X,y = datasets.load_iris(True)
X[:5]

array([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2], [5. , 3.6, 1.4, 0.2]])

#特征值和特征向量 solver='eigen'/svd
lda = LinearDiscriminantAnalysis(solver='eigen',n_components=2)
X_lda = lda.fit_transform(X,y)
X_lda[:5]

array([[6.01716893, 7.03257409], [5.0745834 , 5.9344564 ], [5.43939015, 6.46102462], [4.75589325, 6.05166375], [6.08839432, 7.24878907]])

源码截图

def _solve_eigen(self, X, y, shrinkage): 在这里插入图片描述

共分为五步

#1、总的散度矩阵
#协方差X.T 等同rowvar=False,源码中有偏差值bias=1
St = np.cov(X,rowvar=False,bias=1)
St

array([[ 0.68112222, -0.04215111, 1.26582 , 0.51282889], [-0.04215111, 0.18871289, -0.32745867, -0.12082844], [ 1.26582 , -0.32745867, 3.09550267, 1.286972 ], [ 0.51282889, -0.12082844, 1.286972 , 0.57713289]])

#2、类内的散度矩阵
# Scatter 散点图,within(内)
Sw = np.full(shape = (4,4),fill_value=0,dtype = np.float64)
for i in range(3):
    Sw += np.cov(X[y == i],rowvar=False,bias=1)
Sw/=3
Sw

array([[0.259708 , 0.09086667, 0.164164 , 0.03763333], [0.09086667, 0.11308 , 0.05413867, 0.032056 ], [0.164164 , 0.05413867, 0.181484 , 0.041812 ], [0.03763333, 0.032056 , 0.041812 , 0.041044 ]])

# 3、计算类间的散度矩阵
#Scatter between
Sb = St -Sw
Sb

array([[ 0.42141422, -0.13301778, 1.101656 , 0.47519556], [-0.13301778, 0.07563289, -0.38159733, -0.15288444], [ 1.101656 , -0.38159733, 2.91401867, 1.24516 ], [ 0.47519556, -0.15288444, 1.24516 , 0.53608889]])

# scipy 这个模块下的线性代数子模块
from scipy import linalg
# 4、特征值 和 特征向量
eigen,ev = linalg.eigh(Sb,Sw)

print(eigen )
print( ev)

[-1.84103303e-14 1.18322589e-14 2.85391043e-01 3.21919292e+01] [[ 1.54162331 -2.82590065 0.02434685 0.83779794] [-2.49358543 1.05970269 2.18649663 1.55005187] [-2.86907801 1.01439507 -0.94138258 -2.22355955] [ 4.58628831 0.45101349 2.86801283 -2.83899363]]

ev= ev[:,np.argsort(eigen)[::-1]]
ev

array([[ 0.83779794, 0.02434685, -2.82590065, 1.54162331], [ 1.55005187, 2.18649663, 1.05970269, -2.49358543], [-2.22355955, -0.94138258, 1.01439507, -2.86907801], [-2.83899363, 2.86801283, 0.45101349, 4.58628831]])

# 5、筛选特征向量 ,进行矩阵运算
X.dot(ev[:,:])[:5]

array([[ 6.01716893, 7.03257409, -9.19277808, -3.96472168], [ 5.0745834 , 5.9344564 , -9.1574493 , -3.02625362], [ 5.43939015, 6.46102462, -8.48176814, -3.54638757], [ 4.75589325, 6.05166375, -8.10226933, -4.02500696], [ 6.08839432, 7.24878907, -8.80421775, -4.36824255]])


3.LDA与PCA比较

相同点

1)两者均可以对数据进行降维。

2)两者在降维时均使用了矩阵特征分解的思想。

3)两者都假设数据符合高斯分布【正态分布】。    

不同点

1)LDA是有监督的降维方法,而PCA是无监督的降维方法

2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。

3)LDA除了可以用于降维,还可以用于分类。

4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

版权声明:如无特殊说明,文章均为本站原创,转载请注明出处

本文链接:http://wakemeupnow.cn/article/lda/