1. Variance of one-dimensional datasets
- D1 데이터셋에 포함되는 데이터들은 파란색 점으로, D2 데이터셋에 포함되는 데이터들은 빨간색 사각형으로 표현된다.
- 두 데이터셋은 같은 평균값을 가지지만 그 분포가 다르다는 것을 확인할 수 있다.
- 각 데이터셋의 평균값을 구하고 각 데이터들과의 편차를 구해본다.
- 계산해보면 D1에서 구한 것이 D2에서 구한 것보다 작다.
즉, D2의 분산이 더 큰 것이다. - 분산은 데이터들이 얼마나 집중되어 있는지를 나타내는 지표로 쓰이게 된다.
구하는 식이 제곱의 합이므로 0이상의 값을 갖게 된다. - 이 분산에 루트를 씌운 것을 standard variation(표준 편차)이라고 부른다.
2. Variance of 1D datasets
- 데이터셋의 평균, 표준편차 구하기(2문제)
- 모든 데이터들에 값을 더하거나 곱했을 때 어떻게 변화하는가(2문제)
- 기존 데이터셋에 하나의 원소가 추가된 것을 식으로 표현하기(1문제)
- 분산의 정의를 잘 이용해서 식을 조작해야 한다.
3. Symmetric, positive definite matrices
1) covariance matrix is symmetric and positive-difinite
- 위의 식 전개에 따라 고윳값은 항상 0보다 크다는 것을 알 수 있다.
- 두 예시에서 확인할 수 있는 것은 두 변수 x,y가 서로 독립이라는 것이다.
cov(x,y) = cov(y,x) = 0 이기 때문이다.
따라서 covariance matrix는 대각행렬이다. - eigenvectors는 서로 직교(orthogonal to each other)하고 있다.
4. Variance of higher-dimensional datasets
- 위 세 개의 data-set은 전부 다른 형태를 띠고 있다.
그러나 x,y가 각각 같은 평균값과 분산을 갖게 된다. - 이 문제를 해결하기 위해 단순히 수평선과 수직선만의 관계를 가지고 파악하면 안된다는 것을 알 수 있다.
우리는 두 변수의 상관관계를 알고 싶기 때문이다.
이때 사용하는 것이 covariance이다.
- covariance와 covariance matrix는 위와 같이 정의된다.
- covariance matrix는
1) 항상 symmetric postiive definite matrix이다.
2) cov[x,y] 가 양수이면 x의 평균값이 증가함에 따라 y의 평균값도 증가한다.
3) cov[x,y] 가 음수이면 x의 평균값이 증가함에 따라 y의 평균값은 감소한다.
4) cov[x,y] 가 0이면 x와 y는 상관관계가 없다.
- 만약 x,y,z에 대한 3D dataset의 covariance를 구하게 되면 위와같은 covariance matrix가 구성된다.
- variance는 diagonal, 즉 대각성분을 이루게 되고 cross-covariance, 즉 교차분산은 대각성분이 아니다.
- 위 내용들을 일반화하면 n차원에 대한 dataset의 분산은 이처럼 정의된다.
이 결과는 D by D size matrix라고 한다.
(근데 D를 구성하는 원소의 개수는 n이므로 d라고 잘못 말한 것같다.)
5. Covariance matrix of a two-dimensional dataset
- 그래프를 보고 cov(x,y) 구하기(1문제)
- data를 보고 covariance matrix 구하기(1문제)
- data에 값을 더하거나 곱했을 때 covariance matrix의 변화(2문제)
- covariance matrix에 대해 올바르게 설명한 것 고르기(1문제)
출처: Coursera, Mathematics for Machine Learning: PCA, Imperial College London.
'PCA > 1주차' 카테고리의 다른 글
Linear transformation of datasets (2) | 2022.09.25 |
---|---|
Mean values (0) | 2022.09.24 |