변수 변환과 역변환
Chapter 7 : Change of Variables/Inverse Transform
이름있는 분포가 매우 많지만, 실제로 이런 함수들에게는 제약이 많다. 그래서 우리는 변환된 확률변수가 어떻게 분포하는지 조금 더 제대로 이해하는 것이 유용할 것이다.
우리는 변환된 확률변수의 분포를 알아내는 두 가지 방법에 대해 살펴 볼 것이다. 하나는 CDF의 정의를 직접 적용하는 방법이고, 두번째는 미적분의 연쇄법칙을 이용하는 change-of-variable(치환) 이다.
이산확률변수의 변환의 예시를 살펴보자
특정 변환 $ Y = U(X) $ 와 pmf $ P( Y=y) $ 가 있으면,
여기서 $ x = U^-1 (y) $ 를 이끌어낼 수 있다. 그러므로 이산확률변수에 대해서 변환은 개별 사건을 직접 변화시킬 수 있다.
분포함수(Distribution Function Technique)
CDF $ F_x (x) = P(X \leq x) $ 를 미분하면 $ pdf f(x) $ 가 되며 이를 이용하여 distribution function을 구할 수 있다. 확률변수 X와 함수 $ U $ 에 대해, 확률 변수 $ Y := U(X) $ 의 pdf를 다음 식으로 구할 수 있다.
- cdf를 찾는다
- cdf를 미분하여 pdf를 얻는다.
확률변수의 정의역이 변환 U로 인해 변할 수 있으니 유의하여야 한다.
Theorem 6.16
X를 strictly monotonic한 cumulative distribution function을 갖는 연속확률변수라고 했을 때 다음과 같이 정의되는 확률변수 Y는 균등분포이다.
\[Y := F_X(X)\]이는 probability integral transform(확률적분변환)으로 알려져있으며, 균등분포로부터 추출된 결과를 변환한 분포로부터 표본 추출 알고리즘을 도출하기 위해 이용한다. 이 알고리즘은 우선 균등분포로부터 표본을 생성한 뒤, inverse cdf를 통해 변환하고, 원하는 분포로부터 표본을 얻게된다. 확률적분변환은 표본이 특정 분포로부터 추출되었는지에 대한 가설을 검정하는데 사용된다. cdf에 대한 output이 균등분포를 제공한다는 점은 copula에 대한 기반이 되기도 한다.
변수 변환(Change of Variables)
distribution function을 사용하는 방법은 cdf를 정의하고 inverse, differentiation, integration의 성질을 이용하며 이는 두 가지 사실이 따라주었을 때 가능하다.
- Y의 cdf를 X의 cdf로 변환할 수 있다.
- cdf를 미분하여 pdf를 얻을 수 있다.
위의 6.16의 치환 접근법을 일반화하기 위해 단계적으로 살펴보자
단변량 확률변수 $ X $ 와 invertible function $ U $ 를 이용해 얻는 확률변수 $ Y = U(X) $ 를 생각해보자. 확률 변수 $ X $ 는 $ states x \subseteq [a,b] $ 를 갖는다고 가정한다. cdf의 정의에 따라 다음을 얻는다.
\[F_Y(y) = P(Y \leq y)\]우리는 확률변수에 대한 함수 U를 구해야 함으로
\[P(Y \leq y) = P(U(X) \leq y )\]여기서 함수 $ U $ 는 invertible하다고 가정하자. 구간에 대한 invertible function은 강한 증가/강한 감소 함수가 된다. $ P(U(X) \leq y) 의 인자에 U^-1을 적용하여 다음을 얻는다 $
\[P(U(X) \leq u) = P(U(X)^-1 U(X) \leq U^-1(y) ) = P(X \leq U^-1(y))\]가장 오른쪽 항은 $ X $ 의 cdf에 대한 식이다. cdf를 pdf로 나타내면
\[P(X \leq U^-1 (y)) = \int_{a}^{ U^-1(y) } f(x) dx\]이제 Y의 cdf에 대한 식을 x로 나타내보자
\[F_Y(y) = \int_{a}^{ U^-1(y) } f(x) dx\]pdf를 얻기 위해 위 식을 y에 대해 미분하면,
\[f(y) = \frac{d}{dy} F_Y(y) = \frac{d}{dy} \int_{a}^{U^-1(y)} f(x) dx\]우변의 적분은 x에대한 것이기 때문에 이를 y에 대하여 적분하기 위해 치환적분을 사용하면 다음과 같다
\[\int f(U^-1(y))U^-1^\prime (y) dy = \int f(x)dx \quad where \ x = U^{-1}(y) \\ \therefore f(y) = \frac {d}{dy} \int_{a}^{U^-1(y)} f_x(U^-1(y))U^-1^\prime (y) dy\]미분은 선형 연산자이며 아랫첨자는 x에 대한 함수임을 알려준다. 이를 다시 쓰면,
\[f(y) = f_x(U^{-1} (y)) \cdot ( \frac{d}{dy} U^{-1} (y) )\]$U$ 를 강한증가함수가 아닌 강한감소함수로 사용할 경우 위 유도를 따르면 음수부호가 나오게된다. 두 경우에 대해 같은 결론을 얻기 위해 절댓값을 취해주면
\[f(y) = f_x(U^{-1} (y)) \cdot | \frac{d}{dy} U^{-1} (y) |\]이를 change-of-variable technique이라 부른다. 항
$ | \frac{d}{dy} U^{-1} (y) | $ 는 $ U $ 를 적용했을 때의 단위 부피의 변화량을 의미한다.
이제 다변량에도 이를 적용해보자. 다변량의 경우에는 절대값대신 자코비안 행렬을 이용한다.
Theorem 6.16
$ f(X) $ 가 다변량 연속확률변수 $ X $ 의 확률밀도의 값이라 하자. 벡터함수 $ y = U(x) $ 가 미분가능하며 역행렬이 존재할 때, 이에 대응하는 y의 값에 대해, $ Y = U(X) $ 의 확률밀도는 다음으로 주어진다.
\[f(y) = f_x(U^{-1}(y)) \cdot | det ( \frac{ \partial }{ \partial y} U^{-1} (y) )|\]'확률 분포' 카테고리의 다른 글
```