3.1 Inference

\(T(X)\)\(\theta\)의 추정량. * bias $ = E - $ * if bias\(=0\), \(T(X)\)\(\theta\)의 UE.

이때, \(\theta\) can be \(g(\theta)\). 즉슨, \(\theta\)는 패러미터 그 자체만이 아니라 패러미터의 함수를 패러미터 삼아 이를 추정하려고 들 수도 있다. 이하의 전개에서는 \(\theta = g(\theta)\) 로 이해하자.

\(\theta\)의 추정량 \(T(X)\)의 MSE는 $MSE = Var +(bias)^2 $.

\(T_1(X)\), \(T_2(X)\)\(\theta\)의 UE. \(T_1(X)\)\(T_2(X)\)에 대한 Relative Efficiency \(RE= \dfrac {Var \left[ T_2 (X) \right]} {Var \left[ T_1 (X) \right]}\)





rv $X_1 , , X_n f(x_1 , , x_n ) $. 이하의 조건 하에서 추정량 \(T^\ast (X)\)\(\theta\)의 MVUE. 1. \(E \left [ T^\ast (X) \right] = \theta\). 즉 \(T^\ast (X)\)\(\theta\)의 UE. 2. $T(X):Var $.





Fisher’s Information $I() = E { ^2 } $

regularity condition: 1. The partial derivative of \(f(X; \theta)\) with respect to \(\theta\) exists almost everywhere. (It can fail to exist on a null set, as long as this set does not depend on \(\theta\).) 2. The integral of \(f(X; \theta)\) can be differentiated under the integral sign with respect to \(\theta\). 3. The support of \(f(X; \theta)\) does not depend on \(\theta\).

e.g.,

  1. 패러미터 다르면 pdf 다름. 즉, \(\theta \not = \theta': f(x;\theta) \not = f(x;\theta')\)
  2. set \(A = \{ x: f(x;\theta)>0 \}\)은 패러미터 \(\theta\)에 의존하지 않고, \(\forall x \in A, \theta \in \Omega : \log f(x;\theta)\)\(\theta\)에 대해 두 번 미분 가능하고 도함수가 연속이다.
  3. 통계량 \(T(X)\)\(\forall \theta \in \Omega: E \left [ T (X) \right] < \infty\) 라면, $ {} E $에 있어 미분과 적분의 순서를 바꿀 수 있다.

Information inequality:
under regularity condition, \(\forall g^{-1}(\theta) \in \Omega, Var \left [ T^\ast (X) \right] < \infty, E \left [ T^\ast (X) \right] = \theta, 0<I(\theta)< \infty:\) \(\theta\) is differentiable, and \(Var \left [ T^\ast (X) \right] \ge \dfrac {1}{n} \dfrac {\left[ g'(\theta) \right]^2}{I (\theta)}\).





rv $X_1 , , X_n f(x_1 , , x_n ) $. \(l\)개 stats(통계량)의 벡터 \(\pmb {S(X)} = \left[ S_1(X), \cdots, S_l(X) \right]\).
이때 rv $X_1 , , X_n $의 분포가 패러미터 $ = (_1 , , _k )$에 의존하지 않으면 stats \(\pmb {S(X)}\)는 joint SS.

rv $X_1 , , X_n f(x_1 , , x_n ) $. 1개 stats(통계량) \(S(X)\).
이때 rv \(X_1 , \cdots, X_n \rvert S(X)\) 의 분포가 패러미터 \(\theta = (\theta_1 , \cdots, \theta_k )\)에 의존하지 않으면 stats \(S(X)\)는 SS.





  • Decomposition thm.:

rv $X_1 , , X_n f(x_1 , , x_n ) $. \(k\)개 stats(통계량) \(\pmb {S(X)} = \left[ S_1(X), \cdots, S_k(X) \right]\).

stats \(\pmb {S(X)}\)는 joint SS \(\iff\) $f(x_1 , , x_n ; ) = g h(x_1 , , x_n) $





3.1.1 Rao-Blackwell thm.

패러미터의 함수 \(\theta\), \(S\)는 SS, \(T(X)\)는 UE. let \(\delta (S) = E \left [ T(X) \rvert S \right]\). 이때 \(\delta (S)\)\(\theta\)의 UE. 따라서

$$ \[\begin{align*} Var \left[ \delta (S) \right ] &= E \left\{ \left[ \delta (S) - \theta \right]^2 \right\} \\ &\le E \left\{ \left[ T(X) - \theta \right]^2 \right\} = Var \left [ T(X) \right] \end{align*}\] $$





3.1.2 Completeness

rs \(X_1 , \cdots, X_n\)의 stats \(T (X_1 , \cdots, X_n )\)에 대해, let

\[ \forall \theta \in \Omega: \; \; E \left[ g(T) \right]=0 \]

이때 이를 만족하는 \(\theta\)에 무관한 함수 \(g\)\(g(\cdot) \equiv 0\) 뿐이라면, \(T\)는 CS. \(T\)\(\theta\)에 대한 SS라면, 이는 CSS.

stats \(Y\)가 분포모임 \(\{g(y;\theta);\theta \in \Theta \}\)의 한 원소를 pdf로 가진다고 하자.

\[ \forall \theta \in \Theta: \; \; E_{\theta} \left[ \varphi(Y) \right] \overset{\theta}{=}{0} \; \; \; \rightarrow \; \; \; \varphi(y) \overset{y}{=} 0 \]

위의 명제가 성립할 때 위 분포족은 completeness를 지닌다.

  • 여기서 \(\varphi\)\(\theta\)에 무관한 함수이다.
  • 피명제는 보다 엄밀히는 \(\forall \theta: P_{\theta} \{ \varphi (Y)=0 \}=1\).
  • \(\overset{\theta}{=}\)는 모든 \(\theta \in \Omega\)에 대해 등호가 성립함을 나타낸다.

Remarks:

  1. completeness는 본질적으로 확률분포의 패러미터 \(\theta\)가 통계량 \(Y\)를 통해 추정될 수 있음을 보장하는 조건으로 이해될 수 있다.
    • 즉, completeness는 서로 다른 패러미터값을 지니는 두 분포는 서로 구분(distinct)됨을 보장해주는 조건이다.
  2. 통계량 \(Y\)의 분포족이 completeness를 만족하면, \(Y\)를 완비통계량 CS라고 부른다.
  3. 완비성은 CS의 함수로 이루어지는 UE는 unique하다는 사실을 보이는 도구로 이용된다. 레만-쉐페 thm 참조.





3.1.3 레만-쉐페 thm.

패러미터 \(\theta\)에 대해 \(T\)가 CSS, \(S(X)\)\(\theta\)의 UE. 이때 \(\delta(T)=E \left [ S(X) \rvert T \right]\)\(\theta\) 의 UMVUE.


rs \(X_1 , \cdots, X_n \overset{iid}{\sim} f(x;\theta)\). \(\theta\)에 대한 CSS \(Y=u(X_1 , \cdots, X_n)\). 이때 임의의 UE \(\hat \theta\)에 대해

\[ \varphi (Y) = E(\hat \theta \rvert Y) \]

\(\theta\)에 대한 UMVUE. 이는 unique.





3.1.4 Rao-Blackwell thm.

rs \(X_1 , \cdots, X_n \overset{iid}{\sim} f(x;\theta), \theta \in \Theta\).

  1. \(Y= u(X_1 , \cdots, X_n)\)\(\theta\)의 CSS.
  2. \(Z= v(X_1 , \cdots, X_n)\)의 분포는 \(\theta\)에 의존하지 않는다.

이상의 조건이 만족되면 \(Y \perp Z\).





  • exponentail family:

pdf가 적절한 함수 \(a, b, c_i, t_i (i=1,\cdots, k)\)에 대해 \(f(x;\theta) = a(\theta) b(x) \exp \left[ \sum_{i=1}^k c_i (\theta) t_i (x) \right], -\infty\)




지수족에 속하는 pdf로부터 rs \(X_1 , \cdots, X_n\) 를 얻었다면, 통계량 \(S_1 = \sum_{i=1}^n t_1 (X_i), \cdots, S_k = \sum_{i=1}^n t_k (X_i)\) 는 패러미터 \(\theta_1 , \cdots, \theta_k\) 에 대한 joint (C) SS이다.





\(g(\theta)\)에 대한 est \(\tau(\pmb X)\)\(\forall \epsilon >0: \lim_{n \rightarrow \infty} P \left( \vert \tau(\pmb X) - g(\theta) \vert \le \epsilon \right) =1\) 을 만족하면 est \(\tau(\pmb X)\)는 consistency를 가진다.

이는 표본의 크기가 커짐에 따라 est \(\tau(\pmb X)\)\(g(\theta)\)확률적으로 수렴한다는 것. 표본의 크기가 매우 클 때, est \(\tau(\pmb X)\) 로부터 계산된 추정값 estimates는 높은 확률로 참모수값에 매우 가까이 있다는 뜻.





est \(\tau(\pmb X)\)\(g(\theta)\) 의 것일 때, \(\forall \theta \in \Theta: \lim_{n \rightarrow \infty} P E \left\{ \tau(\pmb X)-g(\theta)\right\}^2 = 0\) 이 성립하면 est \(\tau(\pmb X)\)consistent.





est \(\tau(\pmb X)\)\(\theta\) 의 consistent이고, \(g(x)\)\(\theta\) 에서 연속인 함수라면, \(g\tau(\pmb X)\).