3.5 Data Reduction

3.5.1 Sufficiency Principle

\(X \vert T(X)\)의 분포가 \(\theta\)에 의존하지 않는다면, \(T(X)\)\(\theta\)의 SS. - \(T(X)\)\(\theta\)의 SS라면, \(\theta\)에 대한 모든 추론은 \(T(X)\)를 거쳐서만이 \(X\)에 의존함. 즉 \(T(X)\) 값만 알 수 있다면 모든 \(X\)에 대해 알지 못해도 무관.



비율 \(\dfrac{f_X(x \vert \theta)}{f_T(X) \left( T(x) \vert \theta \right)}\)\(\forall x \in \Omega\)에 대해 \(\theta\)의 함수로서 constant 하다면, \(T(X)\)\(\theta\)의 SS. 이인즉 \(f(x \vert T(x))\)\(\theta\)에 의존하지 않는다. - rs itself와 rs의 order statistics는 SS이다.



Factorization thm.: sample point \(x\), parameter points \(\theta\)

$$

T(X) x, : g , h(x) : f(x ) = g h(x)

$$

SS를 찾기 위해 factorization thm.을 쓰려면, 우리는 샘플의 joint pdf를 두 부분으로 나눠야 한다. 이는 \(\theta\)를 포함하지 않는 (의존하지 않는) \(h(x)\)\(\theta\) 를 포함하는 \(g \left[ T(x) \vert \theta \right]\) 이다. \(\theta\)를 포함하는 \(g\) 쪽의 식이 \(T(x)\)로 표시될 수 있으면, 즉 \(x\)에 의존하는 바가 \(T(x)\)를 통해서만 의존한다면, \(T(x)\)\(\theta\)의 SS이다.



proof)

\(X_1 , \cdots, x_n \overset {iid} {\sim} f(x \vert \pmb \theta) = h(x)c(\pmb \theta) \exp \left( \sum_{i=1}^k w_i (\pmb \theta)t_i(x) \right)\), s.t. exponential family, where \(\pmb \theta = (\theta_1 , \cdots, \theta_d), d \le k\). then

\[ T(X) = \left( \sum_{j=1}^n t_1 (X_j) , \cdots, \sum_{j=1}^n t_k (X_j) \right) \]

is SS for \(\theta\).