Skip to content

সমাধান — অধ্যায় ৪.৫ · Sufficiency, Fisher Information & the Cramér–Rao Bound

অধ্যায় ফাইল: part-4-inference/04-05-sufficiency-fisher-crlb.md (§৭ অনুশীলনী)। সংখ্যাগত উত্তর numpy/scipy দিয়ে যাচাইযোগ্য (seed উল্লেখ থাকলে reproducible)। মূল বস্তু — score \(U(\theta)=\frac{\partial}{\partial\theta}\log f(X;\theta)\), Fisher information \(I(\theta)=\mathbb{E}[U(\theta)^2]=-\mathbb{E}[\ell''(\theta)]\), Cramér–Rao lower bound \(\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}\) (unbiased \(\hat\theta\)-র জন্য), efficiency \(e(\hat\theta)=\frac{1/[nI(\theta)]}{\mathrm{Var}(\hat\theta)}\), MLE asymptotic normality \(\hat\theta\approx\mathcal{N}(\theta,\frac{1}{nI(\theta)})\), এবং sufficiency/factorization theorem। চলমান উদাহরণ: E1 \(I(p)=\frac1{p(1-p)}\); E2 \(I(\mu)=1/\sigma^2\); E3 \(I(\lambda)=1/\lambda\)


ক · ধারণাগত (conceptual)

সমাধান ১ (★)

Fisher information কী। \(I(\theta)\) একটা number (সংখ্যা) যা মাপে — data প্যারামিটার \(\theta\) সম্পর্কে কতটা "information (তথ্য)" বহন করে। আনুষ্ঠানিকভাবে এটা log-likelihood-এর চূড়ায় বক্রতা (curvature): \(I(\theta)=-\mathbb{E}[\ell''(\theta)]\), যা সমতুল্যভাবে score-এর variance \(\mathbb{E}[U(\theta)^2]\)-ও।

কেন তীক্ষ্ণ = বেশি তথ্য (Figure 1): - বাঁ প্যানেল (তীক্ষ্ণ, \(\lvert\ell''\rvert=28\)): চূড়ার আশেপাশে \(\ell\) খুব দ্রুত নামে। অর্থাৎ MLE থেকে একটু সরলেই likelihood ধপ করে কমে — data জোরালোভাবে বলছে সত্যি \(\theta\) এই ছোট অঞ্চলেই। প্রতিবেশী \(\theta\)-মানগুলো স্পষ্টভাবে কম-সম্ভাব্য, তাই বেশি তথ্য। - ডান প্যানেল (চ্যাপ্টা, \(\lvert\ell''\rvert=2.8\)): \(\ell\) ধীরে নামে; একটা বড় পরিসরের \(\theta\)-মান প্রায় সমান likelihood দেয়। data প্যারামিটার সম্পর্কে কম নিশ্চিত — কম তথ্য

একটা flat log-likelihood কী বলে: "data থেকে \(\theta\)-কে ভালোভাবে আলাদা করা যাচ্ছে না; অনেক মানই প্রায় সমান যুক্তিযুক্ত।" এর ফল — MLE নমুনাভেদে বেশি অস্থির (বড় variance), আর পরে দেখব CRLB floor \(\frac{1}{nI}\) বড় হয় (কম \(I\) ⇒ উঁচু floor ⇒ বেশি variance অনিবার্য)।

সমাধান ২ (★)

Cramér–Rao bound। যেকোনো unbiased estimator \(\hat\theta\)-র জন্য তার variance-এর একটা নিচের সীমা আছে: $$ \mathrm{Var}(\hat\theta)\;\ge\;\frac{1}{nI(\theta)} . $$ এটা প্যারামিটার ও মডেলের উপর নির্ভর করা একটা মেঝে (floor) — কোনো unbiased estimator এর নিচে নামতে পারে না, যত চালাকিই করুক।

FORBIDDEN region (Figure 2): floor-এর নিচের পুরো এলাকা (হালকা লাল ছায়া)। এই অঞ্চলে variance থাকা একটা unbiased estimator অস্তিত্বহীন — গাণিতিকভাবে অসম্ভব (§৭ Q11-এর Cauchy–Schwarz প্রমাণ এটাই নিশ্চিত করে)।

ইচ্ছেমতো ছোট variance কি সম্ভব? না। যেহেতু একটা শক্ত মেঝে \(\frac{1}{nI(\theta)}>0\) আছে, নির্দিষ্ট \(n\)-এ variance এর নিচে নামানো অসম্ভব। variance কমাতে হলে হয় (i) \(n\) বাড়াতে হবে (floor \(1/n\) হারে নামে), নয়তো (ii) এমন এক experiment design করতে হবে যা \(I(\theta)\) বাড়ায়। কিন্তু একটা দেওয়া experiment-এ floor অলঙ্ঘনীয়।

সমাধান ৩ (★★)

efficient মানে। একটা unbiased estimator efficient যদি তার variance ঠিক CRLB floor-এ পৌঁছায়: $$ \mathrm{Var}(\hat\theta)=\frac{1}{nI(\theta)}\quad\Longleftrightarrow\quad e(\hat\theta)=\frac{1/[nI(\theta)]}{\mathrm{Var}(\hat\theta)}=1 . $$ অর্থাৎ এটা data-র সম্ভাব্য সব তথ্য সম্পূর্ণরূপে কাজে লাগায় — আরও ভালো (কম variance) unbiased estimator অসম্ভব।

Figure 2-তে কোনটা efficient: - নীল বর্গ (MLE \(\hat p=\bar X\))efficient। এর variance \(p(1-p)/n\) ঠিক লাল floor-এর গায়ে বসে; Monte-Carlo বিন্দুও তাই দেখায়। - সবুজ ভাঙা-রেখা (অর্ধেক-data estimator)inefficient। variance floor-এর \(2\times\), মেঝে ছোঁয় না।

সবুজ estimator-এর efficiency: \(e=\dfrac{\text{floor}}{\text{variance}}=\dfrac{1}{2}=50\%\)ব্যবহারিক অর্থ: এটা data-র অর্ধেক তথ্য নষ্ট করে (অর্ধেক নমুনা ফেলে দিয়ে)। তাই MLE যে precision \(n\) নমুনায় পায়, সবুজ estimator সেই একই precision পেতে \(2n\) নমুনা চাইবে। efficiency = "কত শতাংশ উপলব্ধ তথ্য কাজে লাগল" — এখানে অর্ধেক।

সমাধান ৪ (★★)

sufficient statistic। একটা statistic \(T=T(X_1,\dots,X_n)\) sufficient (for \(\theta\)) যদি, \(T\)-র মান জানা থাকলে, raw data-র বাকি বিস্তারিত \(\theta\) সম্পর্কে আর কোনো অতিরিক্ত তথ্য না দেয়। সমতুল্যভাবে, \(T\) দেওয়া থাকলে data-র শর্তাধীন বণ্টন \(\theta\)-নিরপেক্ষ।

Figure 4 দিয়ে ব্যাখ্যা। দুটো ভিন্ন raw dataset (A ও B), ক্রম আলাদা, কিন্তু দুটোতেই ঠিক ৭টা ১ — অর্থাৎ একই \(T=\sum X_i=7\)। ডান প্যানেলে দেখা যায় দুটোর likelihood \(L(p)\propto p^7(1-p)^5\) হুবহু এক, তাই MLE \(\hat p=7/12\)-ও এক। অর্থাৎ \(T\) জানলেই inference সম্পূর্ণ — পুরো raw ক্রম লাগে না।

কেন \(\sum X_i\) sufficient কিন্তু ক্রম নয়। Bernoulli-তে \(p\) সম্পর্কে সব তথ্য কেবল "কতগুলো সফলতা" (\(\sum X_i\))-তে নিহিত; "কোন ক্রমে এল" তা \(p\) সম্পর্কে কিছুই বলে না (প্রতিটা ক্রম সমসম্ভাব্য, \(T\) দেওয়া থাকলে)। গাণিতিকভাবে likelihood ক্রমের উপর নির্ভর করে না, শুধু \(T\)-র উপর (factorization, §৭ Q12)।

"sufficient" শব্দের আক্ষরিক অর্থ। \(T\)-ই inference-এর জন্য যথেষ্ট — raw data \(T\)-এর বাইরে আর কিছু যোগ করে না। তাই ১২টা সংখ্যা না রেখে শুধু \(T=7\) রাখলেই চলে, কোনো তথ্য হারানো ছাড়াই (data compression, কোনো ক্ষতি ছাড়া)।

সমাধান ৫ (★★★)

asymptotic normality \(\hat\theta\approx\mathcal{N}\!\big(\theta,\frac{1}{nI(\theta)}\big)\) যে তিনটি গুণ একসাথে বহন করে:

  1. approximately Normal — sampling distribution-এর আকৃতি বড় \(n\)-এ ঘণ্টা-আকার। Figure 3: histogram-গুলো নিরেট Normal-রেখার সাথে মিলে যায় (এমনকি \(n=20\)-তেও), \(n\) বাড়লে মিল নিখুঁত হয়।
  2. asymptotically unbiased — বণ্টনের কেন্দ্র সত্যি \(\theta\)-তে। Figure 3: তিনটে curve-ই \(\theta=\lambda=4\)-এ কেন্দ্রীভূত, কেন্দ্র সরে না।
  3. efficient — বণ্টনের variance ঠিক CRLB floor \(\frac{1}{nI(\theta)}\)Figure 3: curve-গুলো \(n\) বাড়লে সরু হয়, আর SE \(=\sqrt{\lambda/n}=\sqrt{1/[nI(\lambda)]}\) — হুবহু floor।

CRLB-র সাথে সম্পর্ক। তৃতীয় গুণটাই সরাসরি যোগসূত্র: MLE-র asymptotic variance ঠিক CRLB floor-এ সমান। অর্থাৎ বড় নমুনায় MLE সেই সর্বনিম্ন-সম্ভব variance অর্জন করে যা CRLB অনুমোদন করে — তাই MLE asymptotically efficient, এবং এই অর্থে "asymptotically সেরা" unbiased-সদৃশ estimator। (এ কারণেই MLE এত জনপ্রিয়: বড় data-তে আপনি জানেন এটা প্রায়-সর্বোত্তম, আর তার SE-ও Fisher information থেকেই পাওয়া যায়।)


খ · গাণনিক (computational)

সমাধান ৬ (★)

E1 Bernoulli(\(p\)), single observation \(X\in\{0,1\}\)। log-pmf: \(\log f(x;p)=x\log p+(1-x)\log(1-p)\)। $$ \ell'(p)=\frac{x}{p}-\frac{1-x}{1-p},\qquad \ell''(p)=-\frac{x}{p^2}-\frac{1-x}{(1-p)^2}. $$ \(\mathbb{E}[X]=p\) বসিয়ে: $$ I(p)=-\mathbb{E}[\ell'']=\frac{\mathbb{E}[X]}{p^2}+\frac{\mathbb{E}[1-X]}{(1-p)^2} =\frac{p}{p^2}+\frac{1-p}{(1-p)^2}=\frac1p+\frac1{1-p}=\boxed{\frac{1}{p(1-p)}} . $$ CRLB (\(p=0.3,n=50\)): \(\dfrac{1}{nI(p)}=\dfrac{p(1-p)}{n}=\dfrac{0.3\cdot0.7}{50}=\dfrac{0.21}{50}=\boxed{0.0042}\)। (SE \(=\sqrt{0.0042}\approx0.0648\)।)

সমাধান ৭ (★)

E2 Normal(\(\mu,\sigma^2\)), \(\sigma^2\) জানা, single observation। \(\log f(x;\mu)=-\frac{(x-\mu)^2}{2\sigma^2}-\frac12\log(2\pi\sigma^2)\)। $$ \ell'(\mu)=\frac{x-\mu}{\sigma^2},\qquad \ell''(\mu)=-\frac{1}{\sigma^2}\ \ (\text{constant}). $$ তাই \(I(\mu)=-\mathbb{E}[\ell'']=\boxed{\dfrac{1}{\sigma^2}}\)

\(\bar X\) efficient কিনা: CRLB \(=\dfrac{1}{nI(\mu)}=\dfrac{\sigma^2}{n}\)। আর জানা \(\mathrm{Var}(\bar X)=\dfrac{\sigma^2}{n}\)হুবহু সমান, তাই \(\bar X\) ঠিক floor ছোঁয় ⟹ efficient (\(e=1\))। (Normal-mean-ই সেই বিরল ক্ষেত্র যেখানে finite \(n\)-এও MLE ঠিক CRLB অর্জন করে।)

সমাধান ৮ (★★)

E3 Poisson(\(\lambda\)), single observation \(X\in\{0,1,2,\dots\}\)\(\log f(x;\lambda)=x\log\lambda-\lambda-\log x!\)। - (ক) \(\ell'=\frac{x}{\lambda}-1\), \(\ell''=-\frac{x}{\lambda^2}\); \(\mathbb{E}[X]=\lambda\) ⟹ $$ I(\lambda)=-\mathbb{E}[\ell'']=\frac{\mathbb{E}[X]}{\lambda^2}=\frac{\lambda}{\lambda^2}=\boxed{\frac1\lambda} . $$ - (খ) CRLB \(=\dfrac{1}{nI(\lambda)}=\dfrac{\lambda}{n}\)। আর \(\mathrm{Var}(\bar X)=\dfrac{\mathrm{Var}(X)}{n}=\dfrac{\lambda}{n}\) (Poisson-এ variance \(=\lambda\)) — সমান, তাই \(\bar X\) efficient। - (গ) \(\lambda=4,n=20\): asymptotic SE \(=\sqrt{\dfrac{1}{nI(\lambda)}}=\sqrt{\dfrac{\lambda}{n}}=\sqrt{\dfrac{4}{20}}=\sqrt{0.2}=\boxed{0.447}\)। Figure 3-এর \(n=20\) লেবেলে দেওয়া \(0.45\)-এর সাথে মেলে। ✓

সমাধান ৯ (★★)

\(n=12\), \(\sum x_i=7\)। - (ক) \(\ell(p)=7\log p+5\log(1-p)\) (ধ্রুবক বাদে)। \(\ell'(p)=\dfrac{7}{p}-\dfrac{5}{1-p}=0\) \(\Rightarrow 7(1-p)=5p\Rightarrow 7=12p\Rightarrow \boxed{\hat p=\dfrac{7}{12}\approx0.5833}\)। (দ্বিতীয় অন্তরকলজ \(\ell''=-7/p^2-5/(1-p)^2<0\), তাই সত্যি সর্বোচ্চ।) - (খ) asymptotic variance \(=\dfrac{1}{nI(\hat p)}=\dfrac{\hat p(1-\hat p)}{n}=\dfrac{0.5833\cdot0.4167}{12}=\dfrac{0.2431}{12}=\boxed{0.02026}\)। SE \(=\sqrt{0.02026}\approx\boxed{0.1424}\)। (Figure 4-এর likelihood-চূড়ার "চওড়া"-ই এই SE — \(n\) ছোট বলে interval বড় হবে, 4.6-এ কাজে লাগবে।)


গ · প্রমাণভিত্তিক (proof-based)

সমাধান ১০ (★★)

score-এর গড় শূন্য। \(U(\theta)=\frac{\partial}{\partial\theta}\log f(X;\theta)=\dfrac{f'(X;\theta)}{f(X;\theta)}\) (যেখানে \(f'=\partial f/\partial\theta\))। তাই (continuous ক্ষেত্রে; discrete-এ যোগ একইভাবে): $$ \mathbb{E}[U(\theta)]=\int \frac{f'(x;\theta)}{f(x;\theta)}\,f(x;\theta)\,dx =\int f'(x;\theta)\,dx =\frac{\partial}{\partial\theta}\int f(x;\theta)\,dx =\frac{\partial}{\partial\theta}\,(1)=0 . $$ এখানে নিয়মিত শর্ত (regularity) ব্যবহার করা হলো: \(\partial/\partial\theta\) আর \(\int\)-এর বিনিময়, এবং density সবসময় \(1\)-এ integrate করে। তাই \(\boxed{\mathbb{E}[U(\theta)]=0}\)

Fisher information = score-এর variance। যেহেতু \(\mathbb{E}[U]=0\), $$ \mathrm{Var}(U(\theta))=\mathbb{E}[U(\theta)^2]-(\mathbb{E}[U(\theta)])^2=\mathbb{E}[U(\theta)^2]-0=\mathbb{E}[U(\theta)^2]=I(\theta) . $$ (দ্বিতীয় রূপ \(I(\theta)=-\mathbb{E}[\ell'']\) আসে \(f'/f\)-কে আরেকবার অন্তরকলন করলে: \(\ell''=\frac{f''}{f}-\big(\frac{f'}{f}\big)^2=\frac{f''}{f}-U^2\), আর \(\mathbb{E}[f''/f]=\int f''dx=\frac{d^2}{d\theta^2}1=0\), তাই \(-\mathbb{E}[\ell'']=\mathbb{E}[U^2]=I\)।) \(\blacksquare\)

সমাধান ১১ (★★★)

Cramér–Rao অসমতা (\(n=1\), unbiased \(\hat\theta=\hat\theta(X)\))। ধাপে ধাপে:

ধাপ ১ — unbiasedness অন্তরকলন। \(\mathbb{E}[\hat\theta]=\theta\), অর্থাৎ \(\int\hat\theta(x)f(x;\theta)\,dx=\theta\)। দুপাশে \(\theta\)-র সাপেক্ষে অন্তরকলন (regularity-তে \(\int\)-ভেতরে নেওয়া যায়): $$ \int \hat\theta(x)\,\frac{\partial f}{\partial\theta}\,dx=1 \;\Longrightarrow\; \int \hat\theta(x)\,\underbrace{\frac{f'}{f}}_{U}\,f\,dx=1 \;\Longrightarrow\; \mathbb{E}[\hat\theta\,U]=1 . $$

ধাপ ২ — covariance-এ রূপান্তর। যেহেতু \(\mathbb{E}[U]=0\) (Q10), $$ \mathrm{Cov}(\hat\theta,U)=\mathbb{E}[\hat\theta U]-\mathbb{E}[\hat\theta]\mathbb{E}[U]=1-\theta\cdot0=1 . $$

ধাপ ৩ — Cauchy–Schwarz। যেকোনো দুই random variable-এ \(\mathrm{Cov}(A,B)^2\le\mathrm{Var}(A)\,\mathrm{Var}(B)\)। তাই $$ 1=\mathrm{Cov}(\hat\theta,U)^2\le \mathrm{Var}(\hat\theta)\,\mathrm{Var}(U)=\mathrm{Var}(\hat\theta)\,I(\theta) \;\Longrightarrow\; \boxed{\mathrm{Var}(\hat\theta)\ge\frac{1}{I(\theta)}} . $$

ধাপ ৪ — \(n\) নমুনায়। iid হলে মোট score-এর information \(I_n=nI(\theta)\) (Q13), তাই একই যুক্তিতে \(\mathrm{Var}(\hat\theta)\ge\dfrac{1}{nI(\theta)}\)। সমতা ঘটে ঠিক তখনই যখন \(\hat\theta-\theta\propto U\) (linear), অর্থাৎ exponential-family-র natural parametrization-এ — তখন estimator efficient। \(\blacksquare\)

সমাধান ১২ (★★)

Factorization theorem (Fisher–Neyman): \(T(X)\) sufficient \(\iff\) joint density-কে \(f(x;\theta)=g\big(T(x),\theta\big)\,h(x)\) আকারে লেখা যায়, যেখানে \(h\) \(\theta\)-নিরপেক্ষ।

Bernoulli(\(p\)). joint pmf: $$ \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} =p^{\sum x_i}(1-p)^{\,n-\sum x_i} =\underbrace{p^{T}(1-p)^{n-T}}{g(T,p),\ T=\sum x_i}\cdot\underbrace{1} . $$ data-র উপর নির্ভরতা কেবল \(T=\sum x_i\)-এর মাধ্যমে (এখানে \(h(x)=1\)), তাই \(T=\sum X_i\) sufficient\(\blacksquare\)

Poisson(\(\lambda\)). joint pmf: $$ \prod_{i=1}^n\frac{\lambda^{x_i}e^{-\lambda}}{x_i!} =\lambda^{\sum x_i}e^{-n\lambda}\cdot\frac{1}{\prod_i x_i!} =\underbrace{\lambda^{T}e^{-n\lambda}}{g(T,\lambda),\ T=\sum x_i}\cdot\underbrace{\frac{1}{\prod x_i!}} . $$ আবার data-নির্ভরতা শুধু \(T=\sum x_i\)-তে (এবং \(h(x)=1/\prod x_i!\) \(\lambda\)-মুক্ত), তাই \(T=\sum X_i\) sufficient\(\blacksquare\)

সমাধান ১৩ (★★★)

Fisher information-এর additivity। \(X_1,\dots,X_n\) iid, প্রতিটির density \(f(\cdot;\theta)\)। মোট log-likelihood: $$ \ell_n(\theta)=\sum_{i=1}^n\log f(X_i;\theta),\qquad U_n(\theta)=\frac{\partial\ell_n}{\partial\theta}=\sum_{i=1}^n U_1^{(i)}(\theta), $$ যেখানে \(U_1^{(i)}=\frac{\partial}{\partial\theta}\log f(X_i;\theta)\) হলো \(i\)-তম observation-এর score। এখন: - প্রতিটি \(U_1^{(i)}\)-র গড় \(0\) (Q10), variance \(I_1(\theta)\)। - iid বলে \(U_1^{(i)}\)-গুলো পরস্পর স্বাধীন

তাই স্বাধীন variable-এর যোগফলের variance যোগ হয়: $$ I_n(\theta)=\mathrm{Var}(U_n)=\mathrm{Var}\Big(\sum_i U_1^{(i)}\Big)=\sum_{i=1}^n\mathrm{Var}(U_1^{(i)})=nI_1(\theta) . $$ অর্থাৎ \(\boxed{I_n(\theta)=nI_1(\theta)}\)তথ্য রৈখিকভাবে যোগ হয়। \(\blacksquare\)

কেন CRLB-তে \(n\) আসে। CRLB মোট-নমুনার information-এর বিপরীত: \(\mathrm{Var}(\hat\theta)\ge\dfrac{1}{I_n(\theta)}=\dfrac{1}{nI_1(\theta)}\)। তাই বেশি data = বেশি (যোগফল) তথ্য = নিচু floor: প্রতিটা নতুন observation \(I_1\) পরিমাণ তথ্য যোগ করে, ফলে variance-এর মেঝে \(1/n\) হারে নামে (Figure 2-র ঢাল \(-1\) এখান থেকেই)।


ঘ · কোডিং (coding)

সমাধান ১৪ (★★)

import numpy as np
rng = np.random.default_rng(0)
p, R = 0.3, 50000
print(f"{'n':>4} {'emp_var':>10} {'CRLB':>10} {'ratio':>7}")
for n in [10, 40, 160]:
    phat = rng.binomial(n, p, size=R) / n      # MLE = sample mean
    crlb = p * (1 - p) / n                       # = 1/(n I(p)) floor
    print(f"{n:>4} {phat.var():>10.5f} {crlb:>10.5f} {phat.var()/crlb:>7.3f}")
সম্ভাব্য আউটপুট:
   n    emp_var       CRLB   ratio
  10    0.02093    0.02100   0.997
  40    0.00524    0.00525   0.998
 160    0.00131    0.00131   1.001
ব্যাখ্যা: তিনটে \(n\)-এই empirical variance \(\approx\) CRLB, অনুপাত \(\approx1.0\) — অর্থাৎ MLE \(\bar X\) ঠিক floor-এ বসে, efficient (Figure 2-র নীল বর্গ যাচাই)। variance \(1/n\) হারে নামছে: \(n\) চারগুণ ⇒ variance চারভাগের এক।

সমাধান ১৫ (★★)

দুই রূপ \(-\mathbb{E}[\ell'']\)\(\mathbb{E}[U^2]\) সমান কিনা (Poisson(\(\lambda=4\))):

import numpy as np
rng = np.random.default_rng(1)
lam, R = 4.0, 2_000_000
x = rng.poisson(lam, size=R)
U      = x / lam - 1.0          # score:    U = x/lam - 1
neg_l2 = x / lam**2            # -ell'' = x/lam^2  (since ell'' = -x/lam^2)
print("E[U^2]       =", round((U**2).mean(), 4))     # ~ 1/lam
print("E[-ell'']    =", round(neg_l2.mean(), 4))     # ~ 1/lam
print("theory 1/lam =", round(1/lam, 4))
সম্ভাব্য আউটপুট:
E[U^2]       = 0.25
E[-ell'']    = 0.25
theory 1/lam = 0.25
ব্যাখ্যা: দুটো অনুমানই \(1/\lambda=0.25\)-এর কাছে — তথ্যের দুই সংজ্ঞা (\(\mathbb{E}[U^2]\)\(-\mathbb{E}[\ell'']\)) সংখ্যাগতভাবে অভিন্ন, যেমন তত্ত্ব বলে। বিশ্লেষণে: \(\mathbb{E}[U^2]=\mathrm{Var}(X)/\lambda^2=\lambda/\lambda^2=1/\lambda\); \(-\mathbb{E}[\ell'']=\mathbb{E}[X]/\lambda^2=\lambda/\lambda^2=1/\lambda\)

সমাধান ১৬ (★★★)

MLE-র asymptotic normality পুনঃনির্মাণ (Figure 3):

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

rng = np.random.default_rng(20240605)
lam, R = 4.0, 40000
xs = np.linspace(2.2, 5.8, 400)
colors = ["#fdbe85", "#fd8d3c", "#a63603"]

fig, ax = plt.subplots(figsize=(9, 5))
for n, col in zip([5, 20, 80], colors):
    est = rng.poisson(lam, size=(R, n)).mean(axis=1)   # MLE = X-bar
    se  = np.sqrt(lam / n)                               # = sqrt(1/(n I(lam)))
    ax.hist(est, bins=60, density=True, color=col, alpha=0.45,
            label=f"n={n}: emp SD={est.std():.2f}, theory SE={se:.2f}")
    ax.plot(xs, norm.pdf(xs, lam, se), color=col, lw=2.4)
ax.axvline(lam, color="#d62728", ls="--", lw=1.8)
ax.set_xlabel(r"$\hat\lambda=\bar X$"); ax.set_ylabel("density")
ax.set_title("MLE asymptotic normality (Poisson, lambda=4)")
ax.legend(); plt.tight_layout(); plt.show()
সম্ভাব্য আউটপুট (empirical SD বনাম theory SE):
n= 5 : emp SD = 0.89, theory SE = 0.89
n=20 : emp SD = 0.45, theory SE = 0.45
n=80 : emp SD = 0.22, theory SE = 0.22
ব্যাখ্যা: তিনটে \(n\)-এই empirical SD \(\approx\sqrt{\lambda/n}\), আর histogram Normal-pdf-এর সাথে মিলে — অর্থাৎ MLE asymptotically \(\mathcal{N}(\lambda,\lambda/n)\)\(n\) চারগুণ হলে SE অর্ধেক (\(0.89\to0.45\to0.22\)), curve সরু হয়, কেন্দ্র \(\lambda=4\)-এ স্থির — Figure 3 হুবহু পুনর্নির্মিত।


স্মারক: Fisher information \(I(\theta)=\mathbb{E}[U^2]=-\mathbb{E}[\ell'']\) (curvature); CRLB \(\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}\) (unbiased-এ floor); efficient \(\iff\) floor ছোঁয়া; MLE asymptotically \(\mathcal{N}(\theta,\frac{1}{nI(\theta)})\) — Normal, unbiased ও efficient; sufficient statistic \(T\) likelihood-কে \(g(T,\theta)h(x)\)-এ ভাঙে (factorization)। পরের অধ্যায় 4.6-এ এই SE \(=\sqrt{1/[nI(\hat\theta)]}\) দিয়ে confidence interval বান