সমাধান — অধ্যায় ৪.৫ · Sufficiency, Fisher Information & the Cramér–Rao Bound¶

অধ্যায় ফাইল: part-4-inference/04-05-sufficiency-fisher-crlb.md (§৭ অনুশীলনী)। সংখ্যাগত উত্তর numpy/scipy দিয়ে যাচাইযোগ্য (seed উল্লেখ থাকলে reproducible)। মূল বস্তু — score $U(\theta)=\frac{\partial}{\partial\theta}\log f(X;\theta)$, Fisher information $I(\theta)=\mathbb{E}[U(\theta)^2]=-\mathbb{E}[\ell''(\theta)]$, Cramér–Rao lower bound $\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}$ (unbiased $\hat\theta$-র জন্য), efficiency $e(\hat\theta)=\frac{1/[nI(\theta)]}{\mathrm{Var}(\hat\theta)}$, MLE asymptotic normality $\hat\theta\approx\mathcal{N}(\theta,\frac{1}{nI(\theta)})$, এবং sufficiency/factorization theorem। চলমান উদাহরণ: E1 $I(p)=\frac1{p(1-p)}$; E2 $I(\mu)=1/\sigma^2$; E3 $I(\lambda)=1/\lambda$।

ক · ধারণাগত (conceptual)¶

সমাধান ১ (★)¶

Fisher information কী। $I(\theta)$ একটা number (সংখ্যা) যা মাপে — data প্যারামিটার $\theta$ সম্পর্কে কতটা "information (তথ্য)" বহন করে। আনুষ্ঠানিকভাবে এটা log-likelihood-এর চূড়ায় বক্রতা (curvature): $I(\theta)=-\mathbb{E}[\ell''(\theta)]$, যা সমতুল্যভাবে score-এর variance $\mathbb{E}[U(\theta)^2]$-ও।

কেন তীক্ষ্ণ = বেশি তথ্য (Figure 1): - বাঁ প্যানেল (তীক্ষ্ণ, $\lvert\ell''\rvert=28$): চূড়ার আশেপাশে $\ell$ খুব দ্রুত নামে। অর্থাৎ MLE থেকে একটু সরলেই likelihood ধপ করে কমে — data জোরালোভাবে বলছে সত্যি $\theta$ এই ছোট অঞ্চলেই। প্রতিবেশী $\theta$-মানগুলো স্পষ্টভাবে কম-সম্ভাব্য, তাই বেশি তথ্য। - ডান প্যানেল (চ্যাপ্টা, $\lvert\ell''\rvert=2.8$): $\ell$ ধীরে নামে; একটা বড় পরিসরের $\theta$-মান প্রায় সমান likelihood দেয়। data প্যারামিটার সম্পর্কে কম নিশ্চিত — কম তথ্য।

একটা flat log-likelihood কী বলে: "data থেকে $\theta$-কে ভালোভাবে আলাদা করা যাচ্ছে না; অনেক মানই প্রায় সমান যুক্তিযুক্ত।" এর ফল — MLE নমুনাভেদে বেশি অস্থির (বড় variance), আর পরে দেখব CRLB floor $\frac{1}{nI}$ বড় হয় (কম $I$ ⇒ উঁচু floor ⇒ বেশি variance অনিবার্য)।

সমাধান ২ (★)¶

Cramér–Rao bound। যেকোনো unbiased estimator $\hat\theta$-র জন্য তার variance-এর একটা নিচের সীমা আছে: $$ \mathrm{Var}(\hat\theta)\;\ge\;\frac{1}{nI(\theta)} . $$ এটা প্যারামিটার ও মডেলের উপর নির্ভর করা একটা মেঝে (floor) — কোনো unbiased estimator এর নিচে নামতে পারে না, যত চালাকিই করুক।

FORBIDDEN region (Figure 2): floor-এর নিচের পুরো এলাকা (হালকা লাল ছায়া)। এই অঞ্চলে variance থাকা একটা unbiased estimator অস্তিত্বহীন — গাণিতিকভাবে অসম্ভব (§৭ Q11-এর Cauchy–Schwarz প্রমাণ এটাই নিশ্চিত করে)।

ইচ্ছেমতো ছোট variance কি সম্ভব? না। যেহেতু একটা শক্ত মেঝে $\frac{1}{nI(\theta)}>0$ আছে, নির্দিষ্ট $n$-এ variance এর নিচে নামানো অসম্ভব। variance কমাতে হলে হয় (i) $n$ বাড়াতে হবে (floor $1/n$ হারে নামে), নয়তো (ii) এমন এক experiment design করতে হবে যা $I(\theta)$ বাড়ায়। কিন্তু একটা দেওয়া experiment-এ floor অলঙ্ঘনীয়।

সমাধান ৩ (★★)¶

efficient মানে। একটা unbiased estimator efficient যদি তার variance ঠিক CRLB floor-এ পৌঁছায়: $$ \mathrm{Var}(\hat\theta)=\frac{1}{nI(\theta)}\quad\Longleftrightarrow\quad e(\hat\theta)=\frac{1/[nI(\theta)]}{\mathrm{Var}(\hat\theta)}=1 . $$ অর্থাৎ এটা data-র সম্ভাব্য সব তথ্য সম্পূর্ণরূপে কাজে লাগায় — আরও ভালো (কম variance) unbiased estimator অসম্ভব।

Figure 2-তে কোনটা efficient: - নীল বর্গ (MLE $\hat p=\bar X$) — efficient। এর variance $p(1-p)/n$ ঠিক লাল floor-এর গায়ে বসে; Monte-Carlo বিন্দুও তাই দেখায়। - সবুজ ভাঙা-রেখা (অর্ধেক-data estimator) — inefficient। variance floor-এর $2\times$, মেঝে ছোঁয় না।

সবুজ estimator-এর efficiency: $e=\dfrac{\text{floor}}{\text{variance}}=\dfrac{1}{2}=50\%$। ব্যবহারিক অর্থ: এটা data-র অর্ধেক তথ্য নষ্ট করে (অর্ধেক নমুনা ফেলে দিয়ে)। তাই MLE যে precision $n$ নমুনায় পায়, সবুজ estimator সেই একই precision পেতে $2n$ নমুনা চাইবে। efficiency = "কত শতাংশ উপলব্ধ তথ্য কাজে লাগল" — এখানে অর্ধেক।

সমাধান ৪ (★★)¶

sufficient statistic। একটা statistic $T=T(X_1,\dots,X_n)$ sufficient (for $\theta$) যদি, $T$-র মান জানা থাকলে, raw data-র বাকি বিস্তারিত $\theta$ সম্পর্কে আর কোনো অতিরিক্ত তথ্য না দেয়। সমতুল্যভাবে, $T$ দেওয়া থাকলে data-র শর্তাধীন বণ্টন $\theta$-নিরপেক্ষ।

Figure 4 দিয়ে ব্যাখ্যা। দুটো ভিন্ন raw dataset (A ও B), ক্রম আলাদা, কিন্তু দুটোতেই ঠিক ৭টা ১ — অর্থাৎ একই $T=\sum X_i=7$। ডান প্যানেলে দেখা যায় দুটোর likelihood $L(p)\propto p^7(1-p)^5$ হুবহু এক, তাই MLE $\hat p=7/12$-ও এক। অর্থাৎ $T$ জানলেই inference সম্পূর্ণ — পুরো raw ক্রম লাগে না।

কেন $\sum X_i$ sufficient কিন্তু ক্রম নয়। Bernoulli-তে $p$ সম্পর্কে সব তথ্য কেবল "কতগুলো সফলতা" ($\sum X_i$)-তে নিহিত; "কোন ক্রমে এল" তা $p$ সম্পর্কে কিছুই বলে না (প্রতিটা ক্রম সমসম্ভাব্য, $T$ দেওয়া থাকলে)। গাণিতিকভাবে likelihood ক্রমের উপর নির্ভর করে না, শুধু $T$-র উপর (factorization, §৭ Q12)।

"sufficient" শব্দের আক্ষরিক অর্থ। $T$-ই inference-এর জন্য যথেষ্ট — raw data $T$-এর বাইরে আর কিছু যোগ করে না। তাই ১২টা সংখ্যা না রেখে শুধু $T=7$ রাখলেই চলে, কোনো তথ্য হারানো ছাড়াই (data compression, কোনো ক্ষতি ছাড়া)।

সমাধান ৫ (★★★)¶

asymptotic normality $\hat\theta\approx\mathcal{N}\!\big(\theta,\frac{1}{nI(\theta)}\big)$ যে তিনটি গুণ একসাথে বহন করে:

approximately Normal — sampling distribution-এর আকৃতি বড় $n$-এ ঘণ্টা-আকার। Figure 3: histogram-গুলো নিরেট Normal-রেখার সাথে মিলে যায় (এমনকি $n=20$-তেও), $n$ বাড়লে মিল নিখুঁত হয়।
asymptotically unbiased — বণ্টনের কেন্দ্র সত্যি $\theta$-তে। Figure 3: তিনটে curve-ই $\theta=\lambda=4$-এ কেন্দ্রীভূত, কেন্দ্র সরে না।
efficient — বণ্টনের variance ঠিক CRLB floor $\frac{1}{nI(\theta)}$। Figure 3: curve-গুলো $n$ বাড়লে সরু হয়, আর SE $=\sqrt{\lambda/n}=\sqrt{1/[nI(\lambda)]}$ — হুবহু floor।

CRLB-র সাথে সম্পর্ক। তৃতীয় গুণটাই সরাসরি যোগসূত্র: MLE-র asymptotic variance ঠিক CRLB floor-এ সমান। অর্থাৎ বড় নমুনায় MLE সেই সর্বনিম্ন-সম্ভব variance অর্জন করে যা CRLB অনুমোদন করে — তাই MLE asymptotically efficient, এবং এই অর্থে "asymptotically সেরা" unbiased-সদৃশ estimator। (এ কারণেই MLE এত জনপ্রিয়: বড় data-তে আপনি জানেন এটা প্রায়-সর্বোত্তম, আর তার SE-ও Fisher information থেকেই পাওয়া যায়।)

খ · গাণনিক (computational)¶

সমাধান ৬ (★)¶

E1 Bernoulli($p$), single observation $X\in\{0,1\}$। log-pmf: $\log f(x;p)=x\log p+(1-x)\log(1-p)$। $$ \ell'(p)=\frac{x}{p}-\frac{1-x}{1-p},\qquad \ell''(p)=-\frac{x}{p^2}-\frac{1-x}{(1-p)^2}. $$ $\mathbb{E}[X]=p$ বসিয়ে: $$ I(p)=-\mathbb{E}[\ell'']=\frac{\mathbb{E}[X]}{p^2}+\frac{\mathbb{E}[1-X]}{(1-p)^2} =\frac{p}{p^2}+\frac{1-p}{(1-p)^2}=\frac1p+\frac1{1-p}=\boxed{\frac{1}{p(1-p)}} . $$ CRLB ($p=0.3,n=50$): $\dfrac{1}{nI(p)}=\dfrac{p(1-p)}{n}=\dfrac{0.3\cdot0.7}{50}=\dfrac{0.21}{50}=\boxed{0.0042}$। (SE $=\sqrt{0.0042}\approx0.0648$।)

সমাধান ৭ (★)¶

E2 Normal($\mu,\sigma^2$), $\sigma^2$ জানা, single observation। $\log f(x;\mu)=-\frac{(x-\mu)^2}{2\sigma^2}-\frac12\log(2\pi\sigma^2)$। $$ \ell'(\mu)=\frac{x-\mu}{\sigma^2},\qquad \ell''(\mu)=-\frac{1}{\sigma^2}\ \ (\text{constant}). $$ তাই $I(\mu)=-\mathbb{E}[\ell'']=\boxed{\dfrac{1}{\sigma^2}}$।

$\bar X$ efficient কিনা: CRLB $=\dfrac{1}{nI(\mu)}=\dfrac{\sigma^2}{n}$। আর জানা $\mathrm{Var}(\bar X)=\dfrac{\sigma^2}{n}$ — হুবহু সমান, তাই $\bar X$ ঠিক floor ছোঁয় ⟹ efficient ($e=1$)। (Normal-mean-ই সেই বিরল ক্ষেত্র যেখানে finite $n$-এও MLE ঠিক CRLB অর্জন করে।)

সমাধান ৮ (★★)¶

E3 Poisson($\lambda$), single observation $X\in\{0,1,2,\dots\}$। $\log f(x;\lambda)=x\log\lambda-\lambda-\log x!$। - (ক) $\ell'=\frac{x}{\lambda}-1$, $\ell''=-\frac{x}{\lambda^2}$; $\mathbb{E}[X]=\lambda$ ⟹ $$ I(\lambda)=-\mathbb{E}[\ell'']=\frac{\mathbb{E}[X]}{\lambda^2}=\frac{\lambda}{\lambda^2}=\boxed{\frac1\lambda} . $$ - (খ) CRLB $=\dfrac{1}{nI(\lambda)}=\dfrac{\lambda}{n}$। আর $\mathrm{Var}(\bar X)=\dfrac{\mathrm{Var}(X)}{n}=\dfrac{\lambda}{n}$ (Poisson-এ variance $=\lambda$) — সমান, তাই $\bar X$ efficient। - (গ) $\lambda=4,n=20$: asymptotic SE $=\sqrt{\dfrac{1}{nI(\lambda)}}=\sqrt{\dfrac{\lambda}{n}}=\sqrt{\dfrac{4}{20}}=\sqrt{0.2}=\boxed{0.447}$। Figure 3-এর $n=20$ লেবেলে দেওয়া $0.45$-এর সাথে মেলে। ✓

সমাধান ৯ (★★)¶

$n=12$, $\sum x_i=7$। - (ক) $\ell(p)=7\log p+5\log(1-p)$ (ধ্রুবক বাদে)। $\ell'(p)=\dfrac{7}{p}-\dfrac{5}{1-p}=0$ $\Rightarrow 7(1-p)=5p\Rightarrow 7=12p\Rightarrow \boxed{\hat p=\dfrac{7}{12}\approx0.5833}$। (দ্বিতীয় অন্তরকলজ $\ell''=-7/p^2-5/(1-p)^2<0$, তাই সত্যি সর্বোচ্চ।) - (খ) asymptotic variance $=\dfrac{1}{nI(\hat p)}=\dfrac{\hat p(1-\hat p)}{n}=\dfrac{0.5833\cdot0.4167}{12}=\dfrac{0.2431}{12}=\boxed{0.02026}$। SE $=\sqrt{0.02026}\approx\boxed{0.1424}$। (Figure 4-এর likelihood-চূড়ার "চওড়া"-ই এই SE — $n$ ছোট বলে interval বড় হবে, 4.6-এ কাজে লাগবে।)

গ · প্রমাণভিত্তিক (proof-based)¶

সমাধান ১০ (★★)¶

score-এর গড় শূন্য। $U(\theta)=\frac{\partial}{\partial\theta}\log f(X;\theta)=\dfrac{f'(X;\theta)}{f(X;\theta)}$ (যেখানে $f'=\partial f/\partial\theta$)। তাই (continuous ক্ষেত্রে; discrete-এ যোগ একইভাবে): $$ \mathbb{E}[U(\theta)]=\int \frac{f'(x;\theta)}{f(x;\theta)}\,f(x;\theta)\,dx =\int f'(x;\theta)\,dx =\frac{\partial}{\partial\theta}\int f(x;\theta)\,dx =\frac{\partial}{\partial\theta}\,(1)=0 . $$ এখানে নিয়মিত শর্ত (regularity) ব্যবহার করা হলো: $\partial/\partial\theta$ আর $\int$-এর বিনিময়, এবং density সবসময় $1$-এ integrate করে। তাই $\boxed{\mathbb{E}[U(\theta)]=0}$।

Fisher information = score-এর variance। যেহেতু $\mathbb{E}[U]=0$, $$ \mathrm{Var}(U(\theta))=\mathbb{E}[U(\theta)^2]-(\mathbb{E}[U(\theta)])^2=\mathbb{E}[U(\theta)^2]-0=\mathbb{E}[U(\theta)^2]=I(\theta) . $$ (দ্বিতীয় রূপ $I(\theta)=-\mathbb{E}[\ell'']$ আসে $f'/f$-কে আরেকবার অন্তরকলন করলে: $\ell''=\frac{f''}{f}-\big(\frac{f'}{f}\big)^2=\frac{f''}{f}-U^2$, আর $\mathbb{E}[f''/f]=\int f''dx=\frac{d^2}{d\theta^2}1=0$, তাই $-\mathbb{E}[\ell'']=\mathbb{E}[U^2]=I$।) $\blacksquare$

সমাধান ১১ (★★★)¶

Cramér–Rao অসমতা ($n=1$, unbiased $\hat\theta=\hat\theta(X)$)। ধাপে ধাপে:

ধাপ ১ — unbiasedness অন্তরকলন। $\mathbb{E}[\hat\theta]=\theta$, অর্থাৎ $\int\hat\theta(x)f(x;\theta)\,dx=\theta$। দুপাশে $\theta$-র সাপেক্ষে অন্তরকলন (regularity-তে $\int$-ভেতরে নেওয়া যায়): $$ \int \hat\theta(x)\,\frac{\partial f}{\partial\theta}\,dx=1 \;\Longrightarrow\; \int \hat\theta(x)\,\underbrace{\frac{f'}{f}}_{U}\,f\,dx=1 \;\Longrightarrow\; \mathbb{E}[\hat\theta\,U]=1 . $$

ধাপ ২ — covariance-এ রূপান্তর। যেহেতু $\mathbb{E}[U]=0$ (Q10), $$ \mathrm{Cov}(\hat\theta,U)=\mathbb{E}[\hat\theta U]-\mathbb{E}[\hat\theta]\mathbb{E}[U]=1-\theta\cdot0=1 . $$

ধাপ ৩ — Cauchy–Schwarz। যেকোনো দুই random variable-এ $\mathrm{Cov}(A,B)^2\le\mathrm{Var}(A)\,\mathrm{Var}(B)$। তাই $$ 1=\mathrm{Cov}(\hat\theta,U)^2\le \mathrm{Var}(\hat\theta)\,\mathrm{Var}(U)=\mathrm{Var}(\hat\theta)\,I(\theta) \;\Longrightarrow\; \boxed{\mathrm{Var}(\hat\theta)\ge\frac{1}{I(\theta)}} . $$

ধাপ ৪ — $n$ নমুনায়। iid হলে মোট score-এর information $I_n=nI(\theta)$ (Q13), তাই একই যুক্তিতে $\mathrm{Var}(\hat\theta)\ge\dfrac{1}{nI(\theta)}$। সমতা ঘটে ঠিক তখনই যখন $\hat\theta-\theta\propto U$ (linear), অর্থাৎ exponential-family-র natural parametrization-এ — তখন estimator efficient। $\blacksquare$

সমাধান ১২ (★★)¶

Factorization theorem (Fisher–Neyman): $T(X)$ sufficient $\iff$ joint density-কে $f(x;\theta)=g\big(T(x),\theta\big)\,h(x)$ আকারে লেখা যায়, যেখানে $h$ $\theta$-নিরপেক্ষ।

Bernoulli($p$). joint pmf: $$ \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} =p^{\sum x_i}(1-p)^{\,n-\sum x_i} =\underbrace{p^{T}(1-p)^{n-T}}{g(T,p),\ T=\sum x_i}\cdot\underbrace{1} . $$ data-র উপর নির্ভরতা কেবল $T=\sum x_i$-এর মাধ্যমে (এখানে $h(x)=1$), তাই $T=\sum X_i$ sufficient। $\blacksquare$

Poisson($\lambda$). joint pmf: $$ \prod_{i=1}^n\frac{\lambda^{x_i}e^{-\lambda}}{x_i!} =\lambda^{\sum x_i}e^{-n\lambda}\cdot\frac{1}{\prod_i x_i!} =\underbrace{\lambda^{T}e^{-n\lambda}}{g(T,\lambda),\ T=\sum x_i}\cdot\underbrace{\frac{1}{\prod x_i!}} . $$ আবার data-নির্ভরতা শুধু $T=\sum x_i$-তে (এবং $h(x)=1/\prod x_i!$ $\lambda$-মুক্ত), তাই $T=\sum X_i$ sufficient। $\blacksquare$

সমাধান ১৩ (★★★)¶

Fisher information-এর additivity। $X_1,\dots,X_n$ iid, প্রতিটির density $f(\cdot;\theta)$। মোট log-likelihood: $$ \ell_n(\theta)=\sum_{i=1}^n\log f(X_i;\theta),\qquad U_n(\theta)=\frac{\partial\ell_n}{\partial\theta}=\sum_{i=1}^n U_1^{(i)}(\theta), $$ যেখানে $U_1^{(i)}=\frac{\partial}{\partial\theta}\log f(X_i;\theta)$ হলো $i$-তম observation-এর score। এখন: - প্রতিটি $U_1^{(i)}$-র গড় $0$ (Q10), variance $I_1(\theta)$। - iid বলে $U_1^{(i)}$-গুলো পরস্পর স্বাধীন।

তাই স্বাধীন variable-এর যোগফলের variance যোগ হয়: $$ I_n(\theta)=\mathrm{Var}(U_n)=\mathrm{Var}\Big(\sum_i U_1^{(i)}\Big)=\sum_{i=1}^n\mathrm{Var}(U_1^{(i)})=nI_1(\theta) . $$ অর্থাৎ $\boxed{I_n(\theta)=nI_1(\theta)}$ — তথ্য রৈখিকভাবে যোগ হয়। $\blacksquare$

কেন CRLB-তে $n$ আসে। CRLB মোট-নমুনার information-এর বিপরীত: $\mathrm{Var}(\hat\theta)\ge\dfrac{1}{I_n(\theta)}=\dfrac{1}{nI_1(\theta)}$। তাই বেশি data = বেশি (যোগফল) তথ্য = নিচু floor: প্রতিটা নতুন observation $I_1$ পরিমাণ তথ্য যোগ করে, ফলে variance-এর মেঝে $1/n$ হারে নামে (Figure 2-র ঢাল $-1$ এখান থেকেই)।

ঘ · কোডিং (coding)¶

সমাধান ১৪ (★★)¶

import numpy as np
rng = np.random.default_rng(0)
p, R = 0.3, 50000
print(f"{'n':>4} {'emp_var':>10} {'CRLB':>10} {'ratio':>7}")
for n in [10, 40, 160]:
    phat = rng.binomial(n, p, size=R) / n      # MLE = sample mean
    crlb = p * (1 - p) / n                       # = 1/(n I(p)) floor
    print(f"{n:>4} {phat.var():>10.5f} {crlb:>10.5f} {phat.var()/crlb:>7.3f}")

সম্ভাব্য আউটপুট:

   n    emp_var       CRLB   ratio
  10    0.02093    0.02100   0.997
  40    0.00524    0.00525   0.998
 160    0.00131    0.00131   1.001

ব্যাখ্যা: তিনটে $n$-এই empirical variance $\approx$ CRLB, অনুপাত $\approx1.0$ — অর্থাৎ MLE $\bar X$ ঠিক floor-এ বসে, efficient (Figure 2-র নীল বর্গ যাচাই)। variance $1/n$ হারে নামছে: $n$ চারগুণ ⇒ variance চারভাগের এক।

সমাধান ১৫ (★★)¶

দুই রূপ $-\mathbb{E}[\ell'']$ ও $\mathbb{E}[U^2]$ সমান কিনা (Poisson($\lambda=4$)):

import numpy as np
rng = np.random.default_rng(1)
lam, R = 4.0, 2_000_000
x = rng.poisson(lam, size=R)
U      = x / lam - 1.0          # score:    U = x/lam - 1
neg_l2 = x / lam**2            # -ell'' = x/lam^2  (since ell'' = -x/lam^2)
print("E[U^2]       =", round((U**2).mean(), 4))     # ~ 1/lam
print("E[-ell'']    =", round(neg_l2.mean(), 4))     # ~ 1/lam
print("theory 1/lam =", round(1/lam, 4))

সম্ভাব্য আউটপুট:

E[U^2]       = 0.25
E[-ell'']    = 0.25
theory 1/lam = 0.25

ব্যাখ্যা: দুটো অনুমানই $1/\lambda=0.25$-এর কাছে — তথ্যের দুই সংজ্ঞা ($\mathbb{E}[U^2]$ ও $-\mathbb{E}[\ell'']$) সংখ্যাগতভাবে অভিন্ন, যেমন তত্ত্ব বলে। বিশ্লেষণে: $\mathbb{E}[U^2]=\mathrm{Var}(X)/\lambda^2=\lambda/\lambda^2=1/\lambda$; $-\mathbb{E}[\ell'']=\mathbb{E}[X]/\lambda^2=\lambda/\lambda^2=1/\lambda$।

সমাধান ১৬ (★★★)¶

MLE-র asymptotic normality পুনঃনির্মাণ (Figure 3):

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

rng = np.random.default_rng(20240605)
lam, R = 4.0, 40000
xs = np.linspace(2.2, 5.8, 400)
colors = ["#fdbe85", "#fd8d3c", "#a63603"]

fig, ax = plt.subplots(figsize=(9, 5))
for n, col in zip([5, 20, 80], colors):
    est = rng.poisson(lam, size=(R, n)).mean(axis=1)   # MLE = X-bar
    se  = np.sqrt(lam / n)                               # = sqrt(1/(n I(lam)))
    ax.hist(est, bins=60, density=True, color=col, alpha=0.45,
            label=f"n={n}: emp SD={est.std():.2f}, theory SE={se:.2f}")
    ax.plot(xs, norm.pdf(xs, lam, se), color=col, lw=2.4)
ax.axvline(lam, color="#d62728", ls="--", lw=1.8)
ax.set_xlabel(r"$\hat\lambda=\bar X$"); ax.set_ylabel("density")
ax.set_title("MLE asymptotic normality (Poisson, lambda=4)")
ax.legend(); plt.tight_layout(); plt.show()

সম্ভাব্য আউটপুট (empirical SD বনাম theory SE):

n= 5 : emp SD = 0.89, theory SE = 0.89
n=20 : emp SD = 0.45, theory SE = 0.45
n=80 : emp SD = 0.22, theory SE = 0.22

ব্যাখ্যা: তিনটে $n$-এই empirical SD $\approx\sqrt{\lambda/n}$, আর histogram Normal-pdf-এর সাথে মিলে — অর্থাৎ MLE asymptotically $\mathcal{N}(\lambda,\lambda/n)$। $n$ চারগুণ হলে SE অর্ধেক ($0.89\to0.45\to0.22$), curve সরু হয়, কেন্দ্র $\lambda=4$-এ স্থির — Figure 3 হুবহু পুনর্নির্মিত।

স্মারক: Fisher information $I(\theta)=\mathbb{E}[U^2]=-\mathbb{E}[\ell'']$ (curvature); CRLB $\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}$ (unbiased-এ floor); efficient $\iff$ floor ছোঁয়া; MLE asymptotically $\mathcal{N}(\theta,\frac{1}{nI(\theta)})$ — Normal, unbiased ও efficient; sufficient statistic $T$ likelihood-কে $g(T,\theta)h(x)$-এ ভাঙে (factorization)। পরের অধ্যায় 4.6-এ এই SE $=\sqrt{1/[nI(\hat\theta)]}$ দিয়ে confidence interval বান