সমাধান — অধ্যায় ৪.৪ · Properties of Estimators¶

অধ্যায় ফাইল: part-4-inference/04-04-properties-of-estimators.md (§৭ অনুশীলনী)। সংখ্যাগত উত্তর numpy/scipy দিয়ে যাচাইযোগ্য (seed উল্লেখ থাকলে reproducible)। মূল বস্তু — bias $b(\hat\theta)=\mathbb{E}[\hat\theta]-\theta$, variance $\mathrm{Var}(\hat\theta)$, mean squared error $\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]=[b(\hat\theta)]^2+\mathrm{Var}(\hat\theta)$, এবং consistency $\hat\theta\xrightarrow{P}\theta$। চলমান উদাহরণ: E1 $\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2$ বনাম $S^2=\frac1{n-1}\sum(X_i-\bar X)^2$; E3 $\bar X$; E4 Uniform$(0,\theta)$: $2\bar X$ বনাম $\max$।

ক · ধারণাগত (conceptual)¶

সমাধান ১ (★)¶

bias বনাম variance। দুটো সম্পূর্ণ আলাদা ব্যাপার মাপে: - bias $=\mathbb{E}[\hat\theta]-\theta$ — estimator-টার mean (গড়) (বহু নমুনার ওপর) সত্যি $\theta$ থেকে কত দূরে। এটা একটা পদ্ধতিগত (systematic) ভুল: estimator কি গড়ে সঠিক জায়গায় ইশারা করে? - variance $=\mathrm{Var}(\hat\theta)=\mathbb{E}[(\hat\theta-\mathbb{E}\hat\theta)^2]$ — estimator নিজে এক নমুনা থেকে আরেক নমুনায় কতটা ওঠানামা করে (এর নিজের গড়ের চারপাশে)। এটা অস্থিরতা (precision-এর অভাব)।

Figure 1-এর চার ডার্টবোর্ড (লাল তারা = সত্যি $\theta$, কমলা বিন্দু = বহু estimate, বেগুনি ✕ = তাদের গড়): 1. low bias + low variance — বিন্দু-মেঘ বুলসআইয়ের ঠিক ওপর, আঁটসাঁট: গড়ও ঠিক, ছড়ানোও কম (আদর্শ)। 2. low bias + high variance — মেঘের কেন্দ্র বুলসআইয়ে, কিন্তু বিন্দুগুলো দূরে দূরে ছিটানো: গড় ঠিক (unbiased) তবু একক estimate অনির্ভরযোগ্য। 3. high bias + low variance — বিন্দুগুলো নিজেদের মধ্যে আঁটসাঁট কিন্তু সবাই মিলে বুলসআই থেকে সরে (বেগুনি তীর = bias): precise কিন্তু ভুল লক্ষ্যে। 4. high bias + high variance — দূরে আবার ছড়ানোও: সবচেয়ে খারাপ।

হ্যাঁ, low-bias + high-variance একসাথে সম্ভব — ঠিক উপর-ডান ঘর। উদাহরণ: $\mathcal{N}(\mu,\sigma^2)$-তে শুধু প্রথম observation $X_1$ দিয়ে $\mu$ অনুমান করা: $\mathbb{E}[X_1]=\mu$ (unbiased, bias $=0$) কিন্তু $\mathrm{Var}(X_1)=\sigma^2$ — $\bar X$-এর variance $\sigma^2/n$-এর চেয়ে $n$ গুণ বড়। গড়ে ঠিক, তবু একক মান হিসেবে খুবই অস্থির।

সমাধান ২ (★)¶

দাবিটা ভুল কারণ "ভালো"-র সঠিক মাপকাঠি bias নয়, MSE — আর MSE-তে bias ও variance দুটোই ঢোকে ($\mathrm{MSE}=\text{bias}^2+\text{variance}$)। unbiased হওয়া মানে শুধু bias-অংশটা $0$; কিন্তু variance-অংশ বিশাল হলে MSE-ও বিশাল হতে পারে।

Figure 2-র যুক্তি: shrinkage estimator $c\bar X$-এ unbiased পছন্দ $c=1$ (নীল বর্গ)। কিন্তু MSE-curve-এর সর্বনিম্ন (লাল ডট) $c^\ast=0.65<1$-এ — অর্থাৎ একটা biased estimator ($c=0.65$) unbiased-টার চেয়ে কম MSE দেয়। একটু bias ঢুকিয়ে variance এতটা কমেছে যে যোগফল ছোট হয়েছে।
Figure 4-র যুক্তি: $2\bar X$ unbiased কিন্তু $\mathrm{MSE}=1.667$; $\max$ biased low কিন্তু $\mathrm{MSE}=0.433$ — প্রায় ৩.৯ গুণ কম। biased estimator-ই এখানে স্পষ্ট ভালো।

তাই unbiasedness একটা চমৎকার গুণ বটে, কিন্তু চূড়ান্ত নয় — সব সময় MSE দিয়ে যাচাই করতে হয়।

সমাধান ৩ (★★)¶

consistency-র সংজ্ঞা: $\hat\theta_n$ ($n$ data point থেকে) consistent যদি প্রতিটি $\varepsilon>0$-এর জন্য $$ P\big(\lvert\hat\theta_n-\theta\rvert>\varepsilon\big)\xrightarrow[n\to\infty]{}0, \qquad\text{অর্থাৎ}\quad \hat\theta_n\xrightarrow{P}\theta . $$

MSE→0 থেকে consistency। Chebyshev/Markov অসমতা (অ-ঋণাত্মক র‍্যান্ডম পরিমাণ $(\hat\theta_n-\theta)^2$-এ প্রয়োগ করে): $$ P\big(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon\big) = P\big((\hat\theta_n-\theta)^2\ge\varepsilon^2\big) \le \frac{\mathbb{E}[(\hat\theta_n-\theta)^2]}{\varepsilon^2} = \frac{\mathrm{MSE}(\hat\theta_n)}{\varepsilon^2}. $$ তাই $\mathrm{MSE}(\hat\theta_n)\to0$ হলে ডান পাশ $\to0$, অর্থাৎ $\hat\theta_n\xrightarrow{P}\theta$ — consistent। (একে কখনো MSE-consistency ⇒ weak consistency বলা হয়।)

কেন unbiased হওয়া জরুরি নয়। যেহেতু $\mathrm{MSE}=[b(\hat\theta_n)]^2+\mathrm{Var}(\hat\theta_n)$, MSE $\to0$ হওয়ার জন্য দরকার শুধু দুটোই $0$-তে যাওয়া — bias শুরুতে $0$ হতে হবে না, কেবল $n\to\infty$-এ মিলিয়ে গেলেই চলে। - Figure 3: $\bar X$ এখানে সবসময় unbiased, variance $\sigma^2/n\to0$ — তাই trivially consistent (curve সত্যিতে চুপসে যায়)। - E1-এর $\hat\sigma^2$: এটা biased ($\mathbb{E}[\hat\sigma^2]=\frac{n-1}{n}\sigma^2$, bias $=-\sigma^2/n$)। তবু bias $=-\sigma^2/n\to0$ এবং $\mathrm{Var}(\hat\sigma^2)\to0$ ($O(1/n)$), তাই $\mathrm{MSE}\to0$ — অর্থাৎ $\hat\sigma^2$ biased হয়েও consistent। এটাই দেখায় consistency একটা বড় নমুনার গুণ, যা finite-sample bias-কে ক্ষমা করে।

সমাধান ৪ (★★)¶

কখন biased-কিন্তু-আঁটসাঁট বেছে নেব: যখন variance-এ লাভ bias²-এ ক্ষতির চেয়ে বড়, অর্থাৎ মোট MSE কমে। bias–variance tradeoff-এর ভাষায়: MSE $=$ bias² $+$ variance; biasing-এর মাধ্যমে যদি variance যথেষ্ট কমানো যায় যাতে যোগফল ছোট হয়, তবে biased estimator-ই উত্তম পছন্দ।

বাস্তব পরিস্থিতি: ছোট নমুনা বা উচ্চ-মাত্রিক (high-dimensional) সমস্যা, যেখানে unbiased estimator-এর variance বিশাল। উদাহরণ — regression-এ অনেক predictor থাকলে ordinary least squares (unbiased) প্রচণ্ড অস্থির হয়; ridge regression ইচ্ছাকৃতভাবে সামান্য bias ঢুকিয়ে variance অনেক কমায় ও কম MSE পায় (একই চেতনা §৭ Q11-এর shrinkage)।

Figure 4-এর $\max$ এই আলোকে: $\max$ biased low (গড় $9.52<10$), কিন্তু এর variance অতি ক্ষুদ্র ($\sim\theta^2/n^2$, বিপরীতে $2\bar X$-এর $\sim\theta^2/n$)। bias² ($=[\theta/(n+1)]^2$) যোগ করেও মোট MSE $2\bar X$-এর variance-এর চেয়ে অনেক ছোট। তাই এখানে "একটু পক্ষপাত মেনে কঠোর precision" কৌশলটা স্পষ্ট বিজয়ী — bias–variance tradeoff বাস্তবে কাজ করছে।

খ · গাণনিক (computational)¶

সমাধান ৫ (★)¶

$X_i\overset{iid}{\sim}\mathcal{N}(\mu,\sigma^2)$, $\bar X=\frac1n\sum X_i$। - (ক) $\mathbb{E}[\bar X]=\frac1n\sum\mathbb{E}[X_i]=\frac1n\cdot n\mu=\mu$। - (খ) bias $=\mathbb{E}[\bar X]-\mu=\mu-\mu=\boxed{0}$ — $\bar X$ unbiased। - (গ) স্বাধীনতার জন্য $\mathrm{Var}(\bar X)=\frac1{n^2}\sum\mathrm{Var}(X_i)=\frac1{n^2}\cdot n\sigma^2=\boxed{\dfrac{\sigma^2}{n}}$। - (ঘ) unbiased তাই $\mathrm{MSE}(\bar X)=\text{bias}^2+\mathrm{Var}=0+\dfrac{\sigma^2}{n}=\boxed{\dfrac{\sigma^2}{n}}$।

লক্ষণীয়: $n$ বাড়লে MSE $\to0$, তাই $\bar X$ consistent (Figure 3-র সাথে সঙ্গতিপূর্ণ)।

সমাধান ৬ (★★)¶

$\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2=\frac{n-1}{n}S^2$, এবং দেওয়া আছে $\mathbb{E}[S^2]=\sigma^2$। - (ক) $\mathbb{E}[\hat\sigma^2]=\frac{n-1}{n}\mathbb{E}[S^2]=\frac{n-1}{n}\sigma^2$। তাই $$ b(\hat\sigma^2)=\mathbb{E}[\hat\sigma^2]-\sigma^2=\Big(\tfrac{n-1}{n}-1\Big)\sigma^2=\boxed{-\dfrac{\sigma^2}{n}} . $$ ঋণাত্মক — $\hat\sigma^2$ গড়ে $\sigma^2$-কে কম অনুমান করে (variance-কে নিচু দেখায়, কারণ $\bar X$ নিজে data থেকে হিসাব করা বলে বিচ্যুতিগুলো একটু "ছোট" হয়)। - (খ) শতকরা bias $=\frac{b}{\sigma^2}\times100\%=-\frac{1}{n}\times100\%$। $n=10$-এ $=\boxed{-10\%}$। - (গ) $n\to\infty$-এ $b=-\sigma^2/n\to0$ — অর্থাৎ $\hat\sigma^2$ asymptotically unbiased (এবং variance-ও $\to0$, তাই consistent)।

সমাধান ৭ (★★)¶

Uniform$(0,\theta)$: $\mathbb{E}[X_i]=\theta/2$, $\mathrm{Var}(X_i)=\theta^2/12$। $\hat\theta_1=2\bar X$। - (ক) $\mathbb{E}[2\bar X]=2\mathbb{E}[\bar X]=2\cdot\frac{\theta}{2}=\theta$ ⟹ unbiased, bias $=0$। - (খ) $\mathrm{Var}(2\bar X)=4\,\mathrm{Var}(\bar X)=4\cdot\frac{\mathrm{Var}(X_i)}{n}=4\cdot\frac{\theta^2/12}{n}=\boxed{\dfrac{\theta^2}{3n}}$। - (গ) unbiased তাই $\mathrm{MSE}(2\bar X)=0+\dfrac{\theta^2}{3n}=\boxed{\dfrac{\theta^2}{3n}}$।

যাচাই: $\theta=10,n=20$ ⟹ $\frac{100}{60}=1.667$ — Figure 4-এর বক্সের সাথে হুবহু মেলে।

সমাধান ৮ (★★★)¶

$X_{(n)}=\max_i X_i$, CDF $F(t)=(t/\theta)^n$ ($0\le t\le\theta$)। - (ক) density $f(t)=F'(t)=\dfrac{n t^{n-1}}{\theta^n}$। তাই $$ \mathbb{E}[X_{(n)}]=\int_0^\theta t\cdot\frac{n t^{n-1}}{\theta^n}\,dt =\frac{n}{\theta^n}\int_0^\theta t^n\,dt =\frac{n}{\theta^n}\cdot\frac{\theta^{n+1}}{n+1} =\frac{n}{n+1}\theta . $$ bias $=\mathbb{E}[X_{(n)}]-\theta=\Big(\frac{n}{n+1}-1\Big)\theta=\boxed{-\dfrac{\theta}{n+1}}$ (low — কারণ $\max$ সবসময় $\le\theta$)। - (খ) $\displaystyle\mathbb{E}[X_{(n)}^2]=\int_0^\theta t^2\frac{nt^{n-1}}{\theta^n}dt=\frac{n}{\theta^n}\cdot\frac{\theta^{n+2}}{n+2}=\frac{n}{n+2}\theta^2$। তাই $$ \mathrm{Var}(X_{(n)})=\mathbb{E}[X_{(n)}^2]-(\mathbb{E}[X_{(n)}])^2 =\frac{n}{n+2}\theta^2-\frac{n^2}{(n+1)^2}\theta^2 =\theta^2\cdot\frac{n}{(n+1)^2(n+2)} , $$ (সাধারণ হর $(n+1)^2(n+2)$ নিয়ে: $n(n+1)^2-n^2(n+2)=n[(n+1)^2-n(n+2)]=n[\,n^2+2n+1-n^2-2n\,]=n$।) $\Rightarrow \boxed{\mathrm{Var}(X_{(n)})=\dfrac{n\theta^2}{(n+1)^2(n+2)}}$। - (গ) $\mathrm{MSE}=\mathrm{Var}+\text{bias}^2=\dfrac{n\theta^2}{(n+1)^2(n+2)}+\dfrac{\theta^2}{(n+1)^2}=\dfrac{\theta^2}{(n+1)^2}\Big(\dfrac{n}{n+2}+1\Big)=\dfrac{\theta^2}{(n+1)^2}\cdot\dfrac{2n+2}{n+2}=\boxed{\dfrac{2\theta^2}{(n+1)(n+2)}}$।

$n=20,\theta=10$: $\mathrm{MSE}(\max)=\frac{200}{21\cdot22}=\frac{200}{462}=0.4329$। অনুপাত $$ \frac{\mathrm{MSE}(2\bar X)}{\mathrm{MSE}(\max)}=\frac{1.667}{0.433}\approx \boxed{3.85} , $$ Figure 4-এর "≈ ৩.৯×" — অর্থাৎ $\max$-এর MSE প্রায় ৪ গুণ ছোট। (এবং $\max$-এর MSE $\sim\theta^2/n^2$ বনাম $2\bar X$-এর $\theta^2/(3n)$, তাই $n$ বাড়লে ব্যবধান বাড়ে।)

গ · প্রমাণভিত্তিক (proof-based)¶

সমাধান ৯ (★★)¶

লেখো $\mu_{\hat\theta}:=\mathbb{E}[\hat\theta]$। তাহলে $\hat\theta-\theta=(\hat\theta-\mu_{\hat\theta})+(\mu_{\hat\theta}-\theta)$। লক্ষ করো $(\mu_{\hat\theta}-\theta)=b(\hat\theta)$ একটা ধ্রুবক (random নয়)। বর্গ করে expectation নাও: $$ \mathbb{E}[(\hat\theta-\theta)^2] =\mathbb{E}\big[(\hat\theta-\mu_{\hat\theta})^2\big] +2\,b(\hat\theta)\,\mathbb{E}\big[\hat\theta-\mu_{\hat\theta}\big] +b(\hat\theta)^2 . $$ - প্রথম পদ $=\mathrm{Var}(\hat\theta)$ (সংজ্ঞা)। - মাঝের পদ $=2\,b(\hat\theta)\cdot\big(\mathbb{E}[\hat\theta]-\mu_{\hat\theta}\big)=2\,b(\hat\theta)\cdot 0=0$, কারণ $\mathbb{E}[\hat\theta]=\mu_{\hat\theta}$। - তৃতীয় পদ $=b(\hat\theta)^2$।

অতএব $$ \boxed{\;\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]=[\,b(\hat\theta)\,]^2+\mathrm{Var}(\hat\theta)\;} $$ — cross-term শূন্য বলে যোগটা পরিষ্কারভাবে যোগাত্মক। $\blacksquare$

সমাধান ১০ (★★)¶

ধরা যাক $b_n:=b(\hat\theta_n)\to0$ ও $v_n:=\mathrm{Var}(\hat\theta_n)\to0$। Q9 দিয়ে $\mathrm{MSE}(\hat\theta_n)=b_n^2+v_n\to0$। এখন কোনো $\varepsilon>0$-এর জন্য Markov অসমতা প্রয়োগ করি অ-ঋণাত্মক $(\hat\theta_n-\theta)^2$-এ: $$ P\big(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon\big) =P\big((\hat\theta_n-\theta)^2\ge\varepsilon^2\big) \le\frac{\mathbb{E}[(\hat\theta_n-\theta)^2]}{\varepsilon^2} =\frac{b_n^2+v_n}{\varepsilon^2}\xrightarrow[n\to\infty]{}0 . $$ যেহেতু এটা প্রতিটি $\varepsilon>0$-এর জন্য সত্য, সংজ্ঞা অনুযায়ী $\hat\theta_n\xrightarrow{P}\theta$ — অর্থাৎ "bias $\to0$ ও variance $\to0$" consistency-র জন্য যথেষ্ট শর্ত। $\blacksquare$

(টীকা: এটি যথেষ্ট, প্রয়োজনীয় নয় — কিছু consistent estimator-এর variance সসীম $n$-এ অসীমও হতে পারে; কিন্তু MSE→0 হলে নিশ্চিতভাবে consistent।)

সমাধান ১১ (★★★)¶

$\hat\theta$ unbiased ($\mathbb{E}[\hat\theta]=\theta$), $\mathrm{Var}(\hat\theta)=\sigma_0^2$। $\tilde\theta=c\hat\theta$। - (ক) $\mathbb{E}[\tilde\theta]=c\theta$ ⟹ bias $=c\theta-\theta=(c-1)\theta$। $\mathrm{Var}(\tilde\theta)=c^2\mathrm{Var}(\hat\theta)=c^2\sigma_0^2$। - (খ) Q9 দিয়ে $$ \mathrm{MSE}(c)=[(c-1)\theta]^2+c^2\sigma_0^2=(c-1)^2\theta^2+c^2\sigma_0^2 . $$ $c$-সাপেক্ষে অন্তরকলন করে শূন্য বসাই: $$ \frac{d}{dc}\mathrm{MSE}=2(c-1)\theta^2+2c\sigma_0^2=0 \;\Longrightarrow\; c(\theta^2+\sigma_0^2)=\theta^2 \;\Longrightarrow\; \boxed{c^\ast=\frac{\theta^2}{\theta^2+\sigma_0^2}} . $$ ($\frac{d^2}{dc^2}=2(\theta^2+\sigma_0^2)>0$, তাই এটা ন্যূনতম।) যেহেতু $\sigma_0^2>0$ ও $\theta\ne0$, হর লব-এর চেয়ে বড়, তাই $c^\ast<1$। - (গ) তাৎপর্য: সেরা (ন্যূনতম-MSE) shrinkage factor $1$-এর কম — অর্থাৎ unbiased estimator ($c=1$)-কে একটু $0$-র দিকে shrink করলে (সামান্য bias ঢুকিয়ে) MSE কমে। এটাই Figure 2-এর মূল বার্তা: লাল MSE-curve-এর সর্বনিম্ন $c^\ast$ নীল বর্গ ($c=1$)-এর বাঁ দিকে। লক্ষণীয়, $\sigma_0^2$ যত বড় (estimator যত অস্থির), $c^\ast$ তত ছোট — বেশি shrink করা লাভজনক; আর $\sigma_0^2\to0$-এ $c^\ast\to1$ (অস্থিরতা না থাকলে shrink-এর দরকার নেই)। $\blacksquare$

ঘ · কোডিং (coding)¶

সমাধান ১২ (★★)¶

import numpy as np
rng = np.random.default_rng(0)
theta, n, R = 10.0, 20, 50000
s = rng.uniform(0, theta, size=(R, n))
for name, est in [("2*Xbar", 2*s.mean(1)), ("max", s.max(1))]:
    bias = est.mean() - theta
    var  = est.var()
    mse  = bias**2 + var
    print(f"{name:7s}  bias={bias:+.3f}  var={var:.3f}  MSE={mse:.3f}")

print("theory  2*Xbar MSE =", round(theta**2/(3*n), 3))
print("theory  max    MSE =", round(2*theta**2/((n+1)*(n+2)), 3))

আনুমানিক আউটপুট:

2*Xbar   bias=+0.00x  var=1.66x  MSE=1.66x
max      bias=-0.47x  var=0.20x  MSE=0.43x
theory  2*Xbar MSE = 1.667
theory  max    MSE = 0.433

ব্যাখ্যা: empirical MSE তাত্ত্বিক মানের খুব কাছাকাছি (১.৬৭ বনাম ০.৪৩)। 2*Xbar-এর bias প্রায় $0$ (unbiased) কিন্তু variance বড়; max-এর bias $\approx-\theta/(n+1)=-0.476$ (low) কিন্তু variance অতি ছোট — তাই MSE প্রায় ৩.৯ গুণ কম। Figure 4 সরাসরি যাচাই হলো।

সমাধান ১৩ (★★)¶

import numpy as np
rng = np.random.default_rng(1)
sigma2, n, R = 4.0, 8, 20000
s = rng.normal(0, np.sqrt(sigma2), size=(R, n))
sig_hat = s.var(axis=1, ddof=0)   # (1/n) sum -> hat sigma^2  (biased)
S2      = s.var(axis=1, ddof=1)   # (1/(n-1)) sum -> S^2       (unbiased)
for name, est in [("hat_sig2 (ddof=0)", sig_hat), ("S2 (ddof=1)", S2)]:
    bias = est.mean() - sigma2
    mse  = ((est - sigma2)**2).mean()
    print(f"{name:18s} mean={est.mean():.3f}  bias={bias:+.3f}  MSE={mse:.3f}")
print("expected mean of hat_sig2 = (n-1)/n * sigma2 =", (n-1)/n*sigma2)

আনুমানিক আউটপুট:

hat_sig2 (ddof=0)  mean=3.50x  bias=-0.50x  MSE=3.7x
S2 (ddof=1)        mean=4.00x  bias=+0.0xx  MSE=4.6x
expected mean of hat_sig2 = (n-1)/n * sigma2 = 3.5

ব্যাখ্যা: $\hat\sigma^2$-এর গড় $\approx3.5=\frac{7}{8}\cdot4$ — সত্যি $4$-এর নিচে (biased low, bias $\approx-0.5=-\sigma^2/n$)। $S^2$-এর গড় $\approx4$ (unbiased)। তবু ছোট $n=8$-এ biased $\hat\sigma^2$-ই কম MSE দেয় (≈৩.৭ বনাম ≈৪.৬) — কারণ $\frac{n-1}{n}$ দিয়ে গুণ করায় variance কমে, আর সেই variance-লাভ ছোট bias²-এর ক্ষতিকে ছাড়িয়ে যায়। bias–variance tradeoff-এর বাস্তব নমুনা: unbiased $S^2$ সবসময় সেরা নয়। (আসলে Normal-এ ন্যূনতম-MSE scale factor হলো $\frac1{n+1}$, $\frac1{n-1}$ নয়।)

সমাধান ১৪ (★★★)¶

import numpy as np, matplotlib.pyplot as plt
rng = np.random.default_rng(2)
mu, sigma, R = 5.0, 2.0, 5000
ns = [2, 5, 20, 100, 500]
plt.figure(figsize=(8, 4.5))
for n in ns:
    est = rng.normal(mu, sigma, size=(R, n)).mean(axis=1)   # X-bar over R reps
    emp_sd, theo_sd = est.std(), sigma/np.sqrt(n)
    print(f"n={n:4d}  empirical SD={emp_sd:.3f}  theory sigma/sqrt(n)={theo_sd:.3f}")
    plt.hist(est, bins=60, density=True, alpha=0.5, label=f"n={n}")
plt.axvline(mu, color="red", ls="--", lw=2, label="true mu=5")
plt.xlabel("X-bar"); plt.ylabel("density")
plt.title("Consistency: sampling distribution tightens as n grows")
plt.legend(); plt.tight_layout(); plt.savefig("consistency_check.png", dpi=150)

আনুমানিক আউটপুট:

n=   2  empirical SD=1.41x  theory sigma/sqrt(n)=1.414
n=   5  empirical SD=0.89x  theory sigma/sqrt(n)=0.894
n=  20  empirical SD=0.44x  theory sigma/sqrt(n)=0.447
n= 100  empirical SD=0.20x  theory sigma/sqrt(n)=0.200
n= 500  empirical SD=0.08x  theory sigma/sqrt(n)=0.089

ব্যাখ্যা: প্রতিটি $n$-এ empirical SD তাত্ত্বিক $\sigma/\sqrt n$-এর সাথে প্রায় হুবহু মেলে, এবং $n$ চারগুণ হলে SD প্রায় অর্ধেক। histogram-এ পাঁচটা বণ্টন $\mu=5$-এর চারপাশে ক্রমশ সরু ও লম্বা হয় — Figure 3-এর "collapsing onto $\theta$" পুনঃনির্মিত। যেহেতু $\mathrm{Var}(\bar X)=\sigma^2/n\to0$ ও bias $=0$, MSE $\to0$, তাই $\bar X\xrightarrow{P}\mu$ — consistency নিজের চোখে দেখা গে