Skip to content

সমাধান — অধ্যায় ৪.৪ · Properties of Estimators

অধ্যায় ফাইল: part-4-inference/04-04-properties-of-estimators.md (§৭ অনুশীলনী)। সংখ্যাগত উত্তর numpy/scipy দিয়ে যাচাইযোগ্য (seed উল্লেখ থাকলে reproducible)। মূল বস্তু — bias \(b(\hat\theta)=\mathbb{E}[\hat\theta]-\theta\), variance \(\mathrm{Var}(\hat\theta)\), mean squared error \(\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]=[b(\hat\theta)]^2+\mathrm{Var}(\hat\theta)\), এবং consistency \(\hat\theta\xrightarrow{P}\theta\)। চলমান উদাহরণ: E1 \(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2\) বনাম \(S^2=\frac1{n-1}\sum(X_i-\bar X)^2\); E3 \(\bar X\); E4 Uniform\((0,\theta)\): \(2\bar X\) বনাম \(\max\)


ক · ধারণাগত (conceptual)

সমাধান ১ (★)

bias বনাম variance। দুটো সম্পূর্ণ আলাদা ব্যাপার মাপে: - bias \(=\mathbb{E}[\hat\theta]-\theta\) — estimator-টার mean (গড়) (বহু নমুনার ওপর) সত্যি \(\theta\) থেকে কত দূরে। এটা একটা পদ্ধতিগত (systematic) ভুল: estimator কি গড়ে সঠিক জায়গায় ইশারা করে? - variance \(=\mathrm{Var}(\hat\theta)=\mathbb{E}[(\hat\theta-\mathbb{E}\hat\theta)^2]\) — estimator নিজে এক নমুনা থেকে আরেক নমুনায় কতটা ওঠানামা করে (এর নিজের গড়ের চারপাশে)। এটা অস্থিরতা (precision-এর অভাব)

Figure 1-এর চার ডার্টবোর্ড (লাল তারা = সত্যি \(\theta\), কমলা বিন্দু = বহু estimate, বেগুনি ✕ = তাদের গড়): 1. low bias + low variance — বিন্দু-মেঘ বুলসআইয়ের ঠিক ওপর, আঁটসাঁট: গড়ও ঠিক, ছড়ানোও কম (আদর্শ)। 2. low bias + high variance — মেঘের কেন্দ্র বুলসআইয়ে, কিন্তু বিন্দুগুলো দূরে দূরে ছিটানো: গড় ঠিক (unbiased) তবু একক estimate অনির্ভরযোগ্য। 3. high bias + low variance — বিন্দুগুলো নিজেদের মধ্যে আঁটসাঁট কিন্তু সবাই মিলে বুলসআই থেকে সরে (বেগুনি তীর = bias): precise কিন্তু ভুল লক্ষ্যে। 4. high bias + high variance — দূরে আবার ছড়ানোও: সবচেয়ে খারাপ।

হ্যাঁ, low-bias + high-variance একসাথে সম্ভব — ঠিক উপর-ডান ঘর। উদাহরণ: \(\mathcal{N}(\mu,\sigma^2)\)-তে শুধু প্রথম observation \(X_1\) দিয়ে \(\mu\) অনুমান করা: \(\mathbb{E}[X_1]=\mu\) (unbiased, bias \(=0\)) কিন্তু \(\mathrm{Var}(X_1)=\sigma^2\)\(\bar X\)-এর variance \(\sigma^2/n\)-এর চেয়ে \(n\) গুণ বড়। গড়ে ঠিক, তবু একক মান হিসেবে খুবই অস্থির।

সমাধান ২ (★)

দাবিটা ভুল কারণ "ভালো"-র সঠিক মাপকাঠি bias নয়, MSE — আর MSE-তে bias ও variance দুটোই ঢোকে (\(\mathrm{MSE}=\text{bias}^2+\text{variance}\))। unbiased হওয়া মানে শুধু bias-অংশটা \(0\); কিন্তু variance-অংশ বিশাল হলে MSE-ও বিশাল হতে পারে।

  • Figure 2-র যুক্তি: shrinkage estimator \(c\bar X\)-এ unbiased পছন্দ \(c=1\) (নীল বর্গ)। কিন্তু MSE-curve-এর সর্বনিম্ন (লাল ডট) \(c^\ast=0.65<1\)-এ — অর্থাৎ একটা biased estimator (\(c=0.65\)) unbiased-টার চেয়ে কম MSE দেয়। একটু bias ঢুকিয়ে variance এতটা কমেছে যে যোগফল ছোট হয়েছে।
  • Figure 4-র যুক্তি: \(2\bar X\) unbiased কিন্তু \(\mathrm{MSE}=1.667\); \(\max\) biased low কিন্তু \(\mathrm{MSE}=0.433\) — প্রায় ৩.৯ গুণ কম। biased estimator-ই এখানে স্পষ্ট ভালো।

তাই unbiasedness একটা চমৎকার গুণ বটে, কিন্তু চূড়ান্ত নয় — সব সময় MSE দিয়ে যাচাই করতে হয়।

সমাধান ৩ (★★)

consistency-র সংজ্ঞা: \(\hat\theta_n\) (\(n\) data point থেকে) consistent যদি প্রতিটি \(\varepsilon>0\)-এর জন্য $$ P\big(\lvert\hat\theta_n-\theta\rvert>\varepsilon\big)\xrightarrow[n\to\infty]{}0, \qquad\text{অর্থাৎ}\quad \hat\theta_n\xrightarrow{P}\theta . $$

MSE→0 থেকে consistency। Chebyshev/Markov অসমতা (অ-ঋণাত্মক র‍্যান্ডম পরিমাণ \((\hat\theta_n-\theta)^2\)-এ প্রয়োগ করে): $$ P\big(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon\big) = P\big((\hat\theta_n-\theta)^2\ge\varepsilon^2\big) \le \frac{\mathbb{E}[(\hat\theta_n-\theta)^2]}{\varepsilon^2} = \frac{\mathrm{MSE}(\hat\theta_n)}{\varepsilon^2}. $$ তাই \(\mathrm{MSE}(\hat\theta_n)\to0\) হলে ডান পাশ \(\to0\), অর্থাৎ \(\hat\theta_n\xrightarrow{P}\theta\) — consistent। (একে কখনো MSE-consistencyweak consistency বলা হয়।)

কেন unbiased হওয়া জরুরি নয়। যেহেতু \(\mathrm{MSE}=[b(\hat\theta_n)]^2+\mathrm{Var}(\hat\theta_n)\), MSE \(\to0\) হওয়ার জন্য দরকার শুধু দুটোই \(0\)-তে যাওয়া — bias শুরুতে \(0\) হতে হবে না, কেবল \(n\to\infty\)-এ মিলিয়ে গেলেই চলে। - Figure 3: \(\bar X\) এখানে সবসময় unbiased, variance \(\sigma^2/n\to0\) — তাই trivially consistent (curve সত্যিতে চুপসে যায়)। - E1-এর \(\hat\sigma^2\): এটা biased (\(\mathbb{E}[\hat\sigma^2]=\frac{n-1}{n}\sigma^2\), bias \(=-\sigma^2/n\))। তবু bias \(=-\sigma^2/n\to0\) এবং \(\mathrm{Var}(\hat\sigma^2)\to0\) (\(O(1/n)\)), তাই \(\mathrm{MSE}\to0\) — অর্থাৎ \(\hat\sigma^2\) biased হয়েও consistent। এটাই দেখায় consistency একটা বড় নমুনার গুণ, যা finite-sample bias-কে ক্ষমা করে।

সমাধান ৪ (★★)

কখন biased-কিন্তু-আঁটসাঁট বেছে নেব: যখন variance-এ লাভ bias²-এ ক্ষতির চেয়ে বড়, অর্থাৎ মোট MSE কমে। bias–variance tradeoff-এর ভাষায়: MSE \(=\) bias² \(+\) variance; biasing-এর মাধ্যমে যদি variance যথেষ্ট কমানো যায় যাতে যোগফল ছোট হয়, তবে biased estimator-ই উত্তম পছন্দ।

বাস্তব পরিস্থিতি: ছোট নমুনা বা উচ্চ-মাত্রিক (high-dimensional) সমস্যা, যেখানে unbiased estimator-এর variance বিশাল। উদাহরণ — regression-এ অনেক predictor থাকলে ordinary least squares (unbiased) প্রচণ্ড অস্থির হয়; ridge regression ইচ্ছাকৃতভাবে সামান্য bias ঢুকিয়ে variance অনেক কমায় ও কম MSE পায় (একই চেতনা §৭ Q11-এর shrinkage)।

Figure 4-এর \(\max\) এই আলোকে: \(\max\) biased low (গড় \(9.52<10\)), কিন্তু এর variance অতি ক্ষুদ্র (\(\sim\theta^2/n^2\), বিপরীতে \(2\bar X\)-এর \(\sim\theta^2/n\))। bias² (\(=[\theta/(n+1)]^2\)) যোগ করেও মোট MSE \(2\bar X\)-এর variance-এর চেয়ে অনেক ছোট। তাই এখানে "একটু পক্ষপাত মেনে কঠোর precision" কৌশলটা স্পষ্ট বিজয়ী — bias–variance tradeoff বাস্তবে কাজ করছে।


খ · গাণনিক (computational)

সমাধান ৫ (★)

\(X_i\overset{iid}{\sim}\mathcal{N}(\mu,\sigma^2)\), \(\bar X=\frac1n\sum X_i\)। - (ক) \(\mathbb{E}[\bar X]=\frac1n\sum\mathbb{E}[X_i]=\frac1n\cdot n\mu=\mu\)। - (খ) bias \(=\mathbb{E}[\bar X]-\mu=\mu-\mu=\boxed{0}\)\(\bar X\) unbiased। - (গ) স্বাধীনতার জন্য \(\mathrm{Var}(\bar X)=\frac1{n^2}\sum\mathrm{Var}(X_i)=\frac1{n^2}\cdot n\sigma^2=\boxed{\dfrac{\sigma^2}{n}}\)। - (ঘ) unbiased তাই \(\mathrm{MSE}(\bar X)=\text{bias}^2+\mathrm{Var}=0+\dfrac{\sigma^2}{n}=\boxed{\dfrac{\sigma^2}{n}}\)

লক্ষণীয়: \(n\) বাড়লে MSE \(\to0\), তাই \(\bar X\) consistent (Figure 3-র সাথে সঙ্গতিপূর্ণ)।

সমাধান ৬ (★★)

\(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2=\frac{n-1}{n}S^2\), এবং দেওয়া আছে \(\mathbb{E}[S^2]=\sigma^2\)। - (ক) \(\mathbb{E}[\hat\sigma^2]=\frac{n-1}{n}\mathbb{E}[S^2]=\frac{n-1}{n}\sigma^2\)। তাই $$ b(\hat\sigma^2)=\mathbb{E}[\hat\sigma^2]-\sigma^2=\Big(\tfrac{n-1}{n}-1\Big)\sigma^2=\boxed{-\dfrac{\sigma^2}{n}} . $$ ঋণাত্মক — \(\hat\sigma^2\) গড়ে \(\sigma^2\)-কে কম অনুমান করে (variance-কে নিচু দেখায়, কারণ \(\bar X\) নিজে data থেকে হিসাব করা বলে বিচ্যুতিগুলো একটু "ছোট" হয়)। - (খ) শতকরা bias \(=\frac{b}{\sigma^2}\times100\%=-\frac{1}{n}\times100\%\)\(n=10\)-এ \(=\boxed{-10\%}\)। - (গ) \(n\to\infty\)-এ \(b=-\sigma^2/n\to0\) — অর্থাৎ \(\hat\sigma^2\) asymptotically unbiased (এবং variance-ও \(\to0\), তাই consistent)।

সমাধান ৭ (★★)

Uniform\((0,\theta)\): \(\mathbb{E}[X_i]=\theta/2\), \(\mathrm{Var}(X_i)=\theta^2/12\)\(\hat\theta_1=2\bar X\)। - (ক) \(\mathbb{E}[2\bar X]=2\mathbb{E}[\bar X]=2\cdot\frac{\theta}{2}=\theta\)unbiased, bias \(=0\)। - (খ) \(\mathrm{Var}(2\bar X)=4\,\mathrm{Var}(\bar X)=4\cdot\frac{\mathrm{Var}(X_i)}{n}=4\cdot\frac{\theta^2/12}{n}=\boxed{\dfrac{\theta^2}{3n}}\)। - (গ) unbiased তাই \(\mathrm{MSE}(2\bar X)=0+\dfrac{\theta^2}{3n}=\boxed{\dfrac{\theta^2}{3n}}\)

যাচাই: \(\theta=10,n=20\)\(\frac{100}{60}=1.667\) — Figure 4-এর বক্সের সাথে হুবহু মেলে।

সমাধান ৮ (★★★)

\(X_{(n)}=\max_i X_i\), CDF \(F(t)=(t/\theta)^n\) (\(0\le t\le\theta\))। - (ক) density \(f(t)=F'(t)=\dfrac{n t^{n-1}}{\theta^n}\)। তাই $$ \mathbb{E}[X_{(n)}]=\int_0^\theta t\cdot\frac{n t^{n-1}}{\theta^n}\,dt =\frac{n}{\theta^n}\int_0^\theta t^n\,dt =\frac{n}{\theta^n}\cdot\frac{\theta^{n+1}}{n+1} =\frac{n}{n+1}\theta . $$ bias \(=\mathbb{E}[X_{(n)}]-\theta=\Big(\frac{n}{n+1}-1\Big)\theta=\boxed{-\dfrac{\theta}{n+1}}\) (low — কারণ \(\max\) সবসময় \(\le\theta\))। - (খ) \(\displaystyle\mathbb{E}[X_{(n)}^2]=\int_0^\theta t^2\frac{nt^{n-1}}{\theta^n}dt=\frac{n}{\theta^n}\cdot\frac{\theta^{n+2}}{n+2}=\frac{n}{n+2}\theta^2\)। তাই $$ \mathrm{Var}(X_{(n)})=\mathbb{E}[X_{(n)}^2]-(\mathbb{E}[X_{(n)}])^2 =\frac{n}{n+2}\theta^2-\frac{n^2}{(n+1)^2}\theta^2 =\theta^2\cdot\frac{n}{(n+1)^2(n+2)} , $$ (সাধারণ হর \((n+1)^2(n+2)\) নিয়ে: \(n(n+1)^2-n^2(n+2)=n[(n+1)^2-n(n+2)]=n[\,n^2+2n+1-n^2-2n\,]=n\)।) \(\Rightarrow \boxed{\mathrm{Var}(X_{(n)})=\dfrac{n\theta^2}{(n+1)^2(n+2)}}\)। - (গ) \(\mathrm{MSE}=\mathrm{Var}+\text{bias}^2=\dfrac{n\theta^2}{(n+1)^2(n+2)}+\dfrac{\theta^2}{(n+1)^2}=\dfrac{\theta^2}{(n+1)^2}\Big(\dfrac{n}{n+2}+1\Big)=\dfrac{\theta^2}{(n+1)^2}\cdot\dfrac{2n+2}{n+2}=\boxed{\dfrac{2\theta^2}{(n+1)(n+2)}}\)

\(n=20,\theta=10\): \(\mathrm{MSE}(\max)=\frac{200}{21\cdot22}=\frac{200}{462}=0.4329\)। অনুপাত $$ \frac{\mathrm{MSE}(2\bar X)}{\mathrm{MSE}(\max)}=\frac{1.667}{0.433}\approx \boxed{3.85} , $$ Figure 4-এর "≈ ৩.৯×" — অর্থাৎ \(\max\)-এর MSE প্রায় ৪ গুণ ছোট। (এবং \(\max\)-এর MSE \(\sim\theta^2/n^2\) বনাম \(2\bar X\)-এর \(\theta^2/(3n)\), তাই \(n\) বাড়লে ব্যবধান বাড়ে।)


গ · প্রমাণভিত্তিক (proof-based)

সমাধান ৯ (★★)

লেখো \(\mu_{\hat\theta}:=\mathbb{E}[\hat\theta]\)। তাহলে \(\hat\theta-\theta=(\hat\theta-\mu_{\hat\theta})+(\mu_{\hat\theta}-\theta)\)। লক্ষ করো \((\mu_{\hat\theta}-\theta)=b(\hat\theta)\) একটা ধ্রুবক (random নয়)। বর্গ করে expectation নাও: $$ \mathbb{E}[(\hat\theta-\theta)^2] =\mathbb{E}\big[(\hat\theta-\mu_{\hat\theta})^2\big] +2\,b(\hat\theta)\,\mathbb{E}\big[\hat\theta-\mu_{\hat\theta}\big] +b(\hat\theta)^2 . $$ - প্রথম পদ \(=\mathrm{Var}(\hat\theta)\) (সংজ্ঞা)। - মাঝের পদ \(=2\,b(\hat\theta)\cdot\big(\mathbb{E}[\hat\theta]-\mu_{\hat\theta}\big)=2\,b(\hat\theta)\cdot 0=0\), কারণ \(\mathbb{E}[\hat\theta]=\mu_{\hat\theta}\)। - তৃতীয় পদ \(=b(\hat\theta)^2\)

অতএব $$ \boxed{\;\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]=[\,b(\hat\theta)\,]^2+\mathrm{Var}(\hat\theta)\;} $$ — cross-term শূন্য বলে যোগটা পরিষ্কারভাবে যোগাত্মক। \(\blacksquare\)

সমাধান ১০ (★★)

ধরা যাক \(b_n:=b(\hat\theta_n)\to0\)\(v_n:=\mathrm{Var}(\hat\theta_n)\to0\)। Q9 দিয়ে \(\mathrm{MSE}(\hat\theta_n)=b_n^2+v_n\to0\)। এখন কোনো \(\varepsilon>0\)-এর জন্য Markov অসমতা প্রয়োগ করি অ-ঋণাত্মক \((\hat\theta_n-\theta)^2\)-এ: $$ P\big(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon\big) =P\big((\hat\theta_n-\theta)^2\ge\varepsilon^2\big) \le\frac{\mathbb{E}[(\hat\theta_n-\theta)^2]}{\varepsilon^2} =\frac{b_n^2+v_n}{\varepsilon^2}\xrightarrow[n\to\infty]{}0 . $$ যেহেতু এটা প্রতিটি \(\varepsilon>0\)-এর জন্য সত্য, সংজ্ঞা অনুযায়ী \(\hat\theta_n\xrightarrow{P}\theta\) — অর্থাৎ "bias \(\to0\) ও variance \(\to0\)" consistency-র জন্য যথেষ্ট শর্ত\(\blacksquare\)

(টীকা: এটি যথেষ্ট, প্রয়োজনীয় নয় — কিছু consistent estimator-এর variance সসীম \(n\)-এ অসীমও হতে পারে; কিন্তু MSE→0 হলে নিশ্চিতভাবে consistent।)

সমাধান ১১ (★★★)

\(\hat\theta\) unbiased (\(\mathbb{E}[\hat\theta]=\theta\)), \(\mathrm{Var}(\hat\theta)=\sigma_0^2\)\(\tilde\theta=c\hat\theta\)। - (ক) \(\mathbb{E}[\tilde\theta]=c\theta\) ⟹ bias \(=c\theta-\theta=(c-1)\theta\)\(\mathrm{Var}(\tilde\theta)=c^2\mathrm{Var}(\hat\theta)=c^2\sigma_0^2\)। - (খ) Q9 দিয়ে $$ \mathrm{MSE}(c)=[(c-1)\theta]^2+c^2\sigma_0^2=(c-1)^2\theta^2+c^2\sigma_0^2 . $$ \(c\)-সাপেক্ষে অন্তরকলন করে শূন্য বসাই: $$ \frac{d}{dc}\mathrm{MSE}=2(c-1)\theta^2+2c\sigma_0^2=0 \;\Longrightarrow\; c(\theta^2+\sigma_0^2)=\theta^2 \;\Longrightarrow\; \boxed{c^\ast=\frac{\theta^2}{\theta^2+\sigma_0^2}} . $$ (\(\frac{d^2}{dc^2}=2(\theta^2+\sigma_0^2)>0\), তাই এটা ন্যূনতম।) যেহেতু \(\sigma_0^2>0\)\(\theta\ne0\), হর লব-এর চেয়ে বড়, তাই \(c^\ast<1\)। - (গ) তাৎপর্য: সেরা (ন্যূনতম-MSE) shrinkage factor \(1\)-এর কম — অর্থাৎ unbiased estimator (\(c=1\))-কে একটু \(0\)-র দিকে shrink করলে (সামান্য bias ঢুকিয়ে) MSE কমে। এটাই Figure 2-এর মূল বার্তা: লাল MSE-curve-এর সর্বনিম্ন \(c^\ast\) নীল বর্গ (\(c=1\))-এর বাঁ দিকে। লক্ষণীয়, \(\sigma_0^2\) যত বড় (estimator যত অস্থির), \(c^\ast\) তত ছোট — বেশি shrink করা লাভজনক; আর \(\sigma_0^2\to0\)-এ \(c^\ast\to1\) (অস্থিরতা না থাকলে shrink-এর দরকার নেই)। \(\blacksquare\)


ঘ · কোডিং (coding)

সমাধান ১২ (★★)

import numpy as np
rng = np.random.default_rng(0)
theta, n, R = 10.0, 20, 50000
s = rng.uniform(0, theta, size=(R, n))
for name, est in [("2*Xbar", 2*s.mean(1)), ("max", s.max(1))]:
    bias = est.mean() - theta
    var  = est.var()
    mse  = bias**2 + var
    print(f"{name:7s}  bias={bias:+.3f}  var={var:.3f}  MSE={mse:.3f}")

print("theory  2*Xbar MSE =", round(theta**2/(3*n), 3))
print("theory  max    MSE =", round(2*theta**2/((n+1)*(n+2)), 3))
আনুমানিক আউটপুট:
2*Xbar   bias=+0.00x  var=1.66x  MSE=1.66x
max      bias=-0.47x  var=0.20x  MSE=0.43x
theory  2*Xbar MSE = 1.667
theory  max    MSE = 0.433
ব্যাখ্যা: empirical MSE তাত্ত্বিক মানের খুব কাছাকাছি (১.৬৭ বনাম ০.৪৩)। 2*Xbar-এর bias প্রায় \(0\) (unbiased) কিন্তু variance বড়; max-এর bias \(\approx-\theta/(n+1)=-0.476\) (low) কিন্তু variance অতি ছোট — তাই MSE প্রায় ৩.৯ গুণ কম। Figure 4 সরাসরি যাচাই হলো।

সমাধান ১৩ (★★)

import numpy as np
rng = np.random.default_rng(1)
sigma2, n, R = 4.0, 8, 20000
s = rng.normal(0, np.sqrt(sigma2), size=(R, n))
sig_hat = s.var(axis=1, ddof=0)   # (1/n) sum -> hat sigma^2  (biased)
S2      = s.var(axis=1, ddof=1)   # (1/(n-1)) sum -> S^2       (unbiased)
for name, est in [("hat_sig2 (ddof=0)", sig_hat), ("S2 (ddof=1)", S2)]:
    bias = est.mean() - sigma2
    mse  = ((est - sigma2)**2).mean()
    print(f"{name:18s} mean={est.mean():.3f}  bias={bias:+.3f}  MSE={mse:.3f}")
print("expected mean of hat_sig2 = (n-1)/n * sigma2 =", (n-1)/n*sigma2)
আনুমানিক আউটপুট:
hat_sig2 (ddof=0)  mean=3.50x  bias=-0.50x  MSE=3.7x
S2 (ddof=1)        mean=4.00x  bias=+0.0xx  MSE=4.6x
expected mean of hat_sig2 = (n-1)/n * sigma2 = 3.5
ব্যাখ্যা: \(\hat\sigma^2\)-এর গড় \(\approx3.5=\frac{7}{8}\cdot4\) — সত্যি \(4\)-এর নিচে (biased low, bias \(\approx-0.5=-\sigma^2/n\))। \(S^2\)-এর গড় \(\approx4\) (unbiased)। তবু ছোট \(n=8\)-এ biased \(\hat\sigma^2\)-ই কম MSE দেয় (≈৩.৭ বনাম ≈৪.৬) — কারণ \(\frac{n-1}{n}\) দিয়ে গুণ করায় variance কমে, আর সেই variance-লাভ ছোট bias²-এর ক্ষতিকে ছাড়িয়ে যায়। bias–variance tradeoff-এর বাস্তব নমুনা: unbiased \(S^2\) সবসময় সেরা নয়। (আসলে Normal-এ ন্যূনতম-MSE scale factor হলো \(\frac1{n+1}\), \(\frac1{n-1}\) নয়।)

সমাধান ১৪ (★★★)

import numpy as np, matplotlib.pyplot as plt
rng = np.random.default_rng(2)
mu, sigma, R = 5.0, 2.0, 5000
ns = [2, 5, 20, 100, 500]
plt.figure(figsize=(8, 4.5))
for n in ns:
    est = rng.normal(mu, sigma, size=(R, n)).mean(axis=1)   # X-bar over R reps
    emp_sd, theo_sd = est.std(), sigma/np.sqrt(n)
    print(f"n={n:4d}  empirical SD={emp_sd:.3f}  theory sigma/sqrt(n)={theo_sd:.3f}")
    plt.hist(est, bins=60, density=True, alpha=0.5, label=f"n={n}")
plt.axvline(mu, color="red", ls="--", lw=2, label="true mu=5")
plt.xlabel("X-bar"); plt.ylabel("density")
plt.title("Consistency: sampling distribution tightens as n grows")
plt.legend(); plt.tight_layout(); plt.savefig("consistency_check.png", dpi=150)
আনুমানিক আউটপুট:
n=   2  empirical SD=1.41x  theory sigma/sqrt(n)=1.414
n=   5  empirical SD=0.89x  theory sigma/sqrt(n)=0.894
n=  20  empirical SD=0.44x  theory sigma/sqrt(n)=0.447
n= 100  empirical SD=0.20x  theory sigma/sqrt(n)=0.200
n= 500  empirical SD=0.08x  theory sigma/sqrt(n)=0.089
ব্যাখ্যা: প্রতিটি \(n\)-এ empirical SD তাত্ত্বিক \(\sigma/\sqrt n\)-এর সাথে প্রায় হুবহু মেলে, এবং \(n\) চারগুণ হলে SD প্রায় অর্ধেক। histogram-এ পাঁচটা বণ্টন \(\mu=5\)-এর চারপাশে ক্রমশ সরু ও লম্বা হয় — Figure 3-এর "collapsing onto \(\theta\)" পুনঃনির্মিত। যেহেতু \(\mathrm{Var}(\bar X)=\sigma^2/n\to0\) ও bias \(=0\), MSE \(\to0\), তাই \(\bar X\xrightarrow{P}\mu\) — consistency নিজের চোখে দেখা গে