সমাধান — অধ্যায় ৪.১ · The Inference Problem & Sampling Distributions¶
অধ্যায় ফাইল:
part-4-inference/04-01-inference-sampling-distributions.md(§৭ অনুশীলনী)। সংখ্যাগত উত্তরnumpy/scipy.statsদিয়ে যাচাইযোগ্য (seed উল্লেখ থাকলে reproducible)। মূল formula (সূত্র): iid \(X_i\), \(\mu=\mathbb{E}[X_i]\), \(\sigma^2=\operatorname{Var}(X_i)\) হলে \(\bar X_n\) unbiased (\(\mathbb{E}[\bar X_n]=\mu\)), \(\operatorname{Var}(\bar X_n)=\sigma^2/n\), তাই \(\mathrm{SE}=\sigma/\sqrt{n}\)। Normal-population-এ: \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\), \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\), আর দুই scaled \(\chi^2\)-এর অনুপাত \(\sim F\)। \(\Phi\) = standard Normal CDF।
ক · ধারণাগত (conceptual)¶
সমাধান ১ (★)¶
তিনটি ধারণা স্তরে আলাদা:
- Estimand \(\theta\) — যা আমরা জানতে চাই: population-এর একটা অজানা কিন্তু স্থির সংখ্যা (random নয়)। উদাহরণে: একটা শহরের সব প্রাপ্তবয়স্কের প্রকৃত গড় উচ্চতা \(\mu\)।
- Estimator \(\hat\theta\) (বা \(T\)) — নমুনা থেকে \(\theta\) অনুমানের একটা নিয়ম/function: \(\hat\theta=g(X_1,\dots,X_n)\)। এটা random variable, কারণ নমুনা random। উদাহরণে: \(\bar X_n=\frac1n\sum X_i\) (নমুনার গড় উচ্চতার সূত্র)।
- Estimate — একটা নির্দিষ্ট নমুনায় সেই function-এর মান, একটা সাধারণ সংখ্যা (random নয়, একবার নমুনা টানা হয়ে গেলে স্থির)। উদাহরণে: এই \(50\) জনের নমুনায় গড় বেরোল \(172.4\) সেমি।
মূল পার্থক্য: \(\theta\) অজানা-ধ্রুবক; \(\hat\theta\) random-নিয়ম (এর sampling distribution আছে); estimate হলো \(\hat\theta\)-এর একটা realization। ভাষায়: "estimand কী জানতে চাই, estimator কোন সূত্রে অনুমান করি, estimate এবারের উত্তর-সংখ্যা।"
সমাধান ২ (★)¶
না, এক জিনিস নয় — এরা দুই ভিন্ন স্তরের distribution:
- Data-র histogram একটাই নমুনার ভেতরের পর্যবেক্ষণগুলোর (\(X_1,\dots,X_n\)) ছড়ানো দেখায়। এটা population-এর আকৃতি অনুমান করে; এর প্রস্থ \(\approx\sigma\) (population SD), যা \(n\) বাড়লেও সঙ্কুচিত হয় না।
- Sampling distribution একটা statistic \(T=\bar X_n\)-এর distribution বহু (কাল্পনিক) নমুনার ওপর। এর প্রতিটি "পয়েন্ট" একটা গোটা নমুনার গড় — একটা একক পর্যবেক্ষণ নয়। এর প্রস্থ \(=\mathrm{SE}=\sigma/\sqrt{n}\), যা \(n\) বাড়লে সঙ্কুচিত হয়।
Figure 1-এর দৃষ্টিকোণে: Figure 1-এর histogram হলো sampling distribution — এর প্রতিটা bar \(40{,}000\)টি নমুনার একেকটির গড় \(\bar X_n\) গণনা করে বানানো, কোনো একটা নমুনার কাঁচা data নয়। সেজন্যই population ডানে-skewed (Gamma) হলেও \(n=50\)-এ histogram সরু ও Normal — কাঁচা data-র histogram তখনো skewed থাকত। সংক্ষেপে: data-histogram দেখায় "একটা নমুনা কেমন," sampling distribution দেখায় "আমার estimate কতটা নড়তে পারত।"
সমাধান ৩ (★★)¶
তিনটি ভিন্ন ভূমিকা:
| রাশি | কী মাপে | \(n\to\infty\)-এ |
|---|---|---|
| \(\sigma\) (population SD) | population-এ ব্যক্তি-পর্যবেক্ষণের ছড়ানো — একটা স্থির ধর্ম | অপরিবর্তিত (population-constant) |
| \(S\) (sample SD) | নমুনায় ব্যক্তি-পর্যবেক্ষণের ছড়ানোর estimate | \(S\xrightarrow{P}\sigma\) (একটা ধ্রুবকে থিতু, \(0\)-তে নয়) |
| \(\mathrm{SE}=\sigma/\sqrt{n}\) | estimator \(\bar X_n\)-এর ছড়ানো (sampling distribution-এর SD) | \(\sigma/\sqrt{n}\to 0\) |
কোনটা \(0\)-তে যায়: কেবল \(\mathrm{SE}\)। কারণ \(\sigma,S\) মাপে পৃথক মানুষ/পর্যবেক্ষণ কতটা আলাদা — সেটা population-এর বৈশিষ্ট্য, \(n\) যত বড়ই হোক বদলায় না। কিন্তু \(\mathrm{SE}\) মাপে গড় কতটা নড়ে — আর বেশি data নিলে গড় সত্যিকার \(\mu\)-র চারপাশে আরও জড়ো হয়, তাই \(\sigma/\sqrt{n}\to 0\) (Figure 4-এর violin সঙ্কোচন)। ভুল-বোঝাবুঝির উৎস: দুটোরই একক একই (data-র একক), কিন্তু একটা "জনসংখ্যার বৈচিত্র্য," অন্যটা "estimate-এর অনিশ্চয়তা।"
সমাধান ৪ (★★)¶
কেন ভাজক \(n-1\): sample variance-এ আমরা প্রকৃত \(\mu\) জানি না, তাই তার বদলে নমুনা থেকে অনুমিত \(\bar X\) ব্যবহার করি। কিন্তু বিচ্যুতিগুলো \(\bar X\)-এর সাপেক্ষে নেওয়ায় একটা বীজগাণিতিক constraint তৈরি হয়: $$ \sum_{i=1}^n (X_i-\bar X)=0. $$ অর্থাৎ \(n\)টি বিচ্যুতি \((X_i-\bar X)\)-এর মধ্যে যেকোনো \(n-1\)টি জানলেই শেষটি স্বয়ংক্রিয়ভাবে নির্ধারিত (যোগফল \(0\) হতে হবে)। তাই স্বাধীন বিচ্যুতি \(n\)টি নয়, \(n-1\)টি — এটাই "degrees of freedom \(=n-1\)।" \(\bar X\) অনুমান করতে গিয়ে একটা df খরচ হয়ে গেছে। ভাজক \(n-1\) ব্যবহার করলে \(\mathbb{E}[S^2]=\sigma^2\) (unbiased); \(n\) দিয়ে ভাগ করলে variance একটু কম অনুমান হতো।
\(\chi^2_{n-1}\)-এর সাথে সম্পর্ক: Normal population-এ ঠিক এই \(n-1\) স্বাধীন বিচ্যুতির কারণেই $$ \frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\quad(\text{df}=n-1,\ \text{Figure 2-এর বাঁ প্যানেল}). $$ যদি আমরা প্রকৃত \(\mu\) জানতাম, তবে \(\frac{1}{\sigma^2}\sum(X_i-\mu)^2\sim\chi^2_{n}\) হতো (\(n\) df, কোনো constraint নেই)। \(\mu\to\bar X\) বদলই এক df কেড়ে নেয় — geometrically, \(n\)-মাত্রিক বিচ্যুতি-ভেক্টর একটা \((n-1)\)-মাত্রিক subspace-এ (\(\sum=0\) তল) আটকে যায়।
খ · গণনামূলক (computational)¶
সমাধান ৫ (★)¶
\(\sigma=6\), \(\mathrm{SE}=\sigma/\sqrt{n}=6/\sqrt{n}\)।
(ক) $$ n=9:\ \frac{6}{\sqrt{9}}=\frac{6}{3}=2;\qquad n=36:\ \frac{6}{6}=1;\qquad n=144:\ \frac{6}{12}=0.5. $$
(খ) SE অর্ধেক করতে: \(\mathrm{SE}\propto 1/\sqrt{n}\), তাই SE অর্ধেক হতে \(\sqrt{n}\) দ্বিগুণ, অর্থাৎ \(n\) চারগুণ। (উপরে \(9\to36\)-এ SE \(2\to1\) — ঠিক তাই।)
(গ) \(\dfrac{6}{\sqrt{n}}=0.5\Rightarrow\sqrt{n}=\dfrac{6}{0.5}=12\Rightarrow \boxed{n=144}\)।
(মূল শিক্ষা: নির্ভুলতা দ্বিগুণ করা = খরচ চারগুণ — এটাই \(1/\sqrt{n}\)-এর অর্থনৈতিক দাম, Figure 4।)
সমাধান ৬ (★)¶
population Gamma\((2,1.5)\): \(\mu=2\cdot1.5=3\), \(\sigma^2=2\cdot1.5^2=4.5\), \(\sigma\approx2.121\), \(n=50\)।
CLT দিয়ে sampling distribution: $$ \bar X_{50}\ \approx\ \mathcal N!\left(3,\ \frac{4.5}{50}\right)=\mathcal N(3,\ 0.09),\qquad \mathrm{SE}=\sqrt{0.09}=0.3. $$ তাই $$ P(\bar X_{50}>3.4)\approx 1-\Phi!\left(\frac{3.4-3}{0.3}\right)=1-\Phi(1.333)\approx 1-0.908=\boxed{0.092}. $$ (অর্থাৎ এই skewed population থেকে \(50\)-জনের নমুনার গড় \(3.4\)-এর বেশি হওয়ার সম্ভাবনা প্রায় \(9\%\)। প্রকৃত মান সামান্য ভিন্ন হতে পারে কারণ \(n=50\)-এও সামান্য ডান-skew বাকি — Figure 1-এর ডান প্যানেলে দৃশ্যমান।)
সমাধান ৭ (★★)¶
Normal population, \(n=10\), df \(=n-1=9\)। তথ্য: \(\dfrac{(n-1)S^2}{\sigma^2}=\dfrac{9S^2}{\sigma^2}\sim\chi^2_9\)।
দেওয়া: \(\chi^2_{9,\,0.025}=2.70\), \(\chi^2_{9,\,0.975}=19.02\), তাই $$ P!\left(2.70\le \frac{9S^2}{\sigma^2}\le 19.02\right)=0.95. $$ \(\sigma^2\)-এর জন্য পুনর্বিন্যাস: অসমতার তিন অংশকে উল্টে (reciprocal নিলে দিক বদলায়) এবং \(9S^2\) গুণ করি। মধ্য রাশি \(\frac{9S^2}{\sigma^2}\) থেকে \(\sigma^2\) আলাদা করতে: $$ 2.70\le \frac{9S^2}{\sigma^2}\le 19.02 \ \Longleftrightarrow\ \frac{1}{19.02}\le \frac{\sigma^2}{9S^2}\le \frac{1}{2.70} \ \Longleftrightarrow\ \frac{9S^2}{19.02}\le \sigma^2\le \frac{9S^2}{2.70}. $$ অর্থাৎ \(\sigma^2\)-এর একটা \(95\%\) confidence interval: $$ \boxed{\left[\ \frac{9S^2}{19.02},\ \ \frac{9S^2}{2.70}\ \right]=\big[\,0.473\,S^2,\ \ 3.333\,S^2\,\big]}. $$ (লক্ষণীয় — interval-টা অপ্রতিসম \(S^2\)-এর চারপাশে, কারণ \(\chi^2\) নিজেই skewed। এটাই \(\chi^2\) sampling distribution থেকে সরাসরি variance-inference; Part IV-এ পুরো রূপে আসবে।)
সমাধান ৮ (★★)¶
(ক) কেন \(t\)-multiplier সবসময় \(z\)-এর চেয়ে বড়: \(t\)-distribution-এর লেজ Normal-এর চেয়ে ভারী (Figure 3) — অর্থাৎ মাঝখানে কম ভর, প্রান্তে বেশি। একই কেন্দ্রীয় \(95\%\) ভর ঘিরতে গেলে তাই \(t\)-তে আরও দূরে যেতে হয়, ফলে multiplier \(>1.96\)। গভীর কারণ: \(t\) ব্যবহার করি যখন \(\sigma\) অজানা এবং \(S\) দিয়ে অনুমান করি — সেই বাড়তি অনিশ্চয়তা (একটা random হর) লেজ মোটা করে ও interval চওড়া করে।
(খ) df বাড়লে: \(9\to29\to\infty\)-এ multiplier \(2.262\to2.045\to1.960\) — অর্থাৎ নামে এবং \(z=1.96\)-এর দিকে যায়। কারণ df যত বড়, \(S\) তত নির্ভুলভাবে \(\sigma\) অনুমান করে, বাড়তি অনিশ্চয়তা তত কম, \(t\)-এর লেজ তত হালকা (Figure 3-এ \(t_{30}\) প্রায় Normal-এর গায়ে)। ব্যবহারিক উপসংহার: \(n\gtrsim 30\)-এ \(t\) ও \(z\)-এর তফাত নগণ্য, কিন্তু ছোট নমুনায় \(t\) ব্যবহার না করলে interval অতি-সরু (over-confident) হয়ে যায়।
গ · প্রমাণভিত্তিক (proof-based)¶
সমাধান ৯ (★) — \(\bar X_n\)-এর mean ও variance¶
iid \(X_1,\dots,X_n\) সহ \(\mathbb{E}[X_i]=\mu\), \(\operatorname{Var}(X_i)=\sigma^2\)।
Unbiasedness (প্রত্যাশার রৈখিকতা): $$ \mathbb{E}[\bar X_n]=\mathbb{E}!\left[\frac1n\sum_{i=1}^n X_i\right]=\frac1n\sum_{i=1}^n\mathbb{E}[X_i]=\frac1n\cdot n\mu=\mu. $$ তাই \(\bar X_n\) হলো \(\mu\)-এর unbiased estimator (কোনো \(n\)-এই গড়ে ঠিক জায়গায়, Figure 1-এ histogram-এর কেন্দ্র সর্বদা \(\mu=3\))।
Variance (স্বাধীনতায় variance যোগ): স্বাধীন হওয়ায় \(\operatorname{Var}\!\big(\sum X_i\big)=\sum\operatorname{Var}(X_i)\), আর ধ্রুবক \(c\)-এর জন্য \(\operatorname{Var}(cY)=c^2\operatorname{Var}(Y)\): $$ \operatorname{Var}(\bar X_n)=\operatorname{Var}!\left(\frac1n\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\sum_{i=1}^n\operatorname{Var}(X_i)=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n}. $$ অতএব standard error $$ \mathrm{SE}(\bar X_n)=\sqrt{\operatorname{Var}(\bar X_n)}=\frac{\sigma}{\sqrt{n}}.\qquad\blacksquare $$ (এই একটা লাইন থেকেই Figure 4-এর গোটা \(1/\sqrt{n}\) গল্প; iid ছাড়া—correlated data-তে—covariance-পদ যোগ হতো।)
সমাধান ১০ (★★) — one-sample \(t\) ঠিক \(t_{n-1}\)¶
\(t\)-এর সংজ্ঞা: \(Z\sim\mathcal N(0,1)\), \(V\sim\chi^2_k\) স্বাধীন হলে \(T=\dfrac{Z}{\sqrt{V/k}}\sim t_k\)।
Normal population \(\mathcal N(\mu,\sigma^2)\) থেকে iid নমুনার জন্য তিনটি ধ্রুপদী ফল (এই অধ্যায়ের ভিত্তি):
- \(\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}\sim\mathcal N(0,1)\) — এটাই \(Z\)-এর ভূমিকায় (standardize-করা গড়, \(\sigma\) জানা ধরে)।
- \(\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) — এটাই \(V\)-এর ভূমিকায়, df \(k=n-1\)।
- Normal population-এ \(\bar X_n\) ও \(S^2\) স্বাধীন (এটি Normal-এর একটি বিশেষ ধর্ম) — তাই উপরের \(Z\) ও \(V\) স্বাধীন, সংজ্ঞার শর্ত মেটে।
এবার \(t\)-সংজ্ঞায় বসাই (\(k=n-1\)): $$ \frac{Z}{\sqrt{V/(n-1)}} =\frac{\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}}{\sqrt{\dfrac{(n-1)S^2/\sigma^2}{n-1}}} =\frac{\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}}{\sqrt{S^2/\sigma^2}} =\frac{\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}}{S/\sigma}. $$ লক্ষ করুন numerator ও denominator-এ \(\sigma\) কাটাকাটি হয়ে যায়: $$ =\frac{\bar X_n-\mu}{(\sigma/\sqrt{n})\cdot(S/\sigma)}=\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}.\qquad\blacksquare $$ সারমর্ম: \(\bar X_n\) হলো \(Z\), \(S^2\) দেয় \(V\sim\chi^2_{n-1}\), df \(=n-1\); অজানা \(\sigma\) ভাগ-ভাগ হয়ে কেটে যায় বলেই \(t\)-statistic-এ \(\sigma\) লাগে না — এটাই \(t\)-test-কে ব্যবহারযোগ্য করে (Part IV)। এই কারণেই \(\sigma\) অজানা থাকলে Normal নয়, \(t_{n-1}\) ব্যবহার করতে হয় (Figure 3)।
সমাধান ১১ (★★★) — \(F\)-এর সম্পর্ক¶
\(F\)-সংজ্ঞা: \(U\sim\chi^2_{d_1}\), \(V\sim\chi^2_{d_2}\) স্বাধীন হলে \(F=\dfrac{U/d_1}{V/d_2}\sim F_{d_1,d_2}\)।
(ক) \(T\sim t_k\Rightarrow T^2\sim F_{1,k}\): \(t\)-সংজ্ঞায় \(T=\dfrac{Z}{\sqrt{V/k}}\) (\(Z\sim\mathcal N(0,1)\), \(V\sim\chi^2_k\) স্বাধীন)। বর্গ করি: $$ T^2=\frac{Z^2}{V/k}=\frac{Z^2/1}{V/k}. $$ এখন একটা স্ট্যান্ডার্ড Normal-এর বর্গ একটি df-এর chi-square: \(Z^2\sim\chi^2_1\)। তাই উপরের রাশি ঠিক \(F\)-এর সংজ্ঞা যেখানে numerator \(U=Z^2\sim\chi^2_1\) (\(d_1=1\)) আর denominator \(V\sim\chi^2_k\) (\(d_2=k\)): $$ T^2=\frac{Z^2/1}{V/k}\sim F_{1,k}.\qquad\blacksquare $$ (এজন্যই \(t\)-test-এর দুই-প্রান্তিক রূপ আর \(F\)-test এক অর্থে সমতুল্য: \(t_{k,\,1-\alpha/2}^2=F_{1,k,\,1-\alpha}\)।)
(খ) \(X\sim F_{d_1,d_2}\Rightarrow 1/X\sim F_{d_2,d_1}\): \(X=\dfrac{U/d_1}{V/d_2}\) হলে $$ \frac{1}{X}=\frac{V/d_2}{U/d_1}. $$ এখানে শুধু numerator (\(V\sim\chi^2_{d_2}\)) ও denominator (\(U\sim\chi^2_{d_1}\)) অদলবদল হলো — যা আবার \(F\)-এর সংজ্ঞা, তবে df-জোড়া উল্টানো: numerator df \(=d_2\), denominator df \(=d_1\)। তাই \(1/X\sim F_{d_2,d_1}\)। \(\blacksquare\)
কেন এটা কাজে লাগে (lower↔upper tail): \(F\)-table সাধারণত শুধু upper-tail critical value (যেমন \(F_{d_1,d_2,\,0.95}\)) ছাপায়। lower-tail মান \(F_{d_1,d_2,\,\alpha}\) (\(\alpha\) ছোট) দরকার হলে এই সম্পর্ক দিয়ে পাওয়া যায়: $$ F_{d_1,d_2,\,\alpha}=\frac{1}{F_{d_2,d_1,\,1-\alpha}}. $$ ব্যাখ্যা: \(P(X\le F_{d_1,d_2,\alpha})=\alpha\); \(X\le c \Leftrightarrow 1/X\ge 1/c\), আর \(1/X\sim F_{d_2,d_1}\), তাই \(P(1/X\ge 1/c)=\alpha\Rightarrow 1/c=F_{d_2,d_1,\,1-\alpha}\)। অর্থাৎ এক table দিয়েই দুই প্রান্ত — variance-অনুপাত test-এ (E4) এটা অপরিহার্য।
ঘ · কোডিং (coding)¶
সমাধান ১২ (★)¶
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
rng = np.random.default_rng(0)
mu, var = 3.0, 4.5 # Gamma(2, 1.5): shape*scale=3, shape*scale^2=4.5
sigma = np.sqrt(var)
fig, axes = plt.subplots(1, 2, figsize=(12, 4.5))
for ax, n in zip(axes, [5, 50]):
xbar = rng.gamma(2.0, 1.5, size=(30_000, n)).mean(axis=1)
se_theory = sigma / np.sqrt(n)
se_emp = xbar.std(ddof=1)
xs = np.linspace(xbar.min(), xbar.max(), 400)
ax.hist(xbar, bins=60, density=True, alpha=0.65, color="#1b6ca8",
label=r"simulated $\bar X_n$")
ax.plot(xs, stats.norm.pdf(xs, mu, se_theory), "r-", lw=2,
label=r"$\mathcal{N}(\mu,\sigma^2/n)$")
ax.set_title(f"n={n}: SE_theory={se_theory:.3f}, SE_emp={se_emp:.3f}")
ax.set_xlabel(r"$\bar X_n$"); ax.legend()
print(f"n={n}: theory SE = {se_theory:.4f}, empirical SD = {se_emp:.4f}")
axes[0].set_ylabel("density")
plt.tight_layout(); plt.show()
যা দেখা যাবে: print-আউটে দুই ক্ষেত্রেই empirical SD তত্ত্ব-SE-এর খুব কাছাকাছি — \(n=5\): theory \(\approx 0.949\), empirical \(\approx 0.95\); \(n=50\): theory \(=0.30\), empirical \(\approx 0.30\)। histogram-এ \(n=5\) এখনো একটু ডানে-skewed ও চওড়া, \(n=50\) সরু ও Normal — §৬-এর Figure 1-এর হাতে-কলমে পুনরুৎপাদন। মূল শিক্ষা: sampling distribution-এর ছড়ানো \(=\mathrm{SE}=\sigma/\sqrt{n}\), simulation তা নিশ্চিত করে।
সমাধান ১৩ (★★)¶
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(0)
n, reps = 8, 20_000
samples = rng.normal(0.0, 1.0, size=(reps, n))
med = np.median(samples, axis=1) # sampling distribution of the median
mean = samples.mean(axis=1) # for comparison
se_med = med.std(ddof=1)
se_mean = mean.std(ddof=1) # ~ 1/sqrt(8) = 0.3536
print(f"SD of sample median = {se_med:.4f}")
print(f"SD of sample mean = {se_mean:.4f} (theory 1/sqrt(8) = {1/np.sqrt(8):.4f})")
print(f"ratio median/mean = {se_med/se_mean:.3f} (theory ~ 1.253)")
plt.figure(figsize=(7.5, 4.5))
plt.hist(med, bins=60, density=True, alpha=0.7, color="#7b3fa0",
label="sampling dist. of median")
plt.hist(mean, bins=60, density=True, alpha=0.35, color="#1b6ca8",
label="sampling dist. of mean")
plt.xlabel("statistic value"); plt.ylabel("density")
plt.title("Sampling distributions of mean vs median (Normal data, n=8)")
plt.legend(); plt.tight_layout(); plt.show()
যা দেখা যাবে: median-এর empirical SD \(\approx 0.44\), mean-এর \(\approx 0.354\) (\(=1/\sqrt{8}\))। অনুপাত \(\approx 1.25\) — তাত্ত্বিক \(\sqrt{\pi/2}\approx 1.253\)-এর সাথে মেলে। অর্থাৎ Normal data-তে median-এর SE বেশি, তাই mean বেশি efficient (একই অনিশ্চয়তা পেতে median-এ বেশি data লাগত)। histogram-এ median-এর distribution mean-এর চেয়ে সামান্য চওড়া। মূল পাঠ: \(\bar X_n\) ছাড়াও যেকোনো statistic-এর একটা sampling distribution আছে — এবং তার ছড়ানো (SE) তুলনা করেই estimator-দের efficiency বিচার করা হয় (Part IV)।
সমাধান ১৪ (★★★)¶
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
rng = np.random.default_rng(0)
mu, sigma, n, reps = 10.0, 3.0, 6, 50_000
X = rng.normal(mu, sigma, size=(reps, n))
xbar = X.mean(axis=1)
S = X.std(axis=1, ddof=1) # sample SD (df = n-1)
T = (xbar - mu) / (S / np.sqrt(n)) # one-sample t-statistic
chi = (n - 1) * S**2 / sigma**2 # (n-1)S^2/sigma^2
# (a) histogram of T with t_{n-1} and N(0,1) overlaid
fig, axes = plt.subplots(1, 2, figsize=(13, 4.6))
xt = np.linspace(-6, 6, 400)
axes[0].hist(T, bins=80, range=(-6, 6), density=True, alpha=0.6,
color="#2e8b57", label="simulated T")
axes[0].plot(xt, stats.t.pdf(xt, n - 1), "k-", lw=2, label=f"t_{{{n-1}}} density")
axes[0].plot(xt, stats.norm.pdf(xt), "r--", lw=2, label="N(0,1)")
axes[0].set_xlim(-6, 6); axes[0].set_title("(a) one-sample t-statistic, n=6")
axes[0].set_xlabel("T"); axes[0].legend()
# (c) histogram of (n-1)S^2/sigma^2 with chi2_{n-1}
xc = np.linspace(0, 20, 400)
axes[1].hist(chi, bins=80, range=(0, 20), density=True, alpha=0.6,
color="#d9822b", label=r"simulated $(n-1)S^2/\sigma^2$")
axes[1].plot(xc, stats.chi2.pdf(xc, n - 1), "k-", lw=2,
label=f"chi2_{{{n-1}}} density")
axes[1].set_title("(c) variance statistic"); axes[1].set_xlabel("value")
axes[1].legend()
plt.tight_layout(); plt.show()
# (b) tail probability check
emp_tail = np.mean(np.abs(T) > 2.571) # t_{5, 0.975} = 2.571
print(f"empirical P(|T| > 2.571) = {emp_tail:.4f} (theory 0.05)")
যা দেখা যাবে: (a) \(T\)-এর histogram স্পষ্টভাবে \(t_5\) density (কালো) -এর সাথে মেলে এবং \(\mathcal N(0,1)\) (লাল ভাঙা) -এর চেয়ে ভারী লেজ দেখায় — ঠিক যেমন Figure 3 বলেছিল। (b) empirical \(P(\lvert T\rvert>2.571)\approx 0.050\), তাত্ত্বিক \(0.05\)-এর সাথে মেলে (Normal ব্যবহার করলে \(1.96\) কাটঅফে ভুলভাবে \(\approx 0.05\) ভাবতাম, কিন্তু আসল \(t_5\)-এ \(\lvert T\rvert>1.96\)-এর সম্ভাবনা \(\approx 0.107\) — দ্বিগুণেরও বেশি!)। (c) \(\frac{(n-1)S^2}{\sigma^2}\)-এর histogram \(\chi^2_5\) (কালো) -এর সাথে মেলে, ডানে-skewed। লক্ষণীয় — ফলাফল \(\mu,\sigma\)-নিরপেক্ষ (যেকোনো মান নিন, \(T\) ও chi-স্ট্যাটিস্টিক একই distribution দেবে), কারণ এরা pivotal। এটাই §৬-এর Figure 2-3-এর সংখ্যাগত যাচাই এবং Part IV-এর \(t\)/\(\chi^2\)-inference-এর ভিত্তি।
যাচাই-টীকা: সমাধান ৫–৮ হাতে-গণনা (\(\Phi\)/\(\chi^2\)/\(t\)-মান standard table)। সমাধান ৬-এ \(\Phi(1.333)\approx 0.908\) দেয় \(P\approx 0.092\); সমাধান ৭-এ \(\chi^2\)-কোশেন্ট পুনর্বিন্যাস \([0.473S^2,\,3.333S^2]\) — variance-CI-এর আদর্শ রূপ। সমাধান ৯–১১ পাঠ্যবই-প্রমাণ (Rice Ch. 6-এর সঙ্গে সঙ্গতিপূর্ণ; ১০-এ Normal-এ \(\bar X\perp S^2\) ধরে নেওয়া হয়েছে, ১১-এ \(Z^2\sim\chi^2_1\) ও reciprocal-সম্পর্ক)। কোড-উত্তর ১২–১৪ reproducible seed-সহ; চালালে বর্ণিত সংখ্যাগুলো (যেমন median/mean SE-অনুপাত \(\approx 1.25\), empirical \(t\)-tail \(\approx 0.05\)) পাওয়া যা