সমাধান — অধ্যায় ৪.১ · The Inference Problem & Sampling Distributions¶

অধ্যায় ফাইল: part-4-inference/04-01-inference-sampling-distributions.md (§৭ অনুশীলনী)। সংখ্যাগত উত্তর numpy/scipy.stats দিয়ে যাচাইযোগ্য (seed উল্লেখ থাকলে reproducible)। মূল formula (সূত্র): iid $X_i$, $\mu=\mathbb{E}[X_i]$, $\sigma^2=\operatorname{Var}(X_i)$ হলে $\bar X_n$ unbiased ($\mathbb{E}[\bar X_n]=\mu$), $\operatorname{Var}(\bar X_n)=\sigma^2/n$, তাই $\mathrm{SE}=\sigma/\sqrt{n}$। Normal-population-এ: $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}$, $\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}$, আর দুই scaled $\chi^2$-এর অনুপাত $\sim F$। $\Phi$ = standard Normal CDF।

ক · ধারণাগত (conceptual)¶

সমাধান ১ (★)¶

তিনটি ধারণা স্তরে আলাদা:

Estimand $\theta$ — যা আমরা জানতে চাই: population-এর একটা অজানা কিন্তু স্থির সংখ্যা (random নয়)। উদাহরণে: একটা শহরের সব প্রাপ্তবয়স্কের প্রকৃত গড় উচ্চতা $\mu$।
Estimator $\hat\theta$ (বা $T$) — নমুনা থেকে $\theta$ অনুমানের একটা নিয়ম/function: $\hat\theta=g(X_1,\dots,X_n)$। এটা random variable, কারণ নমুনা random। উদাহরণে: $\bar X_n=\frac1n\sum X_i$ (নমুনার গড় উচ্চতার সূত্র)।
Estimate — একটা নির্দিষ্ট নমুনায় সেই function-এর মান, একটা সাধারণ সংখ্যা (random নয়, একবার নমুনা টানা হয়ে গেলে স্থির)। উদাহরণে: এই $50$ জনের নমুনায় গড় বেরোল $172.4$ সেমি।

মূল পার্থক্য: $\theta$ অজানা-ধ্রুবক; $\hat\theta$ random-নিয়ম (এর sampling distribution আছে); estimate হলো $\hat\theta$-এর একটা realization। ভাষায়: "estimand কী জানতে চাই, estimator কোন সূত্রে অনুমান করি, estimate এবারের উত্তর-সংখ্যা।"

সমাধান ২ (★)¶

না, এক জিনিস নয় — এরা দুই ভিন্ন স্তরের distribution:

Data-র histogram একটাই নমুনার ভেতরের পর্যবেক্ষণগুলোর ($X_1,\dots,X_n$) ছড়ানো দেখায়। এটা population-এর আকৃতি অনুমান করে; এর প্রস্থ $\approx\sigma$ (population SD), যা $n$ বাড়লেও সঙ্কুচিত হয় না।
Sampling distribution একটা statistic $T=\bar X_n$-এর distribution বহু (কাল্পনিক) নমুনার ওপর। এর প্রতিটি "পয়েন্ট" একটা গোটা নমুনার গড় — একটা একক পর্যবেক্ষণ নয়। এর প্রস্থ $=\mathrm{SE}=\sigma/\sqrt{n}$, যা $n$ বাড়লে সঙ্কুচিত হয়।

Figure 1-এর দৃষ্টিকোণে: Figure 1-এর histogram হলো sampling distribution — এর প্রতিটা bar $40{,}000$টি নমুনার একেকটির গড় $\bar X_n$ গণনা করে বানানো, কোনো একটা নমুনার কাঁচা data নয়। সেজন্যই population ডানে-skewed (Gamma) হলেও $n=50$-এ histogram সরু ও Normal — কাঁচা data-র histogram তখনো skewed থাকত। সংক্ষেপে: data-histogram দেখায় "একটা নমুনা কেমন," sampling distribution দেখায় "আমার estimate কতটা নড়তে পারত।"

সমাধান ৩ (★★)¶

তিনটি ভিন্ন ভূমিকা:

রাশি	কী মাপে	$n\to\infty$-এ
$\sigma$ (population SD)	population-এ ব্যক্তি-পর্যবেক্ষণের ছড়ানো — একটা স্থির ধর্ম	অপরিবর্তিত (population-constant)
$S$ (sample SD)	নমুনায় ব্যক্তি-পর্যবেক্ষণের ছড়ানোর estimate	$S\xrightarrow{P}\sigma$ (একটা ধ্রুবকে থিতু, $0$-তে নয়)
$\mathrm{SE}=\sigma/\sqrt{n}$	estimator $\bar X_n$-এর ছড়ানো (sampling distribution-এর SD)	$\sigma/\sqrt{n}\to 0$

কোনটা $0$-তে যায়: কেবল $\mathrm{SE}$। কারণ $\sigma,S$ মাপে পৃথক মানুষ/পর্যবেক্ষণ কতটা আলাদা — সেটা population-এর বৈশিষ্ট্য, $n$ যত বড়ই হোক বদলায় না। কিন্তু $\mathrm{SE}$ মাপে গড় কতটা নড়ে — আর বেশি data নিলে গড় সত্যিকার $\mu$-র চারপাশে আরও জড়ো হয়, তাই $\sigma/\sqrt{n}\to 0$ (Figure 4-এর violin সঙ্কোচন)। ভুল-বোঝাবুঝির উৎস: দুটোরই একক একই (data-র একক), কিন্তু একটা "জনসংখ্যার বৈচিত্র্য," অন্যটা "estimate-এর অনিশ্চয়তা।"

সমাধান ৪ (★★)¶

কেন ভাজক $n-1$: sample variance-এ আমরা প্রকৃত $\mu$ জানি না, তাই তার বদলে নমুনা থেকে অনুমিত $\bar X$ ব্যবহার করি। কিন্তু বিচ্যুতিগুলো $\bar X$-এর সাপেক্ষে নেওয়ায় একটা বীজগাণিতিক constraint তৈরি হয়: $$ \sum_{i=1}^n (X_i-\bar X)=0. $$ অর্থাৎ $n$টি বিচ্যুতি $(X_i-\bar X)$-এর মধ্যে যেকোনো $n-1$টি জানলেই শেষটি স্বয়ংক্রিয়ভাবে নির্ধারিত (যোগফল $0$ হতে হবে)। তাই স্বাধীন বিচ্যুতি $n$টি নয়, $n-1$টি — এটাই "degrees of freedom $=n-1$।" $\bar X$ অনুমান করতে গিয়ে একটা df খরচ হয়ে গেছে। ভাজক $n-1$ ব্যবহার করলে $\mathbb{E}[S^2]=\sigma^2$ (unbiased); $n$ দিয়ে ভাগ করলে variance একটু কম অনুমান হতো।

$\chi^2_{n-1}$-এর সাথে সম্পর্ক: Normal population-এ ঠিক এই $n-1$ স্বাধীন বিচ্যুতির কারণেই $$ \frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\quad(\text{df}=n-1,\ \text{Figure 2-এর বাঁ প্যানেল}). $$ যদি আমরা প্রকৃত $\mu$ জানতাম, তবে $\frac{1}{\sigma^2}\sum(X_i-\mu)^2\sim\chi^2_{n}$ হতো ($n$ df, কোনো constraint নেই)। $\mu\to\bar X$ বদলই এক df কেড়ে নেয় — geometrically, $n$-মাত্রিক বিচ্যুতি-ভেক্টর একটা $(n-1)$-মাত্রিক subspace-এ ($\sum=0$ তল) আটকে যায়।

খ · গণনামূলক (computational)¶

সমাধান ৫ (★)¶

$\sigma=6$, $\mathrm{SE}=\sigma/\sqrt{n}=6/\sqrt{n}$।

(ক) $$ n=9:\ \frac{6}{\sqrt{9}}=\frac{6}{3}=2;\qquad n=36:\ \frac{6}{6}=1;\qquad n=144:\ \frac{6}{12}=0.5. $$

(খ) SE অর্ধেক করতে: $\mathrm{SE}\propto 1/\sqrt{n}$, তাই SE অর্ধেক হতে $\sqrt{n}$ দ্বিগুণ, অর্থাৎ $n$ চারগুণ। (উপরে $9\to36$-এ SE $2\to1$ — ঠিক তাই।)

(গ) $\dfrac{6}{\sqrt{n}}=0.5\Rightarrow\sqrt{n}=\dfrac{6}{0.5}=12\Rightarrow \boxed{n=144}$।

(মূল শিক্ষা: নির্ভুলতা দ্বিগুণ করা = খরচ চারগুণ — এটাই $1/\sqrt{n}$-এর অর্থনৈতিক দাম, Figure 4।)

সমাধান ৬ (★)¶

population Gamma$(2,1.5)$: $\mu=2\cdot1.5=3$, $\sigma^2=2\cdot1.5^2=4.5$, $\sigma\approx2.121$, $n=50$।

CLT দিয়ে sampling distribution: $$ \bar X_{50}\ \approx\ \mathcal N!\left(3,\ \frac{4.5}{50}\right)=\mathcal N(3,\ 0.09),\qquad \mathrm{SE}=\sqrt{0.09}=0.3. $$ তাই $$ P(\bar X_{50}>3.4)\approx 1-\Phi!\left(\frac{3.4-3}{0.3}\right)=1-\Phi(1.333)\approx 1-0.908=\boxed{0.092}. $$ (অর্থাৎ এই skewed population থেকে $50$-জনের নমুনার গড় $3.4$-এর বেশি হওয়ার সম্ভাবনা প্রায় $9\%$। প্রকৃত মান সামান্য ভিন্ন হতে পারে কারণ $n=50$-এও সামান্য ডান-skew বাকি — Figure 1-এর ডান প্যানেলে দৃশ্যমান।)

সমাধান ৭ (★★)¶

Normal population, $n=10$, df $=n-1=9$। তথ্য: $\dfrac{(n-1)S^2}{\sigma^2}=\dfrac{9S^2}{\sigma^2}\sim\chi^2_9$।

দেওয়া: $\chi^2_{9,\,0.025}=2.70$, $\chi^2_{9,\,0.975}=19.02$, তাই $$ P!\left(2.70\le \frac{9S^2}{\sigma^2}\le 19.02\right)=0.95. $$ $\sigma^2$-এর জন্য পুনর্বিন্যাস: অসমতার তিন অংশকে উল্টে (reciprocal নিলে দিক বদলায়) এবং $9S^2$ গুণ করি। মধ্য রাশি $\frac{9S^2}{\sigma^2}$ থেকে $\sigma^2$ আলাদা করতে: $$ 2.70\le \frac{9S^2}{\sigma^2}\le 19.02 \ \Longleftrightarrow\ \frac{1}{19.02}\le \frac{\sigma^2}{9S^2}\le \frac{1}{2.70} \ \Longleftrightarrow\ \frac{9S^2}{19.02}\le \sigma^2\le \frac{9S^2}{2.70}. $$ অর্থাৎ $\sigma^2$-এর একটা $95\%$ confidence interval: $$ \boxed{\left[\ \frac{9S^2}{19.02},\ \ \frac{9S^2}{2.70}\ \right]=\big[\,0.473\,S^2,\ \ 3.333\,S^2\,\big]}. $$ (লক্ষণীয় — interval-টা অপ্রতিসম $S^2$-এর চারপাশে, কারণ $\chi^2$ নিজেই skewed। এটাই $\chi^2$ sampling distribution থেকে সরাসরি variance-inference; Part IV-এ পুরো রূপে আসবে।)

সমাধান ৮ (★★)¶

(ক) কেন $t$-multiplier সবসময় $z$-এর চেয়ে বড়: $t$-distribution-এর লেজ Normal-এর চেয়ে ভারী (Figure 3) — অর্থাৎ মাঝখানে কম ভর, প্রান্তে বেশি। একই কেন্দ্রীয় $95\%$ ভর ঘিরতে গেলে তাই $t$-তে আরও দূরে যেতে হয়, ফলে multiplier $>1.96$। গভীর কারণ: $t$ ব্যবহার করি যখন $\sigma$ অজানা এবং $S$ দিয়ে অনুমান করি — সেই বাড়তি অনিশ্চয়তা (একটা random হর) লেজ মোটা করে ও interval চওড়া করে।

(খ) df বাড়লে: $9\to29\to\infty$-এ multiplier $2.262\to2.045\to1.960$ — অর্থাৎ নামে এবং $z=1.96$-এর দিকে যায়। কারণ df যত বড়, $S$ তত নির্ভুলভাবে $\sigma$ অনুমান করে, বাড়তি অনিশ্চয়তা তত কম, $t$-এর লেজ তত হালকা (Figure 3-এ $t_{30}$ প্রায় Normal-এর গায়ে)। ব্যবহারিক উপসংহার: $n\gtrsim 30$-এ $t$ ও $z$-এর তফাত নগণ্য, কিন্তু ছোট নমুনায় $t$ ব্যবহার না করলে interval অতি-সরু (over-confident) হয়ে যায়।

গ · প্রমাণভিত্তিক (proof-based)¶

সমাধান ৯ (★) — $\bar X_n$-এর mean ও variance¶

iid $X_1,\dots,X_n$ সহ $\mathbb{E}[X_i]=\mu$, $\operatorname{Var}(X_i)=\sigma^2$।

Unbiasedness (প্রত্যাশার রৈখিকতা): $$ \mathbb{E}[\bar X_n]=\mathbb{E}!\left[\frac1n\sum_{i=1}^n X_i\right]=\frac1n\sum_{i=1}^n\mathbb{E}[X_i]=\frac1n\cdot n\mu=\mu. $$ তাই $\bar X_n$ হলো $\mu$-এর unbiased estimator (কোনো $n$-এই গড়ে ঠিক জায়গায়, Figure 1-এ histogram-এর কেন্দ্র সর্বদা $\mu=3$)।

Variance (স্বাধীনতায় variance যোগ): স্বাধীন হওয়ায় $\operatorname{Var}\!\big(\sum X_i\big)=\sum\operatorname{Var}(X_i)$, আর ধ্রুবক $c$-এর জন্য $\operatorname{Var}(cY)=c^2\operatorname{Var}(Y)$: $$ \operatorname{Var}(\bar X_n)=\operatorname{Var}!\left(\frac1n\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\sum_{i=1}^n\operatorname{Var}(X_i)=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n}. $$ অতএব standard error $$ \mathrm{SE}(\bar X_n)=\sqrt{\operatorname{Var}(\bar X_n)}=\frac{\sigma}{\sqrt{n}}.\qquad\blacksquare $$ (এই একটা লাইন থেকেই Figure 4-এর গোটা $1/\sqrt{n}$ গল্প; iid ছাড়া—correlated data-তে—covariance-পদ যোগ হতো।)

সমাধান ১০ (★★) — one-sample $t$ ঠিক $t_{n-1}$¶

$t$-এর সংজ্ঞা: $Z\sim\mathcal N(0,1)$, $V\sim\chi^2_k$ স্বাধীন হলে $T=\dfrac{Z}{\sqrt{V/k}}\sim t_k$।

Normal population $\mathcal N(\mu,\sigma^2)$ থেকে iid নমুনার জন্য তিনটি ধ্রুপদী ফল (এই অধ্যায়ের ভিত্তি):

$\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}\sim\mathcal N(0,1)$ — এটাই $Z$-এর ভূমিকায় (standardize-করা গড়, $\sigma$ জানা ধরে)।
$\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}$ — এটাই $V$-এর ভূমিকায়, df $k=n-1$।
Normal population-এ $\bar X_n$ ও $S^2$ স্বাধীন (এটি Normal-এর একটি বিশেষ ধর্ম) — তাই উপরের $Z$ ও $V$ স্বাধীন, সংজ্ঞার শর্ত মেটে।

এবার $t$-সংজ্ঞায় বসাই ($k=n-1$): $$ \frac{Z}{\sqrt{V/(n-1)}} =\frac{\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}}{\sqrt{\dfrac{(n-1)S^2/\sigma^2}{n-1}}} =\frac{\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}}{\sqrt{S^2/\sigma^2}} =\frac{\dfrac{\bar X_n-\mu}{\sigma/\sqrt{n}}}{S/\sigma}. $$ লক্ষ করুন numerator ও denominator-এ $\sigma$ কাটাকাটি হয়ে যায়: $$ =\frac{\bar X_n-\mu}{(\sigma/\sqrt{n})\cdot(S/\sigma)}=\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}.\qquad\blacksquare $$ সারমর্ম: $\bar X_n$ হলো $Z$, $S^2$ দেয় $V\sim\chi^2_{n-1}$, df $=n-1$; অজানা $\sigma$ ভাগ-ভাগ হয়ে কেটে যায় বলেই $t$-statistic-এ $\sigma$ লাগে না — এটাই $t$-test-কে ব্যবহারযোগ্য করে (Part IV)। এই কারণেই $\sigma$ অজানা থাকলে Normal নয়, $t_{n-1}$ ব্যবহার করতে হয় (Figure 3)।

সমাধান ১১ (★★★) — $F$-এর সম্পর্ক¶

$F$-সংজ্ঞা: $U\sim\chi^2_{d_1}$, $V\sim\chi^2_{d_2}$ স্বাধীন হলে $F=\dfrac{U/d_1}{V/d_2}\sim F_{d_1,d_2}$।

(ক) $T\sim t_k\Rightarrow T^2\sim F_{1,k}$: $t$-সংজ্ঞায় $T=\dfrac{Z}{\sqrt{V/k}}$ ($Z\sim\mathcal N(0,1)$, $V\sim\chi^2_k$ স্বাধীন)। বর্গ করি: $$ T^2=\frac{Z^2}{V/k}=\frac{Z^2/1}{V/k}. $$ এখন একটা স্ট্যান্ডার্ড Normal-এর বর্গ একটি df-এর chi-square: $Z^2\sim\chi^2_1$। তাই উপরের রাশি ঠিক $F$-এর সংজ্ঞা যেখানে numerator $U=Z^2\sim\chi^2_1$ ($d_1=1$) আর denominator $V\sim\chi^2_k$ ($d_2=k$): $$ T^2=\frac{Z^2/1}{V/k}\sim F_{1,k}.\qquad\blacksquare $$ (এজন্যই $t$-test-এর দুই-প্রান্তিক রূপ আর $F$-test এক অর্থে সমতুল্য: $t_{k,\,1-\alpha/2}^2=F_{1,k,\,1-\alpha}$।)

(খ) $X\sim F_{d_1,d_2}\Rightarrow 1/X\sim F_{d_2,d_1}$: $X=\dfrac{U/d_1}{V/d_2}$ হলে $$ \frac{1}{X}=\frac{V/d_2}{U/d_1}. $$ এখানে শুধু numerator ($V\sim\chi^2_{d_2}$) ও denominator ($U\sim\chi^2_{d_1}$) অদলবদল হলো — যা আবার $F$-এর সংজ্ঞা, তবে df-জোড়া উল্টানো: numerator df $=d_2$, denominator df $=d_1$। তাই $1/X\sim F_{d_2,d_1}$। $\blacksquare$

কেন এটা কাজে লাগে (lower↔upper tail): $F$-table সাধারণত শুধু upper-tail critical value (যেমন $F_{d_1,d_2,\,0.95}$) ছাপায়। lower-tail মান $F_{d_1,d_2,\,\alpha}$ ($\alpha$ ছোট) দরকার হলে এই সম্পর্ক দিয়ে পাওয়া যায়: $$ F_{d_1,d_2,\,\alpha}=\frac{1}{F_{d_2,d_1,\,1-\alpha}}. $$ ব্যাখ্যা: $P(X\le F_{d_1,d_2,\alpha})=\alpha$; $X\le c \Leftrightarrow 1/X\ge 1/c$, আর $1/X\sim F_{d_2,d_1}$, তাই $P(1/X\ge 1/c)=\alpha\Rightarrow 1/c=F_{d_2,d_1,\,1-\alpha}$। অর্থাৎ এক table দিয়েই দুই প্রান্ত — variance-অনুপাত test-এ (E4) এটা অপরিহার্য।

ঘ · কোডিং (coding)¶

সমাধান ১২ (★)¶

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

rng = np.random.default_rng(0)
mu, var = 3.0, 4.5            # Gamma(2, 1.5): shape*scale=3, shape*scale^2=4.5
sigma = np.sqrt(var)

fig, axes = plt.subplots(1, 2, figsize=(12, 4.5))
for ax, n in zip(axes, [5, 50]):
    xbar = rng.gamma(2.0, 1.5, size=(30_000, n)).mean(axis=1)
    se_theory = sigma / np.sqrt(n)
    se_emp = xbar.std(ddof=1)
    xs = np.linspace(xbar.min(), xbar.max(), 400)
    ax.hist(xbar, bins=60, density=True, alpha=0.65, color="#1b6ca8",
            label=r"simulated $\bar X_n$")
    ax.plot(xs, stats.norm.pdf(xs, mu, se_theory), "r-", lw=2,
            label=r"$\mathcal{N}(\mu,\sigma^2/n)$")
    ax.set_title(f"n={n}:  SE_theory={se_theory:.3f}, SE_emp={se_emp:.3f}")
    ax.set_xlabel(r"$\bar X_n$"); ax.legend()
    print(f"n={n}:  theory SE = {se_theory:.4f},  empirical SD = {se_emp:.4f}")
axes[0].set_ylabel("density")
plt.tight_layout(); plt.show()

যা দেখা যাবে: print-আউটে দুই ক্ষেত্রেই empirical SD তত্ত্ব-SE-এর খুব কাছাকাছি — $n=5$: theory $\approx 0.949$, empirical $\approx 0.95$; $n=50$: theory $=0.30$, empirical $\approx 0.30$। histogram-এ $n=5$ এখনো একটু ডানে-skewed ও চওড়া, $n=50$ সরু ও Normal — §৬-এর Figure 1-এর হাতে-কলমে পুনরুৎপাদন। মূল শিক্ষা: sampling distribution-এর ছড়ানো $=\mathrm{SE}=\sigma/\sqrt{n}$, simulation তা নিশ্চিত করে।

সমাধান ১৩ (★★)¶

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(0)
n, reps = 8, 20_000
samples = rng.normal(0.0, 1.0, size=(reps, n))

med = np.median(samples, axis=1)          # sampling distribution of the median
mean = samples.mean(axis=1)               # for comparison

se_med = med.std(ddof=1)
se_mean = mean.std(ddof=1)                 # ~ 1/sqrt(8) = 0.3536
print(f"SD of sample median = {se_med:.4f}")
print(f"SD of sample mean   = {se_mean:.4f}   (theory 1/sqrt(8) = {1/np.sqrt(8):.4f})")
print(f"ratio median/mean   = {se_med/se_mean:.3f}   (theory ~ 1.253)")

plt.figure(figsize=(7.5, 4.5))
plt.hist(med, bins=60, density=True, alpha=0.7, color="#7b3fa0",
         label="sampling dist. of median")
plt.hist(mean, bins=60, density=True, alpha=0.35, color="#1b6ca8",
         label="sampling dist. of mean")
plt.xlabel("statistic value"); plt.ylabel("density")
plt.title("Sampling distributions of mean vs median (Normal data, n=8)")
plt.legend(); plt.tight_layout(); plt.show()

যা দেখা যাবে: median-এর empirical SD $\approx 0.44$, mean-এর $\approx 0.354$ ($=1/\sqrt{8}$)। অনুপাত $\approx 1.25$ — তাত্ত্বিক $\sqrt{\pi/2}\approx 1.253$-এর সাথে মেলে। অর্থাৎ Normal data-তে median-এর SE বেশি, তাই mean বেশি efficient (একই অনিশ্চয়তা পেতে median-এ বেশি data লাগত)। histogram-এ median-এর distribution mean-এর চেয়ে সামান্য চওড়া। মূল পাঠ: $\bar X_n$ ছাড়াও যেকোনো statistic-এর একটা sampling distribution আছে — এবং তার ছড়ানো (SE) তুলনা করেই estimator-দের efficiency বিচার করা হয় (Part IV)।

সমাধান ১৪ (★★★)¶

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

rng = np.random.default_rng(0)
mu, sigma, n, reps = 10.0, 3.0, 6, 50_000
X = rng.normal(mu, sigma, size=(reps, n))

xbar = X.mean(axis=1)
S = X.std(axis=1, ddof=1)                       # sample SD (df = n-1)
T = (xbar - mu) / (S / np.sqrt(n))              # one-sample t-statistic
chi = (n - 1) * S**2 / sigma**2                 # (n-1)S^2/sigma^2

# (a) histogram of T with t_{n-1} and N(0,1) overlaid
fig, axes = plt.subplots(1, 2, figsize=(13, 4.6))
xt = np.linspace(-6, 6, 400)
axes[0].hist(T, bins=80, range=(-6, 6), density=True, alpha=0.6,
             color="#2e8b57", label="simulated T")
axes[0].plot(xt, stats.t.pdf(xt, n - 1), "k-", lw=2, label=f"t_{{{n-1}}} density")
axes[0].plot(xt, stats.norm.pdf(xt), "r--", lw=2, label="N(0,1)")
axes[0].set_xlim(-6, 6); axes[0].set_title("(a) one-sample t-statistic, n=6")
axes[0].set_xlabel("T"); axes[0].legend()

# (c) histogram of (n-1)S^2/sigma^2 with chi2_{n-1}
xc = np.linspace(0, 20, 400)
axes[1].hist(chi, bins=80, range=(0, 20), density=True, alpha=0.6,
             color="#d9822b", label=r"simulated $(n-1)S^2/\sigma^2$")
axes[1].plot(xc, stats.chi2.pdf(xc, n - 1), "k-", lw=2,
             label=f"chi2_{{{n-1}}} density")
axes[1].set_title("(c) variance statistic"); axes[1].set_xlabel("value")
axes[1].legend()
plt.tight_layout(); plt.show()

# (b) tail probability check
emp_tail = np.mean(np.abs(T) > 2.571)          # t_{5, 0.975} = 2.571
print(f"empirical P(|T| > 2.571) = {emp_tail:.4f}   (theory 0.05)")

যা দেখা যাবে: (a) $T$-এর histogram স্পষ্টভাবে $t_5$ density (কালো) -এর সাথে মেলে এবং $\mathcal N(0,1)$ (লাল ভাঙা) -এর চেয়ে ভারী লেজ দেখায় — ঠিক যেমন Figure 3 বলেছিল। (b) empirical $P(\lvert T\rvert>2.571)\approx 0.050$, তাত্ত্বিক $0.05$-এর সাথে মেলে (Normal ব্যবহার করলে $1.96$ কাটঅফে ভুলভাবে $\approx 0.05$ ভাবতাম, কিন্তু আসল $t_5$-এ $\lvert T\rvert>1.96$-এর সম্ভাবনা $\approx 0.107$ — দ্বিগুণেরও বেশি!)। (c) $\frac{(n-1)S^2}{\sigma^2}$-এর histogram $\chi^2_5$ (কালো) -এর সাথে মেলে, ডানে-skewed। লক্ষণীয় — ফলাফল $\mu,\sigma$-নিরপেক্ষ (যেকোনো মান নিন, $T$ ও chi-স্ট্যাটিস্টিক একই distribution দেবে), কারণ এরা pivotal। এটাই §৬-এর Figure 2-3-এর সংখ্যাগত যাচাই এবং Part IV-এর $t$/$\chi^2$-inference-এর ভিত্তি।

যাচাই-টীকা: সমাধান ৫–৮ হাতে-গণনা ($\Phi$/$\chi^2$/$t$-মান standard table)। সমাধান ৬-এ $\Phi(1.333)\approx 0.908$ দেয় $P\approx 0.092$; সমাধান ৭-এ $\chi^2$-কোশেন্ট পুনর্বিন্যাস $[0.473S^2,\,3.333S^2]$ — variance-CI-এর আদর্শ রূপ। সমাধান ৯–১১ পাঠ্যবই-প্রমাণ (Rice Ch. 6-এর সঙ্গে সঙ্গতিপূর্ণ; ১০-এ Normal-এ $\bar X\perp S^2$ ধরে নেওয়া হয়েছে, ১১-এ $Z^2\sim\chi^2_1$ ও reciprocal-সম্পর্ক)। কোড-উত্তর ১২–১৪ reproducible seed-সহ; চালালে বর্ণিত সংখ্যাগুলো (যেমন median/mean SE-অনুপাত $\approx 1.25$, empirical $t$-tail $\approx 0.05$) পাওয়া যা

রাশি	কী মাপে	\(n\to\infty\)-এ
\(\sigma\) (population SD)	population-এ ব্যক্তি-পর্যবেক্ষণের ছড়ানো — একটা স্থির ধর্ম	অপরিবর্তিত (population-constant)
\(S\) (sample SD)	নমুনায় ব্যক্তি-পর্যবেক্ষণের ছড়ানোর estimate	\(S\xrightarrow{P}\sigma\) (একটা ধ্রুবকে থিতু, \(0\)-তে নয়)
\(\mathrm{SE}=\sigma/\sqrt{n}\)	estimator \(\bar X_n\)-এর ছড়ানো (sampling distribution-এর SD)	\(\sigma/\sqrt{n}\to 0\)