সমাধান — অধ্যায় ২.৬ · Joint, Marginal & Conditional Distributions; Covariance¶

অধ্যায় part-2-probability-foundations/02-06-joint-distributions-covariance.md-এর section ৭-এর সব অনুশীলনীর পূর্ণ সমাধান। সব সংখ্যাগত ফল NumPy/SciPy দিয়ে যাচাই করা হয়েছে।

Conceptual (ধারণাভিত্তিক)¶

৭.১ ★ — joint, marginal, conditional-এর সম্পর্ক¶

joint থেকে সব পাওয়া যায়: marginal = joint-কে এক variable-এর ওপর যোগ/integrate করে; conditional = joint-কে marginal দিয়ে ভাগ করে ($f_{Y\mid X} = f_{X,Y}/f_X$)। কিন্তু marginal থেকে joint ফিরে পাওয়া যায় না — কারণ marginal-গুলো শুধু "ছায়া", তারা variable-দের মধ্যকার নির্ভরতার (covariance/correlation) তথ্য হারিয়ে ফেলে। একই দুটি marginal-এর বহু ভিন্ন joint সম্ভব (§৬ Figure 4: একই standard-Normal marginal, অথচ $\rho=0$ ও $\rho=0.85$ — দুই ভিন্ন joint)। তবে যদি independence ধরে নেওয়া হয়, তবে $f_{X,Y} = f_X f_Y$ — কেবল তখনই marginal থেকে joint নির্ধারিত।

৭.২ ★ — "Cov = 0 ⇒ independent" সত্য না মিথ্যা?¶

মিথ্যা (সাধারণভাবে)। covariance শুধু linear (রৈখিক) সম্পর্ক মাপে; nonlinear (অরৈখিক) নির্ভরতা থাকলেও তা শূন্য হতে পারে। প্রতি-উদাহরণ (§৩.৩): $X$ একটি symmetric distribution থেকে ($\mathbb{E}[X]=0,\ \mathbb{E}[X^3]=0$), $Y=X^2$। তখন $$ \operatorname{Cov}(X,Y)=\mathbb{E}[X\cdot X^2]-\mathbb{E}[X]\mathbb{E}[X^2]=\mathbb{E}[X^3]-0=0, $$ অথচ $Y$ সম্পূর্ণভাবে $X$-নির্ধারিত — চূড়ান্ত dependent। (উল্টোমুখ সত্য: independent $\Rightarrow$ Cov $=0$, §৪.১। আর ব্যতিক্রম: bivariate Normal-এ Cov $=0 \Rightarrow$ independent।)

৭.৩ ★★ — correlation কেন একক-মুক্ত ও আবদ্ধ¶

covariance-এর একক $X$ ও $Y$-এর এককের গুণফল (যেমন cm·kg); তাই scale বদলালে ($X\to aX$) covariance-ও $a$ গুণে বদলায় — মানটি স্কেল-নির্ভর, তুলনা অর্থহীন। correlation $\rho = \operatorname{Cov}(X,Y)/(\sigma_X\sigma_Y)$-এ লব ও হর একই এককে (cm·kg), তাই ভাগফল মাত্রাহীন; আর Cauchy–Schwarz inequality দেয় $\lvert\operatorname{Cov}(X,Y)\rvert \le \sigma_X\sigma_Y$, ফলে $\rho\in[-1,1]$।

এই দুই বৈশিষ্ট্যে correlation তুলনাযোগ্য: "উচ্চতা-ওজনের সম্পর্ক ($\rho=0.7$) আয়-ব্যয়ের সম্পর্কের ($\rho=0.4$) চেয়ে শক্ত" — এমন বাক্য covariance দিয়ে বলা যায় না (একক ভিন্ন), correlation দিয়ে যায়। তাই EDA, feature selection, heatmap সবখানে correlation-ই ব্যবহৃত হয়।

৭.৪ ★★ — total variance-এর দুই পদ বাস্তব উদাহরণে¶

ধরা যাক বহু স্কুলের ছাত্রদের পরীক্ষার নম্বর $Y$, আর $X=$ ছাত্রটি কোন স্কুলের।

within-group $\mathbb{E}[\operatorname{Var}(Y\mid X)]$ — প্রতিটি স্কুলের ভেতরে ছাত্রদের নম্বর কতটা ছড়ানো, সব স্কুলে গড়। স্কুল ঠিক করেও যে অনিশ্চয়তা থেকে যায় (একই স্কুলের ছাত্ররাও আলাদা)।
between-group $\operatorname{Var}(\mathbb{E}[Y\mid X])$ — স্কুল-গড় নম্বরগুলো পরস্পরের মধ্যে কতটা আলাদা। স্কুল জানলে যে অনিশ্চয়তা ব্যাখ্যা হয়ে যায়।

মোট spread (ছড়ানো) $\operatorname{Var}(Y) = $ within + between। between/total অনুপাতই বলে "স্কুল-পরিচয় নম্বরের কতটা তারতম্য ব্যাখ্যা করে" — এটিই ANOVA ও mixed model-এর মূল ভাবনা, এবং পরে regression-এ $R^2$।

Computational (গণনাভিত্তিক)¶

৭.৫ ★ — $2\times2$ joint PMF¶

ছক ($X,Y\in\{0,1\}$; row $=x$, col $=y$): $p(0,0)=0.4,\ p(0,1)=0.1,\ p(1,0)=0.2,\ p(1,1)=0.3$।

(ক) Marginal. $$ p_X(0)=0.4+0.1=0.5,\quad p_X(1)=0.2+0.3=0.5; \qquad p_Y(0)=0.4+0.2=0.6,\quad p_Y(1)=0.1+0.3=0.4. $$

(খ) Independence? $p(0,0)=0.4$ কিন্তু $p_X(0)\,p_Y(0)=0.5\times0.6=0.30 \ne 0.40$। অমিল $\Rightarrow$ dependent।

(গ) Conditional. $$ p_{Y\mid X}(1\mid 1)=\frac{p(1,1)}{p_X(1)}=\frac{0.3}{0.5}=0.6. $$

৭.৬ ★★ — উপরের ছকের covariance ও correlation¶

$$ \mathbb{E}[X]=0\cdot0.5+1\cdot0.5=0.5,\qquad \mathbb{E}[Y]=0\cdot0.6+1\cdot0.4=0.4. $$ $\mathbb{E}[XY]$: শুধু $(1,1)$ ঘর অবদান রাখে, $\mathbb{E}[XY]=1\cdot1\cdot0.3=0.3$। তাই $$ \operatorname{Cov}(X,Y)=0.3-(0.5)(0.4)=0.3-0.20=0.10>0. $$ variance: $\operatorname{Var}(X)=\mathbb{E}[X^2]-\mu_X^2=0.5-0.25=0.25$ (যেহেতু $X\in\{0,1\}$, $\mathbb{E}[X^2]=\mathbb{E}[X]$); $\operatorname{Var}(Y)=0.4-0.16=0.24$। তাই $$ \rho_{X,Y}=\frac{0.10}{\sqrt{0.25\times0.24}}=\frac{0.10}{\sqrt{0.06}}=\frac{0.10}{0.2449}\approx 0.408. $$ ধনাত্মক, মাঝারি সম্পর্ক।

৭.৭ ★★ — bivariate Normal conditional¶

$\mu_X=\mu_Y=0,\ \sigma_X=2,\ \sigma_Y=3,\ \rho=-0.5$।

(ক) §২.৭-এর সূত্রে: $$ \mathbb{E}[Y\mid X=4]=\mu_Y+\rho\,\frac{\sigma_Y}{\sigma_X}(4-\mu_X)=0+(-0.5)\cdot\frac{3}{2}\cdot 4=-3.0, $$ $$ \operatorname{Var}(Y\mid X=4)=\sigma_Y^2(1-\rho^2)=9\,(1-0.25)=9\times0.75=6.75 \quad (\text{sd}=\sqrt{6.75}\approx 2.598). $$ ($X=4$ মানে $X$ তার গড়ের ২ standard-deviation উপরে; ঋণাত্মক $\rho$-তে $Y$-এর গড় নিচে নেমে $-3$।)

(খ) covariance matrix: $$ \Sigma=\begin{bmatrix}\sigma_X^2 & \rho\sigma_X\sigma_Y\ \rho\sigma_X\sigma_Y & \sigma_Y^2\end{bmatrix} =\begin{bmatrix}4 & -3\ -3 & 9\end{bmatrix}, \qquad \rho\sigma_X\sigma_Y=(-0.5)(2)(3)=-3. $$

৭.৮ ★★ — $Y=3X+Z$ (linear model)¶

$X\sim\mathcal N(0,1)$, $Z\sim\mathcal N(0,4)$, $Z\perp X$।

$$ \operatorname{Var}(Y)=\operatorname{Var}(3X+Z)=9\operatorname{Var}(X)+\operatorname{Var}(Z)=9\cdot1+4=13 $$ (cross-term $2\cdot3\operatorname{Cov}(X,Z)=0$, কারণ independent — §৪.২)। $$ \operatorname{Cov}(X,Y)=\operatorname{Cov}(X,\,3X+Z)=3\operatorname{Cov}(X,X)+\operatorname{Cov}(X,Z)=3\operatorname{Var}(X)+0=3. $$ $$ \rho_{X,Y}=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{3}{\sqrt{1}\cdot\sqrt{13}}=\frac{3}{\sqrt{13}}\approx 0.832. $$ (এই $Y=3X+Z$ গঠনটিই Part V-এর regression model — signal $3X$ + noise $Z$।)

Proof-based (প্রমাণভিত্তিক)¶

৭.৯ ★★ — covariance প্রথম argument-এ linear¶

দাবি: $\operatorname{Cov}(aX+bY,\ Z)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z)$।

প্রমাণ. shortcut সূত্র (§৪.১) ও linearity of expectation ব্যবহার করি। ধরা যাক $\mu_X=\mathbb{E}[X]$ ইত্যাদি; $\mathbb{E}[aX+bY]=a\mu_X+b\mu_Y$। তাহলে $$ \operatorname{Cov}(aX+bY,\,Z)=\mathbb{E}\big[(aX+bY)Z\big]-\mathbb{E}[aX+bY]\,\mathbb{E}[Z]. $$ প্রথম পদ: $\mathbb{E}[aXZ+bYZ]=a\mathbb{E}[XZ]+b\mathbb{E}[YZ]$। দ্বিতীয় পদ: $(a\mu_X+b\mu_Y)\mu_Z=a\mu_X\mu_Z+b\mu_Y\mu_Z$। বিয়োগ করে $a, b$ অনুসারে দলবদ্ধ করি: $$ =a\big(\mathbb{E}[XZ]-\mu_X\mu_Z\big)+b\big(\mathbb{E}[YZ]-\mu_Y\mu_Z\big)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z). \qquad\blacksquare $$ (symmetry-তে দ্বিতীয় argument-এও linear; অর্থাৎ covariance bilinear — §৪.২-এর variance-of-sum প্রমাণের ভিত্তি।)

৭.১০ ★★★ — independent হলে $\operatorname{Var}(XY)$¶

দাবি: $X\perp Y$ হলে $\operatorname{Var}(XY)=\mathbb{E}[X^2]\mathbb{E}[Y^2]-\big(\mathbb{E}[X]\big)^2\big(\mathbb{E}[Y]\big)^2$।

প্রমাণ. variance-এর shortcut: $\operatorname{Var}(XY)=\mathbb{E}[(XY)^2]-\big(\mathbb{E}[XY]\big)^2=\mathbb{E}[X^2Y^2]-\big(\mathbb{E}[XY]\big)^2$।

independence-এর মূল ধর্ম: যেকোনো function $g, h$-এর জন্য $\mathbb{E}[g(X)h(Y)]=\mathbb{E}[g(X)]\,\mathbb{E}[h(Y)]$ (joint factorize করে: $\iint g(x)h(y)f_X(x)f_Y(y)\,dx\,dy=(\int g f_X)(\int h f_Y)$)। প্রয়োগ করি দুবার: $$ \mathbb{E}[X^2Y^2]=\mathbb{E}[X^2]\,\mathbb{E}[Y^2], \qquad \mathbb{E}[XY]=\mathbb{E}[X]\,\mathbb{E}[Y]. $$ প্রতিস্থাপন করে: $$ \operatorname{Var}(XY)=\mathbb{E}[X^2]\mathbb{E}[Y^2]-\big(\mathbb{E}[X]\mathbb{E}[Y]\big)^2=\mathbb{E}[X^2]\mathbb{E}[Y^2]-\big(\mathbb{E}[X]\big)^2\big(\mathbb{E}[Y]\big)^2. \qquad\blacksquare $$ সংখ্যায় যাচাই ($X,Y\sim\text{Bernoulli}(0.5)$ independent): $\mathbb{E}[X^2]=\mathbb{E}[Y^2]=0.5$, $\mathbb{E}[X]=\mathbb{E}[Y]=0.5$, সূত্র $=0.5\cdot0.5-0.25\cdot0.25=0.25-0.0625=0.1875$; ২০ লক্ষ simulation-এ empirical $\operatorname{Var}(XY)\approx 0.1874$ ✓।

Coding (Python)¶

৭.১১ ★★ — empirical বনাম theoretical correlation¶

import numpy as np
from scipy.stats import multivariate_normal

rng = np.random.default_rng(2606)
for rho in [0.0, 0.3, 0.6, 0.9]:
    Sigma = np.array([[1.0, rho], [rho, 1.0]])
    s = multivariate_normal(mean=[0, 0], cov=Sigma).rvs(size=500_000,
                                                        random_state=rng)
    emp = np.corrcoef(s.T)[0, 1]
    print(f"theoretical rho={rho:.1f}   empirical={emp:.4f}   |diff|={abs(emp-rho):.4f}")

প্রত্যাশিত আউটপুট (seed 2606, প্রতিটি $\lvert\text{diff}\rvert \lesssim 0.002$):

theoretical rho=0.0   empirical=-0.0012  |diff|=0.0012
theoretical rho=0.3   empirical= 0.3017  |diff|=0.0017
theoretical rho=0.6   empirical= 0.5993  |diff|=0.0007
theoretical rho=0.9   empirical= 0.9000  |diff|=0.0000

বড় sample size-এ empirical correlation theoretical $\rho$-তে স্থির হয় (LLN, Part III)।

৭.১২ ★★★ — uncorrelated কিন্তু dependent (ফাঁদ চাক্ষুষ)¶

import matplotlib
matplotlib.use("Agg")
import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(2606)
n = 200_000
X = rng.standard_normal(n)
eps = rng.standard_normal(n)
Y = X**2 + 0.3 * eps                       # নিখুঁত প্যারাবোলিক নির্ভরতা + সামান্য noise

cov = np.cov(X, Y)[0, 1]
corr = np.corrcoef(X, Y)[0, 1]
print(f"empirical Cov(X,Y)={cov:.4f}   Corr={corr:.4f}")
# Cov ≈ 0.00,  Corr ≈ 0.00  → রৈখিকভাবে uncorrelated

# কিন্তু scatter স্পষ্ট নির্ভরতা দেখায়
idx = rng.choice(n, 4000, replace=False)
plt.figure(figsize=(6, 5))
plt.scatter(X[idx], Y[idx], s=5, alpha=0.3, color="#333333")
plt.xlabel("X"); plt.ylabel("Y = X^2 + noise")
plt.title(f"Uncorrelated (corr={corr:.3f}) but clearly dependent")
plt.tight_layout()
plt.savefig("/tmp/2-6-ex-7-12.png", dpi=150)   # ঐচ্ছিক
print("X জানলে Y সম্পর্কে অনেক কিছু জানা যায় (প্যারাবোলা),")
print("অথচ রৈখিক correlation প্রায় শূন্য — §৩.৩-এর ফাঁদ।")

ব্যাখ্যা: $\mathbb{E}[X]=0,\ \mathbb{E}[X^3]=0$ হওয়ায় $\operatorname{Cov}(X,X^2)=\mathbb{E}[X^3]=0$, তাই $\operatorname{Cov}(X,Y)\approx 0$। কিন্তু scatter-এ স্পষ্ট প্যারাবোলা — $X$ জানলে $Y$ সম্পর্কে প্রচুর তথ্য মেলে। correlation $=0$ কখনোই independence-এর প্রমাণ নয় — কেবল রৈখিক সম্পর্কের অ