Skip to content

সমাধান — অধ্যায় ২.৬ · Joint, Marginal & Conditional Distributions; Covariance

অধ্যায় part-2-probability-foundations/02-06-joint-distributions-covariance.md-এর section ৭-এর সব অনুশীলনীর পূর্ণ সমাধান। সব সংখ্যাগত ফল NumPy/SciPy দিয়ে যাচাই করা হয়েছে।


Conceptual (ধারণাভিত্তিক)

৭.১ ★ — joint, marginal, conditional-এর সম্পর্ক

joint থেকে সব পাওয়া যায়: marginal = joint-কে এক variable-এর ওপর যোগ/integrate করে; conditional = joint-কে marginal দিয়ে ভাগ করে (\(f_{Y\mid X} = f_{X,Y}/f_X\))। কিন্তু marginal থেকে joint ফিরে পাওয়া যায় না — কারণ marginal-গুলো শুধু "ছায়া", তারা variable-দের মধ্যকার নির্ভরতার (covariance/correlation) তথ্য হারিয়ে ফেলে। একই দুটি marginal-এর বহু ভিন্ন joint সম্ভব (§৬ Figure 4: একই standard-Normal marginal, অথচ \(\rho=0\)\(\rho=0.85\) — দুই ভিন্ন joint)। তবে যদি independence ধরে নেওয়া হয়, তবে \(f_{X,Y} = f_X f_Y\) — কেবল তখনই marginal থেকে joint নির্ধারিত।

৭.২ ★ — "Cov = 0 ⇒ independent" সত্য না মিথ্যা?

মিথ্যা (সাধারণভাবে)। covariance শুধু linear (রৈখিক) সম্পর্ক মাপে; nonlinear (অরৈখিক) নির্ভরতা থাকলেও তা শূন্য হতে পারে। প্রতি-উদাহরণ (§৩.৩): \(X\) একটি symmetric distribution থেকে (\(\mathbb{E}[X]=0,\ \mathbb{E}[X^3]=0\)), \(Y=X^2\)। তখন $$ \operatorname{Cov}(X,Y)=\mathbb{E}[X\cdot X^2]-\mathbb{E}[X]\mathbb{E}[X^2]=\mathbb{E}[X^3]-0=0, $$ অথচ \(Y\) সম্পূর্ণভাবে \(X\)-নির্ধারিত — চূড়ান্ত dependent। (উল্টোমুখ সত্য: independent \(\Rightarrow\) Cov \(=0\), §৪.১। আর ব্যতিক্রম: bivariate Normal-এ Cov \(=0 \Rightarrow\) independent।)

৭.৩ ★★ — correlation কেন একক-মুক্ত ও আবদ্ধ

covariance-এর একক \(X\)\(Y\)-এর এককের গুণফল (যেমন cm·kg); তাই scale বদলালে (\(X\to aX\)) covariance-ও \(a\) গুণে বদলায় — মানটি স্কেল-নির্ভর, তুলনা অর্থহীন। correlation \(\rho = \operatorname{Cov}(X,Y)/(\sigma_X\sigma_Y)\)-এ লব ও হর একই এককে (cm·kg), তাই ভাগফল মাত্রাহীন; আর Cauchy–Schwarz inequality দেয় \(\lvert\operatorname{Cov}(X,Y)\rvert \le \sigma_X\sigma_Y\), ফলে \(\rho\in[-1,1]\)

এই দুই বৈশিষ্ট্যে correlation তুলনাযোগ্য: "উচ্চতা-ওজনের সম্পর্ক (\(\rho=0.7\)) আয়-ব্যয়ের সম্পর্কের (\(\rho=0.4\)) চেয়ে শক্ত" — এমন বাক্য covariance দিয়ে বলা যায় না (একক ভিন্ন), correlation দিয়ে যায়। তাই EDA, feature selection, heatmap সবখানে correlation-ই ব্যবহৃত হয়।

৭.৪ ★★ — total variance-এর দুই পদ বাস্তব উদাহরণে

ধরা যাক বহু স্কুলের ছাত্রদের পরীক্ষার নম্বর \(Y\), আর \(X=\) ছাত্রটি কোন স্কুলের।

  • within-group \(\mathbb{E}[\operatorname{Var}(Y\mid X)]\) — প্রতিটি স্কুলের ভেতরে ছাত্রদের নম্বর কতটা ছড়ানো, সব স্কুলে গড়। স্কুল ঠিক করেও যে অনিশ্চয়তা থেকে যায় (একই স্কুলের ছাত্ররাও আলাদা)।
  • between-group \(\operatorname{Var}(\mathbb{E}[Y\mid X])\) — স্কুল-গড় নম্বরগুলো পরস্পরের মধ্যে কতটা আলাদা। স্কুল জানলে যে অনিশ্চয়তা ব্যাখ্যা হয়ে যায়।

মোট spread (ছড়ানো) $\operatorname{Var}(Y) = $ within + between। between/total অনুপাতই বলে "স্কুল-পরিচয় নম্বরের কতটা তারতম্য ব্যাখ্যা করে" — এটিই ANOVA ও mixed model-এর মূল ভাবনা, এবং পরে regression-এ \(R^2\)


Computational (গণনাভিত্তিক)

৭.৫ ★ — \(2\times2\) joint PMF

ছক (\(X,Y\in\{0,1\}\); row \(=x\), col \(=y\)): \(p(0,0)=0.4,\ p(0,1)=0.1,\ p(1,0)=0.2,\ p(1,1)=0.3\)

(ক) Marginal. $$ p_X(0)=0.4+0.1=0.5,\quad p_X(1)=0.2+0.3=0.5; \qquad p_Y(0)=0.4+0.2=0.6,\quad p_Y(1)=0.1+0.3=0.4. $$

(খ) Independence? \(p(0,0)=0.4\) কিন্তু \(p_X(0)\,p_Y(0)=0.5\times0.6=0.30 \ne 0.40\)। অমিল \(\Rightarrow\) dependent

(গ) Conditional. $$ p_{Y\mid X}(1\mid 1)=\frac{p(1,1)}{p_X(1)}=\frac{0.3}{0.5}=0.6. $$

৭.৬ ★★ — উপরের ছকের covariance ও correlation

$$ \mathbb{E}[X]=0\cdot0.5+1\cdot0.5=0.5,\qquad \mathbb{E}[Y]=0\cdot0.6+1\cdot0.4=0.4. $$ \(\mathbb{E}[XY]\): শুধু \((1,1)\) ঘর অবদান রাখে, \(\mathbb{E}[XY]=1\cdot1\cdot0.3=0.3\)। তাই $$ \operatorname{Cov}(X,Y)=0.3-(0.5)(0.4)=0.3-0.20=0.10>0. $$ variance: \(\operatorname{Var}(X)=\mathbb{E}[X^2]-\mu_X^2=0.5-0.25=0.25\) (যেহেতু \(X\in\{0,1\}\), \(\mathbb{E}[X^2]=\mathbb{E}[X]\)); \(\operatorname{Var}(Y)=0.4-0.16=0.24\)। তাই $$ \rho_{X,Y}=\frac{0.10}{\sqrt{0.25\times0.24}}=\frac{0.10}{\sqrt{0.06}}=\frac{0.10}{0.2449}\approx 0.408. $$ ধনাত্মক, মাঝারি সম্পর্ক।

৭.৭ ★★ — bivariate Normal conditional

\(\mu_X=\mu_Y=0,\ \sigma_X=2,\ \sigma_Y=3,\ \rho=-0.5\)

(ক) §২.৭-এর সূত্রে: $$ \mathbb{E}[Y\mid X=4]=\mu_Y+\rho\,\frac{\sigma_Y}{\sigma_X}(4-\mu_X)=0+(-0.5)\cdot\frac{3}{2}\cdot 4=-3.0, $$ $$ \operatorname{Var}(Y\mid X=4)=\sigma_Y^2(1-\rho^2)=9\,(1-0.25)=9\times0.75=6.75 \quad (\text{sd}=\sqrt{6.75}\approx 2.598). $$ (\(X=4\) মানে \(X\) তার গড়ের ২ standard-deviation উপরে; ঋণাত্মক \(\rho\)-তে \(Y\)-এর গড় নিচে নেমে \(-3\)।)

(খ) covariance matrix: $$ \Sigma=\begin{bmatrix}\sigma_X^2 & \rho\sigma_X\sigma_Y\ \rho\sigma_X\sigma_Y & \sigma_Y^2\end{bmatrix} =\begin{bmatrix}4 & -3\ -3 & 9\end{bmatrix}, \qquad \rho\sigma_X\sigma_Y=(-0.5)(2)(3)=-3. $$

৭.৮ ★★ — \(Y=3X+Z\) (linear model)

\(X\sim\mathcal N(0,1)\), \(Z\sim\mathcal N(0,4)\), \(Z\perp X\)

$$ \operatorname{Var}(Y)=\operatorname{Var}(3X+Z)=9\operatorname{Var}(X)+\operatorname{Var}(Z)=9\cdot1+4=13 $$ (cross-term \(2\cdot3\operatorname{Cov}(X,Z)=0\), কারণ independent — §৪.২)। $$ \operatorname{Cov}(X,Y)=\operatorname{Cov}(X,\,3X+Z)=3\operatorname{Cov}(X,X)+\operatorname{Cov}(X,Z)=3\operatorname{Var}(X)+0=3. $$ $$ \rho_{X,Y}=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{3}{\sqrt{1}\cdot\sqrt{13}}=\frac{3}{\sqrt{13}}\approx 0.832. $$ (এই \(Y=3X+Z\) গঠনটিই Part V-এর regression model — signal \(3X\) + noise \(Z\)।)


Proof-based (প্রমাণভিত্তিক)

৭.৯ ★★ — covariance প্রথম argument-এ linear

দাবি: \(\operatorname{Cov}(aX+bY,\ Z)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z)\)

প্রমাণ. shortcut সূত্র (§৪.১) ও linearity of expectation ব্যবহার করি। ধরা যাক \(\mu_X=\mathbb{E}[X]\) ইত্যাদি; \(\mathbb{E}[aX+bY]=a\mu_X+b\mu_Y\)। তাহলে $$ \operatorname{Cov}(aX+bY,\,Z)=\mathbb{E}\big[(aX+bY)Z\big]-\mathbb{E}[aX+bY]\,\mathbb{E}[Z]. $$ প্রথম পদ: \(\mathbb{E}[aXZ+bYZ]=a\mathbb{E}[XZ]+b\mathbb{E}[YZ]\)। দ্বিতীয় পদ: \((a\mu_X+b\mu_Y)\mu_Z=a\mu_X\mu_Z+b\mu_Y\mu_Z\)। বিয়োগ করে \(a, b\) অনুসারে দলবদ্ধ করি: $$ =a\big(\mathbb{E}[XZ]-\mu_X\mu_Z\big)+b\big(\mathbb{E}[YZ]-\mu_Y\mu_Z\big)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z). \qquad\blacksquare $$ (symmetry-তে দ্বিতীয় argument-এও linear; অর্থাৎ covariance bilinear — §৪.২-এর variance-of-sum প্রমাণের ভিত্তি।)

৭.১০ ★★★ — independent হলে \(\operatorname{Var}(XY)\)

দাবি: \(X\perp Y\) হলে \(\operatorname{Var}(XY)=\mathbb{E}[X^2]\mathbb{E}[Y^2]-\big(\mathbb{E}[X]\big)^2\big(\mathbb{E}[Y]\big)^2\)

প্রমাণ. variance-এর shortcut: \(\operatorname{Var}(XY)=\mathbb{E}[(XY)^2]-\big(\mathbb{E}[XY]\big)^2=\mathbb{E}[X^2Y^2]-\big(\mathbb{E}[XY]\big)^2\)

independence-এর মূল ধর্ম: যেকোনো function \(g, h\)-এর জন্য \(\mathbb{E}[g(X)h(Y)]=\mathbb{E}[g(X)]\,\mathbb{E}[h(Y)]\) (joint factorize করে: \(\iint g(x)h(y)f_X(x)f_Y(y)\,dx\,dy=(\int g f_X)(\int h f_Y)\))। প্রয়োগ করি দুবার: $$ \mathbb{E}[X^2Y^2]=\mathbb{E}[X^2]\,\mathbb{E}[Y^2], \qquad \mathbb{E}[XY]=\mathbb{E}[X]\,\mathbb{E}[Y]. $$ প্রতিস্থাপন করে: $$ \operatorname{Var}(XY)=\mathbb{E}[X^2]\mathbb{E}[Y^2]-\big(\mathbb{E}[X]\mathbb{E}[Y]\big)^2=\mathbb{E}[X^2]\mathbb{E}[Y^2]-\big(\mathbb{E}[X]\big)^2\big(\mathbb{E}[Y]\big)^2. \qquad\blacksquare $$ সংখ্যায় যাচাই (\(X,Y\sim\text{Bernoulli}(0.5)\) independent): \(\mathbb{E}[X^2]=\mathbb{E}[Y^2]=0.5\), \(\mathbb{E}[X]=\mathbb{E}[Y]=0.5\), সূত্র \(=0.5\cdot0.5-0.25\cdot0.25=0.25-0.0625=0.1875\); ২০ লক্ষ simulation-এ empirical \(\operatorname{Var}(XY)\approx 0.1874\) ✓।


Coding (Python)

৭.১১ ★★ — empirical বনাম theoretical correlation

import numpy as np
from scipy.stats import multivariate_normal

rng = np.random.default_rng(2606)
for rho in [0.0, 0.3, 0.6, 0.9]:
    Sigma = np.array([[1.0, rho], [rho, 1.0]])
    s = multivariate_normal(mean=[0, 0], cov=Sigma).rvs(size=500_000,
                                                        random_state=rng)
    emp = np.corrcoef(s.T)[0, 1]
    print(f"theoretical rho={rho:.1f}   empirical={emp:.4f}   |diff|={abs(emp-rho):.4f}")

প্রত্যাশিত আউটপুট (seed 2606, প্রতিটি \(\lvert\text{diff}\rvert \lesssim 0.002\)):

theoretical rho=0.0   empirical=-0.0012  |diff|=0.0012
theoretical rho=0.3   empirical= 0.3017  |diff|=0.0017
theoretical rho=0.6   empirical= 0.5993  |diff|=0.0007
theoretical rho=0.9   empirical= 0.9000  |diff|=0.0000
বড় sample size-এ empirical correlation theoretical \(\rho\)-তে স্থির হয় (LLN, Part III)।

৭.১২ ★★★ — uncorrelated কিন্তু dependent (ফাঁদ চাক্ষুষ)

import matplotlib
matplotlib.use("Agg")
import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(2606)
n = 200_000
X = rng.standard_normal(n)
eps = rng.standard_normal(n)
Y = X**2 + 0.3 * eps                       # নিখুঁত প্যারাবোলিক নির্ভরতা + সামান্য noise

cov = np.cov(X, Y)[0, 1]
corr = np.corrcoef(X, Y)[0, 1]
print(f"empirical Cov(X,Y)={cov:.4f}   Corr={corr:.4f}")
# Cov ≈ 0.00,  Corr ≈ 0.00  → রৈখিকভাবে uncorrelated

# কিন্তু scatter স্পষ্ট নির্ভরতা দেখায়
idx = rng.choice(n, 4000, replace=False)
plt.figure(figsize=(6, 5))
plt.scatter(X[idx], Y[idx], s=5, alpha=0.3, color="#333333")
plt.xlabel("X"); plt.ylabel("Y = X^2 + noise")
plt.title(f"Uncorrelated (corr={corr:.3f}) but clearly dependent")
plt.tight_layout()
plt.savefig("/tmp/2-6-ex-7-12.png", dpi=150)   # ঐচ্ছিক
print("X জানলে Y সম্পর্কে অনেক কিছু জানা যায় (প্যারাবোলা),")
print("অথচ রৈখিক correlation প্রায় শূন্য — §৩.৩-এর ফাঁদ।")

ব্যাখ্যা: \(\mathbb{E}[X]=0,\ \mathbb{E}[X^3]=0\) হওয়ায় \(\operatorname{Cov}(X,X^2)=\mathbb{E}[X^3]=0\), তাই \(\operatorname{Cov}(X,Y)\approx 0\)। কিন্তু scatter-এ স্পষ্ট প্যারাবোলা — \(X\) জানলে \(Y\) সম্পর্কে প্রচুর তথ্য মেলে। correlation \(=0\) কখনোই independence-এর প্রমাণ নয় — কেবল রৈখিক সম্পর্কের অ