সমাধান — অধ্যায় ৭.৭ · Conditional Expectation¶

অধ্যায় ফাইল: part-7-measure-theoretic/07-07-conditional-expectation.md (§৭ অনুশীলনী)। গোটা অংশে $(\Omega,\mathcal F,\mathbb P)$ একটি probability space; random variable = measurable $X:\Omega\to\mathbb R$ (7.3), $\mathbb E[X]=\int_\Omega X\,d\mathbb P$ (7.4), $X\in L^1\iff\mathbb E\lvert X\rvert<\infty$, $X\in L^2\iff\mathbb E[X^2]<\infty$। $\mathcal G\subseteq\mathcal F$ sub-σ-algebra; $\mathbb E[X\mid\mathcal G]$ = a.s.-অনন্য $\mathcal G$-measurable $Z$ যাতে $\int_G Z\,d\mathbb P=\int_G X\,d\mathbb P\ \forall G\in\mathcal G$। $\mathbb E[X\mid Y]:=\mathbb E[X\mid\sigma(Y)]=g(Y)$ (Doob–Dynkin), $\mathbb P(A\mid\mathcal G):=\mathbb E[\mathbf 1_A\mid\mathcal G]$।

canonical তথ্য (সংখ্যাগত উত্তর reproducible, seed np.random.default_rng(20260619)): - পাশা $\mathcal G=\sigma(\text{even/odd})$: $\mathbb E[X\mid\mathcal G]=4$ (জোড়), $3$ (বিজোড়); tower $\mathbb E[\mathbb E[X\mid\mathcal G]]=4\cdot\tfrac12+3\cdot\tfrac12=3.5=\mathbb E[X]$। - bivariate normal $\rho=0.6$: $\mathbb E[X\mid Y=y]=\rho y=0.6y$ (ঢাল $0.6$, intercept $0$), $\operatorname{Var}(X\mid Y)=1-\rho^2=0.64$ ($y$-নিরপেক্ষ)। - best $L^2$ predictor: regression-MSE $\approx 1-\rho^2=0.64$ (MC $0.6410$) বনাম সেরা-ধ্রুব-MSE $\approx\operatorname{Var}(X)=1$ (MC $1.0017$); লাভ $=\rho^2=0.36$। - law of total variance: $\operatorname{Var}(X)=1=0.64+0.36=\mathbb E[\operatorname{Var}(X\mid Y)]+\operatorname{Var}(\mathbb E[X\mid Y])$; ব্যাখ্যাকৃত ভগ্নাংশ $0.36=\rho^2=R^2$। - MC slope $\approx0.6008$, $\mathbb E[X\mid Y\approx1]\approx0.6014$, $\operatorname{Var}(X\mid Y\approx1)\approx0.64$; seed 20260619।

ক · ধারণাগত (conceptual)¶

সমাধান ১ (★)¶

(ক) কেন random variable। সংজ্ঞার প্রথম শর্ত $\mathbb E[X\mid\mathcal G]$-কে $\mathcal G$-measurable হতে বাধ্য করে — অর্থাৎ তার মান কেবল "$\mathcal G$ $\omega$-কে কোন atom/স্লাইসে রেখেছে" তার উপর নির্ভর করে। কিন্তু $\omega$ নিজে দৈব, তাই "কোন atom"-ও দৈব, তাই $\mathbb E[X\mid\mathcal G](\omega)$ একটি $\omega$-এর function = random variable, নিছক একটি সংখ্যা নয়। ছবি: finite partition-এ এটি একটি ধাপ-অপেক্ষক (step function) — প্রতিটি atom-এ ভিন্ন ধ্রুবক (= atom-গড়); $\omega$ যে atom-এ পড়ে সেই ধ্রুবক ফেরে। বিপরীতে 2.2-এর $\mathbb E[X\mid Y=y]$ একটি স্থির $y$-এ একটি সংখ্যা — সেটি random variable $\mathbb E[X\mid Y]$-এর "$Y=y$"-মান মাত্র।

(খ) দুই চরমে অধঃপতন। - $\mathcal G=\{\varnothing,\Omega\}$ (তুচ্ছ σ-algebra — কিছুই আলাদা করে না)। একমাত্র $\mathcal G$-measurable random variable হলো ধ্রুবক (কারণ $\{Z\le t\}$ কেবল $\varnothing$ বা $\Omega$ হতে পারে)। averaging-শর্ত $G=\Omega$-তে: $\int_\Omega Z=Z\cdot 1=\mathbb E[X]$, তাই $Z\equiv\mathbb E[X]$ — ধ্রুবক, প্রকৃত সংখ্যা। অর্থাৎ "কোনো তথ্য নেই" ⇒ সেরা অনুমান নিছক সামগ্রিক গড়। - $\mathcal G=\mathcal F$ (পূর্ণ তথ্য)। $X$ নিজেই $\mathcal F$-measurable ও averaging-শর্ত তুচ্ছভাবে মেটায় ($\int_G X=\int_G X$), তাই $\mathbb E[X\mid\mathcal F]=X$ a.s. — "সব জানি" ⇒ সেরা অনুমান স্বয়ং $X$।

দুই চরমের মাঝে যত $\mathcal G$ বাড়ে, $\mathbb E[X\mid\mathcal G]$ ধ্রুবক $\mathbb E[X]$ থেকে $X$-এর দিকে "সূক্ষ্মতর" হয়।

(গ) এক বাক্যে। $\mathbb E[X\mid Y=y]=:g(y)$ প্রতিটি স্থির $y$-এর একটি সংখ্যা, আর $\mathbb E[X\mid Y]=g(Y)$ সেই সংখ্যাগুলোকে দৈব $Y$-তে বসিয়ে পাওয়া random variable — তাই একটি ($g$) অন্যটির ($\omega\mapsto g(Y(\omega))$) "মান-তালিকা"।

সমাধান ২ (★)¶

(ক) দুই শর্ত। $X\in L^1$ হলে $Z=\mathbb E[X\mid\mathcal G]$ হলো এমন random variable যা— 1. measurability: $Z$ $\mathcal G$-measurable (অর্থাৎ $\{Z\in B\}\in\mathcal G$ সব Borel $B$-তে); 2. averaging/integral: $\displaystyle\int_G Z\,d\mathbb P=\int_G X\,d\mathbb P$ প্রতিটি $G\in\mathcal G$-তে।

(এবং এমন $Z$ a.s.-অনন্য, 7.4-এর "$\int_G(Z-Z')=0\ \forall G\Rightarrow Z=Z'$ a.s." যুক্তিতে।)

(খ) কেন একটি শর্ত যথেষ্ট নয়। - শুধু measurability: অসংখ্য $\mathcal G$-measurable random variable আছে — ধ্রুবক $0$, $\tfrac12$, এমনকি কোনো এলোমেলো $\mathcal G$-measurable function — যাদের কোনোটিই $X$-এর গড় ধরে না। measurability একা শুধু বলে "মান atom-ভেদে ধ্রুব", কোন ধ্রুবক তা বলে না। - শুধু averaging: measurability ছাড়া $X$ নিজেই $\int_G X=\int_G X$ মেটায়, কিন্তু $X$ সাধারণত $\mathcal G$-measurable নয় (সে $\mathcal G$-এর বাইরের তথ্যও বহন করে)। তাই averaging একা "সেরা অনুমান"-কে $\mathcal G$-তথ্যে সীমিত করে না।

দুটি একসঙ্গে: measurability মানকে atom-ভেদে ধ্রুব করে, averaging সেই ধ্রুবকগুলোকে প্রতিটি atom-এ $X$-এর গড়ে বেঁধে দেয় — ফলে $Z$ অনন্য (a.s.) ও ঠিক "জানা-তথ্যে সেরা অনুমান"।

(গ) এক বাক্যে। $G=\Omega$ একা শুধু মোট গড় $\mathbb E[Z]=\mathbb E[X]$ বাঁধে — যা ধ্রুবক $\mathbb E[X]$, এমনকি ভুল atom-বণ্টনওয়ালা অসংখ্য $Z$ মেটাতে পারে; "সব $G\in\mathcal G$" দাবি করলে তবেই প্রতিটি atom-এ আলাদা করে গড় মেলে, যা $Z$-কে atom-গড়ে অনন্যভাবে স্থির করে।

সমাধান ৩ (★★)¶

(ক) projection হিসেবে। $L^2$-এ $\mathbb E[(X-Z)^2]=\lVert X-Z\rVert_2^2$ ঠিক $X$ থেকে $Z$-এর দূরত্বের বর্গ। সব $\mathcal G$-measurable square-integrable $Z$-এর সংগ্রহ $L^2(\mathcal G)$ হলো $L^2(\mathcal F)$-এর একটি closed subspace (Riesz–Fischer-এ পূর্ণতা থেকে বদ্ধ)। 7.5-এর projection theorem বলে এমন closed subspace-এ $X$-এর অনন্য নিকটতম বিন্দু $\hat X$ আছে এবং residual $X-\hat X\perp L^2(\mathcal G)$ — অর্থাৎ $\mathbb E[(X-\hat X)Z]=0$ সব $Z\in L^2(\mathcal G)$-তে। $Z=\mathbf 1_G$ ($G\in\mathcal G$) নিলে এই orthogonality ঠিক $\mathbb E[(X-\hat X)\mathbf 1_G]=0$, অর্থাৎ $\int_G\hat X=\int_G X\ \forall G$ — যা averaging-শর্ত। তাই $\hat X=\mathbb E[X\mid\mathcal G]$: সেরা $L^2$ predictor = orthogonal projection = conditional expectation।

(খ) রৈখিকতা-অনুমান নেই। এখানে minimization সব $\mathcal G$-measurable $Z$-এর উপর — $\mathcal G=\sigma(Y)$ নিলে সব (এমনকি অত্যন্ত বক্র) function $g(Y)$ প্রতিযোগী, কোনো রৈখিক রূপ চাপানো হয়নি। তাই $\mathbb E[X\mid Y]$ হলো সর্বজনীন সেরা predictor। 5.1-এর linear regression কেবল প্রতিযোগী-সংগ্রহকে $\{a+bY\}$ (একটি ছোট উপ-subspace)-এ সীমিত করে — তাই সাধারণত $\mathbb E[X\mid Y]$-এর একটি আনুমান; কেবল যখন সত্যিকারের regression রৈখিক (যেমন bivariate normal-এ $\rho y$) তখনই দুটি মেলে।

(গ) এক বাক্যে। residual $X-\mathbb E[X\mid\mathcal G]$ প্রতিটি $\mathcal G$-measurable $Z$-এর সাথে orthogonal ($\mathbb E[(X-\mathbb E[X\mid\mathcal G])Z]=0$, averaging-শর্তের ফল), মানে error-এর সাথে জানা-তথ্যের কোনো correlation নেই — তাই $\mathcal G$-তথ্য থেকে $X$-এর আর কিছুই "নিংড়ে" নেওয়ার বাকি নেই, এটিই "সেরা" হওয়ার সমার্থক।

খ · গণনামূলক (computational)¶

সমাধান ৪ (★)¶

finite partition-এ নিয়ম: $\mathbb E[X\mid\mathcal G]$ প্রতিটি atom-এ ধ্রুব, আর ধ্রুবক = atom-এ $X$-এর (ভর-ওজনিত) গড়।

(ক) সমভর atom — পাশা, even/odd।

(i) সমভর ($\mathbb P=\tfrac16$) বলে ভর-গড় = সরল গড়: $$ \mathbb E[X\mid\mathcal G]=\frac{2+4+6}{3}=4\ \text{(জোড়ে)},\qquad \frac{1+3+5}{3}=3\ \text{(বিজোড়ে)}. $$ (averaging-যাচাই: $\int_{\{2,4,6\}}\mathbb E[X\mid\mathcal G]=4\cdot\tfrac12=2=\tfrac{2+4+6}{6}=\int_{\{2,4,6\}}X$ ✓।)

(ii) tower: $\mathbb E[X\mid\mathcal G]$ মান $4$ (সম্ভাবনা $\tfrac12$) ও $3$ (সম্ভাবনা $\tfrac12$), তাই $$ \mathbb E\big[\mathbb E[X\mid\mathcal G]\big]=4\cdot\tfrac12+3\cdot\tfrac12=2+1.5=3.5=\mathbb E[X].\quad\checkmark $$

(খ) অসমভর atom — discrete joint pmf। প্রথমে marginal: $$ \mathbb P(Y=a)=0.10+0.30+0.10=0.50,\qquad \mathbb P(Y=b)=0.20+0.05+0.25=0.50. $$ conditional pmf $\mathbb P(X=x\mid Y=y)=\mathbb P(X=x,Y=y)/\mathbb P(Y=y)$ দিয়ে atom-গড়:

(i) $Y=a$-তে: $$ \mathbb E[X\mid Y=a]=\frac{0\cdot0.10+1\cdot0.30+2\cdot0.10}{0.50}=\frac{0+0.30+0.20}{0.50}=\frac{0.50}{0.50}=1.0 . $$ $Y=b$-তে: $$ \mathbb E[X\mid Y=b]=\frac{0\cdot0.20+1\cdot0.05+2\cdot0.25}{0.50}=\frac{0+0.05+0.50}{0.50}=\frac{0.55}{0.50}=1.1 . $$ তাই $\mathbb E[X\mid Y]$ মান $1.0$ ($Y=a$-তে) ও $1.1$ ($Y=b$-তে)।

(ii) tower: ওজন $\mathbb P(Y=a)=\mathbb P(Y=b)=0.5$ দিয়ে $$ \mathbb E\big[\mathbb E[X\mid Y]\big]=1.0\cdot0.5+1.1\cdot0.5=0.5+0.55=1.05 . $$ সরাসরি $\mathbb E[X]$: marginal $\mathbb P(X=0)=0.30,\ \mathbb P(X=1)=0.35,\ \mathbb P(X=2)=0.35$, তাই $\mathbb E[X]=0\cdot0.30+1\cdot0.35+2\cdot0.35=0.35+0.70=1.05$। দুই পাশ $1.05$-তে মিলল ✓ — tower ধরল।

সমাধান ৫ (★★)¶

standard bivariate normal $(X,Y)$, $\rho=0.6$, বিভাজন $X=\rho Y+\sqrt{1-\rho^2}\,Z$, $Z\sim N(0,1)$, $Z\perp Y$।

(ক) $\mathbb E[X\mid Y=y]$। $Y=y$ স্থির ধরে প্রত্যাশা নিই। $\rho Y$ অংশ $Y$-measurable (pull-out-এ অপরিবর্তিত), আর $Z\perp Y$ বলে independence rule $\mathbb E[Z\mid Y=y]=\mathbb E[Z]=0$: $$ \mathbb E[X\mid Y=y]=\rho y+\sqrt{1-\rho^2}\cdot\underbrace{\mathbb E[Z\mid Y=y]}_{=0}=\rho y=\boxed{0.6\,y}. $$ এটি $y$-এর একটি সরলরেখা: ঢাল $\rho=0.6$, intercept $0$।

(খ) $\operatorname{Var}(X\mid Y=y)$। $Y=y$ স্থির হলে $X-\rho y=\sqrt{1-\rho^2}\,Z$, তাই $$ \operatorname{Var}(X\mid Y=y)=(1-\rho^2)\operatorname{Var}(Z)=1-\rho^2=1-0.36=\boxed{0.64}. $$ এটি $y$-নিরপেক্ষ (homoscedastic, সমভেদ) — কারণ অবশিষ্ট noise-পদ $\sqrt{1-\rho^2}\,Z$ পুরোপুরি $Y$-স্বাধীন, তাই কোন $y$-স্লাইসেই ছড়ানো বদলায় না। $1-\rho^2=0.64$ মানে: $Y$ জানার পরও $X$-এর মূল ভেদ $1$-এর $64\%$ অনিশ্চয়তা থাকে।

(গ) এক বাক্যে। রেখা $\mathbb E[X\mid Y=y]=\rho y$ ঠিক 5.1-এর population regression line ($\hat\beta=\operatorname{Cov}(X,Y)/\operatorname{Var}(Y)=\rho/1=\rho$, intercept $0$) — অর্থাৎ "conditional expectation (শর্তাধীন প্রত্যাশা) = regression function" এখানে হুবহু সংখ্যায় ($0.6y$) ধরা পড়ে।

সমাধান ৬ (★★)¶

একই $\rho=0.6$ bivariate normal; law of total variance $\operatorname{Var}(X)=\mathbb E[\operatorname{Var}(X\mid Y)]+\operatorname{Var}(\mathbb E[X\mid Y])$।

(ক) দুই পদ কষা। সমাধান ৫ থেকে $\operatorname{Var}(X\mid Y=y)=1-\rho^2=0.64$ (ধ্রুব) ও $\mathbb E[X\mid Y]=\rho Y$। তাই— $$ \underbrace{\mathbb E\big[\operatorname{Var}(X\mid Y)\big]}{\text{unexplained / within}}=\mathbb E[1-\rho^2]=1-\rho^2=0.64, $$ $$ \underbrace{\operatorname{Var}\big(\mathbb E[X\mid Y]\big)}(Y)=\rho^2\cdot 1=0.36 . $$}}=\operatorname{Var}(\rho Y)=\rho^2\operatorname{Var

(খ) যোগ যাচাই। $$ \mathbb E[\operatorname{Var}(X\mid Y)]+\operatorname{Var}(\mathbb E[X\mid Y])=0.64+0.36=1=\operatorname{Var}(X).\quad\checkmark $$ (কারণ standard bivariate normal-এ marginal $\operatorname{Var}(X)=1$।)

(গ) ব্যাখ্যাকৃত ভগ্নাংশ। $$ \frac{\operatorname{Var}(\mathbb E[X\mid Y])}{\operatorname{Var}(X)}=\frac{0.36}{1}=0.36=\rho^2 . $$ এটি ঠিক regression-এর $R^2$ — "$Y$ মোট ভেদের কত ভগ্নাংশ ব্যাখ্যা করে"। অর্থাৎ law of total variance-ই $R^2=\rho^2$-এর measure-তাত্ত্বিক পরিচয়: explained/total = $\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)$।

গ · প্রমাণভিত্তিক (proof-based)¶

সমাধান ৭ (★★)¶

দাবি (tower)। $\mathcal H\subseteq\mathcal G\subseteq\mathcal F$, $X\in L^1$ ⇒ $\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]=\mathbb E[X\mid\mathcal H]$ a.s.

লিখি $W:=\mathbb E[X\mid\mathcal G]$। দেখাতে হবে $\mathbb E[W\mid\mathcal H]=\mathbb E[X\mid\mathcal H]$।

(ক) কী দেখাতে হবে। $\mathbb E[X\mid\mathcal H]$ হলো একমাত্র (a.s.) $\mathcal H$-measurable random variable $V$ যার $\int_H V\,d\mathbb P=\int_H X\,d\mathbb P$ সব $H\in\mathcal H$-তে। আমরা দেখাব $\mathbb E[W\mid\mathcal H]$ ঠিক এই দুই বৈশিষ্ট্য মেটায় — তাহলে a.s.-অনন্যতায় তা $\mathbb E[X\mid\mathcal H]$-এর সমান। $\mathbb E[W\mid\mathcal H]$ সংজ্ঞা-গত ভাবেই $\mathcal H$-measurable; বাকি কাজ averaging মেলানো।

(খ) averaging মেলানো। যেকোনো $H\in\mathcal H$ নিন। $\mathbb E[W\mid\mathcal H]$-এর defining property: $$ \int_H\mathbb E[W\mid\mathcal H]\,d\mathbb P=\int_H W\,d\mathbb P . \tag{i} $$ এখন মূল ধাপ — $\mathcal H\subseteq\mathcal G$ বলে $H\in\mathcal G$-ও, তাই $W=\mathbb E[X\mid\mathcal G]$-এর defining property ঠিক এই $H$-তে প্রযোজ্য: $$ \int_H W\,d\mathbb P=\int_H \mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_H X\,d\mathbb P . \tag{ii} $$ (i) ও (ii) মিলিয়ে: $\displaystyle\int_H\mathbb E[W\mid\mathcal H]\,d\mathbb P=\int_H X\,d\mathbb P$ সব $H\in\mathcal H$-তে।

(গ) উপসংহার। তাই $\mathbb E[W\mid\mathcal H]$ একটি $\mathcal H$-measurable random variable যার $H$-গড় সব $H\in\mathcal H$-তে $X$-এর গড়ে মেলে — অর্থাৎ সে $\mathbb E[X\mid\mathcal H]$-এর সংজ্ঞা পূরণ করে। a.s.-অনন্যতায় $$ \mathbb E\big[\mathbb E[X\mid\mathcal G]\mid\mathcal H\big]=\mathbb E[X\mid\mathcal H]\qquad(\text{a.s.}).\quad\blacksquare $$ বিশেষ ক্ষেত্র। $\mathcal H=\{\varnothing,\Omega\}$ নিলে $\mathbb E[X\mid\mathcal H]=\mathbb E[X]$ (ধ্রুবক), তাই $\mathbb E[\mathbb E[X\mid\mathcal G]]=\mathbb E[X]$ — "শর্তাধীন প্রত্যাশার গড় = মূল গড়"; পাশায় $4\cdot\tfrac12+3\cdot\tfrac12=3.5=\mathbb E[X]$। স্বজ্ঞা: tower = "ধাপে-ধাপে গড়" — আগে সূক্ষ্ম $\mathcal G$-তে, পরে মোটা $\mathcal H$-তে গড় নিলে মোটা-গড়ই জেতে।

সমাধান ৮ (★★)¶

দাবি (pull-out, indicator)। $X\in L^1$, $G_0\in\mathcal G$, $Y=\mathbf 1_{G_0}$ ⇒ $\mathbb E[\mathbf 1_{G_0}X\mid\mathcal G]=\mathbf 1_{G_0}\mathbb E[X\mid\mathcal G]$ a.s.

প্রার্থী $Z:=\mathbf 1_{G_0}\,\mathbb E[X\mid\mathcal G]$ ধরে দেখাই সে $\mathbf 1_{G_0}X$-এর conditional expectation-এর দুই শর্ত মেটায়।

(ক) measurability। $G_0\in\mathcal G$ বলে $\mathbf 1_{G_0}$ $\mathcal G$-measurable; $\mathbb E[X\mid\mathcal G]$-ও সংজ্ঞা-গত ভাবে $\mathcal G$-measurable। দুই $\mathcal G$-measurable function-এর গুণফল $\mathcal G$-measurable, তাই $Z$ $\mathcal G$-measurable। ✓ (এবং $\mathbf 1_{G_0}X\in L^1$ কারণ $\lvert\mathbf 1_{G_0}X\rvert\le\lvert X\rvert\in L^1$।)

(খ) averaging। যেকোনো $G\in\mathcal G$ নিন। চাবি-পরিচয়: $\int_G\mathbf 1_{G_0}(\cdot)\,d\mathbb P=\int_{G\cap G_0}(\cdot)\,d\mathbb P$ (indicator কেবল $G\cap G_0$-তে $1$)। তাই $$ \int_G Z\,d\mathbb P=\int_G\mathbf 1_{G_0}\,\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_{G\cap G_0}\mathbb E[X\mid\mathcal G]\,d\mathbb P . $$ এখন $G\cap G_0\in\mathcal G$ (দুই $\mathcal G$-set-এর intersection), তাই $\mathbb E[X\mid\mathcal G]$-এর defining property ঠিক এই set-এ প্রযোজ্য: $$ \int_{G\cap G_0}\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_{G\cap G_0}X\,d\mathbb P=\int_G\mathbf 1_{G_0}X\,d\mathbb P . $$ সুতরাং $\int_G Z\,d\mathbb P=\int_G\mathbf 1_{G_0}X\,d\mathbb P$ সব $G\in\mathcal G$-তে। ✓

(গ) উপসংহার ও সাধারণীকরণ। $Z$ $\mathcal G$-measurable ও averaging মেটায়, তাই a.s.-অনন্যতায় $Z=\mathbb E[\mathbf 1_{G_0}X\mid\mathcal G]$, অর্থাৎ $$ \mathbb E[\mathbf 1_{G_0}X\mid\mathcal G]=\mathbf 1_{G_0}\,\mathbb E[X\mid\mathcal G]\qquad(\text{a.s.}).\quad\blacksquare $$ সাধারণ $Y$ পর্যন্ত বাড়ানো: linearity-তে indicator → simple function $Y=\sum_k c_k\mathbf 1_{G_k}$ ($G_k\in\mathcal G$); তারপর অঋণাত্মক $\mathcal G$-measurable $Y$-এর জন্য simple-দের monotone limit নিয়ে conditional MCT; শেষে যেকোনো $\mathcal G$-measurable $Y=Y^+-Y^-$ ($XY\in L^1$ শর্তে) — তাই সম্পূর্ণ pull-out $\mathbb E[YX\mid\mathcal G]=Y\,\mathbb E[X\mid\mathcal G]$।

সমাধান ৯ (★★)¶

দাবি (independence)। $X\in L^1$, $X\perp\!\!\!\perp\mathcal G$ ⇒ $\mathbb E[X\mid\mathcal G]=\mathbb E[X]$ a.s.

প্রার্থী হিসেবে ধ্রুবক $Z\equiv\mathbb E[X]$ নিই।

(ক) measurability। যেকোনো ধ্রুবক $c$-এর জন্য $\{c\le t\}$ হয় $\varnothing$ (যদি $t<c$) নয় $\Omega$ (যদি $t\ge c$) — দুটোই প্রতিটি σ-algebra-তে আছে, বিশেষত $\mathcal G$-তে। তাই ধ্রুবক $Z=\mathbb E[X]$ $\mathcal G$-measurable। ✓

(খ) averaging। যেকোনো $G\in\mathcal G$ নিন। বাঁ পাশ (প্রার্থী): $$ \int_G Z\,d\mathbb P=\mathbb E[X]\cdot\mathbb P(G). $$ ডান পাশ ($X$-এর গড়): $\mathbf 1_G$ $\mathcal G$-measurable, আর $X\perp\!\!\!\perp\mathcal G$ বলে $X\perp\!\!\!\perp\mathbf 1_G$, তাই product-এ ভাঙে: $$ \int_G X\,d\mathbb P=\mathbb E[X\,\mathbf 1_G]=\mathbb E[X]\,\mathbb E[\mathbf 1_G]=\mathbb E[X]\,\mathbb P(G). $$ দুই পাশ সমান: $\int_G Z\,d\mathbb P=\int_G X\,d\mathbb P$ সব $G\in\mathcal G$-তে। ✓

(গ) উপসংহার। $Z=\mathbb E[X]$ $\mathcal G$-measurable ও averaging মেটায়, তাই a.s.-অনন্যতায় $$ \mathbb E[X\mid\mathcal G]=\mathbb E[X]\qquad(\text{a.s.}).\quad\blacksquare $$ মেলানো (§৩-উদাহরণ ৫)। দুই স্বাধীন পাশায় প্রথমটির মুখ $X$, দ্বিতীয়টির $W$; $X\perp\!\!\!\perp\sigma(W)$, তাই $\mathbb E[X\mid W]=\mathbb E[X]=3.5$ প্রতিটি $w$-এর জন্য — "যে তথ্য কিছু বলে না, তাকে শর্তে ধরা আর না-ধরা সমান"। স্বজ্ঞা: independence rule হলো tower-এর বিপরীত মেরু — $\mathcal G$ যদি $X$ সম্পর্কে কিছুই না জানে, conditional expectation সম্পূর্ণ "সমতল" (ধ্রুবক $\mathbb E[X]$)।

ঘ · কোডিং (coding)¶

সমাধান ১০ (★★)¶

লক্ষ্য: binning দিয়ে $\widehat{\mathbb E}[X\mid Y]$ আনুমান করে slope $\approx0.6$ ফিরে পাওয়া; $Y\approx1$-স্লাইসে $\mathbb E[X\mid Y]\approx0.6$, $\operatorname{Var}(X\mid Y)\approx0.64$।

import numpy as np
rng = np.random.default_rng(20260619)
N, rho = 200_000, 0.6
Y = rng.standard_normal(N)
Z = rng.standard_normal(N)
X = rho*Y + np.sqrt(1 - rho**2)*Z          # standard bivariate normal, corr = rho

# (গ) সরাসরি OLS slope == E[X|Y]-এর ঢাল (= rho), কারণ regression = conditional expectation
slope, intercept = np.polyfit(Y, X, 1)
print("slope     :", round(slope, 4))       # 0.6008  ≈ rho
print("intercept :", round(intercept, 4))   # ≈ 0.000

# (খ) Y ≈ 1 সরু স্লাইস
m = np.abs(Y - 1.0) < 0.05
print("E[X|Y≈1]  :", round(X[m].mean(), 4)) # 0.6014 ≈ rho*1
print("Var(X|Y≈1):", round(X[m].var(),  4)) # ≈ 0.64  = 1-rho^2

# (ক) bin-গড় = empirical E[X|Y]-এর সিঁড়ি
edges = np.quantile(Y, np.linspace(0, 1, 21))      # 20 সমভর bin
centers, binmeans = [], []
for b in range(20):
    lo, hi = edges[b], edges[b+1]
    sel = (Y >= lo) & (Y < hi) if b < 19 else (Y >= lo)
    centers.append(Y[sel].mean()); binmeans.append(X[sel].mean())
# bin-গড়ের উপর fit করলে আবার ঢাল ≈ 0.6
bm_slope = np.polyfit(centers, binmeans, 1)[0]
print("bin-mean slope:", round(bm_slope, 4))       # ≈ 0.60

আউটপুট (canonical): slope ≈ 0.6008, E[X|Y≈1] ≈ 0.6014, Var(X|Y≈1) ≈ 0.64, bin-গড়ের ঢালও $\approx0.60$।

ব্যাখ্যা। প্রতিটি $Y$-bin-এ $X$-এর গড় ঠিক $\widehat{\mathbb E}[X\mid Y\approx y]$ — bin-গড়গুলো $y$-এর সাথে রৈখিক, ঢাল $\rho$। np.polyfit-এর slope সেই রেখার ঢাল ($=\rho$, কারণ population regression = conditional expectation = $\rho y$)। $Y\approx1$-স্লাইসে গড় $\approx\rho=0.6$ ও ভেদ $\approx1-\rho^2=0.64$ — তত্ত্বের সরাসরি নিশ্চিতকরণ।

সমাধান ১১ (★★)¶

লক্ষ্য: $g(Y)=\mathbb E[X\mid Y]=\rho Y$-এর MSE $\approx0.64$ বনাম সেরা-ধ্রুব $0$-এর MSE $\approx1$ — regression কঠোরভাবে জেতে, লাভ $\approx\rho^2=0.36$।

import numpy as np
rng = np.random.default_rng(20260619)
N, rho = 200_000, 0.6
Y = rng.standard_normal(N)
Z = rng.standard_normal(N)
X = rho*Y + np.sqrt(1 - rho**2)*Z

mse_reg   = np.mean((X - rho*Y)**2)    # regression predictor g(Y)=E[X|Y]=rho*Y
mse_const = np.mean((X - 0.0)**2)      # best constant g≡E[X]=0
gain      = mse_const - mse_reg        # = Var(E[X|Y]) = rho^2

print("MSE(rho*Y)  :", round(mse_reg,   4))   # 0.6410  ≈ 1-rho^2 = 0.64
print("MSE(const 0):", round(mse_const, 4))   # 1.0017  ≈ Var X = 1
print("gain (rho^2):", round(gain,      4))   # ≈ 0.36
print("reg < const :", mse_reg < mse_const)   # True

# কোনো বিকল্প g(Y) MSE-কে 0.64-এর নিচে নামাতে পারে না — যাচাই (এলোমেলো রৈখিক বিকল্প):
for b in [0.3, 0.5, 0.6, 0.7, 0.9]:
    print(f"  g=b*Y, b={b}:  MSE = {round(np.mean((X - b*Y)**2), 4)}")
# b=0.6-এ সর্বনিম্ন (≈0.6410); দুই পাশে বাড়ে — minimizer ঠিক rho

আউটপুট (canonical): MSE(rho*Y) ≈ 0.6410, MSE(const 0) ≈ 1.0017, gain ≈ 0.36, reg < const = True। বিকল্প $b$-scan-এ $b=0.6$-তে MSE সর্বনিম্ন।

ব্যাখ্যা। Pythagoras অনুযায়ী যেকোনো $g(Y)$-এর MSE = irreducible $\mathbb E[(X-\mathbb E[X\mid Y])^2]=1-\rho^2=0.64$ + অতিরিক্ত $\mathbb E[(\mathbb E[X\mid Y]-g(Y))^2]\ge0$। তাই $0.64$-ই তল, ছোঁয়া যায় কেবল $g(Y)=\mathbb E[X\mid Y]=\rho Y$-তে। সেরা-ধ্রুব $0$-এর MSE $=\operatorname{Var}(X)=1$; লাভ $1-0.64=0.36=\rho^2=\operatorname{Var}(\mathbb E[X\mid Y])$ — ঠিক যতটা $Y$ ব্যাখ্যা করে। MC-তে $0.6410<1.0017$ অসমতা দৃঢ়ভাবে ধরা পড়ল।

সমাধান ১২ (★★★)¶

লক্ষ্য: law of total variance-এর তিন পদ empirical-ভাবে — $\mathbb E[\operatorname{Var}(X\mid Y)]\approx0.64$ (within/unexplained), $\operatorname{Var}(\mathbb E[X\mid Y])\approx0.36$ (between/explained), যোগ $\approx\operatorname{Var}(X)\approx1$; explained/total $\approx\rho^2=R^2$।

import numpy as np
rng = np.random.default_rng(20260619)
N, rho = 200_000, 0.6
Y = rng.standard_normal(N)
Z = rng.standard_normal(N)
X = rho*Y + np.sqrt(1 - rho**2)*Z

# Y-কে ~50 সমভর bin-এ ভাগ (quantile edges)
B = 50
edges = np.quantile(Y, np.linspace(0, 1, B + 1))
idx = np.clip(np.digitize(Y, edges[1:-1]), 0, B - 1)

within, means, counts = [], [], []
for b in range(B):
    xb = X[idx == b]
    if xb.size:
        within.append(xb.var())   # (ক) bin-এর within-variance
        means.append(xb.mean())   # (খ) bin-এর গড় = E[X|Y≈y]
        counts.append(xb.size)

w = np.array(counts, float); w /= w.sum()        # bin-ভর (ওজন)
within = np.array(within); means = np.array(means)

E_var = np.sum(w * within)                        # E[Var(X|Y)]  (unexplained)
mbar  = np.sum(w * means)
Var_E = np.sum(w * (means - mbar)**2)             # Var(E[X|Y])  (explained)
total = E_var + Var_E

print("E[Var(X|Y)] (within) :", round(E_var, 3))  # ≈ 0.64
print("Var(E[X|Y]) (between):", round(Var_E, 3))  # ≈ 0.36
print("যোগফল                :", round(total, 3))  # ≈ 1.00  == Var X
print("Var(X) সরাসরি        :", round(X.var(), 3))# ≈ 1.00
print("explained/total (R^2):", round(Var_E / X.var(), 3))  # ≈ 0.36 = rho^2

আউটপুট (canonical): E[Var(X|Y)] ≈ 0.64, Var(E[X|Y]) ≈ 0.36, যোগফল ≈ 1.00 = Var(X), explained/total ≈ 0.36 = rho^2 = R^2।

ব্যাখ্যা। প্রতিটি bin "$Y\approx y$"-স্লাইস: bin-এর within-variance ঠিক $\operatorname{Var}(X\mid Y\approx y)$, ভর-ওজনে গড় করলে $\mathbb E[\operatorname{Var}(X\mid Y)]\approx0.64$ (homoscedastic বলে সব bin-এ $\approx0.64$)। bin-গড়গুলো $\widehat{\mathbb E}[X\mid Y]$, তাদের ভর-ওজনিত ভেদ $\operatorname{Var}(\mathbb E[X\mid Y])\approx0.36$। যোগ $0.64+0.36=1=\operatorname{Var}(X)$ — law of total variance। ব্যাখ্যাকৃত ভগ্নাংশ $0.36=\rho^2$ ঠিক regression-এর $R^2$। bin সংখ্যা $B$ বাড়ালে discretization-bias কমে আনুমান তত্ত্বের $0.64,\,0.36$-এর আরও কাছে যায়।

মিলিয়ে দেখা — canonical সংখ্যা। পাশা: $\mathbb E[X\mid\mathcal G]=4/3$ (জোড়/বিজোড়), tower $3.5$। bivariate normal $\rho=0.6$: $\mathbb E[X\mid Y]=0.6y$, $\operatorname{Var}(X\mid Y)=0.64$; best-predictor MSE $0.6410$ বনাম $1.0017$; law of total variance $1=0.64+0.36$, $R^2=\rho^2=0.36$; MC slope $0.6008$, $\mathbb E[X\mid Y\approx1]=0.6014$ — সব seed `np.random.defa