সমাধান — অধ্যায় ৭.৭ · Conditional Expectation¶
অধ্যায় ফাইল:
part-7-measure-theoretic/07-07-conditional-expectation.md(§৭ অনুশীলনী)। গোটা অংশে \((\Omega,\mathcal F,\mathbb P)\) একটি probability space; random variable = measurable \(X:\Omega\to\mathbb R\) (7.3), \(\mathbb E[X]=\int_\Omega X\,d\mathbb P\) (7.4), \(X\in L^1\iff\mathbb E\lvert X\rvert<\infty\), \(X\in L^2\iff\mathbb E[X^2]<\infty\)। \(\mathcal G\subseteq\mathcal F\) sub-σ-algebra; \(\mathbb E[X\mid\mathcal G]\) = a.s.-অনন্য \(\mathcal G\)-measurable \(Z\) যাতে \(\int_G Z\,d\mathbb P=\int_G X\,d\mathbb P\ \forall G\in\mathcal G\)। \(\mathbb E[X\mid Y]:=\mathbb E[X\mid\sigma(Y)]=g(Y)\) (Doob–Dynkin), \(\mathbb P(A\mid\mathcal G):=\mathbb E[\mathbf 1_A\mid\mathcal G]\)।canonical তথ্য (সংখ্যাগত উত্তর reproducible, seed
np.random.default_rng(20260619)): - পাশা \(\mathcal G=\sigma(\text{even/odd})\): \(\mathbb E[X\mid\mathcal G]=4\) (জোড়), \(3\) (বিজোড়); tower \(\mathbb E[\mathbb E[X\mid\mathcal G]]=4\cdot\tfrac12+3\cdot\tfrac12=3.5=\mathbb E[X]\)। - bivariate normal \(\rho=0.6\): \(\mathbb E[X\mid Y=y]=\rho y=0.6y\) (ঢাল \(0.6\), intercept \(0\)), \(\operatorname{Var}(X\mid Y)=1-\rho^2=0.64\) (\(y\)-নিরপেক্ষ)। - best \(L^2\) predictor: regression-MSE \(\approx 1-\rho^2=0.64\) (MC \(0.6410\)) বনাম সেরা-ধ্রুব-MSE \(\approx\operatorname{Var}(X)=1\) (MC \(1.0017\)); লাভ \(=\rho^2=0.36\)। - law of total variance: \(\operatorname{Var}(X)=1=0.64+0.36=\mathbb E[\operatorname{Var}(X\mid Y)]+\operatorname{Var}(\mathbb E[X\mid Y])\); ব্যাখ্যাকৃত ভগ্নাংশ \(0.36=\rho^2=R^2\)। - MC slope \(\approx0.6008\), \(\mathbb E[X\mid Y\approx1]\approx0.6014\), \(\operatorname{Var}(X\mid Y\approx1)\approx0.64\); seed20260619।
ক · ধারণাগত (conceptual)¶
সমাধান ১ (★)¶
(ক) কেন random variable। সংজ্ঞার প্রথম শর্ত \(\mathbb E[X\mid\mathcal G]\)-কে \(\mathcal G\)-measurable হতে বাধ্য করে — অর্থাৎ তার মান কেবল "\(\mathcal G\) \(\omega\)-কে কোন atom/স্লাইসে রেখেছে" তার উপর নির্ভর করে। কিন্তু \(\omega\) নিজে দৈব, তাই "কোন atom"-ও দৈব, তাই \(\mathbb E[X\mid\mathcal G](\omega)\) একটি \(\omega\)-এর function = random variable, নিছক একটি সংখ্যা নয়। ছবি: finite partition-এ এটি একটি ধাপ-অপেক্ষক (step function) — প্রতিটি atom-এ ভিন্ন ধ্রুবক (= atom-গড়); \(\omega\) যে atom-এ পড়ে সেই ধ্রুবক ফেরে। বিপরীতে 2.2-এর \(\mathbb E[X\mid Y=y]\) একটি স্থির \(y\)-এ একটি সংখ্যা — সেটি random variable \(\mathbb E[X\mid Y]\)-এর "\(Y=y\)"-মান মাত্র।
(খ) দুই চরমে অধঃপতন। - \(\mathcal G=\{\varnothing,\Omega\}\) (তুচ্ছ σ-algebra — কিছুই আলাদা করে না)। একমাত্র \(\mathcal G\)-measurable random variable হলো ধ্রুবক (কারণ \(\{Z\le t\}\) কেবল \(\varnothing\) বা \(\Omega\) হতে পারে)। averaging-শর্ত \(G=\Omega\)-তে: \(\int_\Omega Z=Z\cdot 1=\mathbb E[X]\), তাই \(Z\equiv\mathbb E[X]\) — ধ্রুবক, প্রকৃত সংখ্যা। অর্থাৎ "কোনো তথ্য নেই" ⇒ সেরা অনুমান নিছক সামগ্রিক গড়। - \(\mathcal G=\mathcal F\) (পূর্ণ তথ্য)। \(X\) নিজেই \(\mathcal F\)-measurable ও averaging-শর্ত তুচ্ছভাবে মেটায় (\(\int_G X=\int_G X\)), তাই \(\mathbb E[X\mid\mathcal F]=X\) a.s. — "সব জানি" ⇒ সেরা অনুমান স্বয়ং \(X\)।
দুই চরমের মাঝে যত \(\mathcal G\) বাড়ে, \(\mathbb E[X\mid\mathcal G]\) ধ্রুবক \(\mathbb E[X]\) থেকে \(X\)-এর দিকে "সূক্ষ্মতর" হয়।
(গ) এক বাক্যে। \(\mathbb E[X\mid Y=y]=:g(y)\) প্রতিটি স্থির \(y\)-এর একটি সংখ্যা, আর \(\mathbb E[X\mid Y]=g(Y)\) সেই সংখ্যাগুলোকে দৈব \(Y\)-তে বসিয়ে পাওয়া random variable — তাই একটি (\(g\)) অন্যটির (\(\omega\mapsto g(Y(\omega))\)) "মান-তালিকা"।
সমাধান ২ (★)¶
(ক) দুই শর্ত। \(X\in L^1\) হলে \(Z=\mathbb E[X\mid\mathcal G]\) হলো এমন random variable যা— 1. measurability: \(Z\) \(\mathcal G\)-measurable (অর্থাৎ \(\{Z\in B\}\in\mathcal G\) সব Borel \(B\)-তে); 2. averaging/integral: \(\displaystyle\int_G Z\,d\mathbb P=\int_G X\,d\mathbb P\) প্রতিটি \(G\in\mathcal G\)-তে।
(এবং এমন \(Z\) a.s.-অনন্য, 7.4-এর "\(\int_G(Z-Z')=0\ \forall G\Rightarrow Z=Z'\) a.s." যুক্তিতে।)
(খ) কেন একটি শর্ত যথেষ্ট নয়। - শুধু measurability: অসংখ্য \(\mathcal G\)-measurable random variable আছে — ধ্রুবক \(0\), \(\tfrac12\), এমনকি কোনো এলোমেলো \(\mathcal G\)-measurable function — যাদের কোনোটিই \(X\)-এর গড় ধরে না। measurability একা শুধু বলে "মান atom-ভেদে ধ্রুব", কোন ধ্রুবক তা বলে না। - শুধু averaging: measurability ছাড়া \(X\) নিজেই \(\int_G X=\int_G X\) মেটায়, কিন্তু \(X\) সাধারণত \(\mathcal G\)-measurable নয় (সে \(\mathcal G\)-এর বাইরের তথ্যও বহন করে)। তাই averaging একা "সেরা অনুমান"-কে \(\mathcal G\)-তথ্যে সীমিত করে না।
দুটি একসঙ্গে: measurability মানকে atom-ভেদে ধ্রুব করে, averaging সেই ধ্রুবকগুলোকে প্রতিটি atom-এ \(X\)-এর গড়ে বেঁধে দেয় — ফলে \(Z\) অনন্য (a.s.) ও ঠিক "জানা-তথ্যে সেরা অনুমান"।
(গ) এক বাক্যে। \(G=\Omega\) একা শুধু মোট গড় \(\mathbb E[Z]=\mathbb E[X]\) বাঁধে — যা ধ্রুবক \(\mathbb E[X]\), এমনকি ভুল atom-বণ্টনওয়ালা অসংখ্য \(Z\) মেটাতে পারে; "সব \(G\in\mathcal G\)" দাবি করলে তবেই প্রতিটি atom-এ আলাদা করে গড় মেলে, যা \(Z\)-কে atom-গড়ে অনন্যভাবে স্থির করে।
সমাধান ৩ (★★)¶
(ক) projection হিসেবে। \(L^2\)-এ \(\mathbb E[(X-Z)^2]=\lVert X-Z\rVert_2^2\) ঠিক \(X\) থেকে \(Z\)-এর দূরত্বের বর্গ। সব \(\mathcal G\)-measurable square-integrable \(Z\)-এর সংগ্রহ \(L^2(\mathcal G)\) হলো \(L^2(\mathcal F)\)-এর একটি closed subspace (Riesz–Fischer-এ পূর্ণতা থেকে বদ্ধ)। 7.5-এর projection theorem বলে এমন closed subspace-এ \(X\)-এর অনন্য নিকটতম বিন্দু \(\hat X\) আছে এবং residual \(X-\hat X\perp L^2(\mathcal G)\) — অর্থাৎ \(\mathbb E[(X-\hat X)Z]=0\) সব \(Z\in L^2(\mathcal G)\)-তে। \(Z=\mathbf 1_G\) (\(G\in\mathcal G\)) নিলে এই orthogonality ঠিক \(\mathbb E[(X-\hat X)\mathbf 1_G]=0\), অর্থাৎ \(\int_G\hat X=\int_G X\ \forall G\) — যা averaging-শর্ত। তাই \(\hat X=\mathbb E[X\mid\mathcal G]\): সেরা \(L^2\) predictor = orthogonal projection = conditional expectation।
(খ) রৈখিকতা-অনুমান নেই। এখানে minimization সব \(\mathcal G\)-measurable \(Z\)-এর উপর — \(\mathcal G=\sigma(Y)\) নিলে সব (এমনকি অত্যন্ত বক্র) function \(g(Y)\) প্রতিযোগী, কোনো রৈখিক রূপ চাপানো হয়নি। তাই \(\mathbb E[X\mid Y]\) হলো সর্বজনীন সেরা predictor। 5.1-এর linear regression কেবল প্রতিযোগী-সংগ্রহকে \(\{a+bY\}\) (একটি ছোট উপ-subspace)-এ সীমিত করে — তাই সাধারণত \(\mathbb E[X\mid Y]\)-এর একটি আনুমান; কেবল যখন সত্যিকারের regression রৈখিক (যেমন bivariate normal-এ \(\rho y\)) তখনই দুটি মেলে।
(গ) এক বাক্যে। residual \(X-\mathbb E[X\mid\mathcal G]\) প্রতিটি \(\mathcal G\)-measurable \(Z\)-এর সাথে orthogonal (\(\mathbb E[(X-\mathbb E[X\mid\mathcal G])Z]=0\), averaging-শর্তের ফল), মানে error-এর সাথে জানা-তথ্যের কোনো correlation নেই — তাই \(\mathcal G\)-তথ্য থেকে \(X\)-এর আর কিছুই "নিংড়ে" নেওয়ার বাকি নেই, এটিই "সেরা" হওয়ার সমার্থক।
খ · গণনামূলক (computational)¶
সমাধান ৪ (★)¶
finite partition-এ নিয়ম: \(\mathbb E[X\mid\mathcal G]\) প্রতিটি atom-এ ধ্রুব, আর ধ্রুবক = atom-এ \(X\)-এর (ভর-ওজনিত) গড়।
(ক) সমভর atom — পাশা, even/odd।
(i) সমভর (\(\mathbb P=\tfrac16\)) বলে ভর-গড় = সরল গড়: $$ \mathbb E[X\mid\mathcal G]=\frac{2+4+6}{3}=4\ \text{(জোড়ে)},\qquad \frac{1+3+5}{3}=3\ \text{(বিজোড়ে)}. $$ (averaging-যাচাই: \(\int_{\{2,4,6\}}\mathbb E[X\mid\mathcal G]=4\cdot\tfrac12=2=\tfrac{2+4+6}{6}=\int_{\{2,4,6\}}X\) ✓।)
(ii) tower: \(\mathbb E[X\mid\mathcal G]\) মান \(4\) (সম্ভাবনা \(\tfrac12\)) ও \(3\) (সম্ভাবনা \(\tfrac12\)), তাই $$ \mathbb E\big[\mathbb E[X\mid\mathcal G]\big]=4\cdot\tfrac12+3\cdot\tfrac12=2+1.5=3.5=\mathbb E[X].\quad\checkmark $$
(খ) অসমভর atom — discrete joint pmf। প্রথমে marginal: $$ \mathbb P(Y=a)=0.10+0.30+0.10=0.50,\qquad \mathbb P(Y=b)=0.20+0.05+0.25=0.50. $$ conditional pmf \(\mathbb P(X=x\mid Y=y)=\mathbb P(X=x,Y=y)/\mathbb P(Y=y)\) দিয়ে atom-গড়:
(i) \(Y=a\)-তে: $$ \mathbb E[X\mid Y=a]=\frac{0\cdot0.10+1\cdot0.30+2\cdot0.10}{0.50}=\frac{0+0.30+0.20}{0.50}=\frac{0.50}{0.50}=1.0 . $$ \(Y=b\)-তে: $$ \mathbb E[X\mid Y=b]=\frac{0\cdot0.20+1\cdot0.05+2\cdot0.25}{0.50}=\frac{0+0.05+0.50}{0.50}=\frac{0.55}{0.50}=1.1 . $$ তাই \(\mathbb E[X\mid Y]\) মান \(1.0\) (\(Y=a\)-তে) ও \(1.1\) (\(Y=b\)-তে)।
(ii) tower: ওজন \(\mathbb P(Y=a)=\mathbb P(Y=b)=0.5\) দিয়ে $$ \mathbb E\big[\mathbb E[X\mid Y]\big]=1.0\cdot0.5+1.1\cdot0.5=0.5+0.55=1.05 . $$ সরাসরি \(\mathbb E[X]\): marginal \(\mathbb P(X=0)=0.30,\ \mathbb P(X=1)=0.35,\ \mathbb P(X=2)=0.35\), তাই \(\mathbb E[X]=0\cdot0.30+1\cdot0.35+2\cdot0.35=0.35+0.70=1.05\)। দুই পাশ \(1.05\)-তে মিলল ✓ — tower ধরল।
সমাধান ৫ (★★)¶
standard bivariate normal \((X,Y)\), \(\rho=0.6\), বিভাজন \(X=\rho Y+\sqrt{1-\rho^2}\,Z\), \(Z\sim N(0,1)\), \(Z\perp Y\)।
(ক) \(\mathbb E[X\mid Y=y]\)। \(Y=y\) স্থির ধরে প্রত্যাশা নিই। \(\rho Y\) অংশ \(Y\)-measurable (pull-out-এ অপরিবর্তিত), আর \(Z\perp Y\) বলে independence rule \(\mathbb E[Z\mid Y=y]=\mathbb E[Z]=0\): $$ \mathbb E[X\mid Y=y]=\rho y+\sqrt{1-\rho^2}\cdot\underbrace{\mathbb E[Z\mid Y=y]}_{=0}=\rho y=\boxed{0.6\,y}. $$ এটি \(y\)-এর একটি সরলরেখা: ঢাল \(\rho=0.6\), intercept \(0\)।
(খ) \(\operatorname{Var}(X\mid Y=y)\)। \(Y=y\) স্থির হলে \(X-\rho y=\sqrt{1-\rho^2}\,Z\), তাই $$ \operatorname{Var}(X\mid Y=y)=(1-\rho^2)\operatorname{Var}(Z)=1-\rho^2=1-0.36=\boxed{0.64}. $$ এটি \(y\)-নিরপেক্ষ (homoscedastic, সমভেদ) — কারণ অবশিষ্ট noise-পদ \(\sqrt{1-\rho^2}\,Z\) পুরোপুরি \(Y\)-স্বাধীন, তাই কোন \(y\)-স্লাইসেই ছড়ানো বদলায় না। \(1-\rho^2=0.64\) মানে: \(Y\) জানার পরও \(X\)-এর মূল ভেদ \(1\)-এর \(64\%\) অনিশ্চয়তা থাকে।
(গ) এক বাক্যে। রেখা \(\mathbb E[X\mid Y=y]=\rho y\) ঠিক 5.1-এর population regression line (\(\hat\beta=\operatorname{Cov}(X,Y)/\operatorname{Var}(Y)=\rho/1=\rho\), intercept \(0\)) — অর্থাৎ "conditional expectation (শর্তাধীন প্রত্যাশা) = regression function" এখানে হুবহু সংখ্যায় (\(0.6y\)) ধরা পড়ে।
সমাধান ৬ (★★)¶
একই \(\rho=0.6\) bivariate normal; law of total variance \(\operatorname{Var}(X)=\mathbb E[\operatorname{Var}(X\mid Y)]+\operatorname{Var}(\mathbb E[X\mid Y])\)।
(ক) দুই পদ কষা। সমাধান ৫ থেকে \(\operatorname{Var}(X\mid Y=y)=1-\rho^2=0.64\) (ধ্রুব) ও \(\mathbb E[X\mid Y]=\rho Y\)। তাই— $$ \underbrace{\mathbb E\big[\operatorname{Var}(X\mid Y)\big]}{\text{unexplained / within}}=\mathbb E[1-\rho^2]=1-\rho^2=0.64, $$ $$ \underbrace{\operatorname{Var}\big(\mathbb E[X\mid Y]\big)}(Y)=\rho^2\cdot 1=0.36 . $$}}=\operatorname{Var}(\rho Y)=\rho^2\operatorname{Var
(খ) যোগ যাচাই। $$ \mathbb E[\operatorname{Var}(X\mid Y)]+\operatorname{Var}(\mathbb E[X\mid Y])=0.64+0.36=1=\operatorname{Var}(X).\quad\checkmark $$ (কারণ standard bivariate normal-এ marginal \(\operatorname{Var}(X)=1\)।)
(গ) ব্যাখ্যাকৃত ভগ্নাংশ। $$ \frac{\operatorname{Var}(\mathbb E[X\mid Y])}{\operatorname{Var}(X)}=\frac{0.36}{1}=0.36=\rho^2 . $$ এটি ঠিক regression-এর \(R^2\) — "\(Y\) মোট ভেদের কত ভগ্নাংশ ব্যাখ্যা করে"। অর্থাৎ law of total variance-ই \(R^2=\rho^2\)-এর measure-তাত্ত্বিক পরিচয়: explained/total = \(\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)\)।
গ · প্রমাণভিত্তিক (proof-based)¶
সমাধান ৭ (★★)¶
দাবি (tower)। \(\mathcal H\subseteq\mathcal G\subseteq\mathcal F\), \(X\in L^1\) ⇒ \(\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]=\mathbb E[X\mid\mathcal H]\) a.s.
লিখি \(W:=\mathbb E[X\mid\mathcal G]\)। দেখাতে হবে \(\mathbb E[W\mid\mathcal H]=\mathbb E[X\mid\mathcal H]\)।
(ক) কী দেখাতে হবে। \(\mathbb E[X\mid\mathcal H]\) হলো একমাত্র (a.s.) \(\mathcal H\)-measurable random variable \(V\) যার \(\int_H V\,d\mathbb P=\int_H X\,d\mathbb P\) সব \(H\in\mathcal H\)-তে। আমরা দেখাব \(\mathbb E[W\mid\mathcal H]\) ঠিক এই দুই বৈশিষ্ট্য মেটায় — তাহলে a.s.-অনন্যতায় তা \(\mathbb E[X\mid\mathcal H]\)-এর সমান। \(\mathbb E[W\mid\mathcal H]\) সংজ্ঞা-গত ভাবেই \(\mathcal H\)-measurable; বাকি কাজ averaging মেলানো।
(খ) averaging মেলানো। যেকোনো \(H\in\mathcal H\) নিন। \(\mathbb E[W\mid\mathcal H]\)-এর defining property: $$ \int_H\mathbb E[W\mid\mathcal H]\,d\mathbb P=\int_H W\,d\mathbb P . \tag{i} $$ এখন মূল ধাপ — \(\mathcal H\subseteq\mathcal G\) বলে \(H\in\mathcal G\)-ও, তাই \(W=\mathbb E[X\mid\mathcal G]\)-এর defining property ঠিক এই \(H\)-তে প্রযোজ্য: $$ \int_H W\,d\mathbb P=\int_H \mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_H X\,d\mathbb P . \tag{ii} $$ (i) ও (ii) মিলিয়ে: \(\displaystyle\int_H\mathbb E[W\mid\mathcal H]\,d\mathbb P=\int_H X\,d\mathbb P\) সব \(H\in\mathcal H\)-তে।
(গ) উপসংহার। তাই \(\mathbb E[W\mid\mathcal H]\) একটি \(\mathcal H\)-measurable random variable যার \(H\)-গড় সব \(H\in\mathcal H\)-তে \(X\)-এর গড়ে মেলে — অর্থাৎ সে \(\mathbb E[X\mid\mathcal H]\)-এর সংজ্ঞা পূরণ করে। a.s.-অনন্যতায় $$ \mathbb E\big[\mathbb E[X\mid\mathcal G]\mid\mathcal H\big]=\mathbb E[X\mid\mathcal H]\qquad(\text{a.s.}).\quad\blacksquare $$ বিশেষ ক্ষেত্র। \(\mathcal H=\{\varnothing,\Omega\}\) নিলে \(\mathbb E[X\mid\mathcal H]=\mathbb E[X]\) (ধ্রুবক), তাই \(\mathbb E[\mathbb E[X\mid\mathcal G]]=\mathbb E[X]\) — "শর্তাধীন প্রত্যাশার গড় = মূল গড়"; পাশায় \(4\cdot\tfrac12+3\cdot\tfrac12=3.5=\mathbb E[X]\)। স্বজ্ঞা: tower = "ধাপে-ধাপে গড়" — আগে সূক্ষ্ম \(\mathcal G\)-তে, পরে মোটা \(\mathcal H\)-তে গড় নিলে মোটা-গড়ই জেতে।
সমাধান ৮ (★★)¶
দাবি (pull-out, indicator)। \(X\in L^1\), \(G_0\in\mathcal G\), \(Y=\mathbf 1_{G_0}\) ⇒ \(\mathbb E[\mathbf 1_{G_0}X\mid\mathcal G]=\mathbf 1_{G_0}\mathbb E[X\mid\mathcal G]\) a.s.
প্রার্থী \(Z:=\mathbf 1_{G_0}\,\mathbb E[X\mid\mathcal G]\) ধরে দেখাই সে \(\mathbf 1_{G_0}X\)-এর conditional expectation-এর দুই শর্ত মেটায়।
(ক) measurability। \(G_0\in\mathcal G\) বলে \(\mathbf 1_{G_0}\) \(\mathcal G\)-measurable; \(\mathbb E[X\mid\mathcal G]\)-ও সংজ্ঞা-গত ভাবে \(\mathcal G\)-measurable। দুই \(\mathcal G\)-measurable function-এর গুণফল \(\mathcal G\)-measurable, তাই \(Z\) \(\mathcal G\)-measurable। ✓ (এবং \(\mathbf 1_{G_0}X\in L^1\) কারণ \(\lvert\mathbf 1_{G_0}X\rvert\le\lvert X\rvert\in L^1\)।)
(খ) averaging। যেকোনো \(G\in\mathcal G\) নিন। চাবি-পরিচয়: \(\int_G\mathbf 1_{G_0}(\cdot)\,d\mathbb P=\int_{G\cap G_0}(\cdot)\,d\mathbb P\) (indicator কেবল \(G\cap G_0\)-তে \(1\))। তাই $$ \int_G Z\,d\mathbb P=\int_G\mathbf 1_{G_0}\,\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_{G\cap G_0}\mathbb E[X\mid\mathcal G]\,d\mathbb P . $$ এখন \(G\cap G_0\in\mathcal G\) (দুই \(\mathcal G\)-set-এর intersection), তাই \(\mathbb E[X\mid\mathcal G]\)-এর defining property ঠিক এই set-এ প্রযোজ্য: $$ \int_{G\cap G_0}\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_{G\cap G_0}X\,d\mathbb P=\int_G\mathbf 1_{G_0}X\,d\mathbb P . $$ সুতরাং \(\int_G Z\,d\mathbb P=\int_G\mathbf 1_{G_0}X\,d\mathbb P\) সব \(G\in\mathcal G\)-তে। ✓
(গ) উপসংহার ও সাধারণীকরণ। \(Z\) \(\mathcal G\)-measurable ও averaging মেটায়, তাই a.s.-অনন্যতায় \(Z=\mathbb E[\mathbf 1_{G_0}X\mid\mathcal G]\), অর্থাৎ $$ \mathbb E[\mathbf 1_{G_0}X\mid\mathcal G]=\mathbf 1_{G_0}\,\mathbb E[X\mid\mathcal G]\qquad(\text{a.s.}).\quad\blacksquare $$ সাধারণ \(Y\) পর্যন্ত বাড়ানো: linearity-তে indicator → simple function \(Y=\sum_k c_k\mathbf 1_{G_k}\) (\(G_k\in\mathcal G\)); তারপর অঋণাত্মক \(\mathcal G\)-measurable \(Y\)-এর জন্য simple-দের monotone limit নিয়ে conditional MCT; শেষে যেকোনো \(\mathcal G\)-measurable \(Y=Y^+-Y^-\) (\(XY\in L^1\) শর্তে) — তাই সম্পূর্ণ pull-out \(\mathbb E[YX\mid\mathcal G]=Y\,\mathbb E[X\mid\mathcal G]\)।
সমাধান ৯ (★★)¶
দাবি (independence)। \(X\in L^1\), \(X\perp\!\!\!\perp\mathcal G\) ⇒ \(\mathbb E[X\mid\mathcal G]=\mathbb E[X]\) a.s.
প্রার্থী হিসেবে ধ্রুবক \(Z\equiv\mathbb E[X]\) নিই।
(ক) measurability। যেকোনো ধ্রুবক \(c\)-এর জন্য \(\{c\le t\}\) হয় \(\varnothing\) (যদি \(t<c\)) নয় \(\Omega\) (যদি \(t\ge c\)) — দুটোই প্রতিটি σ-algebra-তে আছে, বিশেষত \(\mathcal G\)-তে। তাই ধ্রুবক \(Z=\mathbb E[X]\) \(\mathcal G\)-measurable। ✓
(খ) averaging। যেকোনো \(G\in\mathcal G\) নিন। বাঁ পাশ (প্রার্থী): $$ \int_G Z\,d\mathbb P=\mathbb E[X]\cdot\mathbb P(G). $$ ডান পাশ (\(X\)-এর গড়): \(\mathbf 1_G\) \(\mathcal G\)-measurable, আর \(X\perp\!\!\!\perp\mathcal G\) বলে \(X\perp\!\!\!\perp\mathbf 1_G\), তাই product-এ ভাঙে: $$ \int_G X\,d\mathbb P=\mathbb E[X\,\mathbf 1_G]=\mathbb E[X]\,\mathbb E[\mathbf 1_G]=\mathbb E[X]\,\mathbb P(G). $$ দুই পাশ সমান: \(\int_G Z\,d\mathbb P=\int_G X\,d\mathbb P\) সব \(G\in\mathcal G\)-তে। ✓
(গ) উপসংহার। \(Z=\mathbb E[X]\) \(\mathcal G\)-measurable ও averaging মেটায়, তাই a.s.-অনন্যতায় $$ \mathbb E[X\mid\mathcal G]=\mathbb E[X]\qquad(\text{a.s.}).\quad\blacksquare $$ মেলানো (§৩-উদাহরণ ৫)। দুই স্বাধীন পাশায় প্রথমটির মুখ \(X\), দ্বিতীয়টির \(W\); \(X\perp\!\!\!\perp\sigma(W)\), তাই \(\mathbb E[X\mid W]=\mathbb E[X]=3.5\) প্রতিটি \(w\)-এর জন্য — "যে তথ্য কিছু বলে না, তাকে শর্তে ধরা আর না-ধরা সমান"। স্বজ্ঞা: independence rule হলো tower-এর বিপরীত মেরু — \(\mathcal G\) যদি \(X\) সম্পর্কে কিছুই না জানে, conditional expectation সম্পূর্ণ "সমতল" (ধ্রুবক \(\mathbb E[X]\))।
ঘ · কোডিং (coding)¶
সমাধান ১০ (★★)¶
লক্ষ্য: binning দিয়ে \(\widehat{\mathbb E}[X\mid Y]\) আনুমান করে slope \(\approx0.6\) ফিরে পাওয়া; \(Y\approx1\)-স্লাইসে \(\mathbb E[X\mid Y]\approx0.6\), \(\operatorname{Var}(X\mid Y)\approx0.64\)।
import numpy as np
rng = np.random.default_rng(20260619)
N, rho = 200_000, 0.6
Y = rng.standard_normal(N)
Z = rng.standard_normal(N)
X = rho*Y + np.sqrt(1 - rho**2)*Z # standard bivariate normal, corr = rho
# (গ) সরাসরি OLS slope == E[X|Y]-এর ঢাল (= rho), কারণ regression = conditional expectation
slope, intercept = np.polyfit(Y, X, 1)
print("slope :", round(slope, 4)) # 0.6008 ≈ rho
print("intercept :", round(intercept, 4)) # ≈ 0.000
# (খ) Y ≈ 1 সরু স্লাইস
m = np.abs(Y - 1.0) < 0.05
print("E[X|Y≈1] :", round(X[m].mean(), 4)) # 0.6014 ≈ rho*1
print("Var(X|Y≈1):", round(X[m].var(), 4)) # ≈ 0.64 = 1-rho^2
# (ক) bin-গড় = empirical E[X|Y]-এর সিঁড়ি
edges = np.quantile(Y, np.linspace(0, 1, 21)) # 20 সমভর bin
centers, binmeans = [], []
for b in range(20):
lo, hi = edges[b], edges[b+1]
sel = (Y >= lo) & (Y < hi) if b < 19 else (Y >= lo)
centers.append(Y[sel].mean()); binmeans.append(X[sel].mean())
# bin-গড়ের উপর fit করলে আবার ঢাল ≈ 0.6
bm_slope = np.polyfit(centers, binmeans, 1)[0]
print("bin-mean slope:", round(bm_slope, 4)) # ≈ 0.60
আউটপুট (canonical): slope ≈ 0.6008, E[X|Y≈1] ≈ 0.6014, Var(X|Y≈1) ≈ 0.64, bin-গড়ের ঢালও \(\approx0.60\)।
ব্যাখ্যা। প্রতিটি \(Y\)-bin-এ \(X\)-এর গড় ঠিক \(\widehat{\mathbb E}[X\mid Y\approx y]\) — bin-গড়গুলো \(y\)-এর সাথে রৈখিক, ঢাল \(\rho\)। np.polyfit-এর slope সেই রেখার ঢাল (\(=\rho\), কারণ population regression = conditional expectation = \(\rho y\))। \(Y\approx1\)-স্লাইসে গড় \(\approx\rho=0.6\) ও ভেদ \(\approx1-\rho^2=0.64\) — তত্ত্বের সরাসরি নিশ্চিতকরণ।
সমাধান ১১ (★★)¶
লক্ষ্য: \(g(Y)=\mathbb E[X\mid Y]=\rho Y\)-এর MSE \(\approx0.64\) বনাম সেরা-ধ্রুব \(0\)-এর MSE \(\approx1\) — regression কঠোরভাবে জেতে, লাভ \(\approx\rho^2=0.36\)।
import numpy as np
rng = np.random.default_rng(20260619)
N, rho = 200_000, 0.6
Y = rng.standard_normal(N)
Z = rng.standard_normal(N)
X = rho*Y + np.sqrt(1 - rho**2)*Z
mse_reg = np.mean((X - rho*Y)**2) # regression predictor g(Y)=E[X|Y]=rho*Y
mse_const = np.mean((X - 0.0)**2) # best constant g≡E[X]=0
gain = mse_const - mse_reg # = Var(E[X|Y]) = rho^2
print("MSE(rho*Y) :", round(mse_reg, 4)) # 0.6410 ≈ 1-rho^2 = 0.64
print("MSE(const 0):", round(mse_const, 4)) # 1.0017 ≈ Var X = 1
print("gain (rho^2):", round(gain, 4)) # ≈ 0.36
print("reg < const :", mse_reg < mse_const) # True
# কোনো বিকল্প g(Y) MSE-কে 0.64-এর নিচে নামাতে পারে না — যাচাই (এলোমেলো রৈখিক বিকল্প):
for b in [0.3, 0.5, 0.6, 0.7, 0.9]:
print(f" g=b*Y, b={b}: MSE = {round(np.mean((X - b*Y)**2), 4)}")
# b=0.6-এ সর্বনিম্ন (≈0.6410); দুই পাশে বাড়ে — minimizer ঠিক rho
আউটপুট (canonical): MSE(rho*Y) ≈ 0.6410, MSE(const 0) ≈ 1.0017, gain ≈ 0.36, reg < const = True। বিকল্প \(b\)-scan-এ \(b=0.6\)-তে MSE সর্বনিম্ন।
ব্যাখ্যা। Pythagoras অনুযায়ী যেকোনো \(g(Y)\)-এর MSE = irreducible \(\mathbb E[(X-\mathbb E[X\mid Y])^2]=1-\rho^2=0.64\) + অতিরিক্ত \(\mathbb E[(\mathbb E[X\mid Y]-g(Y))^2]\ge0\)। তাই \(0.64\)-ই তল, ছোঁয়া যায় কেবল \(g(Y)=\mathbb E[X\mid Y]=\rho Y\)-তে। সেরা-ধ্রুব \(0\)-এর MSE \(=\operatorname{Var}(X)=1\); লাভ \(1-0.64=0.36=\rho^2=\operatorname{Var}(\mathbb E[X\mid Y])\) — ঠিক যতটা \(Y\) ব্যাখ্যা করে। MC-তে \(0.6410<1.0017\) অসমতা দৃঢ়ভাবে ধরা পড়ল।
সমাধান ১২ (★★★)¶
লক্ষ্য: law of total variance-এর তিন পদ empirical-ভাবে — \(\mathbb E[\operatorname{Var}(X\mid Y)]\approx0.64\) (within/unexplained), \(\operatorname{Var}(\mathbb E[X\mid Y])\approx0.36\) (between/explained), যোগ \(\approx\operatorname{Var}(X)\approx1\); explained/total \(\approx\rho^2=R^2\)।
import numpy as np
rng = np.random.default_rng(20260619)
N, rho = 200_000, 0.6
Y = rng.standard_normal(N)
Z = rng.standard_normal(N)
X = rho*Y + np.sqrt(1 - rho**2)*Z
# Y-কে ~50 সমভর bin-এ ভাগ (quantile edges)
B = 50
edges = np.quantile(Y, np.linspace(0, 1, B + 1))
idx = np.clip(np.digitize(Y, edges[1:-1]), 0, B - 1)
within, means, counts = [], [], []
for b in range(B):
xb = X[idx == b]
if xb.size:
within.append(xb.var()) # (ক) bin-এর within-variance
means.append(xb.mean()) # (খ) bin-এর গড় = E[X|Y≈y]
counts.append(xb.size)
w = np.array(counts, float); w /= w.sum() # bin-ভর (ওজন)
within = np.array(within); means = np.array(means)
E_var = np.sum(w * within) # E[Var(X|Y)] (unexplained)
mbar = np.sum(w * means)
Var_E = np.sum(w * (means - mbar)**2) # Var(E[X|Y]) (explained)
total = E_var + Var_E
print("E[Var(X|Y)] (within) :", round(E_var, 3)) # ≈ 0.64
print("Var(E[X|Y]) (between):", round(Var_E, 3)) # ≈ 0.36
print("যোগফল :", round(total, 3)) # ≈ 1.00 == Var X
print("Var(X) সরাসরি :", round(X.var(), 3))# ≈ 1.00
print("explained/total (R^2):", round(Var_E / X.var(), 3)) # ≈ 0.36 = rho^2
আউটপুট (canonical): E[Var(X|Y)] ≈ 0.64, Var(E[X|Y]) ≈ 0.36, যোগফল ≈ 1.00 = Var(X), explained/total ≈ 0.36 = rho^2 = R^2।
ব্যাখ্যা। প্রতিটি bin "\(Y\approx y\)"-স্লাইস: bin-এর within-variance ঠিক \(\operatorname{Var}(X\mid Y\approx y)\), ভর-ওজনে গড় করলে \(\mathbb E[\operatorname{Var}(X\mid Y)]\approx0.64\) (homoscedastic বলে সব bin-এ \(\approx0.64\))। bin-গড়গুলো \(\widehat{\mathbb E}[X\mid Y]\), তাদের ভর-ওজনিত ভেদ \(\operatorname{Var}(\mathbb E[X\mid Y])\approx0.36\)। যোগ \(0.64+0.36=1=\operatorname{Var}(X)\) — law of total variance। ব্যাখ্যাকৃত ভগ্নাংশ \(0.36=\rho^2\) ঠিক regression-এর \(R^2\)। bin সংখ্যা \(B\) বাড়ালে discretization-bias কমে আনুমান তত্ত্বের \(0.64,\,0.36\)-এর আরও কাছে যায়।
মিলিয়ে দেখা — canonical সংখ্যা। পাশা: \(\mathbb E[X\mid\mathcal G]=4/3\) (জোড়/বিজোড়), tower \(3.5\)। bivariate normal \(\rho=0.6\): \(\mathbb E[X\mid Y]=0.6y\), \(\operatorname{Var}(X\mid Y)=0.64\); best-predictor MSE \(0.6410\) বনাম \(1.0017\); law of total variance \(1=0.64+0.36\), \(R^2=\rho^2=0.36\); MC slope \(0.6008\), \(\mathbb E[X\mid Y\approx1]=0.6014\) — সব seed `np.random.defa