সমাধান — অধ্যায় ২.৫ · Expectation, Variance, Moments & MGF¶

অধ্যায় ফাইল: part-2-probability-foundations/02-05-expectation-variance-moments.md (§৭ অনুশীলনী)। সব সংখ্যাগত উত্তর numpy, scipy.stats ও sympy দিয়ে যাচাই করা হয়েছে।

ক · ধারণাগত (conceptual)¶

সমাধান ১ (★)¶

$\mathbb{E}[X]=3.5$ হলো ছক্কার pmf-এর balance point (center of mass, ভরকেন্দ্র) — ছয়টি সমান ভর ($1,\dots,6$-এ, প্রতিটি $1/6$) যে বিন্দুতে ভারসাম্যে থাকে। center of mass-এ কোনো প্রকৃত কণা থাকতেই হয় না: যেমন দুই প্রান্তে সমান ওজনের একটি দণ্ডের ভরকেন্দ্র ঠিক মাঝখানে, যেখানে কোনো ওজনই নেই। তেমনি $3.5$ কোনো প্রকৃত মুখ নয়, তবু দীর্ঘমেয়াদি গড় — হাজার বার ছুঁড়লে গড় ফল $3.5$-এর কাছে যায় (§৬ Figure 5)। তাই কোনো অসংগতি নেই: expectation একটি সারাংশ অবস্থান, কোনো নির্দিষ্ট outcome নয়।

সমাধান ২ (★)¶

কেন বর্গ। কাঁচা deviation-এর গড় $\mathbb{E}[X-\mu]=\mathbb{E}[X]-\mu=\mu-\mu=0$ — সবসময় শূন্য, কারণ ধনাত্মক ও ঋণাত্মক deviation কাটাকাটি করে। ছড়ানো মাপতে হলে চিহ্ন মুছতে হবে। বর্গ ($(X-\mu)^2$) সব deviation-কে ধনাত্মক করে (এবং বড় deviation-কে বেশি গুরুত্ব দেয়), তাই গড়-বর্গ-deviation প্রকৃত ছড়ানো ধরে। (পরম মান $\lvert X-\mu\rvert$-ও কাজ করত, কিন্তু বর্গ গাণিতিকভাবে মসৃণ ও algebra-বান্ধব।)

SD কেন সুবিধাজনক। variance-এর একক মূল রাশির বর্গ (যেমন টাকা মাপলে variance "টাকা²" — যা ব্যাখ্যাহীন)। standard deviation $\sigma=\sqrt{\mathrm{Var}(X)}$ মূল এককে ফেরে (টাকা), তাই সরাসরি বলা যায় "গড়ে মানগুলো $\mu$ থেকে মোটামুটি $\sigma$ দূরে"।

সমাধান ৩ (★★)¶

Linearity ($\mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y]$) খাটে কারণ expectation একটি ওজন-করা যোগফল/integral, আর যোগ/integral linear — এতে $X,Y$ একসাথে কীভাবে আচরণ করে (তাদের নির্ভরশীলতা) কোনো ভূমিকা রাখে না; তাই independence লাগে না।

Variance বর্গ-ভিত্তিক, তাই $\mathrm{Var}(X+Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)+2\,\mathrm{Cov}(X,Y)$ — এখানে অতিরিক্ত পদ covariance $\mathrm{Cov}(X,Y)$ (2.6)। $X,Y$ independent হলে $\mathrm{Cov}=0$, তখনই কেবল variance সরলভাবে যোগ হয়। তাই variance-এর যোগ-নিয়মে independence অপরিহার্য, expectation-এর ক্ষেত্রে নয়।

সমাধান ৪ (★★)¶

skewness-এ power 3 (বিজোড়): কোনো ঋণাত্মক deviation $(X-\mu)<0$-কে বিজোড় power করলে ফল ঋণাত্মকই থাকে ($(-2)^3=-8$)। তাই বাঁ-দিকের (ঋণাত্মক) ও ডান-দিকের (ধনাত্মক) deviation আংশিক কাটাকাটি করে; নিট চিহ্ন বলে কোন দিকে tail ভারী — অর্থাৎ skewness একটি দিক (left/right) মাপে।

kurtosis-এ power 4 (জোড়): জোড় power সব deviation-কে ধনাত্মক করে ($(-2)^4=16$), চিহ্ন মুছে যায়। তাই দিক বোঝা যায় না; শুধু "deviation কত বড়" — বিশেষত খুব বড় deviation (tail) — তা-ই গণ্য হয়। তাই kurtosis দিক নয়, tail-এর ভার ও চূড়ার তীক্ষ্ণতা মাপে।

খ · গণনামূলক (computational)¶

সমাধান ৫ (★)¶

$X\sim\text{Uniform}(0,1)$, $f(x)=1$ on $[0,1]$। সাধারণ সূত্র $\int_0^1 x^k\,dx=\tfrac{1}{k+1}$: $$ \mathbb{E}[X]=\int_0^1 x\,dx=\tfrac12,\qquad \mathbb{E}[X^2]=\int_0^1 x^2\,dx=\tfrac13. $$ $$ \mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2=\tfrac13-\tfrac14=\boxed{\tfrac{1}{12}}\approx 0.0833. $$

সমাধান ৬ (★★)¶

pmf: $p(0)=0.2,\ p(1)=0.5,\ p(2)=0.3$। $$ \mathbb{E}[X]=0(0.2)+1(0.5)+2(0.3)=\boxed{1.1}. $$ $$ \mathbb{E}[X^2]=0(0.2)+1(0.5)+4(0.3)=1.7,\qquad \mathrm{Var}(X)=1.7-1.1^2=1.7-1.21=\boxed{0.49}. $$ LOTUS দিয়ে: $$ \mathbb{E}[(X-1)^2]=(0-1)^2(0.2)+(1-1)^2(0.5)+(2-1)^2(0.3)=0.2+0+0.3=\boxed{0.5}. $$ কেন $0.5\neq 0.49$? $\mathbb{E}[(X-c)^2]$ ন্যূনতম হয় ঠিক $c=\mu=1.1$-তে (সেই ন্যূনতম মানই variance $=0.49$)। এখানে $c=1\neq\mu$, তাই মানটি সামান্য বড় ($0.5$)। সম্পর্ক: $\mathbb{E}[(X-c)^2]=\mathrm{Var}(X)+(\mu-c)^2=0.49+(0.1)^2=0.50$. ✓

সমাধান ৭ (★★)¶

$Y=3X-2$, দেওয়া $\mathbb{E}[X]=4,\ \mathrm{Var}(X)=5$। properties ($a=3,b=-2$): $$ \mathbb{E}[Y]=3\mathbb{E}[X]-2=3(4)-2=\boxed{10}. $$ $$ \mathrm{Var}(Y)=a^2\mathrm{Var}(X)=3^2\cdot 5=\boxed{45}\quad(\text{shift }-2\text{ অদৃশ্য}). $$ $$ \mathrm{SD}(Y)=\lvert a\rvert\,\sigma=3\sqrt{5}=\boxed{6.708}. $$

সমাধান ৮ (★★)¶

Bernoulli($p$): $M(t)=(1-p)+pe^t$। $$ M'(t)=pe^t \;\Rightarrow\; M'(0)=p=\mathbb{E}[X]. $$ $$ M''(t)=pe^t \;\Rightarrow\; M''(0)=p=\mathbb{E}[X^2]. $$ $$ \mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2=p-p^2=\boxed{p(1-p)}. \checkmark $$ (§৩ উদাহরণ A-এর সাথে হুবহু মিলে।)

গ · প্রমাণভিত্তিক (proof-based)¶

সমাধান ৯ (★★)¶

$Y=aX+b$ ধরি, $\mu=\mathbb{E}[X]$। প্রথমে linearity (§৪.২): $\mathbb{E}[Y]=a\mu+b$। deviation: $$ Y-\mathbb{E}[Y]=(aX+b)-(a\mu+b)=a(X-\mu). $$ $b$ কাটাকাটি হয়ে গেল। এখন variance-এর সংজ্ঞায় বসিয়ে এবং $a^2$ ধ্রুবক হিসেবে বের করে (linearity): $$ \mathrm{Var}(Y)=\mathbb{E}\big[(Y-\mathbb{E}[Y])^2\big]=\mathbb{E}\big[a^2(X-\mu)^2\big]=a^2\,\mathbb{E}\big[(X-\mu)^2\big]=a^2\,\mathrm{Var}(X). \qquad\blacksquare $$ $b$ অদৃশ্য, কারণ shift সব মানকে সমান সরায় — পারস্পরিক দূরত্ব অপরিবর্তিত।

সমাধান ১০ (★★)¶

$X\perp Y$ ধরি। MGF-এর সংজ্ঞা থেকে: $$ M_{X+Y}(t)=\mathbb{E}\big[e^{t(X+Y)}\big]=\mathbb{E}\big[e^{tX}\,e^{tY}\big]. $$ মূল ধাপ (independence)। $X\perp Y$ হলে $e^{tX}$ ও $e^{tY}$-ও independent, আর independent random variable-এর গুণফলের expectation = expectation-দের গুণফল: $$ \mathbb{E}\big[e^{tX}e^{tY}\big]=\mathbb{E}[e^{tX}]\cdot\mathbb{E}[e^{tY}]=M_X(t)\,M_Y(t). \qquad\blacksquare $$ কেন independence অপরিহার্য। সাধারণভাবে $\mathbb{E}[UV]\neq\mathbb{E}[U]\mathbb{E}[V]$; সমতা কেবল তখনই যখন $U=e^{tX},V=e^{tY}$ independent (অর্থাৎ তাদের joint expectation factorize করে)। নির্ভরশীল হলে একটি covariance-জাতীয় পদ থেকে যায় এবং গুণফল-নিয়ম ভেঙে পড়ে।

সমাধান ১১ (★★★)¶

$X\sim\text{Poisson}(\lambda_1)$, $Y\sim\text{Poisson}(\lambda_2)$, independent। প্রতিটির MGF $M(t)=e^{\lambda(e^t-1)}$। গুণফল-নিয়ম (সমাধান ১০): $$ M_{X+Y}(t)=M_X(t)\,M_Y(t)=e^{\lambda_1(e^t-1)}\cdot e^{\lambda_2(e^t-1)}=e^{(\lambda_1+\lambda_2)(e^t-1)}. $$ এটি ঠিক একটি Poisson($\lambda_1+\lambda_2$)-এর MGF (rate $\lambda_1+\lambda_2$ বসালে যা পাওয়া যেত)। MGF uniqueness (§২.৮) অনুসারে একই MGF মানে একই distribution, তাই $$ \boxed{X+Y\sim\text{Poisson}(\lambda_1+\lambda_2)}. \qquad\blacksquare $$ insight (অন্তর্দৃষ্টি): rate যোগ হওয়া স্বাভাবিক — দুটি independent Poisson process (প্রবাহ) মিলে গেলে মোট ঘটনার rate-গুলো যোগ হয়।

ঘ · কোডিং (coding)¶

সমাধান ১২ (★)¶

import numpy as np
rng = np.random.default_rng(123)
s = rng.binomial(n=10, p=0.3, size=1_000_000)
print(f"sample mean = {s.mean():.4f}   theory np      = {10*0.3:.4f}")
print(f"sample var  = {s.var():.4f}   theory np(1-p)  = {10*0.3*0.7:.4f}")

আউটপুট:

sample mean = 2.9989   theory np      = 3.0000
sample var  = 2.0953   theory np(1-p)  = 2.1000

sample mean $\approx 3.0=np$ এবং sample var $\approx 2.1=np(1-p)$ — simulation theory নিশ্চিত করে (Binomial = $n$টি independent Bernoulli-র যোগ, তাই mean ও var দুটোই $n$ গুণ)।

সমাধান ১৩ (★★)¶

import numpy as np
from scipy import stats
lam = 1.5
m, v, sk, k = stats.expon.stats(scale=1/lam, moments='mvsk')   # analytic
print(f"analytic: mean={m:.4f} (2/3)  var={v:.4f} (4/9)  skew={sk:.4f}  exkurt={k:.4f}")

rng = np.random.default_rng(9)
x = rng.exponential(scale=1/lam, size=2_000_000)               # empirical
print(f"empirical: mean={x.mean():.4f}  var={x.var():.4f}  "
      f"skew={stats.skew(x):.4f}  exkurt={stats.kurtosis(x):.4f}")

আউটপুট:

analytic: mean=0.6667 (2/3)  var=0.4444 (4/9)  skew=2.0000  exkurt=6.0000
empirical: mean=0.6664  var=0.4439  skew=2.0033  exkurt=6.0490

হ্যাঁ — skewness $\approx 2$ (Exponential সবসময় right-skewed, §৩ ধাপ ৬) এবং excess kurtosis $\approx 6$ (heavy-tailed, normal-এর চেয়ে অনেক বেশি)। analytic ও empirical মান কাছাকাছি।

সমাধান ১৪ (★★★)¶

import sympy as sp
t, mu, sig = sp.symbols('t mu sigma', real=True)
M = sp.exp(mu*t + sig**2 * t**2 / 2)            # Normal MGF

m1 = sp.diff(M, t, 1).subs(t, 0)                # raw moments
m2 = sp.diff(M, t, 2).subs(t, 0)
m3 = sp.diff(M, t, 3).subs(t, 0)
m4 = sp.diff(M, t, 4).subs(t, 0)
print("E[X]  =", sp.simplify(m1))               # mu
print("E[X^2]=", sp.simplify(m2))               # mu^2 + sigma^2
print("E[X^3]=", sp.simplify(m3))               # mu^3 + 3 mu sigma^2
print("E[X^4]=", sp.simplify(m4))               # mu^4 + 6 mu^2 sigma^2 + 3 sigma^4

# central moments via binomial expansion of E[(X-mu)^k]
mu3 = sp.simplify(m3 - 3*m1*m2 + 2*m1**3)
mu4 = sp.simplify(m4 - 4*m1*m3 + 6*m1**2*m2 - 3*m1**4)
print("central mu3 =", mu3)                     # 0
print("central mu4 =", mu4)                     # 3 sigma^4
print("skewness     =", sp.simplify(mu3/sig**3))      # 0
print("excess kurt  =", sp.simplify(mu4/sig**4 - 3))  # 0

আউটপুট:

E[X]  = mu
E[X^2]= mu**2 + sigma**2
E[X^3]= mu*(mu**2 + 3*sigma**2)
E[X^4]= mu**4 + 6*mu**2*sigma**2 + 3*sigma**4
central mu3 = 0
central mu4 = 3*sigma**4
skewness     = 0
excess kurt  = 0

চারটি raw moment MGF-এর ধারাবাহিক derivative থেকে এলো। central moment বের করতে $\mathbb{E}[(X-\mu)^k]$-এর binomial expansion ব্যবহার করা হলো: $$ \mu_3=\mathbb{E}[X^3]-3\mu\,\mathbb{E}[X^2]+2\mu^3=0,\qquad \mu_4=\mathbb{E}[X^4]-4\mu\,\mathbb{E}[X^3]+6\mu^2\,\mathbb{E}[X^2]-3\mu^4=3\sigma^4. $$ তাই skewness $=\mu_3/\sigma^3=0$ (normal নিখুঁত symmetric) এবং excess kurtosis $=\mu_4/\sigma^4-3=3\sigma^4/\sigma^4-3=0$ (normal-ই mesokurtic-এর সংজ্ঞা — সব ku