সমাধান — অধ্যায় ২.৫ · Expectation, Variance, Moments & MGF¶
অধ্যায় ফাইল:
part-2-probability-foundations/02-05-expectation-variance-moments.md(§৭ অনুশীলনী)। সব সংখ্যাগত উত্তরnumpy,scipy.statsওsympyদিয়ে যাচাই করা হয়েছে।
ক · ধারণাগত (conceptual)¶
সমাধান ১ (★)¶
\(\mathbb{E}[X]=3.5\) হলো ছক্কার pmf-এর balance point (center of mass, ভরকেন্দ্র) — ছয়টি সমান ভর (\(1,\dots,6\)-এ, প্রতিটি \(1/6\)) যে বিন্দুতে ভারসাম্যে থাকে। center of mass-এ কোনো প্রকৃত কণা থাকতেই হয় না: যেমন দুই প্রান্তে সমান ওজনের একটি দণ্ডের ভরকেন্দ্র ঠিক মাঝখানে, যেখানে কোনো ওজনই নেই। তেমনি \(3.5\) কোনো প্রকৃত মুখ নয়, তবু দীর্ঘমেয়াদি গড় — হাজার বার ছুঁড়লে গড় ফল \(3.5\)-এর কাছে যায় (§৬ Figure 5)। তাই কোনো অসংগতি নেই: expectation একটি সারাংশ অবস্থান, কোনো নির্দিষ্ট outcome নয়।
সমাধান ২ (★)¶
কেন বর্গ। কাঁচা deviation-এর গড় \(\mathbb{E}[X-\mu]=\mathbb{E}[X]-\mu=\mu-\mu=0\) — সবসময় শূন্য, কারণ ধনাত্মক ও ঋণাত্মক deviation কাটাকাটি করে। ছড়ানো মাপতে হলে চিহ্ন মুছতে হবে। বর্গ (\((X-\mu)^2\)) সব deviation-কে ধনাত্মক করে (এবং বড় deviation-কে বেশি গুরুত্ব দেয়), তাই গড়-বর্গ-deviation প্রকৃত ছড়ানো ধরে। (পরম মান \(\lvert X-\mu\rvert\)-ও কাজ করত, কিন্তু বর্গ গাণিতিকভাবে মসৃণ ও algebra-বান্ধব।)
SD কেন সুবিধাজনক। variance-এর একক মূল রাশির বর্গ (যেমন টাকা মাপলে variance "টাকা²" — যা ব্যাখ্যাহীন)। standard deviation \(\sigma=\sqrt{\mathrm{Var}(X)}\) মূল এককে ফেরে (টাকা), তাই সরাসরি বলা যায় "গড়ে মানগুলো \(\mu\) থেকে মোটামুটি \(\sigma\) দূরে"।
সমাধান ৩ (★★)¶
Linearity (\(\mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y]\)) খাটে কারণ expectation একটি ওজন-করা যোগফল/integral, আর যোগ/integral linear — এতে \(X,Y\) একসাথে কীভাবে আচরণ করে (তাদের নির্ভরশীলতা) কোনো ভূমিকা রাখে না; তাই independence লাগে না।
Variance বর্গ-ভিত্তিক, তাই \(\mathrm{Var}(X+Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)+2\,\mathrm{Cov}(X,Y)\) — এখানে অতিরিক্ত পদ covariance \(\mathrm{Cov}(X,Y)\) (2.6)। \(X,Y\) independent হলে \(\mathrm{Cov}=0\), তখনই কেবল variance সরলভাবে যোগ হয়। তাই variance-এর যোগ-নিয়মে independence অপরিহার্য, expectation-এর ক্ষেত্রে নয়।
সমাধান ৪ (★★)¶
skewness-এ power 3 (বিজোড়): কোনো ঋণাত্মক deviation \((X-\mu)<0\)-কে বিজোড় power করলে ফল ঋণাত্মকই থাকে (\((-2)^3=-8\))। তাই বাঁ-দিকের (ঋণাত্মক) ও ডান-দিকের (ধনাত্মক) deviation আংশিক কাটাকাটি করে; নিট চিহ্ন বলে কোন দিকে tail ভারী — অর্থাৎ skewness একটি দিক (left/right) মাপে।
kurtosis-এ power 4 (জোড়): জোড় power সব deviation-কে ধনাত্মক করে (\((-2)^4=16\)), চিহ্ন মুছে যায়। তাই দিক বোঝা যায় না; শুধু "deviation কত বড়" — বিশেষত খুব বড় deviation (tail) — তা-ই গণ্য হয়। তাই kurtosis দিক নয়, tail-এর ভার ও চূড়ার তীক্ষ্ণতা মাপে।
খ · গণনামূলক (computational)¶
সমাধান ৫ (★)¶
\(X\sim\text{Uniform}(0,1)\), \(f(x)=1\) on \([0,1]\)। সাধারণ সূত্র \(\int_0^1 x^k\,dx=\tfrac{1}{k+1}\): $$ \mathbb{E}[X]=\int_0^1 x\,dx=\tfrac12,\qquad \mathbb{E}[X^2]=\int_0^1 x^2\,dx=\tfrac13. $$ $$ \mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2=\tfrac13-\tfrac14=\boxed{\tfrac{1}{12}}\approx 0.0833. $$
সমাধান ৬ (★★)¶
pmf: \(p(0)=0.2,\ p(1)=0.5,\ p(2)=0.3\)। $$ \mathbb{E}[X]=0(0.2)+1(0.5)+2(0.3)=\boxed{1.1}. $$ $$ \mathbb{E}[X^2]=0(0.2)+1(0.5)+4(0.3)=1.7,\qquad \mathrm{Var}(X)=1.7-1.1^2=1.7-1.21=\boxed{0.49}. $$ LOTUS দিয়ে: $$ \mathbb{E}[(X-1)^2]=(0-1)^2(0.2)+(1-1)^2(0.5)+(2-1)^2(0.3)=0.2+0+0.3=\boxed{0.5}. $$ কেন \(0.5\neq 0.49\)? \(\mathbb{E}[(X-c)^2]\) ন্যূনতম হয় ঠিক \(c=\mu=1.1\)-তে (সেই ন্যূনতম মানই variance \(=0.49\))। এখানে \(c=1\neq\mu\), তাই মানটি সামান্য বড় (\(0.5\))। সম্পর্ক: \(\mathbb{E}[(X-c)^2]=\mathrm{Var}(X)+(\mu-c)^2=0.49+(0.1)^2=0.50\). ✓
সমাধান ৭ (★★)¶
\(Y=3X-2\), দেওয়া \(\mathbb{E}[X]=4,\ \mathrm{Var}(X)=5\)। properties (\(a=3,b=-2\)): $$ \mathbb{E}[Y]=3\mathbb{E}[X]-2=3(4)-2=\boxed{10}. $$ $$ \mathrm{Var}(Y)=a^2\mathrm{Var}(X)=3^2\cdot 5=\boxed{45}\quad(\text{shift }-2\text{ অদৃশ্য}). $$ $$ \mathrm{SD}(Y)=\lvert a\rvert\,\sigma=3\sqrt{5}=\boxed{6.708}. $$
সমাধান ৮ (★★)¶
Bernoulli(\(p\)): \(M(t)=(1-p)+pe^t\)। $$ M'(t)=pe^t \;\Rightarrow\; M'(0)=p=\mathbb{E}[X]. $$ $$ M''(t)=pe^t \;\Rightarrow\; M''(0)=p=\mathbb{E}[X^2]. $$ $$ \mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2=p-p^2=\boxed{p(1-p)}. \checkmark $$ (§৩ উদাহরণ A-এর সাথে হুবহু মিলে।)
গ · প্রমাণভিত্তিক (proof-based)¶
সমাধান ৯ (★★)¶
\(Y=aX+b\) ধরি, \(\mu=\mathbb{E}[X]\)। প্রথমে linearity (§৪.২): \(\mathbb{E}[Y]=a\mu+b\)। deviation: $$ Y-\mathbb{E}[Y]=(aX+b)-(a\mu+b)=a(X-\mu). $$ \(b\) কাটাকাটি হয়ে গেল। এখন variance-এর সংজ্ঞায় বসিয়ে এবং \(a^2\) ধ্রুবক হিসেবে বের করে (linearity): $$ \mathrm{Var}(Y)=\mathbb{E}\big[(Y-\mathbb{E}[Y])^2\big]=\mathbb{E}\big[a^2(X-\mu)^2\big]=a^2\,\mathbb{E}\big[(X-\mu)^2\big]=a^2\,\mathrm{Var}(X). \qquad\blacksquare $$ \(b\) অদৃশ্য, কারণ shift সব মানকে সমান সরায় — পারস্পরিক দূরত্ব অপরিবর্তিত।
সমাধান ১০ (★★)¶
\(X\perp Y\) ধরি। MGF-এর সংজ্ঞা থেকে: $$ M_{X+Y}(t)=\mathbb{E}\big[e^{t(X+Y)}\big]=\mathbb{E}\big[e^{tX}\,e^{tY}\big]. $$ মূল ধাপ (independence)। \(X\perp Y\) হলে \(e^{tX}\) ও \(e^{tY}\)-ও independent, আর independent random variable-এর গুণফলের expectation = expectation-দের গুণফল: $$ \mathbb{E}\big[e^{tX}e^{tY}\big]=\mathbb{E}[e^{tX}]\cdot\mathbb{E}[e^{tY}]=M_X(t)\,M_Y(t). \qquad\blacksquare $$ কেন independence অপরিহার্য। সাধারণভাবে \(\mathbb{E}[UV]\neq\mathbb{E}[U]\mathbb{E}[V]\); সমতা কেবল তখনই যখন \(U=e^{tX},V=e^{tY}\) independent (অর্থাৎ তাদের joint expectation factorize করে)। নির্ভরশীল হলে একটি covariance-জাতীয় পদ থেকে যায় এবং গুণফল-নিয়ম ভেঙে পড়ে।
সমাধান ১১ (★★★)¶
\(X\sim\text{Poisson}(\lambda_1)\), \(Y\sim\text{Poisson}(\lambda_2)\), independent। প্রতিটির MGF \(M(t)=e^{\lambda(e^t-1)}\)। গুণফল-নিয়ম (সমাধান ১০): $$ M_{X+Y}(t)=M_X(t)\,M_Y(t)=e^{\lambda_1(e^t-1)}\cdot e^{\lambda_2(e^t-1)}=e^{(\lambda_1+\lambda_2)(e^t-1)}. $$ এটি ঠিক একটি Poisson(\(\lambda_1+\lambda_2\))-এর MGF (rate \(\lambda_1+\lambda_2\) বসালে যা পাওয়া যেত)। MGF uniqueness (§২.৮) অনুসারে একই MGF মানে একই distribution, তাই $$ \boxed{X+Y\sim\text{Poisson}(\lambda_1+\lambda_2)}. \qquad\blacksquare $$ insight (অন্তর্দৃষ্টি): rate যোগ হওয়া স্বাভাবিক — দুটি independent Poisson process (প্রবাহ) মিলে গেলে মোট ঘটনার rate-গুলো যোগ হয়।
ঘ · কোডিং (coding)¶
সমাধান ১২ (★)¶
import numpy as np
rng = np.random.default_rng(123)
s = rng.binomial(n=10, p=0.3, size=1_000_000)
print(f"sample mean = {s.mean():.4f} theory np = {10*0.3:.4f}")
print(f"sample var = {s.var():.4f} theory np(1-p) = {10*0.3*0.7:.4f}")
সমাধান ১৩ (★★)¶
import numpy as np
from scipy import stats
lam = 1.5
m, v, sk, k = stats.expon.stats(scale=1/lam, moments='mvsk') # analytic
print(f"analytic: mean={m:.4f} (2/3) var={v:.4f} (4/9) skew={sk:.4f} exkurt={k:.4f}")
rng = np.random.default_rng(9)
x = rng.exponential(scale=1/lam, size=2_000_000) # empirical
print(f"empirical: mean={x.mean():.4f} var={x.var():.4f} "
f"skew={stats.skew(x):.4f} exkurt={stats.kurtosis(x):.4f}")
analytic: mean=0.6667 (2/3) var=0.4444 (4/9) skew=2.0000 exkurt=6.0000
empirical: mean=0.6664 var=0.4439 skew=2.0033 exkurt=6.0490
সমাধান ১৪ (★★★)¶
import sympy as sp
t, mu, sig = sp.symbols('t mu sigma', real=True)
M = sp.exp(mu*t + sig**2 * t**2 / 2) # Normal MGF
m1 = sp.diff(M, t, 1).subs(t, 0) # raw moments
m2 = sp.diff(M, t, 2).subs(t, 0)
m3 = sp.diff(M, t, 3).subs(t, 0)
m4 = sp.diff(M, t, 4).subs(t, 0)
print("E[X] =", sp.simplify(m1)) # mu
print("E[X^2]=", sp.simplify(m2)) # mu^2 + sigma^2
print("E[X^3]=", sp.simplify(m3)) # mu^3 + 3 mu sigma^2
print("E[X^4]=", sp.simplify(m4)) # mu^4 + 6 mu^2 sigma^2 + 3 sigma^4
# central moments via binomial expansion of E[(X-mu)^k]
mu3 = sp.simplify(m3 - 3*m1*m2 + 2*m1**3)
mu4 = sp.simplify(m4 - 4*m1*m3 + 6*m1**2*m2 - 3*m1**4)
print("central mu3 =", mu3) # 0
print("central mu4 =", mu4) # 3 sigma^4
print("skewness =", sp.simplify(mu3/sig**3)) # 0
print("excess kurt =", sp.simplify(mu4/sig**4 - 3)) # 0
E[X] = mu
E[X^2]= mu**2 + sigma**2
E[X^3]= mu*(mu**2 + 3*sigma**2)
E[X^4]= mu**4 + 6*mu**2*sigma**2 + 3*sigma**4
central mu3 = 0
central mu4 = 3*sigma**4
skewness = 0
excess kurt = 0