পরিভাষা (Glossary) — English term → বাংলা ব্যাখ্যা¶

এই শিক্ষাক্রমের নীতি: technical/mathematical term সর্বদা ইংরেজিতে, ব্যাখ্যা বাংলায়। (Parts 0–VIII সম্পূর্ণ — শূন্য থেকে measure-তাত্ত্বিক PhD স্তর ও integrative capstone।)

English term	বাংলা ব্যাখ্যা	অধ্যায়
\(-2\log\Lambda\)	LRT statistic; log-likelihood-এর চূড়া থেকে \(\theta_0\)-তে উল্লম্ব ড্রপের দ্বিগুণ; \(H_0\)-র অধীনে \(\xrightarrow{d}\chi^2_k\) (Wilks)	4.8
2D density	দুই-চলক ঘনত্বের মসৃণ contour চিত্র (kernel density)	1.4
a.s. uniqueness (of conditional expectation)	\(\int_G Z\,d\mathbb P=\int_G Z'\,d\mathbb P\ \forall G\in\mathcal G\) ও দুটোই \(\mathcal G\)-measurable ⇒ \(Z=Z'\) a.s. (7.4); তাই \(\mathbb E[X\mid\mathcal G]\) একটি version পর্যন্ত অনন্য	7.7
absence of evidence ≠ evidence of absence	"significant নয়" মানে "\(H_0\) সত্যি" নয় — হয়তো power কম ছিল (ছোট \(n\)/effect, Figure 3-নিচু curve; §৭ Q4)	4.7
absolute continuity (\(\nu\ll\mu\))	\(\mu(A)=0\Rightarrow\nu(A)=0\); \(\mu\) যা অদৃশ্য দেখে \(\nu\)-ও তা অদৃশ্য দেখে — Radon–Nikodym density থাকার আবশ্যিক ও (σ-finite-এ) যথেষ্ট শর্ত	7.5
acceptance probability	\(\alpha(x,x')=\min(1,\,f(x')/f(x))\) (প্রতিসম proposal) — প্রস্তাবিত move গ্রহণের সম্ভাবনা; কেবল target-অনুপাত লাগে, normalizing constant নয়	3.6
accuracy	\(\frac{\mathrm{TP}+\mathrm{TN}}{n}\); সঠিক পূর্বাভাসের অনুপাত — threshold- ও imbalance-নির্ভর, তাই একা বিভ্রান্তিকর হতে পারে (এখানে \(0.855\))	5.4
AdaBoost	adaptive boosting — প্রতি round-এ weighted-error \(\varepsilon_t\)-এর weak learner বাছে, ওজন দেয় \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\), ভুল-বিন্দুর নমুনা-ওজন বাড়ায়; exponential loss-এর forward stagewise additive modeling। canonical (stump base): n_est \(50\to\mathbf{0.850}\) চূড়া, তারপর পতন	6.6
adapted process	\((X_n)\) adapted \((\mathcal F_n)\)-এর সাপেক্ষে যদি প্রতিটি \(X_n\) \(\mathcal F_n\)-measurable — "বর্তমান তথ্যেই \(X_n\) জানা" (যেমন আজকের সম্পদ); martingale হতে আবশ্যক	7.8
adaptive boosting	AdaBoost-এর পূর্ণরূপ — "adaptive" কারণ প্রতিটি round নমুনা-বণ্টন আগের ভুলের দিকে মানিয়ে নেয় (reweighting); এই মানিয়ে-নেওয়াই algorithm-কে কঠিন বিন্দুতে ফোকাস করায়, কিন্তু একই কারণে label-noise/outlier-সংবেদনশীল করে	6.6
addition principle	বিচ্ছিন্ন ("or") উপায়ের সংখ্যাকে যোগ করে মোট উপায় গোনা	0.2
addition rule	\(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)	2.1
additivity of Fisher information	iid নমুনায় মোট information \(I_n(\theta)=nI_1(\theta)\) — প্রতিটি observation \(I_1\) পরিমাণ তথ্য যোগ করে (§৭ Q13)	4.5
adjusted R-squared	predictor-সংখ্যার জন্য সংশোধিত \(R^2\), \(1-\frac{\text{SSE}/(n-p)}{\text{SST}/(n-1)}\)	5.1
adjusted Rand index (ARI)	দুটো cluster-বিন্যাস (যেমন প্রাপ্ত বনাম সত্য label) কতটা মেলে তার chance-সংশোধিত মাপ: বিন্দু-জোড়ার সম্মতি গুনে প্রত্যাশিত-আকস্মিক-সম্মতি বিয়োগ; পুরোপুরি মিললে \(1\), এলোমেলো বিন্যাসে \(\approx0\); চলমান উদাহরণে \(k{=}3\to0.990\) (প্রায়-নিখুঁত পুনরুদ্ধার); সীমা — সত্য label জানা লাগে, তাই বাস্তব unsupervised-এ silhouette-এর মতো internal মাপ লাগে	5.9
admissibility / inadmissibility	একটা estimator admissible যদি কোনো estimator তাকে dominate না করে; নাহলে inadmissible (অগ্রহণযোগ্য — একটা প্রতিদ্বন্দ্বী আছে যা কখনো খারাপ নয়); Stein: MLE \(\hat\theta=X\) inadmissible যখন \(p\ge3\), admissible যখন \(p\le2\)	8.3
affine/scaling rule	\(\varphi_{aX+b}(t)=e^{itb}\,\varphi_X(at)\); standardization \(\frac{X-\mu}{\sigma}\)-এ \(\varphi_{(X-\mu)/\sigma}(t)=e^{-i\mu t/\sigma}\varphi_X(t/\sigma)\) — CLT-এর centering–scaling সামলায়	7.10
AIC	Akaike Information Criterion \(=-2\ell+2K\) (\(\ell\) maximized log-likelihood, \(K\) free parameter incl. variance); fit ও complexity-র আপস, ছোটটাই ভালো; prediction-অনুকূল (asymptotically efficient)	5.2
algebra (field)	\(\Omega\)-এর subset-দের পরিবার যা \(\Omega\) ধারণ করে, complement-বদ্ধ ও সসীম union-বদ্ধ; \(\sigma\)-algebra-র দুর্বলতর রূপ — "finite-or-cofinite on \(\mathbb N\)" algebra কিন্তু \(\sigma\)-algebra নয়	7.2
almost everywhere	"প্রায় সর্বত্র" (a.e.); একটি measure-শূন্য সেট বাদে সর্বত্র সত্য — measure-শূন্য সেট integral-এ অবদান রাখে না	7.4
almost everywhere (a.e.)	একটা ধর্ম "প্রায় সর্বত্র" সত্য মানে যে set-এ তা ব্যর্থ তার measure \(0\); যেমন \(\mathbf 1_{\mathbb Q}=0\) a.e. — Lebesgue তত্ত্বে null set উপেক্ষণীয়	7.1
almost sure convergence	\(P(\lim_n X_n=X)=1\); প্রায় প্রতিটি পথ আক্ষরিকভাবে থিতু হয়, লেখা \(X_n\xrightarrow{a.s.}X\)	3.2
almost surely (a.s.)	একটি ঘটনা probability-\(1\) set-এ ঘটে (\(\mathbb P=1\)); a.e.-অভিসরণের probability-রূপ — SLLN-এর গন্তব্য, in-probability-র চেয়ে শক্তিশালী	7.6
almost-sure convergence	\(X_n\to X_\infty\) "প্রায়-নিশ্চিতভাবে" — একটা \(\mathbb P\)-null set বাদে প্রতিটি \(\omega\)-তে \(X_n(\omega)\to X_\infty(\omega)\); convergence theorem-এর প্রাথমিক উপসংহার (পথ থিতু হয়, গন্তব্য random হতে পারে)	7.9
alternative hypothesis \(H_1\)	\(H_0\) ভুল হলে যা সত্যি — গবেষণা/বিকল্প দাবি; two-sided \(\mu\neq\mu_0\) বা one-sided \(\mu>\mu_0\)/\(\mu<\mu_0\)	4.7
anomaly detection	data-র মধ্যে এমন বিন্দু চিহ্নিত করা যারা (i) বিরল এবং (ii) স্বাভাবিক গঠন/density থেকে দূরে — সম্ভবত ভিন্ন প্রক্রিয়া থেকে আসা; চারটি স্বজ্ঞাগত পরিবার: statistical (Mahalanobis), density (LOF), isolation (Isolation Forest), boundary (One-Class SVM)	6.9
anomaly score \(s(x)\)	প্রতিটি বিন্দুর "কতটা anomaly" তার ক্রমিক মান; Isolation Forest-এ \(s(x)=2^{-\mathbb E[h(x)]/c(n)}\) (\(s\to1\) = anomaly), LOF/Elliptic-এ দূরত্ব/density থেকে; threshold বা ROC AUC মূল্যায়নের ভিত্তি	6.9
ANOVA (analysis of variance)	একাধিক group-এর গড় সমান কিনা পরীক্ষার পদ্ধতি — total variation-কে between- ও within-group অংশে ভেঙে তাদের অনুপাত (\(F\)) নিয়ে; নাম "variance" হলেও আসলে গড় তুলনা করে	5.3
ANOVA as regression	one-way ANOVA = dummy-encoded linear regression; group-গড় \(\to\) coefficient, \(H_0:\mu\) সব সমান \(\to\) regression-এর overall \(F\)-test (\(\beta=0\) সব slope) — একই OLS-যন্ত্র	5.3
ANOVA assumptions	(i) group/observation independence, (ii) within-group Normality, (iii) equal variance — ৫.১-এর LINE-এর I, N, E-এর সরাসরি অনুরূপ	5.3
Anscombe's quartet	একই \(r\)/mean/line কিন্তু সম্পূর্ণ ভিন্ন আকৃতির চারটি dataset; correlation-এর সীমাবদ্ধতার উদাহরণ	1.4
antiderivative	যে function-এর derivative নিলে আদি function ফেরে (\(F'=f\))	0.4
aperiodic	কোনো state-এ ফেরার সম্ভাব্য ধাপ-সংখ্যাগুলোর গসাগু \(1\); periodicity না থাকলে \(\mu_n\) দোলা ছাড়াই \(\pi\)-তে গড়ায় (convergence-এর শর্ত)	3.6
approximation theorem (simple functions)	প্রতিটি অঋণাত্মক measurable \(f\ge 0\) হলো simple function-দের একটা ক্রমবর্ধমান point-wise limit \(0\le f_n\uparrow f\); সাধারণ \(f\)-এ \(f=f^+-f^-\) — Lebesgue integral (7.4)-এর সরাসরি ভিত্তি	7.3
AR(1) process	\(X_t=\phi X_{t-1}+\varepsilon_t\) (\(\lvert\phi\rvert<1\)); সরলতম stationary dependent process, \(\gamma(h)=\frac{\sigma^2}{1-\phi^2}\phi^{\lvert h\rvert}\)	3.5
area under the curve	curve ও x-অক্ষের মধ্যেকার ক্ষেত্রফল, যা integral পরিমাপ করে	0.4
array	NumPy-র সমজাতীয় সংখ্যার গ্রিড; দ্রুত গণনার মূল object	0.6
asymptotic equivalence (of tests)	বড় নমুনায় LRT, Wald, score তিনটাই একই \(\chi^2_k\) limit-এ যায় ও অনুপাত \(\to1\); ছোট \(n\)-এ আলাদা (Figure 4, §৭ Q11)	4.8
asymptotic normality	বড় নমুনায় কোনো estimator/রাশি আনুমানিক Normal হওয়ার ধর্ম; \(\bar X_n\overset{\text{approx}}{\sim}\mathcal N(\mu,\sigma^2/n)\)	3.4
asymptotic normality of MLE	বড় নমুনায় \(\hat\theta\approx\mathcal{N}\!\big(\theta,\frac{1}{nI(\theta)}\big)\) — MLE একসাথে Normal, asymptotically unbiased ও efficient (Figure 3)	4.5
asymptotic variance of MLE	MLE-র বড়-নমুনা variance \(=\frac{1}{nI(\theta)}\) — ঠিক CRLB floor; SE \(=\sqrt{1/[nI(\hat\theta)]}\) (Figure 3)	4.5
asymptotically efficient	বড় নমুনায় যার variance CRLB floor ছোঁয়; MLE-র মূল গুণ — তাই "asymptotically সেরা" estimator	4.5
asymptotically unbiased	\(n\to\infty\)-এ bias \(\to0\); অনেক MoM estimator (যেমন \(1/\bar X\)) biased কিন্তু asymptotically unbiased	4.2
atom	একটা (সসীম/গণনাযোগ্য) \(\sigma\)-algebra-র অবিভাজ্য ক্ষুদ্রতম অশূন্য সদস্য; generator-রা \(\Omega\)-কে atom-এ ভাঙে, আর \(k\)টি atom-এ \(\sigma\)-algebra-র আকার \(2^k\) (\(\lvert\sigma(\{A\})\rvert=4\), \(\lvert\sigma(\{A,B\})\rvert=16\))	7.2
atom of a finite partition	finite \(\mathcal G=\sigma(\{G_1,\dots,G_k\})\)-এর সবচেয়ে ছোট অশূন্য ঘটনা; \(\mathbb E[X\mid\mathcal G]\) প্রতিটি atom-এ ধ্রুব = atom-এ \(X\)-এর গড় (ধাপ-অপেক্ষক, step function)	7.7
AUC (area under ROC)	ROC-এর নিচের ক্ষেত্রফল; "random positive > random negative score পাওয়ার সম্ভাবনা"; threshold-নিরপেক্ষ, imbalance-এ নির্ভরযোগ্য (\(0.5\) random, \(1\) perfect; এখানে \(0.924\))	5.4
autocorrelation (of a chain)	পরপর MCMC নমুনার নির্ভরশীলতা; বেশি হলে কার্যকর নমুনা-সংখ্যা (effective sample size) কমে, তাই দীর্ঘ chain লাগে	3.6
autocorrelation function (ACF)	\(\rho(h)=\gamma(h)/\gamma(0)\); lag-\(h\) autocovariance-কে \([-1,1]\)-এ normalize করা; নির্ভরতার দৈর্ঘ্য পরিমাপের সরঞ্জাম	3.5
autocovariance at lag	\(\gamma(h)=C(t,t+h)\) stationary process-এ; \(h\)-এর সাথে কীভাবে memory ক্ষীণ হয় তা দেখায়; AR(1)-এ \(\gamma(h)\propto\phi^{\lvert h\rvert}\)	3.5
autocovariance function	\(C(s,t)=\operatorname{Cov}(X_s,X_t)\); দুটি ভিন্ন সময়ের মান কতটা একসাথে ওঠানামা করে তার মাপ; process-এর memory/নির্ভরতার গঠন	3.5
auxiliary regression	predictor \(j\)-কে বাকি সব predictor-এর ওপর regress করা; তার \(R_j^2\) থেকে VIF গণনা হয় — collinearity-র উৎস চিহ্নিত করে	5.2
averaging property	\(\int_G\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_G X\,d\mathbb P\ \forall G\in\mathcal G\) — "প্রতিটি \(\mathcal G\)-set-এ গড় \(X\)-এর সাথে মেলে"; শুধু \(G=\Omega\) (মোট গড়) দুর্বল, "সব \(G\)" প্রতিটি atom-এ গড় বাঁধে	7.7
Axes	matplotlib-এ একক plot আঁকার ক্ষেত্র	0.6
Axiom of Choice (AC)	অসীম-অনেক অশূন্য সংগ্রহ থেকে একসঙ্গে একটি করে উপাদান বাছার অনুমতি; Vitali-নির্মাণে অপরিহার্য (Solovay: AC ছাড়া non-measurable set প্রমাণই করা যায় না)	7.1
axis	array operation কোন দিক বরাবর হবে তা নির্দেশক (0=কলাম, 1=সারি)	0.6
axis-aligned split	"\(x_j\le t\)?" রূপের split যা কেবল একটা feature-অক্ষের সমকোণে data কাটে; ফলে tree-এর decision boundary সিঁড়ির মতো (staircase), মসৃণ তির্যক রেখা নয় — তির্যক সীমা ধরতে অনেক ধাপ লাগে	6.5
B-spline (basis spline)	regression spline-এর জন্য ব্যবহৃত স্থানীয়, সংখ্যাগতভাবে স্থিতিশীল basis-function-সেট \(\{B_k(x)\}\); প্রতিটি \(B_k\) কয়েকটা সংলগ্ন knot-এর ওপর nonzero (compact support) ⇒ basis-matrix sparse, OLS সুস্থিত	5.7
backward martingale	reverse martingale-এর সমার্থ: পেছন-দিকে-সরু তথ্য \((\mathcal G_n)\)-এ \(\mathbb E[Y\mid\mathcal G_n]\); Lévy's downward theorem \(\mathbb E[Y\mid\mathcal G_n]\to\mathbb E[Y\mid\mathcal G_\infty]\) (a.s. ও \(L^1\)) এতে চলে	7.9
bagging	bootstrap aggregating — \(B\)টি bootstrap-নমুনায় গাছ গড়ে গড় করা (\(\hat f_{\text{bag}}=\frac1B\sum_b\hat f_b\)); high-variance base-learner-এর variance কমায়, কিন্তু গাছ correlated বলে floor \(\rho\sigma^2\)-এ আটকায়। canonical (\(B{=}300\)): \(0.822\)	6.5
balanced design	প্রতিটি cell-এ সমান observation-সংখ্যা (\(n=20\)); variance-অসমতার প্রতি \(F\)-test-কে robust করে এবং Type I/II/III SS-কে এক করে	5.3
Banach space	পূর্ণ (complete) normed vector space — প্রতিটি Cauchy অনুক্রম space-এর ভেতরেই অভিসারী; প্রতিটি \(L^p\) (\(1\le p<\infty\)) একটি Banach space	7.5
bandwidth	KDE-র smoothing প্যারামিটার h; histogram-এর bin-প্রস্থের সমতুল্য	1.3
bandwidth (\(h\))	kernel-এর প্রস্থ — কত দূরের বিন্দু "কাছের" গণ্য হবে নিয়ন্ত্রণ করে; ছোট \(h\) → কাঁপা fit, উচ্চ variance; বড় \(h\) → মসৃণ/চাপা fit, উচ্চ bias; optimal \(h^\*\propto n^{-1/5}\); চলমান উদাহরণে সেরা \(h\approx0.05\) (LOOCV \(0.03\))	5.7
bar chart	categorical data-র জন্য গ্যাপ-সহ বার-চিত্র (count বা proportion)	1.3
base-rate fallacy	prior/base rate উপেক্ষা করে শর্তাধীন সম্ভাবনা ভুল বিচার	2.2
basis expansion	মূল predictor \(x\)-কে রূপান্তরিত feature-সেট \(\{B_1(x),\dots,B_K(x)\}\)-এ বিস্তৃত করে \(f(x)=\sum_k\gamma_k B_k(x)\) লেখা — তখন nonlinear \(f\)-ও parameter \(\gamma\)-তে রৈখিক, তাই OLS খাটে; ৫.১-এর polynomial-basis-এর সাধারণীকরণ (এখানে B-spline basis)	5.7
Bayes classifier	প্রতিটি \(x\)-কে সর্বোচ্চ-posterior শ্রেণিতে দেওয়া নিয়ম \(\hat y(x)=\arg\max_c P(y=c\mid x)\); 0–1 loss-এর অধীনে optimal (সর্বনিম্ন প্রত্যাশিত ভুল); বাস্তব classifier-রা এই posterior-কেই আনুমানিক করার চেষ্টা	6.3
Bayes error	Bayes classifier-এরও অনিবার্য অবশিষ্ট ভুল \(R^\*=\mathbb E_X[1-\max_c P(c\mid X)]\); শ্রেণি-overlap-জনিত; কোনো classifier (সত্য posterior জানলেও) এর নিচে নামতে পারে না — accuracy-র তাত্ত্বিক উচ্চসীমা	6.3
Bayes' rule (parameter form)	\(p(\theta\mid\text{data})\propto\pi(\theta)\,L(\theta)\); posterior = prior × likelihood (normalize করে); 2.2-এর Bayes theorem-এর density-রূপ (Figure 1)	4.10
Bayes' theorem	\(P(B_k\mid A)=P(A\mid B_k)P(B_k)/\sum_i P(A\mid B_i)P(B_i)\)	2.2
Bayesian consistency	\(n\to\infty\)-এ posterior সত্য প্যারামিটারে গুটিয়ে আসে (frequentist LLN-এর সমান্তরাল, 3.3); prior-এর প্রভাব ম্লান হয় (Figure 2)	4.10
Bayesian credible interval	যে interval-এ \(\theta\) থাকার posterior probability \(1-\alpha\); frequentist CI থেকে ভিন্ন (এখানে \(\theta\)-কে probability দেওয়া হয়, §৭ Q2-এর বিপরীত ধারণা)	4.6
Bayesian inference	একটা পরিসংখ্যানিক দৃষ্টিভঙ্গি যেখানে প্যারামিটার \(\theta\)-কে random ধরা হয় ও তার সম্পর্কে অনিশ্চয়তা একটা probability distribution দিয়ে প্রকাশ করা হয়; data দিয়ে prior → posterior আপডেট	4.10
Bayesian information criterion (BIC)	model-selection criterion \(\mathrm{BIC}=-2\ell(\hat\theta)+p\log n\) (কম = ভালো; \(p\) = parameter-সংখ্যা) — \(-2\ell\) (misfit) ও \(p\log n\) (complexity-penalty)-এর ভারসাম্য, Occam-এর ক্ষুর। canonical by \(K\): \(1{:}5626.7,2{:}5111.7,3{:}\mathbf{4828.8},4{:}4857.5,5{:}4890.9,6{:}4925.9\) — সর্বনিম্ন \(K=3\)	6.7
Bayesian nonparametrics	অসীম-মাত্রিক বস্তুর (সম্পূর্ণ distribution বা function) উপর prior বসানো, যাতে model-জটিলতা ডেটার সাথে বাড়ে; দুই স্তম্ভ Dirichlet process ও Gaussian process (← Part IV 4.10, VII 7.5)	8.4
Bayesian updating	posterior-কে পরের prior ধরে ক্রমান্বয়ে বিশ্বাস পরিমার্জন	2.2
BCa interval	bias-corrected and accelerated bootstrap CI; bias/skew বেশি হলে percentile-এর চেয়ে ভালো coverage (§৮ নোট)	4.9
Beppo Levi	MCT-এর অপর নাম (Beppo Levi-র উপপাদ্য); অঋণাত্মক বাড়ন্ত sequence-এ limit ও integral অদলবদলের অনুমতি	7.4
Bernoulli distribution	একটামাত্র হ্যাঁ/না trial; mean \(p\), variance \(p(1-p)\)	2.3
Bernoulli Fisher information	\(I(p)=\frac{1}{p(1-p)}\) (E1); \(p=0.5\)-এ সর্বনিম্ন, প্রান্তে (\(p\to0,1\)) বিশাল	4.5
Bernoulli likelihood	\(L(\beta)=\prod_i p_i^{y_i}(1-p_i)^{1-y_i}\), \(p_i=\sigma(x_i^\top\beta)\); log-likelihood \(\ell=\sum_i[y_i\eta_i-\log(1+e^{\eta_i})]\) — logistic-MLE-র ভিত্তি	5.4
Berry–Esseen bound	CLT-approximation-এর error-এর upper bound \(\propto \rho/(\sigma^3\sqrt{n})\) (\(\rho\) third moment); skewness যত বেশি error তত বড়, হার \(1/\sqrt{n}\)	3.4
Berry–Esseen theorem	CLT-অভিসারণের হারকে স্পষ্ট আবদ্ধ করে: \(\sup_x\lvert F_n(x)-\Phi(x)\rvert\le \frac{C\rho}{\sigma^3\sqrt n}\), যেখানে \(\rho=\mathbb E\lvert X-\mu\rvert^3\); এতে দূরত্ব \(n^{-1/2}\)-এ কমে, যা E1-এর KS-মান (\(n=5\!:0.0590\to n=320\!:0.0071\)) নিশ্চিত করে	8.2
Bessel's correction	sample variance-এ n-এর বদলে n−1 দিয়ে ভাগ (unbiased করতে)	1.2
best \(L^2\) predictor	সব \(\mathcal G\)-measurable \(Z\)-এর মধ্যে \(\mathbb E[(X-Z)^2]\) ন্যূনতম হয় ঠিক \(Z=\mathbb E[X\mid\mathcal G]\)-তে; Pythagoras \(\mathbb E[(X-Z)^2]=\mathbb E[(X-\mathbb E[X\mid\mathcal G])^2]+\mathbb E[(\mathbb E[X\mid\mathcal G]-Z)^2]\) (cross term orthogonality-তে শূন্য)	7.7
best constant predictor	\(X\in L^2\)-কে \(\operatorname{span}\{1\}\)-এ projection; \(\min_c\mathbb E[(X-c)^2]\)-এর সমাধান \(c=\mathbb E[X]\), residual-error \(=\operatorname{Var}(X)\) — mean = ধ্রুবক-জগতে projection	7.5
Beta / Uniform limit	Pólya urn-এর রঙ-অনুপাতের a.s.-সীমা \(X_\infty\) একটা random variable — Beta\((r_0,w_0)\)-বণ্টিত (শুরুর লাল/সাদা গণনা = প্যারামিটার); শুরু \(1{,}1\)-এ Uniform\((0,1)\) (mean \(0.5007\), std \(0.2853\), সমতল deciles)	7.9
Beta distribution	\([0,1]\)-এ একটি অনুপাত; shape \(\alpha,\beta\); নমনীয় আকৃতি	2.4
beta function	Beta-র normalization ধ্রুবক \(B(\alpha,\beta)=\Gamma(\alpha)\Gamma(\beta)/\Gamma(\alpha+\beta)\)	2.4
Beta–Binomial	conjugate জোড়া: prior \(\text{Beta}(a,b)\), \(n\) চেষ্টায় \(k\) সাফল্য ⇒ posterior \(\text{Beta}(a+k,\ b+n-k)\) (E1; Figure 1–2, §৭ Q9)	4.10
between-group variation (SSB)	group-গড়গুলো grand mean থেকে কত ছড়ানো: \(\mathrm{SSB}=\sum_g n_g(\bar y_g-\bar y)^2\); signal + noise বহন করে, \(df=k-1\)	5.3
bias	estimator-এ \(\mathbb{E}[\hat\theta]-\theta\); expectation-ভিত্তিক (Part IV)	2.5
bias (of an estimator)	\(\mathbb{E}[\hat\theta]-\theta\) — estimate গড়ে কতটা সত্যি থেকে সরে; MoM-এ nonlinear রূপান্তরে সসীম \(n\)-এ bias থাকতে পারে (যেমন \(1/\bar X\) উপরে হেলে — Jensen)	4.2
bias of MLE	সসীম \(n\)-এ MLE biased হতে পারে — যেমন Normal-এর \(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2\) (হরে \(n\), \(n-1\) নয়) সামান্য নিচে-biased; bias \(\to0\) যখন \(n\to\infty\) (4.4)	4.3
bias reduction	boosting-এর কেন্দ্রীয় লক্ষ্য — high-bias weak learner ক্রমিকভাবে যোগ করে ensemble-এর capacity বাড়িয়ে bias কমানো (bagging-এর variance↓-এর বিপরীত); n_estimators ও \(\nu\) এর "complexity-ডায়াল", কিন্তু অতিরিক্ত round-এ variance/overfit ফিরে আসে (চূড়ার পর পতন)	6.6
biased estimator	যার \(\mathbb{E}[\hat\theta]\ne\theta\) (যেমন \(\hat\sigma^2\) low, \(\max\) low); কখনও কম MSE দেয় বলে কাম্য হতে পারে	4.4
bias–variance decomposition	\(\mathrm{MSE}(\hat\theta)=[\,b(\hat\theta)\,]^2+\mathrm{Var}(\hat\theta)\) — MSE-কে bias² ও variance-এ ভাঙা, cross-term শূন্য (Figure 2; §৭ Q9)	4.4
bias–variance of CV (in \(K\))	CV-estimate-এর গুণমান \(K\)-এর সাথে বদলায়: ছোট \(K\) (training-set ছোট) ⇒ error over-estimate (pessimistic bias) কিন্তু কম-correlated fit ⇒ কম variance; \(K=n\) (LOOCV) ⇒ bias প্রায় শূন্য কিন্তু correlated fit ⇒ বেশি variance; তাই \(K=5/10\) আপস	5.8
bias–variance trade	shrinkage-এর যুক্তি: MSE=bias²+variance (← 4.4); MLE unbiased (bias \(0\), variance \(1\)), JS সামান্য bias কিনে variance \(c^2\)-গুণ কমায়; \(p\ge3\)-তে variance-সাশ্রয় জেতে, total risk নামে	8.3
bias–variance trade-off	complexity-র দুই বিপরীত খরচের ভারসাম্য — কমাতে গেলে একটা বাড়ে; সর্বোত্তম মডেল সেই বিন্দুতে যেখানে \(\text{bias}^2+\text{var}\) সর্বনিম্ন (U-curve-এর তলা); regularization (6.2) এটি সরাসরি tune করে	6.1
bias–variance tradeoff	bias² ও variance বিপরীত দিকে চলে, তাই MSE-র সর্বনিম্ন পেতে দুটোর ভারসাম্য করতে হয়; একটু bias মেনে variance কমালে MSE কমতে পারে (Figure 2)	4.4
bias–variance tradeoff (regularization)	\(\lambda\) বাড়ালে variance↓ কিন্তু bias↑ — regularization সরাসরি এই ভারসাম্য tune করে; সর্বোত্তম \(\lambda\) সেই বিন্দু যেখানে test-MSE সর্বনিম্ন (৬.১-এর U-curve-এর তলা); canonical: সামান্য bias-এ ridge MSE \(2.077\to2.075\), lasso \(1.843\)	6.2
BIC	Bayesian Information Criterion \(=-2\ell+(\ln n)K\); AIC-এর চেয়ে কড়া penalty (\(\ln n>2\) যখন \(n>7\)), তাই বেশি parsimonious; consistent (সত্য মডেল \(n\to\infty\)-এ বাছে)	5.2
biconditional	\(P \Leftrightarrow Q\): "\(P\) iff \(Q\)"; সত্যমান একই হলে সত্য	0.1
bijective	একই সাথে injective ও surjective; এদেরই inverse থাকে	0.1
bilinearity (of covariance)	\(\operatorname{Cov}(aX+bY,Z)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z)\)	2.6
bimodal	দুটি চূড়াবিশিষ্ট distribution; প্রায়ই লুকানো উপদলের ইঙ্গিত	1.3
bin	histogram/frequency table-এ মানের একটি ধারাবাহিক টুকরো (class interval)	1.3
binary	ঠিক দুটি শ্রেণির categorical data (yes/no), প্রায়ই \(0/1\)-এ কোড করা	1.1
binning	data-কে bin-এ ভাগ করার প্রক্রিয়া	1.3
binomial coefficient	\(\binom{n}{k}=n!/(k!(n-k)!)\); \((x+y)^n\) বিস্তারের সহগ	0.2
Binomial distribution	\(n\) স্বাধীন trial-এ success-সংখ্যা; \(\binom{n}{k}p^k(1-p)^{n-k}\), mean \(np\)	2.3
binomial theorem	\((x+y)^n=\sum_k\binom{n}{k}x^{n-k}y^k\)	0.2
bivariate analysis	দুটি variable একসাথে কীভাবে চলে তা বিশ্লেষণ	1.4
bivariate Normal distribution	দুই variable-এর যৌথ Normal; marginal ও conditional উভয়ই Normal, conditional mean রৈখিক	2.6
blocking	পরিচিত nuisance-উৎস (যেমন irrigation, জমির উর্বরতা) আলাদা করে model-এ আনা; residual/within variation কমিয়ে \(F\)-এর power বাড়ায়	5.3
BLUE	Best Linear Unbiased Estimator — সর্বনিম্ন variance-যুক্ত নিরপেক্ষ রৈখিক estimator	5.1
BLUP (best linear unbiased predictor)	random effect-এর shrink-করা estimate \(\hat u_j=\lambda_j(\bar y_j-\mu)\) — গোষ্ঠীর raw-deviation-কে \(\lambda_j\) দিয়ে গ্র্যান্ড-গড়ের দিকে টানা; উদাহরণে স্কুল \(0\) (\(n_0=20\)): \(\hat u_0=+6.05\) (\(=0.922\times6.56\))	5.6
Bochner's theorem	একটা ফাংশন \(\varphi:\mathbb R\to\mathbb C\) ঠিক তখনই কোনো বণ্টনের cf, যখন তা \(\varphi(0)=1\), অবিচ্ছিন্ন এবং positive-definite — cf-জগৎ ও বণ্টন-জগতের পূর্ণ মিল	7.10
boosting	দুর্বল (high-bias) learner ক্রমিকভাবে যোগ করে শক্তিশালী predictor \(F_T(x)=\sum_t\alpha_t h_t(x)\) বানানোর ensemble-কৌশল; প্রতিটি নতুন learner আগের সমষ্টির ভুল সংশোধন করে, তাই মূলত bias কমায় (bagging-এর variance↓-এর বিপরীত)। নির্ভরশীল/sequential বলে parallel train করা কঠিন	6.6
bootstrap	একটা resampling পদ্ধতি যা মূল নমুনাকেই population ধরে replacement-সহ বারবার resample করে statistic \(\hat\theta\)-এর sampling distribution আঁচ করে (SE, CI, p-value); তত্ত্বের সূত্র না থাকলেও চলে (Figure 1, §৭ Q1)	4.9
bootstrap aggregating	bagging-এর পূর্ণরূপ — bootstrap (৪.৯, with-replacement resample) + aggregating (গড়/majority-vote); ৪.৯-এর resample-পদ্ধতিকে inference থেকে prediction-এর variance-হ্রাসে রূপান্তর	6.5
bootstrap confidence interval	data থেকে replacement-সহ resample করে statistic-এর sampling distribution আনুমান, তারপর সেই resample-বণ্টনের percentile থেকে CI নির্মাণ (← 4.9); E2-তে \(B=1000\) resample-এ mean-এর percentile bootstrap CI-র গড় width \(0.5869\)	8.2
bootstrap distribution	\(B\)টা \(\hat\theta^*_b\)-এর বণ্টন; \(\hat\theta\)-কে কেন্দ্র করে; sampling distribution-এর সিমুলেশন-ভিত্তিক নকল — শেখা আসে কেন্দ্র থেকে নয়, বিস্তার থেকে (Figure 1, §৭ Q2)	4.9
bootstrap replicate \(\hat\theta^*_b\)	\(b\)-তম bootstrap resample থেকে পাওয়া statistic-এর মান; \(B\)টা মিলে bootstrap distribution (Figure 1)	4.9
bootstrap resample \(X^*\)	replacement-সহ \(n\)টা টেনে বানানো একটা নকল নমুনা; এর থেকে একটা bootstrap replicate \(\hat\theta^*_b\) হিসাব হয়	4.9
bootstrap sample	training-set থেকে size-\(n\) with-replacement resample; bagging/RF-এর প্রতিটি গাছের training-data, এবং OOB-র উৎস (গড়ে \(\approx63\%\) স্বতন্ত্র বিন্দু in-bag, \(\approx37\%\) out-of-bag)। canonical \(n_{\text{train}}=420\): in-bag \(\approx265\), OOB \(\approx155\)	6.5
bootstrap standard error \(\widehat{\mathrm{se}}_{\text{boot}}\)	bootstrap replicate-গুলোর standard deviation \(\sqrt{\frac{1}{B-1}\sum_b(\hat\theta^_b-\bar\theta^)^2}\); \(\hat\theta\)-র sampling-variation-এর আঁচ; গড়ে \(\approx s/\sqrt n\) (Figure 1, §৭ Q2, Q12)	4.9
Borel \(\sigma\)-algebra \(\mathcal B(\mathbb R)\)	\(\mathbb R\)-এর প্রমিত \(\sigma\)-algebra \(=\sigma(\text{open sets})=\sigma(\text{open intervals})=\sigma\big((-\infty,x]\big)\); ব্যবহারিক প্রায় সব set এতে পড়ে, random variable-এর target \(\sigma\)-algebra	7.2
Borel function	একটা measurable map \(g:(\mathbb R,\mathcal B)\to(\mathbb R,\mathcal B)\) (বা \(\mathbb R^d\)-তে); RV \(X\)-এর সঙ্গে রচিত হলে \(g\circ X=g(X)\) আবার RV — তাই \(X^2,\lvert X\rvert,e^X\) ইত্যাদি বৈধ নতুন RV	7.3
Borel set (preview)	open interval থেকে গণনাযোগ্য union/intersection/complement-এ গড়া \(\mathbb R\)-এর প্রমিত \(\sigma\)-algebra \(\mathcal B(\mathbb R)\)-এর সদস্য; ব্যবহারিক প্রায় সব set এতে পড়ে, পূর্ণ আলোচনা 7.2-এ	7.1
Borel–Cantelli lemma (first)	যেকোনো \((A_n)\)-এ (স্বাধীনতা লাগে না) \(\sum_n\mathbb P(A_n)<\infty\Rightarrow\mathbb P(A_n\ \text{i.o.})=0\); countable subadditivity + অভিসৃত-ধারার-লেজ\(\to0\) দিয়ে	7.6
Borel–Cantelli lemma (second)	\((A_n)\) স্বাধীন ও \(\sum_n\mathbb P(A_n)=\infty\Rightarrow\mathbb P(A_n\ \text{i.o.})=1\); গুণফল \(\prod(1-\mathbb P(A_n))\le\exp(-\sum)\) দিয়ে (স্বাধীনতা অপরিহার্য)	7.6
borrowing strength	অসম্পর্কিত প্যারামিটার একসাথে estimate করার সময় তথ্য ভাগ করে নেওয়া — JS সব coordinate-কে একই common factor \(\lVert X\rVert^2\) দিয়ে shrink করে, ফলে একটার estimate অন্যদের সমষ্টিগত তথ্যে উন্নত হয়; multiple group-mean shrinkage-এর মূল ধারণা	8.3
boundary maximum	likelihood-এর সর্বোচ্চ parameter-space-এর প্রান্তে, অভ্যন্তরে নয় — তখন \(\ell'=0\) খাটে না; Uniform\((0,\theta)\)-এ MLE \(=\max_i X_i\) আকৃতি বিচার করে পাওয়া যায় (Figure 4)	4.3
branching martingale	স্বাভাবিকীকৃত আকার \(W_n=Z_n/m^n\) — একটা অঋণাত্মক martingale (\(\mathbb E[W_n]=1\) সব \(n\)-এ), তাই a.s. একটা সীমা \(W\ge0\)-এ অভিসারী; \(L\log L\)/UI-শর্ত \(W\)-এর অ-অবক্ষয় ঠিক করে	7.9
breakdown point	statistic ভাঙতে যত ভগ্নাংশ data নষ্ট করতে হয় তার সর্বনিম্ন মান	1.2
broadcasting	ভিন্ন আকারের array-কে স্বয়ংক্রিয়ভাবে মিলিয়ে operation করার NumPy নিয়ম	0.6
Brownian motion (Wiener process)	\(W_0=0\), independent increments, \(W_t-W_s\sim\mathcal N(0,t-s)\); একটি Gaussian process যার \(m(t)=0\), \(C(s,t)=\min(s,t)\); সন্তত কিন্তু কোথাও অন্তরকলনযোগ্য নয়	3.5
burn-in	MCMC-র শুরুর কিছু নমুনা যা এখনো stationary-তে পৌঁছায়নি, তাই ফেলে দেওয়া হয় (Figure 3-এর ছায়া-অঞ্চল); নাহলে শুরুর-state bias আনে	3.6
calibration	predicted probability বনাম observed frequency মেলে কিনা তার পরীক্ষা (calibration curve diagonal-এ থাকলে well-calibrated, নাহলে over/under-confident); এই অধ্যায়ে logistic ও RF দুই model-ই প্রায়-diagonal	8.1
Cantelli's SLLN (4th moment)	iid ও \(\mathbb E[X^4]<\infty\Rightarrow\bar X_n\to\mu\) a.s.; \(\mathbb E[S_n^4]=O(n^2)\) দেখিয়ে \(\sum_n\mathbb E[\bar X_n^4]<\infty\) ⇒ Borel–Cantelli I — সহজ কিন্তু শক্তিশালী-নয় পথ	7.6
Cantor set	\([0,1]\) থেকে বারবার middle-third ফেলে পাওয়া \(C=\bigcap_k C_k\); অপসারিত দৈর্ঘ্য \(=1\) তাই \(\lambda(C)=0\), অথচ uncountable (\(\lvert C\rvert=2^{\aleph_0}\)) — measure-zero \(\ne\) ছোট	7.1
capacity / model complexity	hypothesis class কত-বিচিত্র ফাংশন ধরতে পারে তার মাপ (polynomial degree, parameter-সংখ্যা, \(d_{\mathrm{VC}}\)); বেশি capacity = কম bias কিন্তু বেশি variance ও বড় generalization-gap; U-curve-এর মূল অক্ষ	6.1
Carathéodory criterion	\(E\) measurable iff এটা প্রতিটি test set \(A\)-কে additively কাটে: \(\mu^(A)=\mu^(A\cap E)+\mu^*(A\cap E^c)\) সব \(A\)-র জন্য; যা measurable set-দের বেছে নেয়	7.2
Carathéodory extension theorem	একটা algebra-র premeasure \(\sigma(\mathcal A)\)-এ একটা measure-এ প্রসারিত হয় (\(\sigma\)-finite হলে একমাত্রভাবে), এবং Carathéodory-measurable set-রা একটা complete \(\sigma\)-algebra গড়ে যার উপর \(\mu^*\) একটা measure	7.2
CART	Classification And Regression Trees — Breiman-এর binary recursive-partitioning algorithm; classification-এ Gini, regression-এ squared-error impurity দিয়ে greedy split বাছে; `scikit-learn`-এর tree এর বাস্তবায়ন	6.5
Cartesian product	\(A \times B\): সব ordered pair \((a,b)\)-এর set	0.1
Categorical (pandas)	pandas-এ categorical data সংরক্ষণের dtype; `ordered=True` দিলে ক্রম রক্ষা হয়	1.1
categorical variable	শ্রেণিগত (qualitative) variable; শ্রেণি/লেবেল নির্দেশ করে, সংখ্যা নয়	1.1
Cauchy distribution	heavy-tailed distribution যার \(\mathbb E\lvert X\rvert=\infty\); mean অসংজ্ঞায়িত, তাই LLN ভাঙে (running mean থিতু হয় না)	3.3
Cauchy distribution (no mean)	pdf \(f(x)=\tfrac1{\pi(1+x^2)}\); \(\mathbb E\lvert X\rvert=\infty\) (লেজ \(\sim1/(\pi\lvert x\rvert)\)), তাই SLLN ভাঙে — \(\bar X_n\) থামে না, ঘোরে (নিজেও হুবহু Cauchy থাকে)	7.6
Cauchy–Schwarz inequality	\(\lvert\langle f,g\rangle\rvert\le\lVert f\rVert_2\lVert g\rVert_2\); Hölder-এর \(p=q=2\) রূপ, statistics-এ \(\lvert\rho\rvert\le1\)-এর ভিত্তি, সমতা কেবল linear dependence-এ	7.5
causal inference	correlation নয়, কারণ-অনুমান: \"\(X\) বদলালে \(Y\) বদলাবে কি?\" — observational data থেকেও বৈধ কার্যকারণ-দাবির শর্ত ও পদ্ধতি; তিন স্তম্ভ potential outcomes, DAG, instrumental variable; epidemiology/econometrics/policy/A-B testing-এর ভিত্তি (← Part IV,V)	8.4
causation	একটি ঘটনা প্রকৃতপক্ষে অন্যটিকে ঘটায় — correlation যা প্রমাণ করে না	1.4
CDF	cumulative distribution function \(F_X(x)=P_X((-\infty,x])=\mathbb P(X\le x)\); monotone, right-continuous, \(0\to 1\) — এবং π–λ (7.2) দিয়ে CDF একাই পুরো law \(P_X\)-কে নির্ধারণ করে	7.3
CDF method	\(F_Y(y)=P(g(X)\le y)\) লিখে, \(X\)-এর ভাষায় অনুবাদ করে \(Y\)-এর distribution বের করা	2.7
cell mean	factorial design-এ এক নির্দিষ্ট factor-combination-এর (যেমন C-high) গড়; interaction পড়ার মূল একক	5.3
center of mass	যে বিন্দুতে probability-ভর ভারসাম্যে; \(\mathbb{E}[X]\)-এর ভৌত রূপ	2.5
centered kernel matrix	kernel PCA-তে double-centered \(\tilde K=HKH\) (\(H=I-\tfrac1n\mathbf 1\mathbf 1^\top\)) — feature-space-এ data মূলবিন্দু-কেন্দ্রিক করতে (\(\sum_i\phi(x_i)=0\)), যেহেতু \(\phi\) সরাসরি জানা নেই; PCA-র covariance-গঠনের kernel-সংস্করণ	6.8
Central Limit Theorem (CLT)	iid \(X_i\) (\(\sigma^2<\infty\))-এর জন্য \(Z_n=\sqrt{n}(\bar X_n-\mu)/\sigma\xrightarrow{d}\mathcal N(0,1)\); উৎসের আকৃতি যাই হোক standardize-করা গড় Normal-এ যায়	3.4
Central Limit Theorem (rigorous)	iid \(X_i\), \(\mathbb E[X]=\mu\), \(\operatorname{Var}(X)=\sigma^2\in(0,\infty)\) ⇒ \(Z_n=\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\Rightarrow N(0,1)\); cf-প্রমাণ \(\varphi_{Z_n}(t)=(\varphi_W(t/\sqrt n))^n\to e^{-t^2/2}\) + Lévy — 3.4-এর স্বজ্ঞাগত CLT এখানে প্রমাণিত	7.10
central moment	গড়ের সাপেক্ষে \(k\)-th moment; \(\mu_k=\mathbb{E}[(X-\mu)^k]\)	2.5
centroid	একটা cluster-এর প্রতিনিধি-বিন্দু — তার সদস্যদের গড় \(\mu_k=\frac1{\lvert C_k\rvert}\sum_{i\in C_k}x_i\); k-means update-ধাপে এটাই বসানো হয় কারণ গড় \(\sum_{i\in C_k}\lVert x_i-c\rVert^2\)-এর একমাত্র (global) minimizer (convex quadratic, Hessian \(2\lvert C_k\rvert I\succ0\))	5.9
chain rule	composite function-এর derivative: \(f'(g)\cdot g'\)	0.3
change of variables	monotone \(g\)-র জন্য density সরাসরি রূপান্তরের সূত্র (Jacobian সহ)	2.7
Chapman–Kolmogorov	\((P^{m+n})_{ij}=\sum_k (P^m)_{ik}(P^n)_{kj}\) — দীর্ঘ যাত্রাকে মাঝপথের state \(k\)-তে ভেঙে যোগ; total probability + Markov property-র matrix-রূপ (\(P^{m+n}=P^mP^n\))	3.6
characteristic equation	\(\det(A-\lambda I)=0\), যার মূল eigenvalue	0.5
characteristic function	\(\varphi_X(t)=\mathbb{E}[e^{itX}]\); MGF না থাকলেও সবসময় থাকে	2.5
characteristic function of Bernoulli	\(\varphi_{\text{Bern}(p)}(t)=1-p+pe^{it}\) (সরাসরি যোগফল); \(\varphi_{\text{Bern}(0.3)}(1)=0.8621+0.2524i\) (\(\lvert\cdot\rvert\approx0.8983\)); iid-যোগে \((1-p+pe^{it})^n\) = Binomial-এর cf	7.10
characteristic function of exponential	\(\varphi_{\text{Exp}(\lambda)}(t)=\frac{\lambda}{\lambda-it}\); \(\int_0^\infty e^{itx}\lambda e^{-\lambda x}\,dx\) থেকে; \(\varphi_{\text{Exp}(1)}(1)=\frac{1}{1-i}=0.5+0.5i\) (\(\lvert\cdot\rvert=0.7071\))	7.10
characteristic function of normal	\(\varphi_{N(\mu,\sigma^2)}(t)=e^{i\mu t-\sigma^2 t^2/2}\); বিশেষত \(\varphi_{N(0,1)}(t)=e^{-t^2/2}\) (ODE \(\varphi'=-t\varphi\) থেকে), যা CLT-এর target; \(\varphi_{N(0,1)}(1)=0.6065\)	7.10
characteristic function of Poisson	\(\varphi_{\text{Poisson}(\lambda)}(t)=e^{\lambda(e^{it}-1)}\); গুণফল-ধর্মে \(e^{\lambda_1(e^{it}-1)}e^{\lambda_2(e^{it}-1)}=e^{(\lambda_1+\lambda_2)(e^{it}-1)}\) ⇒ স্বাধীন Poisson-এর যোগ আবার Poisson	7.10
characteristic function vs MGF	\(\varphi_X(t)=\mathbb E[e^{itX}]\) সর্বদা বিদ্যমান (\(\lvert e^{itX}\rvert=1\), ঘোরে কিন্তু বাড়ে না); MGF \(M_X(t)=\mathbb E[e^{tX}]\) heavy-tail বণ্টনে (Cauchy, log-normal) অস্তিত্বহীন; যেখানে \(M\) আছে \(\varphi(t)=M(it)\)	7.10
Chebyshev inequality	\(P(\lvert X-\mu\rvert\ge k\sigma)\le 1/k^2\); mean ও variance থেকে; অন্তত \(1-1/k^2\) mass \(\mu\pm k\sigma\)-এ	3.1
Chebyshev's inequality	\(P(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon)\le\mathrm{MSE}/\varepsilon^2\) — MSE→0 থেকে consistency প্রমাণের মূল হাতিয়ার (§৭ Q10)	4.4
check-on-generator	good-sets-এর ব্যবহারিক ফল: পুরো \(\mathcal B\) নয়, শুধু generator-এ preimage যাচাই করলেই হয় — \(X\) RV iff \(\{X\le x\}\in\mathcal F\ \forall x\) (কারণ \(\mathcal B=\sigma((-\infty,x])\))	7.3
Chernoff method	\(P(X\ge a)\le e^{-sa}\mathbb{E}[e^{sX}]\) (MGF-এ Markov) তারপর \(s\)-minimize; exponential tail bound-এর কৌশল	3.1
chi-square critical value	\(\chi^2_{k,1-\alpha}\) — যার ডানে \(\alpha\) ভর; statistic এটি ছাড়ালে \(H_0\) প্রত্যাখ্যান (\(\chi^2_{1,0.95}=3.84\), \(\chi^2_{5,0.95}=11.07\))	4.8
chi-square distribution	\(\chi^2_k\) — \(k\)টি স্বাধীন \(\mathcal N(0,1)\)-এর বর্গের যোগফলের distribution; \(0\)-এর ডানে, ডানে-skewed; \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) (E2)	4.1
chi-square test	দুই categorical variable স্বাধীন কিনা যাচাইকারী পরীক্ষা	1.4
choosing k (k-NN)	k-NN-এর \(k\) = bias–variance knob; accuracy-বনাম-\(k\) U-আকার: ছোট \(k\)-তে variance-প্রধান, বড় \(k\)-তে দূরের প্রতিবেশী টেনে bias-প্রধান; canonical \(k\): \(1{\to}0.859,\,3{\to}0.889,\,5{\to}0.896,\,15{\to}0.911,\,25{\to}0.911\) (সেরা \(15\))	6.3
chord	একটি curve-এর দুই বিন্দু জুড়ে সরলরেখা; convexity-তে curve-এর উপরে থাকে	3.1
CI width / half-width	width \(=2m=2z_{\alpha/2}\mathrm{SE}\); half-width \(m\propto1/\sqrt n\) — interval অর্ধেক সরু করতে \(n\) চারগুণ (Figure 4)	4.6
CI-test duality (regression)	\(\hat\beta_j\pm t_{\alpha/2,n-p}\widehat{\mathrm{se}}\)-এ \(\beta_0\) থাকা ⇔ \(H_0:\beta_j=\beta_0\) \(\alpha\)-তে বাতিল না-হওয়া; ৪.৬–৪.৭-এর duality coefficient-পর্যায়ে	5.2
CI–test duality	\((1-\alpha)\) CI = সেই সব \(\mu_0\) যাদের level-\(\alpha\) test বাতিল করে না; reject \(H_0:\mu=\mu_0\) iff \(\mu_0\) CI-এর বাইরে (Figure 4, §৭ Q9)	4.7
class imbalance	এক শ্রেণি অন্যটির চেয়ে বহুগুণ বেশি (anomaly: \(285\) inlier বনাম \(15\) anomaly); তখন accuracy গরিষ্ঠ-শ্রেণিতে ডুবে যায় ("সব inlier" = \(0.95\) অথচ recall \(0\)), তাই precision/recall/ROC AUC দেখতে হয়	6.9
class-conditional density	শ্রেণি \(c\) দেওয়া থাকলে feature-এর বিতরণ \(f_c(x)=P(x\mid y=c)\) (likelihood); generative classifier এটিই model করে — LDA/QDA Gaussian ধরে, Naive Bayes প্রান্তিকগুলোর গুণফল ধরে	6.3
classical probability	favorable outcome / total outcome হিসেবে সম্ভাবনা	0.2
classification	discrete শ্রেণি-লেবেল predict করার supervised কাজ (regression-এর continuous \(y\)-র বিপরীতে); লক্ষ্য প্রতিটি \(x\)-কে সঠিক শ্রেণিতে ফেলা; এই অধ্যায়ের চার পদ্ধতি LDA/QDA/Naive Bayes/k-NN	6.3
closed martingale	যে martingale একটা single \(Z\in L^1\) দিয়ে "আবদ্ধ": \(X_n=\mathbb E[Z\mid\mathcal F_n]\) সব \(n\)-এ (একটা Doob martingale); UI martingale-এর সমতুল্য রূপ, \(Z=X_\infty\) নেওয়া যায়	7.9
closed-form estimator	iteration/optimization ছাড়াই সরাসরি সূত্রে পাওয়া estimator; MoM-এর বড় সুবিধা (E2–E4 সবই closed-form) — প্রায়ই MLE-র starting point	4.2
cluster assumption	semi-supervised অনুমান: একই গুচ্ছের বিন্দু সম্ভবত একই শ্রেণি, অর্থাৎ decision boundary কম-ঘনত্বের অঞ্চল দিয়ে যায় (low-density separation), ঘন গুচ্ছের মাঝখান দিয়ে নয়; `make_moons`-এ দুই চাঁদের মাঝের ফাঁকে boundary	6.9
clustered / nested data	observation যখন গোষ্ঠীতে বাঁধা (শিক্ষার্থী একই স্কুলে, রোগী একই হাসপাতালে, একই ব্যক্তির বারবার-মাপা) ⇒ গোষ্ঠী-অভ্যন্তরীণ correlation, observation স্বাধীন নয়; এই dependence উপেক্ষা করলে OLS-SE ভুল	5.6
clustering	লেবেল ছাড়া বিন্দুদের স্বাভাবিক দলে (cluster) ভাগ করার unsupervised কৌশল — একই দলের বিন্দু কাছাকাছি, ভিন্ন দলেরগুলো দূরে; প্রধান রূপ k-means (centroid-ভিত্তিক) ও hierarchical (গাছ-ভিত্তিক); মানদণ্ড within/between-spread, silhouette	5.9
codomain	function-এর output যেখানে থাকতে পারে (\(B\))	0.1
coefficient of determination \(R^2\) (as variance ratio)	\(R^2=\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)\) — law of total variance-এর ব্যাখ্যাকৃত ভগ্নাংশ; bivariate normal-এ \(=\rho^2=0.36\), 5.1-এর \(R^2\)-এর measure-তাত্ত্বিক পরিচয়	7.7
combination	ক্রম গুরুত্বপূর্ণ নয় এমন বাছাই, \(\binom{n}{k}\)	0.2
common CI misinterpretation	ভুল: "\(\theta\) এই নির্দিষ্ট interval-এ থাকার সম্ভাবনা ৯৫%"; \(\theta\) random নয়, একবার বসলে interval হয় ধরেছে নয় ধরেনি (Figure 2-ডান)	4.6
compensator / predictable increasing process	Doob decomposition-এর \(A_n=\sum_{k\le n}\big(\mathbb E[X_k\mid\mathcal F_{k-1}]-X_{k-1}\big)\) — predictable, অ-হ্রাসমান (\(A_0=0\)); submartingale-এর "প্রত্যাশিত drift", যা বাদ দিলে martingale ফেরে	7.8
complement	\(A^c = U \setminus A\): universal set-এর মধ্যে যা \(A\)-তে নেই	0.1
complement rule	\(P(A^c)=1-P(A)\)	2.1
complete measure	measure space যেখানে যেকোনো null set (\(\mu(N)=0\))-এর প্রতিটি subset measurable (এবং null); Carathéodory-নির্মাণ সর্বদা complete দেয়, তাই Lebesgue measure complete	7.2
complete pooling	সব গোষ্ঠী মিলিয়ে একটাই regression (গোষ্ঠী উপেক্ষা) = pooled OLS; between-group বৈচিত্র্য ও clustering-SE-সংশোধন হারায় ⇒ over-confident inference	5.6
complete-data likelihood	latent \(z_i\) যদি জানা থাকত তখনকার likelihood — \(\ell_c=\sum_i[\log\pi_{z_i}+\log\mathcal N(x_i;\mu_{z_i},\Sigma_{z_i})]\); এতে \(\log\)-এর ভেতরে যোগফল (log-sum) নেই বলে MLE সহজ (প্রতি component আলাদা Gaussian-MLE)। M-step এর expected রূপ (\(Q\)) maximize করে	6.7
completeness	একটি metric/normed space-এর ধর্ম যেখানে প্রতিটি Cauchy অনুক্রম একটি limit-এ পৌঁছায় (space-এর ভেতরে); limit-যুক্তিকে নিরাপদ করে	7.5
complex exponential \(e^{itX}\)	Euler-সূত্রে \(e^{itX}=\cos tX+i\sin tX\); cf-এর integrand, \(\lvert e^{itX}\rvert=1\) (unit circle-এ) — এই একটিমাত্র তথ্যই cf-এর সর্বত্র-অস্তিত্ব ও \(\lvert\varphi\rvert\le1\) দেয়	7.10
component	vector-এর একেকটি সংখ্যাগত উপাংশ	0.5
composition of measurable maps	দুই measurable map-এর রচনা measurable: \(g\circ f\) measurable যদি \(f,g\) measurable, কারণ \((g\circ f)^{-1}(B)=f^{-1}(g^{-1}(B))\); বিশেষত Borel \(g\)-তে \(g(X)\) RV	7.3
compound symmetry	random-intercept-এর চাপানো covariance-গঠন: একই গোষ্ঠীর যেকোনো জোড়ার \(\operatorname{Cov}=\sigma_u^2\), প্রতিটির \(\operatorname{Var}=\sigma_u^2+\sigma_\varepsilon^2\), ভিন্ন গোষ্ঠীর \(0\) ⇒ \(\Sigma_j=\sigma_\varepsilon^2 I+\sigma_u^2\mathbf 1\mathbf 1^\top\) (অভিন্ন off-diagonal); এ থেকেই within-group corr \(=\rho\)	5.6
computational formula (variance)	\(\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\)	2.5
concave	উপরের দিকে বাঁকা (\(\frown\)); \(f''\le0\)	0.3
concave function	\(-g\) convex; chord curve-এর নিচে; \(g''\le0\) (যেমন \(\log,\sqrt{\cdot}\))	3.1
concavity / IRLS (Poisson)	Poisson log-likelihood concave (Hessian \(-X^\top WX\preceq0\), \(W=\operatorname{diag}(\mu_i)>0\)), তাই full-rank \(X\)-এ একক MLE; Newton–Raphson প্রতিধাপে weighted least squares (IRLS), weight \(w_i=\mu_i\)	5.5
concavity of log-likelihood	অনেক মডেলে (Bernoulli, Exponential, Normal) \(\ell\) অবতল (\(\ell''<0\)), তাই critical point অনন্য সর্বোচ্চ ও hill-climbing সেখানেই পৌঁছায় (Figure 1, 2)	4.3
concentration inequality	random variable (বিশেষত sample mean) তার expectation-এর চারপাশে কতটা ঘনীভূত তা দেখানো অসমতা	3.1
concentration of measure	বহু independent পরিমাণের যোগফল/গড় তার গড়ের কাছে প্রবলভাবে কেন্দ্রীভূত হওয়ার ঘটনা	3.1
concept drift	streaming-এ data-জনিত বণ্টন সময়ের সঙ্গে সরে যাওয়া (যা শেখা হয়েছিল তা পুরোনো হয়ে যায়); online learning-এর সুবিধা হলো \(\theta\) ক্রমাগত আপডেট হওয়ায় model স্বয়ংক্রিয়ভাবে নতুন বণ্টনে মানিয়ে নেয় (batch model পিছিয়ে পড়ত)	6.9
conditional density	\(f_{X\mid Y}(x\mid y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}\) (\(f_Y(y)>0\)) — regular conditional distribution-এর density-রূপ; \(\mathbb E[X\mid Y{=}y]=\int x\,f_{X\mid Y}(x\mid y)\,dx\) (2.6-এর সূত্র)	7.7
conditional distribution	এক variable জানার পরে অন্যটির বণ্টন, \(f_{Y\mid X}(y\mid x)=f_{X,Y}/f_X\)	2.6
conditional expectation	\(\mathbb{E}[Y\mid X=x]=\int y\,f_{Y\mid X}(y\mid x)\,dy\); \(X\) জানলে \(Y\)-এর গড় (regression function)	2.6
conditional expectation given a random variable	\(\mathbb E[X\mid Y]:=\mathbb E[X\mid\sigma(Y)]\) — \(Y\)-এর বহন-করা তথ্যের নিচে \(X\)-এর সেরা অনুমান; Doob–Dynkin-এ একটি measurable \(g\)-তে \(=g(Y)\)	7.7
conditional expectation given a σ-algebra	\(\mathbb E[X\mid\mathcal G]\) — আংশিক তথ্য \(\mathcal G\subseteq\mathcal F\)-এর নিচে \(X\)-এর সেরা অনুমান; a.s.-অনন্য \(\mathcal G\)-measurable random variable, একটি সংখ্যা নয় (2.2-এর \(\mathbb E[X\mid Y{=}y]\)-এর কঠোর সাধারণীকরণ, continuous শর্তেও খাটে)	7.7
conditional independence	\(P(A\cap B\mid C)=P(A\mid C)P(B\mid C)\); \(C\) জানার পর স্বাধীন	2.2
conditional Jensen inequality	\(\varphi\) convex ⇒ \(\varphi(\mathbb E[X\mid\mathcal G])\le\mathbb E[\varphi(X)\mid\mathcal G]\) a.s. — 7.5-এর Jensen-এর শর্তাধীন রূপ; supporting line দিয়ে প্রমাণ, \(L^p\)-contraction-এর উৎস	7.7
conditional MCT / Fatou / DCT	7.4-এর তিন convergence theorem-এর শর্তাধীন রূপ — \(X_n\uparrow X\Rightarrow\mathbb E[X_n\mid\mathcal G]\uparrow\mathbb E[X\mid\mathcal G]\) ইত্যাদি; conditional expectation-এর limit-আচরণ নিরাপদ করে	7.7
conditional probability	\(B\) ঘটেছে ধরে \(A\) ঘটার সম্ভাবনা \(P(A\mid B)=P(A\cap B)/P(B)\)	2.2
conditional probability \(\mathbb P(A\mid\mathcal G)\)	\(\mathbb P(A\mid\mathcal G):=\mathbb E[\mathbf 1_A\mid\mathcal G]\) — একটি \([0,1]\)-মানের \(\mathcal G\)-measurable random variable; Bayesian updating-এর কঠোর রূপ (\(\mathbb P(A\mid Y{=}y)\) পুনরুদ্ধার করে)	7.7
conditional variance	\(\operatorname{Var}(X\mid\mathcal G)=\mathbb E[X^2\mid\mathcal G]-(\mathbb E[X\mid\mathcal G])^2\) — শর্ত-পরবর্তী অবশিষ্ট অনিশ্চয়তা; bivariate normal-এ \(\operatorname{Var}(X\mid Y)=1-\rho^2=0.64\) (\(y\)-নিরপেক্ষ)	7.7
confidence interval (CI)	প্যারামিটারের একটা পরিসর-অনুমান \([\,L(X),\,U(X)\,]\) যা estimate-এর সাথে অনিশ্চয়তাও বহন করে; সাধারণত গঠন estimate \(\pm\) margin of error (Figure 1)	4.6
confidence level \(1-\alpha\)	পদ্ধতির long-run coverage — বহুবার নমুনা নিলে যত ভাগ interval সত্যি \(\theta\)-কে ধরে; \(95\%\Rightarrow\alpha=0.05\)	4.6
confidence–precision tradeoff	একই \(n\)-এ confidence ↑ ⇒ width ↑ (precision ↓); দুটোই উন্নত করতে \(n\) বাড়াতে হয় (§৭ Q4)	4.6
confirmatory analysis	নিশ্চিতকরণমূলক বিশ্লেষণ; পূর্বনির্ধারিত hypothesis স্বাধীন data-তে যাচাই করা	1.5
confounder	গুপ্ত তৃতীয় চলক যা দুই variable-কেই প্রভাবিত করে, ভুয়া সম্পর্ক তৈরি করে	1.4
confounding	তৃতীয় variable-এর কারণে দুটি variable-এর সম্পর্ক বিভ্রান্তিকর দেখানো	1.5
confusion matrix	প্রকৃত vs পূর্বাভাসিত class-এর \(2\times2\) গণনা \(\begin{bmatrix}\text{TN}&\text{FP}\\\text{FN}&\text{TP}\end{bmatrix}\); threshold-নির্ভর সব classification-metric-এর ভিত্তি (এখানে \([[61,15],[14,110]]\))	5.4
conjugate exponents	\(p,q\) যেখানে \(\tfrac1p+\tfrac1q=1\) (\(1\le p,q\le\infty\)); Hölder-এর জোড়া ঘাত, \(p=2\Rightarrow q=2\), \(p=1\Rightarrow q=\infty\)	7.5
conjugate index	conjugate exponent-এর অপর নাম; \(p\)-এর সঙ্গী \(q=\tfrac{p}{p-1}\) যাতে \(\tfrac1p+\tfrac1q=1\)	7.5
conjugate prior	এমন prior পরিবার যার সাথে নির্দিষ্ট likelihood মিললে posterior একই পরিবারে থাকে; আপডেট = শুধু parameter বদল (Figure 2, §৭ Q9–Q10)	4.10
conjunction	\(P \wedge Q\): "\(P\) and \(Q\)"	0.1
consequences of overdispersion	Poisson \(\hat\beta\) ঠিক থাকে কিন্তু SE underestimated (\(\sqrt\phi\) গুণ ছোট) ⇒ Wald \(z\) স্ফীত, \(p\)-value কৃত্রিমভাবে ছোট, CI অতি-সংকীর্ণ ⇒ over-confident, anti-conservative (বেশি false positive)	5.5
consistency	\(n\to\infty\)-এ \(\hat\theta\xrightarrow{P}\theta\) — estimate সত্যিকারের প্যারামিটারে গড়ায়; MoM estimator (মৃদু শর্তে) consistent, LLN + continuous mapping-এর ফল (Figure 2)	4.2
consistency (estimator)	\(\hat\theta_n\xrightarrow{P}\theta\); estimator বড় নমুনায় সঠিক মানে থিতু হওয়া (এই mode-এর প্রয়োগ)	3.2
consistent estimator	যে estimator consistency শর্ত মেনে চলে; LLN দিয়ে sample mean ও sample variance উভয়ই consistent	3.3
constant of integration	indefinite integral-এ যুক্ত অজানা ধ্রুবক \(C\)	0.4
contamination (\(\nu\))	training data-তে anomaly/দূষণের আনুমানিক ভগ্নাংশ (এই অধ্যায়ে \(\nu=15/300=0.05\)); আগে-জানা \(\nu\) detector-কে threshold দেয় — anomaly-score-এর উপরের \(\nu\) ভগ্নাংশ বিন্দুকে anomaly হিসেবে ছাঁটা হয় (sklearn `contamination`)	6.9
contingency table	দুই categorical variable-এর যৌথ গণনার ছক (cross-tabulation)	1.4
continuity	graph-এ লাফ/ফাঁক নেই; কলম না তুলে আঁকা যায়	0.3
continuity from above	নিম্নমুখী set-এ measure-এর limit: \(A_n\downarrow A\Rightarrow\mu(A_n)\to\mu(A)\), তবে কোনো-একটা \(\mu(A_{n_0})<\infty\) লাগে; নয়তো \(\lambda([n,\infty))=\infty\not\to 0=\lambda(\varnothing)\) ভাঙন (\(\infty-\infty\) অর্থহীন)	7.2
continuity from below	বর্ধমান set-এ measure-এর limit: \(A_n\uparrow A\Rightarrow\mu(A_n)\to\mu(A)\) — শর্তহীন; উদাহরণ \(\lambda([0,1-\tfrac1n])=1-\tfrac1n\to 1\) (\(n=1,2,5,100\to 0.0,0.5,0.8,0.99\))	7.2
continuity of measure	measure-এর limit-ধর্ম: \(A_k\uparrow A\Rightarrow\mu(A_k)\to\mu(A)\) (এবং \(A_k\downarrow A\), সসীম-measure শর্তে); countable additivity-রই সমতুল্য রূপ, Cantor-এ \(\lambda(C_k)\downarrow\lambda(C)\)	7.1
continuity point	যেখানে CDF \(F\) ধাপহীন; in-distribution-এর সংজ্ঞা শুধু এসব বিন্দুতে \(F_n\to F\) চায়	3.2
continuous	যে function-এ ছিদ্র/লাফ নেই, limit ও মান মেলে	0.3
continuous \(\Rightarrow\) Borel	প্রতিটি continuous \(g:\mathbb R\to\mathbb R\) Borel-measurable, কারণ open set-এর preimage open (তাই Borel) আর open interval-রা \(\mathcal B\) generate করে; ফলে continuous রূপান্তর RV-কে RV-তে নেয়	7.3
continuous mapping theorem	\(X_n\xrightarrow{d/P}X\) ও \(h\) continuous হলে \(h(X_n)\xrightarrow{d/P}h(X)\); Delta/Slutsky যুক্তিতে \(g'(\xi_n)\xrightarrow{P}g'(\mu)\)-এ ব্যবহৃত	3.4
continuous random variable	অবিচ্ছিন্ন দৈব চলক; মান একটি interval জুড়ে অবিচ্ছিন্নভাবে ছড়ানো (মাপা যায়, গোনা যায় না)	2.4
contrapositive	\(\neg Q \Rightarrow \neg P\); মূল implication-এর সমতুল্য	0.1
converge (integral)	improper integral একটি সসীম মানে পৌঁছালে	0.4
convergence almost everywhere	\(f_n\to f\) \(\mu\)-a.e. (null set বাদে point-wise অভিসরণ, 7.4); "a.s." এর probability-রূপ, SLLN-এর অভিসরণ-ধরন	7.6
convergence in \(L^p\)	\(\mathbb{E}\lvert X_n-X\rvert^p\to 0\); "গড় ভুল (\(p\)-ঘাতে)" শূন্যে নামে, লেখা \(X_n\xrightarrow{L^p}X\)	3.2
convergence in distribution	\(F_n(x)\to F(x)\) \(F\)-এর প্রতিটি continuity point-এ; কেবল CDF/আকৃতি মেলে, লেখা \(X_n\xrightarrow{d}X\)	3.2
convergence in probability	প্রতিটি \(\varepsilon>0\)-এ \(P(\lvert X_n-X\rvert>\varepsilon)\to 0\); "বড় ভুলের সম্ভাবনা মুছে যায়", লেখা \(X_n\xrightarrow{P}X\)	3.2
convergence of random variables	দৈব চলকের sequence \(X_n\) "limit \(X\)-এর দিকে যাওয়া"-র ধারণা; একাধিক ভিন্ন অর্থ (mode) আছে	3.2
convergence rate	কোনো অনুক্রম তার সীমার দিকে যত দ্রুত এগোয় তার পরিমাপ; CLT-তে \(\sup_x\lvert F_n(x)-\Phi(x)\rvert\sim n^{-1/2}\), তাই log-log প্লটে slope \(\approx-0.5\) (E1-এ ফিট slope \(-0.4998\), \(C=0.1326\))	8.2
convergence to stationarity	সদাচারী chain-এ যেকোনো শুরু থেকে \(\mu_n=\mu_0 P^n\to\pi\); chain তার শুরু "ভুলে যায়" (Figure 2) — MCMC-র ভিত্তি	3.6
converse	\(Q \Rightarrow P\); মূল implication-এর সমতুল্য নয়	0.1
convex	নিচের দিকে বাঁকা (\(\smile\)); \(f''\ge0\)	0.3
convex function	যে function-এ chord সবসময় curve-এর উপরে; \(g''\ge0\); বাটির মতো	3.1
convolution	দুই independent random variable-এর sum-এর density: \((f_X*f_Y)(s)=\int f_X(x)f_Y(s-x)\,dx\)	2.7
Cook's distance	\(D_i=\dfrac{r_i^2}{p}\cdot\dfrac{h_{ii}}{1-h_{ii}}\) (studentized \(r_i\)); বিন্দু \(i\) বাদ দিলে \(\hat\beta\) কতটা সরে তার সম্মিলিত পরিমাপ (leverage × residual); \(D_i>1\) ⇒ influential	5.2
correct interpretation of a CI	"৯৫%" = পদ্ধতির coverage (random জিনিস = interval, \(\theta\) স্থির); বহু interval-এর ~৯৫% \(\theta\)-কে ধরে (Figure 2-বাঁ; §৭ Q2)	4.6
correct interpretation of p-value	p \(=\) \(H_0\) সত্যি ধরে চরম-ফলের সম্ভাবনা; এটা \(P(H_0\text{ true})\) নয় (frequentist-এ \(H_0\) random নয়, §৭ Q2)	4.7
correlation	\(\rho=\operatorname{Cov}(X,Y)/(\sigma_X\sigma_Y)\in[-1,1]\); একক-মুক্ত covariance	2.6
correlation coefficient (\(r\))	দুই variable-এর linear সম্পর্কের শক্তি ও দিক মাপা সংখ্যা	1.4
correlation heatmap	correlation matrix-কে রঙিন গ্রিডে দেখানো (এক নজরে সব জোড়ার সম্পর্ক)	1.5
correlation matrix	সব variable-জোড়ার Pearson \(r\)-এর symmetric matrix \(R\), কর্ণে \(1\)	1.4
count data	\(\{0,1,2,\dots\}\)-এ থাকা গণনা-আউটকাম ("দিনে কয়টা ভাড়া") — ঋণাত্মক নয়, discrete, ছোট মানে right-skewed; তাই OLS/Normal নয়, Poisson-ভিত্তিক GLM দরকার	5.5
countable additivity (\(\sigma\)-additivity)	গণনাযোগ্য-অনেক disjoint set-এর union-এর measure প্রতিটির measure-এর যোগফল: \(\mu\big(\bigsqcup_k A_k\big)=\sum_k\mu(A_k)\); C1-এ \(\mathbb N\)-এ uniform probability নিষিদ্ধ করে এই শর্তই	7.1
countable additivity (Axiom 3)	disjoint \(A_i\)-এর জন্য \(P(\bigcup_i A_i)=\sum_i P(A_i)\)	2.1
countable subadditivity	যেকোনো (disjoint না-হলেও) গণনাযোগ্য union-এর measure যোগফলের \(\le\): \(\mu\big(\bigcup_k A_k\big)\le\sum_k\mu(A_k)\); outer measure-এরও সংজ্ঞাগত ধর্ম	7.2
countable vs uncountable	countable: \(\mathbb N\)-এর সঙ্গে bijection-যোগ্য (যেমন \(\mathbb Q\)); uncountable: তা নয় (যেমন \(\mathbb R\), Cantor set); countable \(\Rightarrow\) measure \(0\), কিন্তু উল্টোটা নয়	7.1
counting measure	\(\mu(E)=\lvert E\rvert\) — set-এর উপাদান-সংখ্যা (অসীম হলে \(\infty\)); সর্বদা measure, কিন্তু \(\mu(\Omega)\ne 1\) হলে probability নয় (যেমন \(\mu(\{1,2,3\})=3\))	7.2
counting process	\(N(t)=\) সময় \([0,t]\)-এ ঘটে যাওয়া event-সংখ্যা; ডানদিক-সন্তত (right-continuous) সিঁড়ি-ফাংশন, \(+1\) লাফে বাড়ে	3.5
counting-measure integral = sum	counting measure \(\mu(\{k\})=1\)-এ \(\int f\,d\mu=\sum_k f(k)\); integral-তত্ত্ব সিরিজ-তত্ত্বকে বিশেষ ক্ষেত্রে ঢেকে নেয়	7.4
covariance	দুই variable-এর একসাথে চলার পরিমাপ, \(\frac{1}{n-1}\sum(x_i-\bar x)(y_i-\bar y)\)	1.4
covariance matrix	variable-দের variance/covariance ধারণকারী symmetric matrix \(\Sigma\)	0.5
covariance matrix \(\Sigma\)	feature-জোড়ার যুগ্ম-পরিবর্তনশীলতার \(p\times p\) matrix, \(\Sigma=\frac1n X^\top X\) (center-করা \(X\)); symmetric ও PSD (eigenvalue \(\ge0\)); PCA এর eigen-গঠনেই দাঁড়ায়, off-diagonal correlation-ই PCA-কে অর্থপূর্ণ করে; standardize করলে \(\Sigma\) হয় correlation matrix (২.৬)	5.9
coverage probability	\(P_\theta\big(L(X)\le\theta\le U(X)\big)\) — random interval-টা স্থির \(\theta\)-কে ধরার সম্ভাবনা; \(\ge1-\alpha\) হলে \(C_n\) একটা \((1-\alpha)\) CI (§৭ Q10)	4.6
Cramér–Rao inequality	CRLB-র আনুষ্ঠানিক রূপ; Cauchy–Schwarz দিয়ে প্রমাণিত: \(1=\mathrm{Cov}(\hat\theta,U)^2\le\mathrm{Var}(\hat\theta)I(\theta)\) (§৭ Q11)	4.5
Cramér–Rao lower bound (CRLB)	যেকোনো unbiased estimator-এর জন্য \(\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}\) — variance-এর শক্ত মেঝে, যার নিচে যাওয়া অসম্ভব (Figure 2; §৭ Q11)	4.5
Cramér–Wold device	\(\mathbb R^d\)-এ random vector-এর weak convergence সব এক-মাত্রিক রৈখিক projection \(\langle\theta,X_n\rangle\)-এর weak convergence দিয়ে চরিত্রায়িত; cf-পদ্ধতিকে বহু-মাত্রায় তোলার যন্ত্র (multivariate CLT-এর পথ)	7.10
credible interval	posterior-এর \((1-\alpha)\) ভর ধরা ব্যবধান; \(P(\theta\in[L,U]\mid\text{data})=1-\alpha\) — \(\theta\) random, interval fixed (Figure 3, §৭ Q6)	4.10
credible vs confidence interval	credible: \(\theta\) random, interval fixed (posterior সম্ভাবনা); confidence (4.6): \(\theta\) fixed, interval random (long-run coverage); সংখ্যা প্রায়ই কাছাকাছি, অর্থ আলাদা (Figure 3, §৭ Q2)	4.10
critical point	যেখানে \(f'(x)=0\) বা অসংজ্ঞায়িত	0.3
critical value \(c\)	rejection region-এর সীমা-মান (যেমন \(z_{\alpha/2}\), \(t_{n-1,\alpha/2}\)); \(T\) এর বাইরে গেলে reject (Figure 1)	4.7
critical value \(t_{n-1,\alpha/2}\)	Student-t (\(n-1\) df)-এর critical value; \(\sigma\) অজানা হলে multiplier; সবসময় \(z_{\alpha/2}\)-এর চেয়ে বড়, \(n\to\infty\)-এ মেলে (Figure 3)	4.6
critical value \(z_{\alpha/2}\)	standard normal-এর বিন্দু যার ডানে \(\alpha/2\) ভর; \([-z_{\alpha/2},z_{\alpha/2}]\)-এ \(1-\alpha\) ভর (\(z_{0.025}\approx1.96\), \(z_{0.005}\approx2.576\))	4.6
critical-value method vs p-value method	\(T\) vs \(c\) তুলনা (reject if \(T\in R\)) বনাম \(p\) vs \(\alpha\) তুলনা (reject if \(p\le\alpha\)) — একই সিদ্ধান্তের দুই রূপ	4.7
cross-tabulation	contingency table তৈরির প্রক্রিয়া (pandas `crosstab`)	1.4
cross-validation (CV)	data ঘুরিয়ে-ফিরিয়ে এক অংশে fit করে অন্য (held-out) অংশে predict করে generalization error-এর নিরপেক্ষ অনুমান ও tuning parameter বাছার নীতিনিষ্ঠ, data-চালিত পদ্ধতি; সত্য \(f\) জানার দরকার নেই, model-কে black-box ধরেই চলে — তাই AIC/BIC-র চেয়ে general; চলমান উদাহরণে polynomial degree বাছে \(d{=}3\)	5.8
cross-validation (stratified K-fold)	data-কে K ভাগে ভেঙে ঘুরিয়ে-ফিরিয়ে train/validate করে generalization-error-এর প্রায়-unbiased আন্দাজ ও তার variance পাওয়া। canonical logistic AUC \(0.993\pm0.008\), RF \(0.989\pm0.007\)	8.1
crowding problem	উচ্চ-মাত্রায় একটা বিন্দুর মাঝারি-দূরত্বের প্রতিবেশী অনেক, কিন্তু \(2\)D-র সীমিত জায়গায় সেগুলো সব রাখা যায় না — তারা কেন্দ্রে চেপে cluster গুলিয়ে যায়; t-SNE ভারী-লেজ Student-\(t\) \(q_{ij}\) দিয়ে এটি উপশম করে (মাঝারি-দূরত্বের জন্য বেশি জায়গা)	6.8
cumulative distribution function	CDF, ক্রমযোজিত বণ্টন-অপেক্ষক \(F_X(x)=P(X\le x)\); অ-হ্রাসমান step function	2.3
curse of dimensionality	মাত্রা \(p\) বাড়লে আয়তন ঘাতীয়ভাবে বাড়ে ⇒ data বিরল, "নিকটতম" প্রতিবেশীও দূরে (\(1\%\) আয়তন ধরতে \(p{=}10\)-এ প্রতি বাহুর \(\approx63\%\) লাগে), দূরত্ব-পার্থক্য মুছে যায়; k-NN ও দূরত্ব-নির্ভর পদ্ধতিকে উচ্চ-মাত্রায় দুর্বল করে	6.3
curse of dimensionality (rate)	nonparametric estimate-এর ধীর convergence: optimal kernel-MSE \(\propto n^{-4/5}\) (parametric \(n^{-1}\)-এর চেয়ে ধীর), \(h^\*\propto n^{-1/5}\); কারণ অজানা \(f\)-এর প্রতিটা স্থানীয় অংশ আলাদা শিখতে হয়; উচ্চ মাত্রায় আরও তীব্র	5.7
CV-min rule	যে tuning-মান \(K\)-fold CV-error সর্বনিম্ন করে সেটাই বাছার নিয়ম; সরল কিন্তু CV-গড় noisy বলে সামান্য overfit-প্রবণ — তাই প্রায়ই one-SE rule-এর সাথে তুলনা করা হয়; চলমান উদাহরণে \(d{=}3\) বাছে	5.8
DAG (directed acyclic graph)	কার্যকারণ-সম্পর্কের একটা দিকযুক্ত, চক্র-হীন গ্রাফ যা confounding, mediation ও collider চেনায়; কোন চলকে সমন্বয় (adjust) করলে বৈধ causal effect পাওয়া যায় তা নির্ধারণ করে (Pearl-এর do-calculus)	8.4
Darboux sum	একটা partition-এ subinterval-প্রতি \(\sup\) (upper) বা \(\inf\) (lower) গুণ দৈর্ঘ্য যোগ করে পাওয়া আনুমান; upper = lower হলেই Riemann-integrable — \(\mathbf 1_{\mathbb Q}\)-এ \(U=1\ne0=L\)	7.1
data cleaning	missing value ও outlier সংশোধন/হ্যান্ডল করে data ব্যবহারযোগ্য করা	1.5
data inspection	data-র গঠন পরিদর্শন (shape, dtype, head, describe)	1.5
data leakage	test/future data-র তথ্য অজান্তে training/বিশ্লেষণে ঢুকে পড়া	1.5
data pipeline	একটি সম্পূর্ণ বিশ্লেষণ-শৃঙ্খল framing→EDA→preprocessing→modeling→inference→validation→interpretation; এই অধ্যায় `breast_cancer`-এ (\(569\times30\)) সাত ধাপ একসাথে জোড়ে — কোনো ধাপ বাদ দিলে পরের ধাপের সিদ্ধান্ত বিভ্রান্ত হয়	8.1
DataFrame	pandas-এর সারি-কলামবিশিষ্ট টেবিল-আকৃতির data object	0.6
De Morgan's laws	\((A\cup B)^c=A^c\cap B^c\) ও \((A\cap B)^c=A^c\cup B^c\)	0.1
decision boundary	feature-space-এ যে পৃষ্ঠ দুই শ্রেণির অঞ্চল আলাদা করে (\(\delta_0(x)=\delta_1(x)\)); LDA-তে hyperplane (linear), QDA/GaussianNB-তে quadratic, k-NN-তে \(k\)-নির্ভর piecewise (ছোট \(k\) wiggly, বড় \(k\) মসৃণ)	6.3
decision function (SVM)	নতুন বিন্দুর স্কোর \(f(x)=\sum_{i:\alpha_i>0}\alpha_i y_i K(x_i,x)+b\); চিহ্ন \(\operatorname{sign}(f(x))\) শ্রেণি দেয়; কেবল support vector-নির্ভর; \(\lvert f(x)\rvert\) margin থেকে দূরত্ব নির্দেশ করে	6.4
decision rule (reject vs fail to reject)	\(T\in R\) (বা \(p\le\alpha\)) হলে reject \(H_0\); নইলে fail to reject — "\(H_0\) প্রমাণিত" বোঝায় না (§৭ Q4)	4.7
decision threshold	\(\hat p\)-কে \(0/1\)-এ রূপান্তরের cutoff (সাধারণত \(0.5\)); বাড়ালে precision↑ recall↓, কমালে উল্টো — FP বনাম FN-খরচের ভারসাম্যে বাছাই	5.4
decision tree	feature-space-কে বারবার axis-aligned split দিয়ে আয়তাকার অঞ্চলে ভাগ করে এমন predictive model; প্রতিটি leaf majority class (classification) বা response-গড় (regression) দেয়; interpretable (root→leaf = if-then নিয়ম) কিন্তু গভীর হলে high variance। canonical full tree (depth \(10\), \(51\) leaf): test \(0.733\)	6.5
decorrelation	random forest-এর মূল কৌশল — feature-subsampling দিয়ে গাছগুলোর pairwise correlation \(\rho\) কমানো; variance-সূত্র \(\rho\sigma^2+\frac{1-\rho}{B}\sigma^2\)-এর floor \(\rho\sigma^2\) নামায় বলে bagging-এর চেয়ে কম variance (\(\rho{=}0.5\to0.05\) হলে \(V(100)\): \(0.505\to0.0595\))	6.5
defining property of conditional expectation	দুই শর্ত: (i) \(\mathbb E[X\mid\mathcal G]\) \(\mathcal G\)-measurable; (ii) averaging \(\int_G\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_G X\,d\mathbb P\) সব \(G\in\mathcal G\)-তে — একসঙ্গে \(Z\)-কে atom-গড়ে অনন্যভাবে বাঁধে	7.7
definite integral	নির্দিষ্ট সীমার মাঝে integral \(\int_a^b f\,dx\); ফল একটি সংখ্যা	0.4
degrees of freedom	অনুমান-পরবর্তী স্বাধীন তথ্যের সংখ্যা (sample variance-এ n−1)	1.2
degrees of freedom (ANOVA)	between \(=k-1\), within \(=n-k\); two-way: factor \(=k_i-1\), interaction \(=(k_1-1)(k_2-1)\), residual \(=n-k_1k_2\); যোগফল \(=n-1\)	5.3
degrees of freedom (df)	একটা distribution-এর আকৃতি-নিয়ন্ত্রক parameter; স্বাধীন তথ্যের সংখ্যা — \(S^2\)-এ \(\bar X\) অনুমানে এক df খরচ বলে df \(=n-1\)	4.1
degrees of freedom (effective)	linear smoother-এর নমনীয়তা/জটিলতার একক-সংখ্যা পরিমাপ \(=\operatorname{tr}(S)\) (\(S\) = smoother matrix); regression spline-এ \(\operatorname{tr}(S)=K\) = basis-সংখ্যা = estimate-করা coefficient; ভিন্ন পদ্ধতিকে (\(h\)/df/\(\lambda\)) এক স্কেলে তুলনাযোগ্য করে — ৫.২-এর model-complexity-র সাধারণীকরণ	5.7
Delta method	\(g\) differentiable ও \(g'(\mu)\ne 0\) হলে \(\sqrt{n}(g(\bar X_n)-g(\mu))\xrightarrow{d}\mathcal N(0,(g'(\mu))^2\sigma^2)\); nonlinear function-কে tangent দিয়ে linearize করে asymptotic distribution বের করা	3.4
delta method (CI-তে)	মসৃণ \(g\)-এর জন্য \(g(\hat\theta)\pm z_{\alpha/2}\,\lvert g'(\hat\theta)\rvert\,\widehat{\mathrm{se}}\) — রূপান্তরিত প্যারামিটার \(\psi=g(\theta)\)-এর approximate CI (§৭ Q11)	4.6
dendrogram	hierarchical clustering-এর merge-ইতিহাসের গাছ-চিত্র; প্রতিটি merge একটা উল্লম্ব জোড়, merge-উচ্চতা \(=\) যে দূরত্বে দুই cluster মিশেছে (বড় উচ্চতা \(=\) বেশি ভিন্ন); কোনো উচ্চতায় আনুভূমিক রেখা টেনে কাটলে যত শাখা ছেদ করে তত cluster — বড় উল্লম্ব লাফের নিচে কাটা ভালো	5.9
density	probability নয়, বরং probability জমার হার; \(f(x)\) ১-এর বেশি হতে পারে	2.4
density (histogram)	relative frequency ÷ bin-প্রস্থ; density-অক্ষে মোট ক্ষেত্রফল 1	1.3
density estimation	label ছাড়া (unsupervised) data থেকে অজানা probability density \(p(x)\) অনুমান করার কাজ; দুই দর্শন — KDE (nonparametric, প্রতি বিন্দুতে kernel) ও mixture model (parametric, অল্প \(K\) component)। data সত্যিই অল্প subpopulation থেকে এলে mixture compact ও ব্যাখ্যামূলক	6.7
density-ratio anomaly	Sugiyama-ঘরানার পদ্ধতি: test ও reference বণ্টনের density-ratio (বা একটি বিন্দুর local density-অনুপাত) আঁচ করে কম-ratio বিন্দুকে anomaly বলা; LOF-ও মূলত একটি local density-ratio (নিজের বনাম প্রতিবেশীর density)	6.9
derivative	তাৎক্ষণিক পরিবর্তনের হার / tangent-এর slope	0.3
design effect (Deff)	clustering-জনিত কার্যকর-নমুনা-হ্রাসের পরিমাপ \(\text{Deff}=1+(\bar n-1)\rho\); সঠিক SE \(\approx\sqrt{\text{Deff}}\times\)(naive OLS SE); উদাহরণে \(1+(21.3-1)\cdot0.371\approx8.5\), \(\sqrt{8.5}\approx2.9\) — তাই OLS intercept SE এত ভুল	5.6
design matrix	প্রতিটি row এক observation, column-গুলো predictor (প্রথম column intercept-এর সব \(1\)), চিহ্ন \(X\)	5.1
detailed balance	\(\pi_i P_{ij}=\pi_j P_{ji}\) সব \(i,j\)-এর জন্য — প্রতি জোড়া state-এর মধ্যে দুদিকের probability-প্রবাহ সমান (reversibility); এটা সত্য হলে \(\pi\) স্বয়ংক্রিয়ভাবে stationary	3.6
determinant	matrix-এর area/volume scaling factor, \(\det(A)\)	0.5
deviance	\(D=-2\ell\) (residual deviance); fit-এর badness-পরিমাপ, null deviance \(D_0=-2\ell_0\)-এর সাথে তুলনায় likelihood-ratio test দেয় (এখানে \(D=135.83\))	5.4
deviation	একটি মান তার mean থেকে কতটা সরে, \(x_i-\bar x\)	1.4
difference	\(A \setminus B\): \(A\)-তে আছে কিন্তু \(B\)-তে নেই	0.1
difference quotient	\((f(x+h)-f(x))/h\); secant-এর slope	0.3
differentiation	derivative বের করার ক্রিয়া	0.3
dimensionality reduction	উচ্চ-মাত্রিক (\(p\)) data-কে কম মাত্রায় (\(k\ll p\)) প্রকাশ করা, যতটা সম্ভব তথ্য (variance/গঠন) রেখে; PCA এর সবচেয়ে প্রচলিত রৈখিক রূপ — top-\(k\) PC-তে প্রক্ষেপ; উপকার: কম্প্রেশন, visualization, noise-হ্রাস, ML-pipeline-এ feature-নির্মাণ	5.9
Dirac measure	বিন্দু \(x\)-এ সব ভর: \(\delta_x(E)=\mathbf 1\{x\in E\}\) (\(x\in E\) হলে \(1\), নয়তো \(0\)); \(\delta_x(\Omega)=1\) তাই probability measure — degenerate ("নিশ্চিত") distribution, যেমন \(\delta_0\)	7.2
direct proof	hypothesis ধরে সরাসরি conclusion-এ পৌঁছানো	0.1
Dirichlet function	\(D=\mathbf 1_{\mathbb Q}\): rational-এ \(1\), irrational-এ \(0\); সংজ্ঞায়িত হয়েও Riemann-integrable নয় (প্রতিটি partition-এ \(U=1,L=0\)) — crack C2-এর কেন্দ্রীয় উদাহরণ	7.1
Dirichlet process	একটা \"distribution-এর উপর distribution\" — অজানা distribution-কে nonparametric-ভাবে estimate করা; clustering-এ component-সংখ্যা আগে না বেঁধে ডেটাকে তা বেছে নিতে দেয় (infinite mixture)	8.4
discrete	গণনাযোগ্য numeric data, সাধারণত পূর্ণসংখ্যা ("কতগুলো"; সন্তান-সংখ্যা)	1.1
discrete random variable	বিচ্ছিন্ন দৈব চলক — যার সম্ভাব্য মান গণনাযোগ্য (countable)	2.3
discrete stochastic integral	martingale transform \((H\cdot X)_n\)-এর আরেক নাম — \(H\) predictable integrand-এর সাপেক্ষে \(X\)-এর "যোগফল-সমাকল"; continuous-time-এ Itô-ইন্টিগ্রালের বিচ্ছিন্ন পূর্বসূরি	7.8
discriminant function	প্রতি শ্রেণির স্কোর-ফাংশন \(\delta_c(x)\) (\(=\log\pi_c f_c(x)\)-এর \(c\)-নির্ভর অংশ) যার \(\arg\max_c\) শ্রেণি দেয়; LDA-তে \(x\)-এ linear, QDA-তে quadratic; দুই \(\delta\) সমান হওয়ার সেট-ই decision boundary	6.3
discriminative model	\(P(x)\) উপেক্ষা করে সরাসরি \(P(y\mid x)\) বা decision boundary শেখে; logistic regression (৫.৪) ও SVM (৬.৪) এর উদাহরণ; generative-এর তুলনায় কম ধারণা, প্রায়ই কম data-তে ভালো	6.3
disjoint	\(A \cap B = \varnothing\): কোনো সাধারণ সদস্য নেই (mutually exclusive)	0.1
disjunction	\(P \vee Q\): "\(P\) or \(Q\)"	0.1
dispersion parameter \(\alpha\) (NB)	negative binomial-এর extra-variance parameter; \(\operatorname{Var}=\mu+\alpha\mu^2\); \(\alpha=0\) ⇒ Poisson, \(\alpha>0\) ⇒ overdispersion; উদাহরণে \(\hat\alpha=0.179\) (mu\(=28.6\)-এ NB var \(\approx175\) vs Poisson \(28.6\))	5.5
dispersion parameter (\(\hat\phi\))	overdispersion-এর পরিমাপ \(\hat\phi=\text{Pearson }\chi^2/df\) (বা deviance\(/df\)); \(\approx1\) হলে equidispersion, \(\gg1\) হলে overdispersion; উদাহরণে \(1096.3/247=4.44\)	5.5
distribution	একটি variable-এর সম্পূর্ণ ছবি — কোন মান কত ঘন ঘন আসে	1.3
diverge (integral)	improper integral সসীম মানে না পৌঁছালে	0.4
domain	function-এর input-set (\(A\))	0.1
dominance	একটা estimator \(\hat\theta_1\) dominate করে \(\hat\theta_2\)-কে যদি \(R(\hat\theta_1,\theta)\le R(\hat\theta_2,\theta)\) প্রতিটি \(\theta\)-তে ও অন্তত একটিতে কঠোরভাবে কম; \(p\ge3\)-তে James–Stein dominate করে MLE-কে	8.3
Dominated Convergence Theorem	DCT; \(f_n\to f\) ও \(\lvert f_n\rvert\le g\in L^1\Rightarrow\int f_n\to\int f\); Fatou থেকে উৎপাদিত, সবচেয়ে ব্যবহৃত সীমা-উপপাদ্য	7.4
dominating function	DCT-এর সেই \(g\in L^1\) যা সব \(f_n\)-কে ঢাকে (\(\lvert f_n\rvert\le g\)); integrable ছাদ না থাকলে DCT খাটে না (moving-spike)	7.4
Doob decomposition	যেকোনো submartingale \(X_n=M_n+A_n\) অনন্যভাবে (a.s.) — \(M\) martingale (বিশুদ্ধ গোলমাল), \(A\) predictable অ-হ্রাসমান compensator; ঝোঁক ও গোলমাল আলাদা করে	7.8
Doob martingale	যেকোনো \(Y\in L^1\)-এ \(X_n=\mathbb E[Y\mid\mathcal F_n]\) — tower থেকে স্বয়ংক্রিয় martingale ("\(Y\)-এর ক্রমে-পরিশীলিত অনুমান", Bayesian updating-এর গতিশীল রূপ); 7.9-এ \(X_n\to Y\)	7.8
Doob's \(L^p\) inequality	\(p>1\)-এ \(\lVert X_n^*\rVert_p\le\frac{p}{p-1}\lVert X_n\rVert_p\) — running maximum-এর \(L^p\)-নর্মকে শেষ-মানের নর্ম দিয়ে বাঁধে (maximal inequality + Hölder); \(L^2\)-bounded martingale-নিয়ন্ত্রণে মুখ্য	7.9
Doob's maximal inequality	অঋণাত্মক submartingale-এ \(\lambda\,\mathbb P(\max_{k\le n}X_k\ge\lambda)\le\mathbb E[X_n\,\mathbf 1_{\{\max\ge\lambda\}}]\le\mathbb E[X_n]\); Markov inequality-র "পুরো-পথ-সর্বোচ্চ" সংস্করণ, hitting-time-এ optional stopping দিয়ে প্রমাণিত	7.9
Doob's upcrossing lemma	submartingale-এ \(\mathbb E[U_n([a,b])]\le\frac{\mathbb E[(X_n-a)^+]}{b-a}\) — "\(a\)-তে কিনে \(b\)-তে বেচা" predictable কৌশলে অসীম মুনাফা অসম্ভব বলে upcrossing-সংখ্যাকে বাঁধে; পুরো convergence-তত্ত্বের ইঞ্জিন	7.9
Doob–Dynkin lemma	যদি \(Z\) \(\sigma(Y)\)-measurable হয় তবে একটি measurable \(g\) আছে যাতে \(Z=g(Y)\); এ থেকেই \(\mathbb E[X\mid Y]=g(Y)\), আর \(g(y)=\mathbb E[X\mid Y{=}y]\) (2.2/2.6-এর সূত্র পুনরুদ্ধার)	7.7
dot product	দুই vector থেকে একটি সংখ্যা: \(\sum u_i v_i\)	0.5
double integral	দুই variable-এর function-এর surface-এর নিচের volume \(\iint f\,dA\)	0.4
double-centering	squared-distance matrix \(\Delta\) থেকে inner-product (Gram) matrix বের করার অপারেশন \(B=-\tfrac12 H\Delta H\), উপাদান-সূত্রে \(B_{ij}=-\tfrac12(\Delta_{ij}-\bar\Delta_{i\cdot}-\bar\Delta_{\cdot j}+\bar\Delta_{\cdot\cdot})\); প্রমাণে দেখানো এটি ঠিক \(z_i^\top z_j\) ফেরায় (centered data-তে), classical MDS-এর প্রথম ধাপ	6.8
dtype	array-র উপাদানের data type (যেমন int64, float64)	0.6
dummy (indicator) variable	categorical group-কে \(0/1\) column-এ রূপান্তর; এর মাধ্যমে ANOVA হুবহু একটি linear regression হয়ে ওঠে	5.3
dyadic approximation	approximation theorem-এর সুনির্দিষ্ট নির্মাণ: \(f_n=\min\!\big(n,\ \lfloor 2^n f\rfloor/2^n\big)\) — \(2^{-n}\) ধাপ-উচ্চতার "সিঁড়ি"; monotone increasing ও সর্বোচ্চ error \(2^{-n}\) (\(n=1,2,3,4\to 0.5,0.25,0.125,0.0625\))	7.3
Dynkin \(\pi\)–\(\lambda\) theorem	যদি একটা \(\pi\)-system \(\mathcal P\) একটা \(\lambda\)-system \(\mathcal L\)-এ থাকে, তবে \(\sigma(\mathcal P)\subseteq\mathcal L\); ফল — uniqueness: \(\pi\)-system-এ মেলা দুই measure \(\sigma(\mathcal P)\)-এ মেলে, তাই CDF একটা law সম্পূর্ণ pin করে	7.2
ECDF	empirical CDF; F̂_n(t) = #{xᵢ ≤ t}/n, bin-মুক্ত step-function	1.3
EDA (Exploratory Data Analysis)	অন্বেষণমূলক উপাত্ত বিশ্লেষণ; ছবি ও summary দিয়ে data থেকে প্যাটার্ন ও সূত্র খোঁজার ধাপ	1.5
effect size \(d\)	\(H_0\) থেকে সত্য কত দূরে, standardized: \(d=(\mu_1-\mu_0)/\sigma\); power curve-এর অনুভূমিক অক্ষ (Figure 3)	4.7
effect size (eta-squared)	\(\eta^2=\mathrm{SSB}/\mathrm{SST}\) — factor কত শতাংশ total variation ব্যাখ্যা করে; regression-এর \(R^2\)-এর ANOVA-সমতুল্য	5.3
efficiency	দুই unbiased estimator-এর মধ্যে যেটির sampling distribution-এর variance (SE) ছোট সেটি বেশি efficient; Normal data-তে mean median-এর চেয়ে efficient	4.1
efficiency (of MLE)	কম variance-বিশিষ্ট estimator বেশি efficient; যেখানে MLE ও MoM ভিন্ন, MLE সাধারণত কম variance দেয় (Uniform-এ SD প্রায় ৩ গুণ ছোট — Figure 3); MLE asymptotically efficient (4.4)	4.3
efficient estimator	যে unbiased estimator ঠিক CRLB অর্জন করে (\(\mathrm{Var}=\frac{1}{nI}\), \(e=1\)); যেমন Normal-mean ও Poisson-এ \(\bar X\) (Figure 2)	4.5
eigen-decomposition	matrix-কে eigenvalue ও eigenvector-এ ভাঙা; PCA-র ভিত্তি	0.5
eigenvalue	যে scalar \(\lambda\)-এ matrix কেবল vector-কে প্রসারিত করে	0.5
eigenvalue / eigenvector	\(\Sigma v=\lambda v\): eigenvector \(v\) যে দিকে \(\Sigma\) শুধু লম্বায়/সংকোচন করে (ঘোরায় না), eigenvalue \(\lambda\) সেই স্কেল-গুণক; PCA-তে eigenvector \(=\) PC-দিক, eigenvalue \(\lambda_j=\) সেই PC-বরাবর data-র variance (\(v_j^\top\Sigma v_j=\lambda_j\)); symmetric \(\Sigma\)-এ eigenvalue বাস্তব (\(\ge0\), PSD) ও eigenvector orthogonal (০.৫)	5.9
eigenvector	transformation-এ যে দিক অপরিবর্তিত থাকে, \(A\mathbf{v}=\lambda\mathbf{v}\)	0.5
elastic net	\(\min\lVert y-X\beta\rVert_2^2+\lambda_1\lVert\beta\rVert_1+\lambda_2\lVert\beta\rVert_2^2\) — lasso (\(L_1\), sparsity) ও ridge (\(L_2\), grouping/স্থিতিশীলতা)-র মিশ্রণ; correlated feature-গোষ্ঠীকে একসাথে নির্বাচন/shrink করে, pure lasso-র অস্থির একক-নির্বাচন এড়ায়	6.2
elbow method	\(K\) বাছার পদ্ধতি: inertia বনাম \(K\) আঁকা, যেখানে পতন হঠাৎ ছোট হয়ে "কনুই" তৈরি করে সেই \(K\) বাছা (এর পর আরও cluster দিলে সামান্যই লাভ); চলমান উদাহরণে inertia \([1200,527,135,111,91,72]\), পতন \(392\to24\) ⇒ elbow \(k{=}3\); চোখে-দেখা/বিষয়ভিত্তিক বলে silhouette-এর তুলনায় কম নির্ভরযোগ্য	5.9
element / member	set-এর একটি সদস্য; \(x \in A\) মানে \(x\), \(A\)-এর সদস্য	0.1
elementary event	একটিমাত্র outcome নিয়ে গঠিত event	2.1
Elliptic Envelope	statistical anomaly detector: inlier-রা একটা Gaussian/উপবৃত্তীয় গুচ্ছে বসে ধরে নিয়ে (robust) \(\mu,\Sigma\) আঁচ করে, বড় Mahalanobis \(D_M^2\) (\(\chi^2_p\)-cutoff ছাড়িয়ে) বিন্দুকে anomaly বলে; canonical ROC AUC \(1.000\) (inlier-গুচ্ছ Gaussian বলে নিখুঁত)	6.9
EM algorithm	Expectation–Maximization — incomplete/latent-variable data-তে MLE-র পুনরাবৃত্ত পদ্ধতি: E-step (latent-এর posterior/responsibility) ও M-step (weighted MLE) পালা করে; প্রতি iteration-এ log-likelihood একঘেয়ে (monotone) বাড়ায় বা স্থির রাখে (কখনো কমায় না)। non-convex — local optimum-এ আটকাতে পারে, তাই একাধিক restart	6.7
embedding	উচ্চ-মাত্রিক বিন্দু \(x_i\in\mathbb R^D\)-এর নিম্ন-মাত্রিক প্রতিরূপ \(y_i\in\mathbb R^d\) (\(d\ll D\)) — dimensionality reduction-এর আউটপুট; ভালো embedding manifold-এর প্রতিবেশ/দূরত্ব রক্ষা করে (local: trustworthiness, global: প্রকৃত স্থানাঙ্কের সাথে corr দিয়ে যাচাই)	6.8
empirical Bayes	prior-এর প্যারামিটার আগে থেকে না জেনে ডেটা থেকে estimate করে Bayesian shrinkage প্রয়োগ; JS = empirical-Bayes: prior \(\theta_i\sim N(0,\tau^2)\)-এর shrinkage \(\frac{\tau^2}{\tau^2+1}\)-এ \(\tau^2\)-কে \(\lVert X\rVert^2\) থেকে estimate করলে ঠিক \(1-\frac{p-2}{\lVert X\rVert^2}\) (Efron–Morris)	8.3
empirical CDF	নমুনা থেকে গড়া step-function CDF \(F_n\); \(\xrightarrow{d}\)-তে limit CDF \(F\)-এর দিকে গড়ায়	3.2
empirical distribution	প্রতিটি observed মানে 1/n ভর বসানো distribution (ECDF-এর ভিত্তি)	1.3
empirical distribution \(\hat F_n\)	মূল নমুনার বণ্টন যেখানে প্রতিটা পর্যবেক্ষণে সমান ভর \(1/n\); bootstrap এটিকেই "population" হিসেবে ব্যবহার করে (plug-in principle)	4.9
empirical risk	training data-তে গড় loss \(\frac1n\sum\ell\); LLN দিয়ে true risk \(\mathbb E[\ell]\)-তে যায় (ML generalization-এর শুরু)	3.3
empirical risk (\(\hat R_n(h)\))	হাতে-থাকা \(n\) নমুনার উপর গড় loss \(\hat R_n(h)=\frac1n\sum_i\ell(h(x_i),y_i)\); \(R\) অজানা বলে এটিই বাস্তবে minimize করি; train error-ও এটাই	6.1
empirical risk minimization (ERM)	\(\hat h=\arg\min_{h\in\mathcal H}\hat R_n(h)\) — empirical risk সর্বনিম্ন করা \(h\) বাছার নীতি; \(\mathcal H\) বড় করলে \(\hat R_n(\hat h)\) একঘেয়ে নামে (কখনো বাড়ে না), তাই একা train error model বাছতে পারে না	6.1
empirical rule (68-95-99.7)	Normal-এ \(\mu\pm1\sigma,\pm2\sigma,\pm3\sigma\)-এ ≈৬৮/৯৫/৯৯.৭% area	2.4
empty set	কোনো সদস্যবিহীন set, \(\varnothing\); প্রতিটি set-এর subset	0.1
ensemble	অনেকগুলো base-learner (এখানে tree) একত্রে মিলিয়ে একটি শক্তিশালী predictor — সমান্তরালে গড় (bagging, random forest, variance↓) বা ক্রমিকভাবে যোগ (boosting, bias↓); একক learner-এর দুর্বলতা সমষ্টিতে কাটানো	6.5
entropy	তথ্য-তত্ত্বের অশুদ্ধতা-মাপ \(H_m=-\sum_c\hat p_{mc}\log_2\hat p_{mc}\) (bit-এ); pure node-এ \(0\), binary \(50\)–\(50\)-তে সর্বোচ্চ \(1\); Gini-র বিকল্প criterion, প্রায় একই split বাছে। canonical \(6\)A–\(4\)B node: \(H=0.971\)	6.5
epsilon band	limit-এর চারপাশে \([X-\varepsilon,\,X+\varepsilon]\) ফালি; বাইরে-থাকা ভগ্নাংশ \(\xrightarrow{P}\)-এর দৃশ্যরূপ	3.2
equal-tailed credible interval	credible interval যার দুই প্রান্ত posterior-এর \(\frac{\alpha}{2}\) ও \(1-\frac{\alpha}{2}\) quantile (Figure 3-বাঁ; §৭ Q6)	4.10
equally likely	সব outcome সমসম্ভাব্য, প্রত্যেকের probability \(1/\lvert\Omega\rvert\)	2.1
equidispersion	Poisson-এর মৌলিক ধর্ম \(\operatorname{Var}(y\mid x)=\mathbb E[y\mid x]=\mu\) — একটিমাত্র parameter \(\mu\) একসাথে center ও spread ঠিক করে; §৭-এ \(\mathbb E[Y]=\operatorname{Var}(Y)=\mu\) প্রমাণিত	5.5
equidispersion test	dispersion \(\hat\phi\) বা NB-র \(\alpha\)-র LR test দিয়ে Poisson-অনুমান (\(\operatorname{Var}=\mu\)) যাচাই; \(\hat\phi\gg1\) বা \(\alpha>0\) significant হলে Poisson বাতিল, quasi-Poisson/NB দরকার	5.5
equilibrium / steady state	stationary distribution-এর বিকল্প নাম; long-run-এ chain যে distribution-এ থিতু হয়	3.6
equivalence relation / class	reflexive, symmetric, transitive সম্পর্ক (\(x\sim y\iff x-y\in\mathbb Q\)) যা set-কে disjoint class-এ ভাগ করে; Vitali-নির্মাণের ভিত্তি — প্রতি class থেকে এক প্রতিনিধি	7.1
ergodic chain	irreducible + aperiodic (+ positive recurrent) chain; এতে \(\mu_n\to\pi\) এবং সময়-গড় \(=\) \(\pi\)-সাপেক্ষে space-গড় (ergodic theorem — MCMC-তে নমুনা-গড় কাজ করার কারণ)	3.6
ERM hypothesis (\(\hat h\))	ERM-এর ফলাফল — empirical risk minimize করা নির্দিষ্ট মডেল; এর generalization gap \(R(\hat h)-\hat R_n(\hat h)\) নিয়ন্ত্রণই learning theory-র লক্ষ্য	6.1
error outlier	data-entry ভুল বা অসম্ভব মান (যেমন ঋণাত্মক দাম) — সংশোধন/বাদ দেওয়া উচিত	1.5
estimand	যে অজানা কিন্তু স্থির population-রাশি অনুমান করতে চাই — \(\theta\) (যেমন \(\mu\), \(\sigma^2\), \(p\)); random নয়	4.1
estimate	কোনো নির্দিষ্ট sample-এ estimator-এর প্রকৃত মান (একটি সংখ্যা)	1.1
estimator	অজানা parameter আন্দাজ করতে ব্যবহৃত statistic (যেমন \(\hat{\mu} = \bar{x}\))	1.1
event	sample space-এর একটি subset	0.1
evidence (marginal)	data-র মোট সম্ভাবনা \(P(A)\); normalizing constant	2.2
evidence lower bound (ELBO)	\(\mathcal L(q,\theta)=\mathbb E_q[\log p(x,z\mid\theta)]-\mathbb E_q[\log q(z)]\) — log-evidence \(\log p(x\mid\theta)\)-এর নিচের একটি bound, কারণ \(\log p(x)=\mathcal L+\mathrm{KL}\) এবং \(\mathrm{KL}\ge0\) (Jensen)। E-step একে tight করে, M-step একে বাড়ায় — EM-এর monotonicity-র ভিত্তি	6.7
excess kurtosis	kurtosis − 3; normal-এ 0, ভারী লেজে ধনাত্মক	1.3
exchangeability	\(H_0\)-র অধীনে যেকোনো permutation-এ যৌথ বণ্টন অপরিবর্তিত; permutation test-এর একমাত্র (ও যথেষ্ট) শর্ত (§৭ Q11)	4.9
existential quantifier	\(\exists\): "there exists / এমন কিছু আছে"	0.1
expectation	random variable-এর গড় মান, density-তে \(\int x\,f(x)\,dx\)	0.4
expectation (as integral)	\(\mathbb E[X]=\int_\Omega X\,d\mathbb P\); probability-র গড় আসলে probability measure-এর সাপেক্ষে integral	7.4
expectation step (E-step)	EM-এর প্রথম ধাপ — parameter \(\theta\) স্থির রেখে প্রতিটি বিন্দুর responsibility \(\gamma_{ik}=\frac{\pi_k\mathcal N(x_i;\mu_k,\Sigma_k)}{\sum_l\pi_l\mathcal N(x_i;\mu_l,\Sigma_l)}\) গণনা (= latent-এর posterior); ELBO-এর lower bound-কে current likelihood-এ tight করে (\(\mathrm{KL}=0\))	6.7
expected count \(E_i\)	\(H_0\) সত্য হলে প্রত্যাশিত গণনা \(E_i=np_i^{(0)}\) (GOF) বা \(\frac{\text{row}_i\,\text{col}_j}{n}\) (independence) (Figure 3)	4.8
expected value	expectation-এর প্রতিশব্দ; \(\mathbb{E}[X]\)	2.5
experimental design	ডেটা-সংগ্রহের পরিকল্পনা (randomization, replication, blocking, factorial structure) যাতে প্রশ্নের উত্তর সর্বনিম্ন bias ও noise-এ পাওয়া যায়	5.3
explained sum of squares (SSR)	মডেল-ব্যাখ্যাত variation \(\sum_i(\hat y_i-\bar y)^2\); \(\text{SST}=\text{SSR}+\text{SSE}\)	5.1
explained variance ratio	\(j\)-তম PC মোট variance-এর কত অংশ ধরে: \(\lambda_j/\sum_l\lambda_l\); চলমান উদাহরণে eigenvalue \([2.614,1.375,0.017,0.008]\) (যোগফল \(\approx4=\operatorname{tr}\Sigma\)) ⇒ ratio \([0.651,0.343,0.0042,0.0019]\) ⇒ PC1+PC2 \(=99.4\%\); কোন PC কতটা তথ্যবহ তা পরিমাপ করে	5.9
explained vs unexplained variance	ব্যাখ্যাকৃত (explained/between) \(=\operatorname{Var}(\mathbb E[X\mid\mathcal G])\); অব্যাখ্যাত (unexplained/within) \(=\mathbb E[\operatorname{Var}(X\mid\mathcal G)]\); ব্যাখ্যাকৃত ভগ্নাংশ \(\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)=\rho^2=R^2=0.36\)	7.7
exponential decay	bound \(n\)-এর সাথে \(e^{-cn}\) হারে নামে (Hoeffding); polynomial \(1/n\)-এর চেয়ে বহু দ্রুত	3.1
Exponential distribution	ধ্রুব rate \(\lambda\)-এ ঘটনার অপেক্ষার সময়; \(f=\lambda e^{-\lambda x}\)	2.4
exponential family	distribution-গোষ্ঠী (Bernoulli, Normal, Poisson, …) যাদের জন্য GLM/canonical-link তত্ত্ব প্রযোজ্য; logistic-এর Bernoulli এর সদস্য	5.4
exponential loss	\(L(y,F)=\exp(-yF(x))\), \(y\in\{-1,+1\}\); AdaBoost এই loss-এর forward stagewise additive minimization — এর উপর minimize করলেই \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\) ও reweighting-নিয়ম দুটোই বেরিয়ে আসে (প্রমাণ — সমাধান ১২)	6.6
extinction probability	শাখা-প্রক্রিয়া কখনো বিলুপ্ত হওয়ার সম্ভাবনা \(\mathbb P(\exists n: Z_n=0)\); subcritical/critical \(m\le1\)-এ \(=1\) (প্রায়-নিশ্চিত বিলুপ্তি, কারণ \(\mathbb E[Z_n]=m^n\to0\)), supercritical \(m>1\)-এ \(<1\)	7.9
extrapolation	data-র পরিসরের বাইরে মডেল প্রয়োগ করে ভবিষ্যদ্বাণী (ঝুঁকিপূর্ণ)	5.1
extreme value	একটি নমুনার চরম (min/max) মান; reliability ও বন্যা-জাতীয় বিশ্লেষণে গুরুত্বপূর্ণ	2.7
F-distribution	\(F_{d_1,d_2}=\frac{U/d_1}{V/d_2}\) (\(U\sim\chi^2_{d_1}\), \(V\sim\chi^2_{d_2}\) স্বাধীন); দুই variance-এর অনুপাত তুলনায় ব্যবহৃত, ডানে-skewed (E4)	4.1
F-test (ANOVA)	\(F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}=\dfrac{\mathrm{MSB}}{\mathrm{MSW}}\sim F_{k-1,\,n-k}\) under \(H_0\); signal-to-noise অনুপাত — \(H_0\)-তে \(\approx1\), গড় আলাদা হলে \(\gg1\)	5.3
F-test (overall)	\(H_0:\beta_1=\cdots=\beta_{p-1}=0\) (সব slope একসাথে শূন্য) বনাম অন্তত একটি \(\ne0\): \(F=\dfrac{\text{SSR}/(p-1)}{\text{SSE}/(n-p)}\sim F_{p-1,\,n-p}\) — মডেল আদৌ কিছু ব্যাখ্যা করে কিনা	5.2
factorial	\(1\) থেকে \(n\) পর্যন্ত সব পূর্ণসংখ্যার গুণফল \(n!\); \(0!=1\)	0.2
factorial design	একই পরীক্ষায় একাধিক factor-এর সব combination অন্তর্ভুক্ত করা (\(3\times2\) এখানে), যাতে main effect ও interaction দুটোই দক্ষভাবে মাপা যায়	5.3
factorial experiment design	এক বা একাধিক factor (যেমন sample size \(n\), polynomial degree \(d\)) পদ্ধতিগতভাবে বদলে প্রতিটির প্রভাব মাপার নকশা; নির্ভরযোগ্য উপসংহারের জন্য একবারে এক factor বদলানো (isolation), যেমন E3-তে degree-জুড়ে noise স্থির রেখে কেবল \(d\) বদলানো	8.2
factorization (Doob–Dynkin)	একটা RV \(Y\) \(\sigma(X)\)-measurable হয় iff \(Y=g(X)\) কোনো Borel \(g\)-র জন্য; অর্থাৎ "\(Y\) কেবল \(X\)-এর তথ্যে দাঁড়ালে" \(Y\) আসলে \(X\)-এরই একটা Borel-ফাংশন — conditioning (7.7)-এর মূল লেমা	7.3
factorization theorem (Fisher–Neyman)	\(T\) sufficient \(\iff\) \(f(x;\theta)=g(T(x),\theta)\,h(x)\); likelihood data-র উপর নির্ভর করে কেবল \(T\)-র মাধ্যমে (§৭ Q12)	4.5
fair game	"ন্যায্য খেলা" — martingale-এর স্বজ্ঞাগত রূপ (\(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\), গড়ে লাভ-ক্ষতি নেই); পক্ষে-ঝোঁকা = submartingale (favorable), বিপক্ষে = supermartingale (unfavorable)	7.8
false-positive paradox	বিরল রোগে নির্ভুল test-এও positive-দের অধিকাংশ সুস্থ	2.2
family-wise error rate (FWER)	একগুচ্ছ test মিলিয়ে অন্তত একটি false positive পাওয়ার সম্ভাবনা; \(m\) স্বাধীন test-এ \(1-(1-\alpha)^m\) (\(k=3\) জোড়ায় \(\approx0.14\), \(k=5\)-এ \(\approx0.40\))	5.3
Fatou's lemma	\(f_n\ge0\Rightarrow\int\liminf_n f_n\,d\mu\le\liminf_n\int f_n\,d\mu\); কেবল অসমতা ("ভর পালাতে পারে, ফিরে আসে না"), MCT থেকে উৎপাদিত	7.4
feature	একটি measured বৈশিষ্ট্য; DataFrame-এর একটি column (variable-এর সমার্থক)	1.1
feature importance	প্রতিটি feature-এর সব split-এ মোট impurity-হ্রাস (normalize করে যোগফল \(1\)) — সিদ্ধান্তে আপেক্ষিক অবদানের মাপ; high-cardinality feature-কে পক্ষপাত করে (তখন permutation importance ভালো)। canonical: idx4 \(0.164\), idx6 \(0.132\), idx15 \(0.087\)	6.5
feature importance / permutation importance	কোন feature সিদ্ধান্তে কত অবদান রাখে — impurity-based (RF-এর split-gain যোগফল) বনাম permutation (একটি feature এলোমেলো করে accuracy-পতন মাপা, model-agnostic ও কম পক্ষপাতী)। canonical permutation worst area \(0.0126\)	8.1
feature map	রূপান্তর \(\phi:x\mapsto\phi(x)\) যা মূল feature-কে উচ্চমাত্রিক space-এ পাঠায় যেখানে শ্রেণিগুলো linearly separable হতে পারে; kernel \(K(x,x')=\phi(x)^\top\phi(x')\) এর inner product দেয়, তাই \(\phi\) স্পষ্টভাবে গণনা না করেই kernel-এর মাধ্যমে কাজ চলে (RBF-এ \(\phi\) অসীম-মাত্রিক)	6.4
feature selection	প্রাসঙ্গিক feature-গুলো বেছে অপ্রাসঙ্গিকগুলো বাদ দেওয়া; lasso coefficient ঠিক \(0\) করে এটি স্বয়ংক্রিয়ভাবে করে (embedded selection); ridge পারে না (সব nonzero রাখে); canonical lasso \(20\to17\) feature	6.2
Figure	matplotlib-এ পুরো ছবির ধারক (একাধিক Axes রাখে)	0.6
filtration	বর্ধমান sub-σ-algebra-অনুক্রম \((\mathcal F_n)_{n\ge0}\), \(\mathcal F_0\subseteq\mathcal F_1\subseteq\cdots\subseteq\mathcal F\) — সময়ে জমে-ওঠা তথ্যের গাণিতিক রূপ ("তথ্য জমে, কখনো হারায় না"); \((\Omega,\mathcal F,(\mathcal F_n),\mathbb P)\) = filtered probability space	7.8
finite additivity	কেবল সসীম-সংখ্যক disjoint set-এর জন্য measure যোগ হওয়ার দুর্বলতর শর্ত; এতে \(\mathbb N\)-এ "uniform" বস্তু বানানো যায় কিন্তু limit-যুক্তিতে ভরসা করা যায় না	7.1
finite difference	ছোট \(h\) দিয়ে derivative-এর সংখ্যাগত আনুমান	0.3
finite variance	\(\operatorname{Var}(X)=\sigma^2<\infty\); Chebyshev-ভিত্তিক WLLN-প্রমাণের যথেষ্ট শর্ত	3.3
finite-dimensional distributions	process-এর যেকোনো সসীম সময়-সংগ্রহের joint distribution; এদের পুরো পরিবার দিয়েই process নির্ধারিত হয় (Gaussian হলে শুধু \(m,C\) যথেষ্ট)	3.5
first derivative test	\(f'\)-এর চিহ্ন দিয়ে max/min নির্ণয়	0.3
first passage time	\(\tau_c=\min\{n:X_n=c\}\) — একটা স্তর \(c\)-তে প্রথম পৌঁছানোর stopping time; নিরপেক্ষ walk-এ \(+1\)-উত্তরণে \(\tau<\infty\) a.s. কিন্তু \(\mathbb E[\tau]=\infty\) (OST-ভঙ্গের উৎস, \(\mathbb E[S_\tau]=1\ne0\))	7.8
Fisher information	\(I(\theta)=\mathbb{E}[U(\theta)^2]=-\mathbb{E}[\ell''(\theta)]\) — log-likelihood তার চূড়ায় কতটা তীক্ষ্ণ (curvature); data প্যারামিটার সম্পর্কে কত তথ্য বহন করে (Figure 1)	4.5
fitted value	মডেলের ভবিষ্যদ্বাণী \(\hat y_i=x_i^\top\hat\beta\)	5.1
five-number summary	min, Q1, median, Q3, max — boxplot-এর ভিত্তি	1.3
fixed effect	সব গোষ্ঠীতে অভিন্ন, population-জোড়া স্থির সহগ (\(\beta_0,\beta_1\)) — আমরা সরাসরি এই মানগুলোতেই আগ্রহী; উদাহরণে `hours`-এর প্রভাব \(\hat\beta_1=1.878\) সব স্কুলে এক বলে ধরা	5.6
flat (uniform) prior	ধ্রুবক prior \(\pi(\theta)=c\) — "কোনো পূর্ব-ঝোঁক নেই"; তখন MAP \(=\) MLE, posterior \(\propto\) likelihood (§৭ Q11; Figure 2-এ \(\text{Beta}(1,1)\))	4.10
forward stagewise additive modeling	additive model \(F_T=\sum_t\alpha_t h_t\) ক্রমিকভাবে গড়ার সাধারণ কাঠামো — প্রতি round-এ আগের পদ স্থির রেখে কেবল নতুন \((\alpha_t,h_t)\) loss-minimize করে যোগ (আগেরগুলো পুনরায় adjust না করে); AdaBoost = exponential loss-এ এর প্রয়োগ	6.6
Fourier transform of a law	\(\varphi_X\)-কে বণ্টন \(P_X\)-এর Fourier transform হিসেবে দেখা; এই বিপরীত-যোগ্য (invertible) রূপান্তরই uniqueness ও inversion-এর ভিত্তি (\(\varphi\) পুরো বণ্টন এনকোড করে, তথ্য হারায় না)	7.10
Freedman–Diaconis rule	bin-প্রস্থের robust থাম্ব-রুল 2·IQR / n^(1/3)	1.3
frequency	একটি bin বা category-তে observation-এর সংখ্যা (count)	1.3
frequency table	মানের পরিসরকে bin-এ ভাগ করে প্রতি bin-এর count-এর সারণি	1.3
frequentist interpretation	probability \(=\) relative frequency \(n_A/n\)-এর সীমা (\(n\to\infty\))	2.1
frequentist probability	"probability = দীর্ঘকালীন আপেক্ষিক ফ্রিকোয়েন্সি"; LLN এই ব্যাখ্যার আনুষ্ঠানিক ভিত্তি	3.3
function	\(f:A\to B\): প্রতিটি input-এর ঠিক একটিমাত্র output	0.1
function of a random variable	random variable-এর ওপর প্রয়োগ করা function \(g(X)\), নিজেও random	2.7
functional gradient descent	gradient boosting-এর তাত্ত্বিক রূপ — সাধারণ gradient descent parameter-space-এ পা ফেলে, এটা function-space-এ: \(F_t=F_{t-1}+\nu h_t\approx F_{t-1}-\nu g\), যেখানে negative gradient \(-g\) প্রতি round-এ একটা গাছ দিয়ে আনুমানিত; পুরো function \(F\)-ই variable	6.6
Fundamental Theorem of Calculus	উপপাদ্য যা differentiation ও integration-কে পরস্পরের বিপরীত প্রমাণ করে	0.4
Galton–Watson branching process	শাখা-প্রক্রিয়া: প্রতিটি ব্যক্তি স্বাধীনভাবে একই বণ্টন থেকে সন্তান নেয় (গড় \(m\)); \(n\)-তম প্রজন্মের আকার \(Z_n\), \(\mathbb E[Z_{n+1}\mid\mathcal F_n]=mZ_n\), \(\mathbb E[Z_n]=m^n\)	7.9
gambler's fallacy	"পরপর tail-এর পর head আসবেই"-জাতীয় ভুল ধারণা; LLN পুরোনো বিচ্যুতি শোধরায় না, শুধু dilute করে	3.3
gambler's ruin	নিরপেক্ষ random walk দুই বাধা \(-a,+b\)-এ থামা; OST-এ \(\mathbb P(\text{hit }+b)=\frac{a}{a+b}\), আর \(S_n^2-n\) martingale-এ \(\mathbb E[\tau]=ab\) — বাধা \(-8,+4\)-এ \(\mathbb P(+b)=\frac23\approx0.6667\), \(\mathbb E[\tau]=32\)	7.8
gamma	RBF kernel-এর প্রস্থ-পরামিতি \(\gamma\) — প্রতিটি বিন্দুর প্রভাব-ব্যাসার্ধ নিয়ন্ত্রণ; ছোট \(\gamma\) = প্রশস্ত kernel = প্রায়-linear/মসৃণ boundary, বড় \(\gamma\) = সংকীর্ণ kernel = স্থানীয়/wiggly; \(C\)-এর সঙ্গে একত্রে tune করতে হয়। canonical \(\gamma\)-sweep (\(C\) স্থির): \(0.1\to0.800\), \(5\to0.956\), \(20\to0.956/132\)	6.4
Gamma distribution	shape \(k\) ও scale \(\theta\); \(k\)টি স্বাধীন Exponential-এর যোগফল	2.4
gamma function	factorial-এর continuous সম্প্রসারণ \(\Gamma(k)=\int_0^\infty t^{k-1}e^{-t}dt\); \(\Gamma(n)=(n-1)!\)	2.4
Gamma-Poisson mixture	negative binomial-এর উৎপত্তি: Poisson rate নিজেই Gamma-distributed (random heterogeneity) হলে marginal distribution NB হয় — তাই NB স্বাভাবিকভাবে overdispersion ধরে; উদাহরণের data ঠিক এই process	5.5
Gaussian	Normal distribution-এর বিকল্প নাম	2.4
Gaussian mixture model (GMM)	যে mixture-এ প্রতিটি component একটা Gaussian — \(p(x)=\sum_{k=1}^K\pi_k\,\mathcal N(x;\mu_k,\Sigma_k)\); দুই-ধাপ generative: \(z_i\sim\text{Categorical}(\pi)\), তারপর \(x_i\sim\mathcal N(\mu_{z_i},\Sigma_{z_i})\)। canonical (3-component 2D): BIC \(4828.8\), per-sample LL \(-3.933\), ARI \(0.97\)	6.7
Gaussian Naive Bayes (GaussianNB)	Naive Bayes-এর সেই রূপ যেখানে প্রতিটি শ্রেণি-শর্তাধীন প্রান্তিক \(P(x_j\mid y)\) একটি univariate Gaussian; কার্যত শ্রেণি-প্রতি diagonal covariance-যুক্ত QDA (off-diagonal correlation \(=0\) ধরা), boundary axis-aligned quadratic; canonical \(0.904\)	6.3
Gaussian process	যে process-এর যেকোনো সসীম সংগ্রহ \((X_{t_1},\dots,X_{t_k})\) multivariate Normal; সম্পূর্ণরূপে \(m(t)\) ও \(C(s,t)\) দিয়ে নির্ধারিত (E3)	3.5
Gauss–Markov theorem	linearity + zero-mean + homoscedastic + uncorrelated error হলে OLS হলো BLUE	5.1
generalization	training-এ দেখা না-যাওয়া নতুন data-তে মডেলের ভালো পারফরম্যান্স; পুরো learning theory-র কেন্দ্রীয় লক্ষ্য — train-performance নয়, test-performance	6.1
generalization bound	\(R(h)\le\hat R_n(h)+(\text{capacity-পদ})\) আকারের গ্যারান্টি যা true risk-কে empirical risk + complexity-জরিমানা দিয়ে আবদ্ধ করে; পদটি মোটামুটি \(\sqrt{(\text{capacity})/n}\), তাই data বাড়ালে gap কমে	6.1
generalization gap	true risk ও empirical risk-এর পার্থক্য \(R(\hat h)-\hat R_n(\hat h)\); ছোট হলে ERM নিরাপদ, বড় হলে overfit; capacity-bound (finite-\(\mathcal H\)/VC) এই gap-কেই upper-bound করে	6.1
generalized cross-validation (GCV)	LOOCV-shortcut-এ প্রতিটা leverage \(S_{ii}\)-কে গড় \(\operatorname{tr}(S)/n\) দিয়ে বদলানো রূপ: \(\text{GCV}=\frac{\frac1n\sum_i(y_i-\hat y_i)^2}{(1-\operatorname{tr}(S)/n)^2}\); leverage-অসমতার প্রতি কম সংবেদনশীল, rotation-invariant; smoothing-spline \(\lambda\) tuning-এ বহুল-ব্যবহৃত (৫.৭-এর \(\operatorname{tr}(S)\) ঢোকে)	5.8
generalized likelihood ratio test	composite \(H_0\) (\(\Theta_0\) একাধিক মান) ক্ষেত্রে LRT; sup নেওয়া হয় \(\Theta_0\) ও \(\Theta\) উভয়ে; \(\xrightarrow{d}\chi^2_k\)	4.8
generalized linear model (GLM)	linear-predictor কাঠামোর (\(\eta=x^\top\beta\)) সাধারণীকরণ — random component (distribution), systematic component (\(\eta\)), ও link function দিয়ে বিভিন্ন outcome-এ বিস্তৃত; OLS = Normal + identity link	5.4
generated \(\sigma\)-algebra \(\sigma(\mathcal G)\)	সংগ্রহ \(\mathcal G\)-কে ধারণকারী smallest \(\sigma\)-algebra, সংজ্ঞায়িত \(\sigma(\mathcal G)=\bigcap\{\mathcal H:\mathcal H\ \sigma\text{-algebra},\ \mathcal G\subseteq\mathcal H\}\) — সব এমন \(\sigma\)-algebra-র intersection (যা আবার \(\sigma\)-algebra)	7.2
generative model	শ্রেণি-শর্তাধীন density \(f_c(x)\) ও prior \(\pi_c\) model করে Bayes-নিয়মে posterior পায় (কার্যত \(P(x,y)\)-র যৌথ গঠন শেখে); LDA, QDA, Naive Bayes সবই generative; canonical QDA \(0.919\), NB \(0.904\), LDA \(0.881\)	6.3
generative vs discriminative	দুই দর্শন: generative \(P(x\mid y),\pi_c\) model করে Bayes-নিয়মে \(P(y\mid x)\) পায় (LDA/QDA/NB); discriminative সরাসরি \(P(y\mid x)\)/boundary শেখে (logistic, SVM); generative-এ বেশি ধারণা (ভুল হলে bias) কিন্তু কম data-তে কাজ চলে	6.3
generator of a σ-algebra	একটা সংগ্রহ \(\mathcal G\) যার থেকে \(\sigma(\mathcal G)\) গড়ে; এখানে Borel-এর সুবিধাজনক generator \(\{(-\infty,x]:x\in\mathbb R\}\) — যাতে measurability শুধু \(\{X\le x\}\)-এ পরীক্ষাযোগ্য (7.2-এর \(\mathcal B=\sigma((-\infty,x])\) ব্যবহার করে)	7.3
geodesic distance	manifold-বরাবর (গায়ে হেঁটে) দুই বিন্দুর সংক্ষিপ্ততম দূরত্ব \(d_G\) — সোজা Euclidean দূরত্বের বিপরীত; swiss roll-এ প্রতিবেশী দুই পাক Euclidean-এ কাছে কিন্তু geodesic-এ বহু দূর; Isomap kNN-graph-এ shortest path দিয়ে এটি আনুমান করে	6.8
Geometric distribution	প্রথম success পেতে trial-সংখ্যা; \((1-p)^{k-1}p\), mean \(1/p\)	2.3
Gini impurity	node-এর অশুদ্ধতার মাপ \(G_m=\sum_c\hat p_{mc}(1-\hat p_{mc})\); pure node-এ \(0\), binary \(50\)–\(50\)-তে সর্বোচ্চ \(0.5\); CART-এর default splitting-criterion (log লাগে না বলে entropy-র চেয়ে সস্তা)। canonical \(6\)A–\(4\)B node: \(G=0.48\)	6.5
Glivenko–Cantelli theorem	n বাড়লে ECDF প্রকৃত CDF-এ সুষমভাবে ছোটে	1.3
GLM trilogy	একই কাঠামো (random component + linear predictor + link + MLE/IRLS) তিন outcome-এ: Normal+identity (৫.১ linear), Bernoulli+logit (৫.৪ logistic), Poisson+log (৫.৫); শুধু distribution ও link বদলায়	5.5
global balance	stationarity-র অপর নাম: প্রতিটি state \(j\)-তে মোট-ঢোকা \(=\) মোট-বেরোনো (\(\sum_i\pi_iP_{ij}=\pi_j\)); detailed balance এর চেয়ে কঠোরতর শর্ত	3.6
global minimum	সমগ্র domain-এ সর্বনিম্ন মান	0.3
good-sets principle	measurability-প্রমাণের কৌশল: \(\mathcal D=\{B:X^{-1}(B)\in\mathcal F\}\) ("সুসেট"-পরিবার) নিজেই একটা σ-algebra (preimage union/complement-সংরক্ষণ থেকে); তাই generator \(\mathcal D\)-তে থাকলেই \(\sigma(\text{generator})\subseteq\mathcal D\)	7.3
goodness-of-fit (GOF) test	categorical data কোনো নির্দিষ্ট বণ্টন \(p_i^{(0)}\) মানে কিনা তার Pearson \(\chi^2\) test; df \(=k-1-\#\text{আঁচ-করা প্যারামিটার}\) (§৭ Q8)	4.8
gradient	সব partial derivative-এর vector; দ্রুততম বৃদ্ধির দিক	0.3
gradient boosting	প্রতি round-এ loss-এর negative gradient (pseudo-residual) \(r_i\)-এ একটা regression tree \(h_t\) fit করে \(F_t=F_{t-1}+\nu h_t\) আপডেট; squared loss-এ \(r_i=y_i-F_{t-1}(x_i)\) (সাধারণ residual), তাই "fit the residual" = "fit the negative gradient"। canonical (\(n{=}200\)): train \(1.000\)/test \(0.850\)	6.6
gradient descent	\(-\nabla f\) দিকে ধাপে ধাপে নেমে minimum খোঁজা	0.3
grand mean	সব observation মিলিয়ে সামগ্রিক গড় \(\bar y\); balanced design-এ group-গড়ের সরল গড়; \(\mathrm{SSB},\mathrm{SST}\)-এর reference বিন্দু	5.3
graph Laplacian \(L=D-W\)	similarity-graph থেকে গড়া matrix (\(W\) symmetric similarity, \(D\) diagonal degree \(D_{ii}=\sum_j w_{ij}\)); quadratic form \(f^\top L f=\tfrac12\sum_{ij}w_{ij}(f_i-f_j)^2\ge0\) label-অমসৃণতা মাপে, label propagation এটি minimize করে; ৬.৮-এর Laplacian-eigenmap-এর সঙ্গে একই ভাষা	6.9
group comparison	categorical শ্রেণি অনুযায়ী numeric variable-এর distribution তুলনা	1.5
group mean	একটি group-এর observation-গুলোর গড় \(\bar y_g\); group-গড়ের পারস্পরিক পার্থক্যই ANOVA-র signal	5.3
groupby	কলামের মান অনুযায়ী সারি দলে ভাগ করে দলভিত্তিক সারাংশ (split→apply→combine)	0.6
grouping effect	elastic net (ও ridge)-এর প্রবণতা: highly correlated feature-দের coefficient পরস্পরের কাছাকাছি রাখা, তাই গোষ্ঠীকে একসাথে রাখা/shrink করা; pure lasso যেখানে গোষ্ঠী থেকে একটিকে এলোমেলোভাবে বাছে, সেখানে এটি স্থিতিশীলতা আনে	6.2
growth function (\(\Pi_{\mathcal H}(n)\))	\(n\)টি বিন্দুর উপর \(\mathcal H\) সর্বোচ্চ কতগুলো ভিন্ন labeling তৈরি করতে পারে (≤ \(2^n\)); \(n\le d_{\mathrm{VC}}\)-এ ঠিক \(2^n\), তারপর polynomial হয়ে যায় — capacity-র সূক্ষ্ম মাপ	6.1
Hamiltonian Monte Carlo (HMC)	physics-অনুপ্রাণিত একটা চতুর MCMC যা target-এর gradient ব্যবহার করে উচ্চ-মাত্রায় দ্রুত mixing করে (random-walk এড়িয়ে); আধুনিক probabilistic-programming (Stan)-এর ইঞ্জিন	8.4
hard assignment	প্রতিটি বিন্দুকে ঠিক একটা cluster-এ (\(0/1\), সর্বোচ্চ-\(\gamma\)/নিকটতম centroid) দেওয়া — k-means-এর ধরন; soft assignment-এর অনিশ্চয়তা মুছে দেয় (সীমানা-সংলগ্ন বিন্দুতে বিভ্রান্তিকর)। GMM-এ \(\sigma\to0\) সীমায় responsibility hard হয়	6.7
hard margin	যে SVM কোনো margin-লঙ্ঘন সহ্য করে না (সব \(y_i(w^\top x_i+b)\ge1\)); কেবল linearly separable data-তে সম্ভব; primal \(\min\tfrac12\lVert w\rVert^2\) s.t. margin-শর্ত	6.4
harmonic vs Basel series	\(\sum 1/n=\infty\) (harmonic, \(\sim\ln N\) — BC-II দেয় i.o.\(=1\)) বনাম \(\sum 1/n^2=\pi^2/6\approx1.6449<\infty\) (Basel — BC-I দেয় i.o.\(=0\)); দুই প্রতিবেশী, বিপরীত ভাগ্য	7.6
hat matrix	\(\hat y=Hy\)-এ projection matrix \(H=X(X^\top X)^{-1}X^\top\), \(y\)-কে column space-এ প্রক্ষেপ করে	5.1
heatmap	matrix-এর মানকে রঙের মাধ্যমে দেখানো চিত্র	1.4
heavy tail	এমন distribution যার tail ধীরে কমে (যেমন Cauchy), mean অসংজ্ঞায়িত হতে পারে	2.7
Hermitian symmetry	\(\overline{\varphi_X(t)}=\varphi_X(-t)\) (কারণ \(\overline{e^{itX}}=e^{-itX}\)); ফলে \(X\) প্রতিসম (\(X\overset{d}{=}-X\)) হলে \(\varphi_X\) বাস্তব-মানের, \(\operatorname{Re}\varphi\) even ও \(\operatorname{Im}\varphi\) odd	7.10
heteroscedasticity	error-variance \(x\)-ভেদে পরিবর্তনশীল; SE/CI ভুল করে দেয়	5.1
hexbin plot	সমতলকে hexagon ঘরে ভেঙে প্রতিটিতে বিন্দু-সংখ্যা রঙে দেখানো; বড় data-র জন্য	1.4
hierarchical / multilevel model	mixed-effects model-এর সমার্থক নাম, যখন data-র স্তর-কাঠামোয় (শিক্ষার্থী ⊂ স্কুল, রোগী ⊂ হাসপাতাল) নিচের স্তরের observation উপরের স্তরের গোষ্ঠীতে বাসা-বাঁধা; প্রতিটা স্তরে আলাদা variance component	5.6
hierarchical clustering	বিন্দু-দলগুলোর nested শ্রেণিবিন্যাস গড়ার কৌশল; agglomerative রূপ প্রতিটি বিন্দুকে আলাদা cluster ধরে শুরু করে বারবার নিকটতম দুই cluster merge করে; সুবিধা: \(K\) আগে দিতে হয় না (পরে গাছ কেটে যেকোনো \(K\)), nested গঠন দেখায়, deterministic; k-means-এর পরিপূরক	5.9
hierarchy of convergence	mode-গুলোর এক-মুখী imply-চেইন: \(a.s.\Rightarrow P\), \(L^p\Rightarrow P\), \(P\Rightarrow d\)	3.2
high-dimensional statistics	\(p\gtrsim n\) বা \(p\gg n\) শাসনে (parameter-সংখ্যা \(\ge\) নমুনা) estimation ও inference-এর তত্ত্ব; মূল ধারণা sparsity, lasso-তত্ত্ব, minimax rate; genomics/imaging/text-এর ভিত্তি (← Part V,VI 6.2, III inequality)	8.4
higher-order derivative	derivative-এর derivative (২য়, ৩য়…)	0.3
Hilbert space	inner product-যুক্ত complete space; অসীম-মাত্রিক ইউক্লিডীয় জ্যামিতি, \(L^2\) তার প্রধান উদাহরণ (projection theorem সহ)	7.5
hinge loss	margin-লঙ্ঘনের উত্তল শাস্তি \(\max(0,\,1-y_i f(x_i))\); \(y_i f(x_i)\ge1\) হলে শূন্য, নইলে রৈখিকভাবে বাড়ে; 0–1 loss-এর convex surrogate (উপরের সীমা), যা margin-কে পুরস্কৃত করে ও দক্ষ optimization দেয়	6.4
histogram	data কোন পরিসরে কতবার পড়ল তা দেখানো bar-চিত্র	0.6
hitting time	একটা সেট \(B\)-তে প্রথম প্রবেশের সময় \(\tau_B=\min\{n:X_n\in B\}\) — একটা stopping time (\(\{\tau_B\le n\}=\bigcup_{k\le n}\{X_k\in B\}\in\mathcal F_n\)); gambler's-ruin-এর "\(-a\) বা \(+b\)-এ পৌঁছানো" এর বিশেষ রূপ	7.8
Hoeffding bound (finite-\(\mathcal H\))	finite hypothesis class-এ uniform bound \(R(h)\le\hat R_n(h)+\sqrt{\frac{\ln\lvert\mathcal H\rvert+\ln(2/\delta)}{2n}}\), Hoeffding (3.1) + union bound থেকে; চলমান উদাহরণে (\(\delta{=}0.05\)) \(\lvert\mathcal H\rvert{=}1000,n{=}100\to0.230\); \(n{=}1000\to0.073\); \(\lvert\mathcal H\rvert{=}10^6,n{=}1000\to0.094\)	6.1
Hoeffding inequality	independent bounded \(X_i\in[a_i,b_i]\): \(P(\lvert\bar X_n-\mathbb{E}\bar X_n\rvert\ge t)\le 2\exp(-2n^2t^2/\sum(b_i-a_i)^2)\)	3.1
Hoeffding's lemma	\(X\in[a,b],\mathbb{E}[X]=0\Rightarrow \mathbb{E}[e^{sX}]\le e^{s^2(b-a)^2/8}\); Hoeffding-প্রমাণের মূল ধাপ	3.1
holdout (held-out set)	data-র যে অংশ fit-এ ব্যবহার না করে আলাদা রেখে দেওয়া হয় শুধু error মাপতে; সরলতম validation-কৌশল (single holdout); CV হলো বহু-বার holdout ঘুরিয়ে গড় করা — single-split-এর ভাগ্য-নির্ভরতা কমায়	5.8
holdout test MSE	একটা স্বাধীন test-set-এ (একই process থেকে নতুন data) চূড়ান্ত মডেলের গড়-বর্গ-ভুল — generalization-এর সবচেয়ে সরাসরি, নিরপেক্ষ মাপ; চলমান উদাহরণে deg-\(3\) মডেলের \(9.71\approx\sigma^2=9\), যা CV (\(10.15\))-কে সৎ অনুমান হিসেবে যাচাই করে	5.8
homogeneity of variance	সব group-এ error-variance সমান (\(\sigma^2\) স্থির) — ANOVA-র মূল অনুমান (LINE-এর 'E'); ভাঙলে \(F\)-এর \(p\)-value বিকৃত (প্রতিকার: Welch ANOVA, transform)	5.3
homoscedastic conditional variance	\(\operatorname{Var}(X\mid Y{=}y)\) সব \(y\)-তে একই (সমভেদ) — normal-এ noise-পদ \(\sqrt{1-\rho^2}Z\) পুরোপুরি \(Y\)-স্বাধীন বলে; \(0.64\) ধ্রুব, \(y\)-নির্ভর নয়	7.7
homoscedasticity	সব \(x\)-এ error-variance সমান (LINE-এর 'E'); বিপরীত = heteroscedasticity	5.1
Hypergeometric distribution	without-replacement sampling-এ success-সংখ্যা; \(\binom{K}{k}\binom{N-K}{n-k}/\binom{N}{n}\)	2.3
hypothesis class (\(\mathcal H\))	যে candidate ফাংশনগুলোর মধ্য থেকে learner একটি \(h\) বাছে তাদের সমষ্টি (যেমন সব degree-\(d\) polynomial, সব 2D-রেখা); \(\mathcal H\) বড় করা = capacity বাড়ানো; \(\mathcal H\) বাছা নিজেই একটি inductive bias	6.1
Hölder's inequality	\(\int\lvert fg\rvert\,d\mu\le\lVert f\rVert_p\lVert g\rVert_q\) (\(\tfrac1p+\tfrac1q=1\)); গুণফলকে দুই আলাদা norm-এ আবদ্ধ করে, Young থেকে উৎপাদিত	7.5
i.i.d.	independent and identically distributed — স্বাধীন ও অভিন্নভাবে বণ্টিত নমুনা	2.7
i.i.d. (independent and identically distributed)	একই distribution থেকে স্বাধীনভাবে আসা চলক \(X_1,\dots,X_n\); LLN/CLT-র মানক অনুমান	3.3
identically distributed	দুই RV \(X,Y\) "একই বণ্টনের" (\(X\stackrel{d}{=}Y\)) যদি \(P_X=P_Y\), সমতুল্যভাবে \(F_X=F_Y\); এতে একই \(\Omega\)-তে থাকা বা সমান হওয়া লাগে না — কেবল pushforward law মিলতে হয়	7.3
identity matrix	কর্ণে ১, বাকি ০; গুণের নিরপেক্ষ উপাদান \(I\)	0.5
iid (independent and identically distributed)	অনুক্রম \(X_1,X_2,\dots\) পরস্পর-স্বাধীন এবং সবার একই বণ্টন \(P_X\); SLLN ও CLT-র মূল কাঠামো	7.6
implication	\(P \Rightarrow Q\): "\(P\) হলে \(Q\)"; শুধু \(P\) সত্য–\(Q\) মিথ্যা হলে মিথ্যা	0.1
impossible event	empty set \(\varnothing\); probability \(0\)	2.1
improper integral	অসীম সীমার (বা অসীম মানের) integral, limit দিয়ে সংজ্ঞায়িত	0.4
imputation	missing ঘরে যুক্তিসঙ্গত মান (যেমন group-median) বসিয়ে পূরণ করা	1.5
inadmissibility of the MLE	Stein (1956)-এর মূল ফল: multivariate normal-এর মানে-estimate-এ usual MLE \(\hat\theta=X\) quadratic loss-এ inadmissible যখন \(p\ge3\) — পরিসংখ্যানের সবচেয়ে স্বাভাবিক estimator-টাও উচ্চ মাত্রায় সেরা নয়	8.3
inclusion–exclusion	বহু event-এর union-এর probability পর্যায়ক্রমে যোগ-বিয়োগ করে	2.1
increment	process-এর দুই সময়ের পার্থক্য \(X_t-X_s\); random walk ও Poisson/Brownian-এ এরা স্বাধীন (independent increments)	3.5
indefinite integral	সীমাহীন integral \(\int f\,dx = F+C\); ফল একটি function (antiderivative)	0.4
independence	\(P(A\cap B)=P(A)P(B)\); একটা অন্যটার সম্ভাবনা বদলায় না	2.2
independence & conditional expectation	\(X\perp\!\!\!\perp\mathcal G\Rightarrow\mathbb E[X\mid\mathcal G]=\mathbb E[X]\) a.s. — "যে তথ্য কিছু বলে না, শর্ত ধরা অর্থহীন"; প্রমাণে \(\mathbb E[X\mathbf 1_G]=\mathbb E[X]\mathbb P(G)\) (2.2-এর স্বাধীনতা)	7.7
independence (of events)	ঘটনা \(A,B\) স্বাধীন যদি \(\mathbb P(A\cap B)=\mathbb P(A)\,\mathbb P(B)\) — একটির ঘটা অন্যটির সম্ভাবনা বদলায় না; পরিসংখ্যানের সব iid-ভিত্তির নীরব অনুমান	7.6
independence (of random variables)	\(f_{X,Y}=f_X f_Y\); একটির মান জানলে অন্যটির distribution বদলায় না	2.6
independence of mean and variance	Normal population-এর বিশেষ ধর্ম: \(\bar X_n\perp S^2\); এই স্বাধীনতাই \(t_{n-1}\)-এর নির্মাণ সম্ভব করে	4.1
independence-product rule	\(X\perp Y\Rightarrow\varphi_{X+Y}(t)=\varphi_X(t)\,\varphi_Y(t)\) (7.6-এর factorization \(\mathbb E[e^{itX}e^{itY}]=\mathbb E[e^{itX}]\mathbb E[e^{itY}]\)); iid-তে \(\varphi_{S_n}=\varphi_{X_1}^{\,n}\) — convolution-কে গুণফলে রৈখিক করে, CLT-এর বীজ	7.10
independent increments	অ-overlapping সময়-ব্যবধানের increment-গুলো পরস্পর স্বাধীন; Poisson process ও Brownian motion-এর সংজ্ঞায়ক ধর্ম	3.5
independent random variables	\(X_1,\dots,X_n\) স্বাধীন যদি \(\sigma(X_i)\)-গুলো স্বাধীন \(\iff\) সব Borel \(B_i\)-তে \(\mathbb P(\bigcap_i\{X_i\in B_i\})=\prod_i\mathbb P(X_i\in B_i)\); স্বাধীন চলকের measurable ফাংশনও স্বাধীন	7.6
independent σ-algebras	sub-σ-algebra \(\mathcal F_1,\dots,\mathcal F_n\) স্বাধীন যদি যেকোনো \(A_i\in\mathcal F_i\) নির্বাচনে \(\mathbb P(\bigcap_i A_i)=\prod_i\mathbb P(A_i)\); স্বাধীনতার পূর্ণ-সাধারণ রূপ (তথ্যের অসংলগ্নতা)	7.6
index set	যে set থেকে \(t\) আসে; discrete-time হলে \(\{0,1,2,\dots\}\), continuous-time হলে \([0,\infty)\) — process discrete না continuous তা এটাই ঠিক করে	3.5
indicator function	\(\mathbf 1_A(x)\): \(x\in A\) হলে \(1\), নয়তো \(0\); set ও function-এর সেতু, এর Lebesgue integral \(\int\mathbf 1_A\,d\lambda=\lambda(A)\)	7.1
inductive bias	learner-এর পূর্ব-অনুমান যা অদেখা বিন্দুতে extrapolation সম্ভব করে (যেমন সরলতা/মসৃণতার prior, hypothesis class \(\mathcal H\) বাছা); no-free-lunch অনুযায়ী এটি ছাড়া শেখা অসম্ভব; ভালো শেখা = মানানসই bias বাছা	6.1
inductive hypothesis	induction-এ \(P(k)\) সত্য ধরে নেওয়ার ধাপ	0.1
inequality \(1-x\le e^{-x}\)	যেকোনো বাস্তব \(x\)-এ সত্য মৌলিক অসমতা; BC-II-তে গুণফল \(\prod(1-\mathbb P(A_n))\)-কে \(\exp(-\sum\mathbb P(A_n))\)-এ নামিয়ে অপসারী-যোগফলকে \(0\)-তে ফেলার চাবি	7.6
inertia / within-cluster SS	k-means-এর objective: \(W=\sum_{k}\sum_{i\in C_k}\lVert x_i-\mu_k\rVert^2\) — প্রতিটি বিন্দু তার cluster-centroid থেকে বর্গ-দূরত্বের যোগফল; ছোট \(W\) \(=\) আঁটসাঁট cluster; \(K\) বাড়ালে একঘেয়ে কমে (চরমে \(K=n\) হলে \(0\)), তাই সরাসরি minimize করে \(K\) বাছা যায় না — elbow লাগে; চলমান উদাহরণে \(k{=}3\to135.3\)	5.9
inference	sample থেকে population সম্পর্কে সিদ্ধান্ত/অনুমান টানার প্রক্রিয়া	1.1
inference problem	মূল ধাঁধা: হাতে শুধু একটা নমুনা, তা থেকে population-এর অজানা \(\theta\) অনুমান ও সেই অনুমানের অনিশ্চয়তা পরিমাপ	4.1
infinitely often	একটা ঘটনা \(n\) বাড়লেও বারবার (অসীমবার) ঘটে; typewriter-এ পথ থিতু না-হওয়ার কারণ	3.2
inflated type I error	ভুল null distribution ব্যবহারে প্রকৃত \(\alpha\) প্রতিশ্রুতের চেয়ে বড় হওয়া; যেমন ছোট \(n\) ও \(\sigma\) অজানা হলে z ব্যবহার (§৭ Q14)	4.7
inflection point	যেখানে curvature-এর চিহ্ন বদলায়	0.3
influence (of a point)	একটা পর্যবেক্ষণ estimate-কে কতটা টানে; jackknife-এ outlier বাদ দিলে \(\hat\theta_{(i)}\) সবচেয়ে লাফায় বলে চোখে দেখা যায় (Figure 3)	4.9
influential observation	যে বিন্দু বাদ দিলে fitted মডেল (\(\hat\beta\)) স্পষ্টভাবে বদলায়; high leverage ও বড় residual একত্রে — Cook's \(D\) দিয়ে ধরা হয়	5.2
information (σ-algebra as)	\(\sigma(X)\)-এর ব্যাখ্যা: "\(X\) পর্যবেক্ষণ করলে যেসব ঘটনার সত্য-মিথ্যা জানা যায়" তাদের পরিবার; \(X\equiv c\) দিলে \(\{\varnothing,\Omega\}\) (তথ্য শূন্য), injective \(X\) দিলে পুরো \(\mathcal F\) (সর্বোচ্চ তথ্য) — conditioning (7.7) ও filtration (7.8)-এর বীজ	7.3
information gain	একটা split-এর গুণমান \(\Delta=I_{\text{parent}}-\sum_{\text{child}}\frac{N_{\text{child}}}{N}I_{\text{child}}\) (impurity-হ্রাস, \(I\) = Gini বা entropy); tree সেই split বাছে যা \(\Delta\) সর্বোচ্চ করে। canonical (parent \(6\)A–\(4\)B): সেরা split-এ Gini-gain \(0.213\), IG \(0.42\)	6.5
informative prior	যথেষ্ট পূর্ব-জ্ঞান বহনকারী (non-flat) prior; posterior ও MAP-কে prior-mode-এর দিকে টানে (regularization-এর সমতুল্য)	4.10
initial distribution	\(\mu_0\) — chain শুরুর সময় states-এর উপর probability distribution (যেমন \([1,0]\) মানে নিশ্চিত Sunny থেকে শুরু); \(\mu_n=\mu_0 P^n\)	3.6
injective	one-to-one: ভিন্ন input → ভিন্ন output	0.1
inner product	\(\langle f,g\rangle=\int fg\,d\mu\); bilinear form যা \(\lVert f\rVert_2^2=\langle f,f\rangle\) দেয় এবং কোণ ও orthogonality সংজ্ঞায়িত করে	7.5
instance-based learning	কোনো global parameter "fit" না করে training-বিন্দু মনে রেখে নতুন \(x\)-এ স্থানীয় প্রতিবেশী দিয়ে সিদ্ধান্ত (memory-based, lazy, non-parametric); k-NN-ই প্রধান উদাহরণ; canonical \(0.896\) (\(k{=}5\)), \(0.911\) (\(k{=}15\))	6.3
instrumental variable (IV)	treatment ও outcome-এর মধ্যে লুকানো confounder থাকলেও causal effect বের করার কৌশল: একটা \"instrument\" চলক যা কেবল treatment-এর মাধ্যমে outcome-কে প্রভাবিত করে; econometrics-এর কেন্দ্রীয় হাতিয়ার	8.4
integrable function	যে measurable \(f\)-এ \(\int\lvert f\rvert\,d\mu<\infty\); তখন \(\int f=\int f^+-\int f^-\) সুসংজ্ঞায়িত	7.4
integral	বক্ররেখার নিচের signed area / সঞ্চয় (accumulation)	0.4
integral of nonnegative measurable function	\(\int f\,d\mu=\sup\{\int s\,d\mu:\,0\le s\le f,\ s\ \text{simple}\}\); \(f\)-এর নিচে-আঁটা সব simple-এর integral-এর supremum	7.4
integrand	যে function-এর integral নেওয়া হচ্ছে	0.4
integration by parts	product rule-এর উল্টো কৌশল: \(\int u\,dv = uv - \int v\,du\)	0.4
interaction effect	এক factor-এর প্রভাব অন্য factor-এর level-ভেদে বদলায় কিনা; শূন্য হলে প্রভাব additive, নয়তো synergy/antagonism — interaction plot বা cell-mean পার্থক্যে ধরা	5.3
interarrival time	পরপর দুই event-এর মধ্যকার সময় \(\tau_k\); Poisson process-এ iid \(\text{Exp}(\lambda)\), mean \(1/\lambda\) (memoryless)	3.5
intercept	\(x=0\)-এ রেখার মান, \(\beta_0\)	5.1
interchange of limit and integral	\(\lim_n\int f_n=\int\lim_n f_n\) কখন বৈধ — সেই কেন্দ্রীয় প্রশ্ন; MCT, Fatou (অসমতা), DCT উত্তর দেয়	7.4
intersection	\(A \cap B\): যা দুটোতেই আছে	0.1
intraclass correlation (ICC)	মোট variance-এর কত অংশ গোষ্ঠী-ভেদ থেকে: \(\rho=\dfrac{\sigma_u^2}{\sigma_u^2+\sigma_\varepsilon^2}\); সমার্থকভাবে একই গোষ্ঠীর দুই সদস্যের outcome-correlation; উদাহরণে \(37.64/(37.64+63.69)=0.371\) (\(\sim37\%\) স্কুল-ভেদ)	5.6
intrinsic vs ambient dimension	ambient dimension \(D\) = data যে space-এ প্রকাশিত (swiss roll-এ \(3\)); intrinsic dimension \(d\) = manifold-এর প্রকৃত স্বাধীনতা/মাত্রা (\(2\), চাদরের দৈর্ঘ্য+প্রস্থ)। dimensionality reduction-এর লক্ষ্য \(D\) থেকে \(d\)-তে নামা গঠন রেখে	6.8
invariance property (equivariance)	যেকোনো ফাংশন \(g\)-এর জন্য \(\widehat{g(\theta)}_{\text{MLE}}=g(\hat\theta_{\text{MLE}})\) — রূপান্তরিত প্যারামিটারের MLE পেতে শুধু MLE-টা \(g\)-তে বসানো (যেমন \(\hat\tau=1/\hat\lambda=\bar X\)); নতুন optimization লাগে না	4.3
inverse	\(AA^{-1}=I\) মানানসই matrix; matrix-এর "ভাগ"	0.5
inverse function	\(f^{-1}\): output থেকে ফিরে input; কেবল bijective-এর জন্য	0.1
inverse transform sampling	\(X=F_X^{-1}(U)\), \(U\sim\text{Uniform}(0,1)\) দিয়ে যেকোনো distribution থেকে নমুনা তৈরি	2.7
inverse-CDF method	Uniform(0,1)-কে \(F^{-1}\)-এ পাঠিয়ে যেকোনো distribution simulate করা	2.4
inversion formula	ঘনত্ব integrable হলে \(f_X(x)=\frac{1}{2\pi}\int_{-\infty}^\infty e^{-itx}\varphi_X(t)\,dt\) — \(\varphi\) থেকে density পুনরুদ্ধার; uniqueness-কে গঠনমূলক (constructive) করে	7.10
IQR	interquartile range = Q3 − Q1; মাঝের ৫০%-এর spread (robust)	1.2
IQR fence	outlier শনাক্তের robust নিয়ম: \([Q_1-1.5\,\mathrm{IQR},\ Q_3+1.5\,\mathrm{IQR}]\)	1.5
IRLS (iteratively reweighted least squares)	logistic-MLE-র Newton–Raphson সমাধান, প্রতিধাপে weight \(w_i=p_i(1-p_i)\)-সহ WLS-solve; closed form না-থাকায় ব্যবহৃত	5.4
irreducible	যে chain-এ যেকোনো state থেকে (কয়েক ধাপে) অন্য যেকোনো state-এ পৌঁছানো যায়; অনন্য stationary distribution থাকার শর্ত	3.6
irreducible error	model যত ভালোই হোক যে ভুল কখনো সরে না—noise-এর নিজস্ব ভেদ \(\sigma^2\); bias–variance ভাঙনের তৃতীয় পদ, total error-এর একটা মেঝে (E3-তে \(\sigma=0.7\), তাই \(\sigma^2=0.4900\))	8.2
irreducible error (\(\sigma^2\))	noise-variance \(\operatorname{Var}(\varepsilon)\); যেকোনো model যত ভালোই হোক test error-এর এই অংশ কমানো যায় না (best-case floor); চলমান উদাহরণে \(\sigma^2=9\), আর সঠিক-specified deg-\(3\) মডেলের test MSE \(9.71\approx\sigma^2\) এই floor-কে স্পর্শ করে	5.8
Isolation Forest	isolation-ভিত্তিক anomaly detector (৬.৫-এর tree/ensemble সম্প্রসারণ): random feature + random split দিয়ে গাছ বানিয়ে path length \(h(x)\) মাপে; anomaly বিরল/বিচ্ছিন্ন বলে কম split-এ আলাদা হয় (ছোট \(h\), score \(s\to1\)); canonical AUC \(1.000\), ৫% precision/recall \(1.00\)	6.9
Isomap	manifold learning পদ্ধতি = geodesic দূরত্বের উপর MDS: kNN neighbor graph বানিয়ে graph-shortest-path দিয়ে geodesic \(d_G\) আনুমান, তারপর সেই \(d_G\)-matrix-এ MDS; swiss roll-কে সঠিকভাবে "মেলে ধরে"। canonical \(T=1.000,\ \lvert\text{corr}\rvert=1.000\) (নিখুঁত); বিপদ — বড় \(k\)-তে শর্টকাট-edge geodesic ভাঙে	6.8
iterated integral	double integral-কে একবারে এক variable হিসেবে গণনা	0.4
jackknife	নির্ধারক (deterministic) resampling: একটা একটা করে বিন্দু বাদ দিয়ে \(n\)টা leave-one-out estimate; SE ও bias আঁচ করে; bootstrap-এর পূর্বসূরি (Figure 3, §৭ Q4)	4.9
jackknife bias	bias\(_{\text{jack}}=(n-1)(\bar\theta_{(\cdot)}-\hat\theta)\); গড়ের মতো linear statistic-এ \(0\), nonlinear statistic-এ শূন্য নয় ও সংশোধনযোগ্য (Figure 3, §৭ Q7, Q13)	4.9
jackknife standard error	\(\widehat{\mathrm{se}}_{\text{jack}}=\sqrt{\frac{n-1}{n}\sum_i(\hat\theta_{(i)}-\bar\theta_{(\cdot)})^2}\); গড়ের ক্ষেত্রে ঠিক \(s/\sqrt n\) (Figure 3, §৭ Q9)	4.9
Jacobian	\(\lvert dx/dy\rvert\) — রূপান্তরে অক্ষ কতটা টানে/চাপে তার পরিমাপ; density-তে গুণফল হিসেবে আসে	2.7
James–Stein estimator	\(\hat\theta^{JS}=\big(1-\frac{p-2}{\lVert X\rVert^2}\big)X\) — একটা scalar shrinkage factor দিয়ে পুরো observation-vector \(X\)-কে কেন্দ্র ০-র দিকে টানে; \(p\ge3\)-তে MLE-কে dominate করে (কম total risk); shrinkage estimation-এর জন্মদাতা (James & Stein 1961)	8.3
James–Stein risk identity	\(\mathbb E\lVert\hat\theta^{JS}-\theta\rVert^2=p-(p-2)^2\,\mathbb E\frac{1}{\lVert X\rVert^2}\le p\) (SURE থেকে); সমতা কেবল \(\lVert\theta\rVert\to\infty\)-এ; \(\theta=0\)-তে \(\lVert X\rVert^2\sim\chi^2_p\) দিয়ে \(R_{JS}(0)=p-(p-2)=2\) (সব \(p\ge3\))	8.3
Jensen gap	\(\mathbb{E}[g(X)]-g(\mathbb{E}[X])\ge0\); convexity-জনিত ব্যবধান (\(g=x^2\)-এ \(=\mathrm{Var}(X)\))	3.1
Jensen's inequality	\(g\) convex হলে \(g(\mathbb{E}[X])\le\mathbb{E}[g(X)]\); concave হলে দিক উল্টো	3.1
joint density	দুটি random variable-এর যৌথ density \(f(x,y)\); probability = double integral	0.4
joint distribution	দুই বা ততোধিক random variable-এর একসাথের বণ্টন, \(p_{X,Y}\) বা \(f_{X,Y}\)	2.6
joint PDF	continuous variable-দের যৌথ density; probability = density surface-এর নিচের volume (double integral)	2.6
joint PMF	discrete variable-দের যৌথ probability mass function, \(p_{X,Y}(x,y)=P(X=x,Y=y)\)	2.6
Jupyter	cell-by-cell interactive Python চালানোর notebook পরিবেশ	0.6
K-fold cross-validation	data এলোমেলোভাবে \(K\)টা প্রায়-সমান fold-এ ভাগ; পালাক্রমে এক fold held-out, বাকি \(K-1\) fold-এ fit; \(\text{CV}_{(K)}=\frac1K\sum_k\text{MSE}_k\); মোট \(K\)টা fit, প্রতি বিন্দু ঠিক একবার validation; চলমান উদাহরণে 10-fold CV U-আকার, min \(d{=}3\to10.15\)	5.8
k-means	cluster-সংখ্যা \(K\) স্থির রেখে inertia (within-cluster SS) সর্বনিম্নকারী partition খোঁজার algorithm; প্রতিটি cluster তার centroid দিয়ে প্রতিনিধিত্ব করে, বিন্দু নিকটতম centroid-এ যায়; Lloyd-এর iteration দিয়ে সমাধান; \(K\) আগে দিতে হয়, multiple restart লাগে; চলমান উদাহরণে \(k{=}3\)-এ ARI \(0.990\)	5.9
k-means as hard EM	k-means (৫.৯) = GMM-এর বিশেষ সীমা: সব \(\Sigma_k=\sigma^2 I\) (সমান-গোলকীয়) + hard assignment (\(\gamma_{ik}\in\{0,1\}\)); তখন M-step-এর \(\mu_k\)-update centroid-update-এ পরিণত হয়। তাই k-means hard/spherical, GMM soft/elliptical — canonical ARI: GMM \(0.97\) > k-means \(0.914\)	6.7
k-means++ initialization	k-means-এর প্রারম্ভিক centroid বাছার স্মার্ট কৌশল: প্রথম centroid এলোমেলো, পরেরগুলো বিদ্যমান centroid থেকে দূরত্ব-সমানুপাতিক সম্ভাবনায় বাছা — ফলে centroid-গুলো ছড়িয়ে বসে, কম restart-এই ভালো ও স্থিতিশীল ফল; non-convex objective-এর খারাপ local-min এড়াতে সাহায্য করে	5.9
k-nearest neighbors (k-NN)	instance-based classifier — নতুন \(x\)-এর নিকটতম \(k\) প্রতিবেশীর সংখ্যাগরিষ্ঠ ভোটে শ্রেণি; \(k\) একটি capacity-knob: ছোট \(k\) low-bias/high-variance (wiggly, \(k{=}1\to0.859\)), বড় \(k\) মসৃণ/বেশি-bias; canonical best \(k{=}15\) (\(0.911\))	6.3
KDE	kernel density estimate; data-বিন্দুতে মসৃণ kernel বসিয়ে পাওয়া density-curve	1.3
kernel	KDE-তে প্রতিটি বিন্দুর উপর বসানো মসৃণ ফাংশন (সাধারণত Gaussian)	1.3
kernel function	একটা প্রতিসম, \(0\)-কেন্দ্রিক weight-ফাংশন \(K(u)\) যা দূরত্ব-অনুযায়ী weight দেয়; উদাহরণ: Gaussian \(K(u)=e^{-u^2/2}\) (মসৃণ, infinite support), box \(K(u)=\tfrac12\mathbb 1\{\lvert u\rvert\le1\}\) (সমান-weight window); \(K_h(\cdot)=\tfrac1h K(\cdot/h)\)	5.7
kernel PCA	৬.৪-এর kernel trick + ৫.৯-এর PCA: feature-map \(\phi\) সরাসরি না হিসেব করে centered kernel \(\tilde K=HKH\)-এর eigen-decomposition করে অরৈখিক feature-space-এ principal component খোঁজে; linear kernel-এ এটা হুবহু সাধারণ PCA। canonical(rbf): \(T=0.898,\ \lvert\text{corr}\rvert=0.228\) (swiss roll-এ দুর্বল)	6.8
kernel regression	প্রতিটা query বিন্দুর চারপাশে kernel-weight দিয়ে স্থানীয় fit করে \(f\) অনুমান; কাছের বিন্দু বেশি, দূরের কম weight পায়; bandwidth \(h\) নিয়ন্ত্রক প্যারামিটার	5.7
kernel trick	dual-এ data কেবল inner product হিসেবে আসে বলে যেকোনো \(x_i^\top x_j\)-কে একটি kernel \(K(x_i,x_j)=\phi(x_i)^\top\phi(x_j)\) দিয়ে প্রতিস্থাপন করে — feature map \(\phi\) স্পষ্টভাবে গণনা না করেই উচ্চ-(এমনকি অসীম-)মাত্রিক feature-space-এ linear boundary বসানোর কৌশল; এতেই nonlinear decision boundary সম্ভব	6.4
KL divergence (t-SNE cost)	t-SNE-র খরচ \(\mathrm{KL}(P\Vert Q)=\sum_{i\ne j}p_{ij}\log\frac{p_{ij}}{q_{ij}}\ge0\) — high-D ও low-D প্রতিবেশ-বণ্টনের অমিল; অপ্রতিসম বলে \(p_{ij}\) বড়/\(q_{ij}\) ছোট-এ বড় penalty, তাই কাছের জোড়া রক্ষায় পক্ষপাতী (local-strong, global অনির্ভরযোগ্য)	6.8
knot	যেখানে spline-এর টুকরো-polynomial-গুলো জোড়া লাগে; knot-সংখ্যা ও অবস্থান নমনীয়তা (effective df) নিয়ন্ত্রণ করে — বেশি knot ⇒ বেশি নমনীয় ও বেশি variance; প্রান্তে cubic spline knot-হীন অংশে বুনো হতে পারে	5.7
Kolmogorov 0–1 law	\((X_n)\) স্বাধীন \(\Rightarrow\) প্রতিটি tail event-এর \(\mathbb P(A)\in\{0,1\}\), প্রতিটি tail RV a.s. ধ্রুবক; হৃৎপিণ্ড \(\mathcal T\perp\mathcal T\Rightarrow\mathbb P(A)=\mathbb P(A)^2\)	7.6
Kolmogorov axioms	probability-র তিন স্বতঃসিদ্ধ: non-negativity, normalization, countable additivity	2.1
Kolmogorov maximal inequality	স্বাধীন, শূন্য-গড়, \(S_k=\sum_{i\le k}X_i\)-এ \(\mathbb P(\max_{1\le k\le n}\lvert S_k\rvert\ge t)\le\operatorname{Var}(S_n)/t^2\); Chebyshev-এর পথ-সংস্করণ (Doob maximal-এর বিশেষ রূপ)	7.6
Kolmogorov three-series theorem	স্বাধীন \((X_n)\)-এ \(\sum_n X_n\) a.s. অভিসৃত \(\iff\) তিনটি কর্তিত-ধারা (\(\sum\mathbb P(\lvert X_n\rvert>c)\), \(\sum\mathbb E[X_n^c]\), \(\sum\operatorname{Var}(X_n^c)\)) সবই অভিসৃত; স্বাধীন-যোগফল-অভিসারিতার পূর্ণ মানদণ্ড	7.6
Kullback–Leibler divergence (KL)	দুই distribution-এর "দূরত্ব" \(\mathrm{KL}(q\Vert p)=\mathbb E_q[\log\frac{q}{p}]\ge0\) (Jensen/Gibbs, \(0\) ⟺ \(q=p\)); EM-এ \(\log p(x)=\text{ELBO}+\mathrm{KL}\) — E-step \(q=p(z\mid x)\) নিয়ে \(\mathrm{KL}=0\) করে bound tight করে	6.7
kurtosis	লেজ-ভার ও চূড়া-গুরুত্ব; চতুর্থ standardized moment g₂ (normal=3)	1.3
L1 penalty	\(\lambda\lVert\beta\rVert_1=\lambda\sum_j\lvert\beta_j\rvert\) — lasso-এর penalty; \(\beta_j=0\)-এ non-differentiable (কোণা), তাই অনেক coefficient ঠিক \(0\)-তে ঠেলে দেয় ⇒ sparsity	6.2
L1 vs L2 geometry (diamond vs ball)	constraint-form-এ \(L_1\)-region একটি diamond (অক্ষ-সংলগ্ন তীক্ষ্ণ কোণা) আর \(L_2\)-region মসৃণ ball; RSS-contour \(L_1\)-কোণায় ছুঁয়ে কিছু coefficient ঠিক \(0\) করে (sparsity), \(L_2\)-ball-এ generic বিন্দুতে ছুঁয়ে সব coefficient nonzero রাখে	6.2
L2 penalty	\(\lambda\lVert\beta\rVert_2^2=\lambda\sum_j\beta_j^2\) — ridge-এর penalty; মসৃণ (differentiable), সব coefficient proportionally shrink করে (orthonormal-এ factor \(\frac1{1+\lambda}\)), sparsity দেয় না	6.2
\(L^1\) space	সব integrable ফাংশনের সংগ্রহ \(L^1(\mu)=\{f:\int\lvert f\rvert\,d\mu<\infty\}\); integral-এর স্বাভাবিক আবাসস্থল	7.4
\(L^1\)-bounded martingale	যে martingale-এ \(\sup_n\mathbb E\lvert X_n\rvert<\infty\); convergence theorem-এর একমাত্র অনুমান — a.s.-সীমার অস্তিত্ব নিশ্চিত করে (কিন্তু \(L^1\)-অভিসরণ নয়)	7.9
\(L^2\) projection (conditional expectation as)	\(X\in L^2\) হলে \(\mathbb E[X\mid\mathcal G]\) ঠিক \(X\)-এর orthogonal projection \(L^2(\mathcal G)\)-তে; residual \(X-\mathbb E[X\mid\mathcal G]\perp L^2(\mathcal G)\) (7.5-এর projection theorem)	7.7
\(L^2\) space	square-integrable ফাংশনের space \(\{f:\int\lvert f\rvert^2\,d\mu<\infty\}\); একমাত্র \(L^p\) যা inner product বহন করে, তাই Hilbert space	7.5
\(L^2\)-bounded martingale	\(\sup_n\mathbb E[X_n^2]<\infty\) বিশিষ্ট martingale; increment \(d_k=X_k-X_{k-1}\) পরস্পর-orthogonal, \(\mathbb E[X_n^2]=\mathbb E[X_0^2]+\sum_k\mathbb E[d_k^2]\), আর \(L^2\)-boundedness \(\iff\sum_k\mathbb E[d_k^2]<\infty\) ⇒ a.s. ও \(L^2\)-অভিসরণ	7.9
\(L^\infty\) space / essential supremum	\(\lVert f\rVert_\infty=\operatorname{ess\,sup}\lvert f\rvert=\inf\{M\ge0:\lvert f\rvert\le M\ \text{a.e.}\}\); null set উপেক্ষা করে "সর্বোচ্চ মান", essentially bounded ফাংশনের space	7.5
\(L^p\) inclusion (finite measure)	probability/finite measure-এ \(p\ge q\Rightarrow L^p\subseteq L^q\) (norm monotone); তাই finite variance (\(L^2\)) থাকলে finite mean (\(L^1\)) আপনিই, উল্টোটা নয়	7.5
\(L^p\) norm	\(\lVert f\rVert_p=(\int\lvert f\rvert^p\,d\mu)^{1/p}\) (\(1\le p<\infty\)); একটি ফাংশনের "দৈর্ঘ্য/আকার", probability measure-এ \(p\)-এর সাথে monotone বাড়ে	7.5
\(L^p\) space	যে measurable ফাংশনদের \(\lVert f\rVert_p<\infty\) তাদের (a.e.-শ্রেণির) space \(L^p(\mu)=\{f:\int\lvert f\rvert^p\,d\mu<\infty\}\); integrable ফাংশনের জ্যামিতিক মঞ্চ, \(p=1\) ফেরায় \(L^1\)	7.5
\(L^p\)-contraction	\(\lVert\mathbb E[X\mid\mathcal G]\rVert_p\le\lVert X\rVert_p\) (\(1\le p\le\infty\)) — conditioning কখনো \(L^p\)-norm বাড়ায় না (averaging মসৃণ করে); conditional Jensen-এর সরাসরি ফল	7.7
label propagation	graph-ভিত্তিক semi-supervised: বিন্দু = node, similarity-edge \(w_{ij}\), জানা label edge বরাবর ছড়িয়ে (diffusion) অজানা পূরণ; হার্ড clamping (জানা label স্থির), unnormalized Laplacian; কার্যত \(f^\top L f\) (label-অমসৃণতা) ছোট করে	6.9
label spreading	label propagation-এর রূপ: normalized Laplacian \(\mathcal L=D^{-1/2}LD^{-1/2}\) + soft clamping (\(\alpha\) দিয়ে জানা label সামান্য বদলাতে দেয়), তাই label-noise-এ বেশি robust; canonical accuracy \(0.989\) (labeled-only \(0.833\) থেকে লাফ)	6.9
Lagrangian dual	primal SVM-কে Lagrange-multiplier (\(\alpha_i\)) দিয়ে রূপান্তরিত দ্বৈত সমস্যা, যেখানে data কেবল inner product \(x_i^\top x_j\) আকারে আসে; KKT complementary slackness থেকে কেবল support vector-এর \(\alpha_i>0\); এই গঠনই kernel-trick সম্ভব করে (০.৩-এর Lagrange/KKT-এর প্রয়োগ)	6.4
\(\lambda\)-system (Dynkin system)	\(\Omega\) ধারণকারী, proper-difference-বদ্ধ (\(A\subseteq B\Rightarrow B\setminus A\)) ও বর্ধমান-গণনাযোগ্য-union-বদ্ধ পরিবার; \(\sigma\)-algebra-র চেয়ে দুর্বল, Dynkin উপপাদ্যের সেতু	7.2
lasso	Least Absolute Shrinkage and Selection Operator — \(\min_\beta\lVert y-X\beta\rVert_2^2+\lambda\lVert\beta\rVert_1\); ছোট coefficient ঠিক \(0\) করে ⇒ sparse feature selection; orthonormal-এ সমাধান soft-threshold; canonical \(\lambda^\*{\approx}0.042\), MSE \(\mathbf{1.843}\), \(17\) nonzero	6.2
latent variable	model-এ থাকা কিন্তু data-তে অদৃশ্য (লুকানো) চলক — GMM-এ component-label \(z_i\) (কোন Gaussian থেকে \(x_i\) এল); \(z_i\) অজানা বলেই data incomplete ও MLE কঠিন (component ও parameter পরস্পর-নির্ভর)	6.7
law / distribution of \(X\)	\(X\)-এর বণ্টন = তার pushforward measure \(P_X\) on \((\mathbb R,\mathcal B)\); "বণ্টন" বলতে আনুষ্ঠানিকভাবে এই measure-ই বোঝায় (pmf/pdf তার বিশেষ রূপ)। উদাহরণ \(X\sim U(-1,1),Y=X^2\): density \(\dfrac{1}{2\sqrt y}\), \(\mathbb E[Y]=\tfrac13\)	7.3
Law of Large Numbers (LLN)	iid নমুনার sample mean \(\bar X_n\) true mean \(\mu\)-তে থিতু হওয়ার উপপাদ্য (\(n\to\infty\)); "averaging কাজ করে কেন"-র ভিত্তি	3.3
law of total expectation	\(\mathbb{E}[Y]=\mathbb{E}[\mathbb{E}[Y\mid X]]\); গোষ্ঠী-গড়ের গড় = সামগ্রিক গড় (tower rule)	2.6
law of total probability	\(P(A)=\sum_i P(A\mid B_i)P(B_i)\) partition-এর ওপর	2.2
law of total variance	\(\operatorname{Var}(Y)=\mathbb{E}[\operatorname{Var}(Y\mid X)]+\operatorname{Var}(\mathbb{E}[Y\mid X])\); within + between	2.6
leaf (terminal node)	tree-এর শেষ node যা আর split হয় না; এতে পড়া সব বিন্দু একটাই prediction পায় — majority class (0–1 loss-minimizer) বা response-গড় (squared-loss-minimizer)	6.5
learner weight (alpha)	AdaBoost-এ weak learner \(h_t\)-এর final-vote ওজন \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\) (natural log); ভালো learner (\(\varepsilon\) ছোট) ⇒ বড় \(\alpha\); \(\varepsilon=0.5\Rightarrow\alpha=0\) (তথ্যহীন), \(\varepsilon>0.5\Rightarrow\alpha<0\) (ভোট উল্টে)। canonical: \(\varepsilon{=}0.3\to0.4236\), \(\varepsilon{=}0.1\to1.0986\)	6.6
learning curve	train ও validation/CV error-কে training-set-আকার \(n\)-এর সাপেক্ষে আঁকা curve; high-bias (দুটো error উঁচুতে মিলে যায়) বনাম high-variance (বড় gap) চিহ্নিত করে, এবং আরও data সাহায্য করবে কিনা বোঝায় — model-পর্যাপ্ততা নির্ণয়ের diagnostic	5.8
learning rate	gradient descent-এর প্রতি ধাপের আকার (\(\eta\))	0.3
learning rate / shrinkage	gradient boosting-এর আপডেট \(F_t=F_{t-1}+\nu h_t\)-এ step size \(\nu\in(0,1]\); প্রতিটি গাছের অবদান সংকুচিত করে regularizer-এর মতো কাজ করে (ছোট \(\nu\) + বড় \(T\) ভালো generalize)। canonical sweep (\(n{=}200\)): \(0.01\to0.794\) (underfit), \(0.1\to0.850\), \(1.0\to0.878\) — \(\nu\) ও \(T\) যৌথভাবে tune	6.6
leave-one-out CV (LOOCV)	\(K=n\) ক্ষেত্র: \(\text{CV}_{(n)}=\frac1n\sum_i(y_i-\hat f^{(-i)}(x_i))^2\), প্রতিটা বিন্দু একবার করে একা held-out; bias প্রায় শূন্য কিন্তু \(n\)টা fit প্রায় অভিন্ন ⇒ correlated ⇒ গড়ের variance বেশি; চলমান উদাহরণে min \(d{=}3\to10.18\)	5.8
leave-one-out estimate \(\hat\theta_{(i)}\)	\(i\)-তম বিন্দু বাদ দিয়ে হিসাব করা statistic; এদের ছড়ানো থেকে variance, গড় থেকে bias (Figure 3, §৭ Q7)	4.9
Lebesgue \(\sigma\)-algebra	Lebesgue-নির্মাণে যে Carathéodory-measurable set-রা গড়ে ওঠে — \(\mathcal B(\mathbb R)\)-এর কঠোর superset (\(\supsetneq\)), সব Lebesgue-null set ও তাদের subset ধারণ করে (complete)	7.2
Lebesgue decomposition	যেকোনো σ-finite \(\nu\)-কে \(\nu=\nu_{ac}+\nu_{sing}\)-এ ভাঙা যায় (\(\nu_{ac}\ll\mu\) density-অংশ, \(\nu_{sing}\perp\mu\) singular-অংশ); measure-এর "density + singular" বিশ্লেষণ	7.5
Lebesgue integral	range-কে (horizontal strip) ভেঙে "প্রতিটি মান কত measure-জুড়ে" তা যোগ করে integral; \(\mathbf 1_{\mathbb Q}\)-এ অনায়াসে \(\int_0^1\mathbf 1_{\mathbb Q}\,d\lambda=0\), পূর্ণ নির্মাণ 7.4-এ	7.1
Lebesgue measurable function	\((\mathbb R,\mathcal L)\)-এ (Lebesgue σ-algebra, \(\supseteq\mathcal B\)) measurable function — Borel function-এর চেয়ে উদার শ্রেণি; Borel-measurable হলে Lebesgue-measurable, উল্টোটা সর্বদা নয়	7.3
Lebesgue measure	\(\mathbb R\)-এর উপর প্রমিত measure \(\lambda\) যা interval-কে তার দৈর্ঘ্য দেয় (\(\lambda([a,b])=b-a\)), translation-invariant ও countably additive; outer measure থেকে Carathéodory-পদ্ধতিতে গড়া (7.2)	7.1
Lebesgue's criterion (Riemann-integrability)	bounded \(f:[a,b]\to\mathbb R\) Riemann-integrable \(\iff\) তার discontinuity-সেটের Lebesgue measure \(=0\); তখন দুই integral সমান	7.4
left-skewed	বাঁ দিকে লম্বা লেজ; সাধারণত mean < median	1.3
leptokurtic	normal-এর চেয়ে ভারী লেজ ও সূচালো চূড়া (excess kurtosis > 0)	1.3
leverage	\(h_{ii}=\) hat matrix \(H=X(X^\top X)^{-1}X^\top\)-এর \(i\)-তম কর্ণ-উপাদান; বিন্দুটি predictor-জায়গায় (\(x\)-অক্ষে) কত প্রান্তিক তা মাপে (\(y\)-নিরপেক্ষ), পরিসর \([0,1]\), গড় \(p/n\), থ্রেশহোল্ড \(2p/n\)	5.2
likelihood	hypothesis সত্য হলে data দেখার সম্ভাবনা \(P(A\mid B)\)	2.2
likelihood \(L(\theta)\)	নির্দিষ্ট \(\theta\)-তে observed data-র সম্ভাবনা, \(\theta\)-এর ফাংশন হিসেবে; \(L(\theta)=p(\text{data}\mid\theta)\) (4.3 থেকে; Figure 1-এ কমলা)	4.10
likelihood function	observed data fixed রেখে \(\theta\)-এর ফাংশন \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) — "এই data বিভিন্ন \(\theta\)-তে কতটা মানানসই"; probability নয়, তাই \(\theta\)-জুড়ে integral ১ হওয়ার দরকার নেই	4.3
likelihood ratio	\(P(A\mid H)/P(A\mid H^c)\); odds-রূপে সাক্ষ্যের শক্তি	2.2
likelihood ratio \(\Lambda\)	\(\frac{L(\theta_1)}{L(\theta_0)}\) — দুই hypothesis-এর অধীনে data-র আপেক্ষিক সম্ভাব্যতা; normal-এ \(\Lambda>k\iff\bar x>c\) (z-test)	4.7
likelihood ratio test (LRT)	\(H_0\) test যা \(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\theta_0)]\) ব্যবহার করে; \(\Lambda\) ছোট (statistic বড়) ⇒ \(H_0\)-র বিপক্ষে; Figure 1-এর উল্লম্ব ড্রপ	4.8
likelihood vs probability	একই \(f(x;\theta)\) দুই ভূমিকায়: \(\theta\) স্থির, \(x\) চলক → density (\(\int_x=1\)); \(x\) (data) স্থির, \(\theta\) চলক → likelihood (কোনো normalization-শর্ত নেই, শুধু argmax গুরুত্বপূর্ণ)	4.3
likelihood-ratio martingale	iid ডেটা \(Z_k\), density \(f\) (সত্য) বনাম \(g\): \(L_n=\prod_{k\le n}\frac{g(Z_k)}{f(Z_k)}\) হলো \(f\)-এর অধীনে martingale (\(\mathbb E_f[g(Z)/f(Z)]=1\)) — Wald-এর SPRT ও sequential testing-এর কেন্দ্র	7.8
likelihood-ratio test (GLM)	global fit-test \(G^2=D_0-D=2(\ell-\ell_0)\sim\chi^2_{\,\#\text{predictors}}\); এখানে \(G^2=129.78\) (\(df=2\)), \(p=6.5\times10^{-29}\) (৪.৭-এর LR framework)	5.4
liminf of events (eventually)	\(\liminf_n A_n=\bigcup_{N}\bigcap_{n\ge N}A_n=\{A_n\ \text{eventually}\}\) — "শেষমেশ সব যথেষ্ট-বড় \(n\)-এ ঘটে"; দ্বৈত \((\limsup A_n)^c=\liminf A_n^c\)	7.6
limit	কোনো বিন্দুর দিকে এগোলে function যে মানের দিকে যায়	0.3
limits of integration	integral-এর নিম্ন ও ঊর্ধ্ব সীমা (\(a\) ও \(b\))	0.4
limsup of events (infinitely often, i.o.)	\(\limsup_n A_n=\bigcap_{N}\bigcup_{n\ge N}A_n=\{A_n\ \text{i.o.}\}\) — "অসীম-সংখ্যক \(A_n\) ঘটে" (\(\omega\) যত-বড় \(N\)-এর পরেও কোনো \(A_n\)-তে আছে)	7.6
Lindeberg condition (preview)	non-identically-distributed স্বাধীন যোগফলের CLT (Lindeberg–Feller)-এর শর্ত: প্রতিটি পদের আপেক্ষিক অবদান অসীম-ছোট (Lindeberg negligibility), যাতে যোগফলে কোনো একক পদ প্রাধান্য না পায়	7.10
LINE assumptions	OLS-এর চার অনুমান — Linearity, Independence, Normality, Equal variance	5.1
linear discriminant analysis (LDA)	generative classifier — সব শ্রেণিতে শেয়ার-করা একই covariance \(\Sigma\) ধরে; log-posterior-ratio-র quadratic পদ বাতিল হয়ে discriminant \(\delta_c(x)=x^\top\Sigma^{-1}\mu_c-\tfrac12\mu_c^\top\Sigma^{-1}\mu_c+\log\pi_c\) linear ⇒ hyperplane boundary; কম parameter (কম variance) কিন্তু শেয়ার-\(\Sigma\)-জনিত bias; canonical \(0.881\)	6.3
linear predictor	systematic component \(\eta_i=x_i^\top\beta\); সব GLM-এ অভিন্ন, link function একে mean-এর সাথে যুক্ত করে	5.4
linear probability model	binary \(y\)-তে সরাসরি OLS; ত্রুটিপূর্ণ — পূর্বাভাস \([0,1]\)-বহির্ভূত, heteroscedastic (\(\operatorname{Var}=p(1-p)\)), saturate করে না; তাই logistic ব্যবহৃত	5.4
linear regression	response-এর শর্তাধীন গড়কে predictor-দের রৈখিক সমাহার হিসেবে মডেল করা, \(\mathbb E[y\mid X]=X\beta\)	5.1
linear relationship	সরলরেখা বরাবর সম্পর্ক, যা Pearson \(r\) ধরে	1.4
linear smoother	যেকোনো smoother যেখানে fitted মান \(\hat{\mathbf f}=S\mathbf y\) একটা স্থির matrix \(S\) (smoother/hat matrix, \(\mathbf y\)-নিরপেক্ষ) দিয়ে \(\mathbf y\)-এর রৈখিক রূপান্তর; Nadaraya–Watson, regression/smoothing spline সবই linear smoother; effective df \(=\operatorname{tr}(S)\)	5.7
linear transformation	space-কে সরলরেখা-রক্ষাকারী ভাবে রূপান্তরকারী matrix-ফাংশন	0.5
linear-smoother LOOCV shortcut	linear smoother (\(\hat{\mathbf y}=S\mathbf y\))-এ মাত্র একবার fit-এই সব leave-one-out residual: \(\text{CV}_{(n)}=\frac1n\sum_i\big(\frac{y_i-\hat y_i}{1-S_{ii}}\big)^2\), \(S_{ii}\) = leverage; \(n\)টা re-fit-এর বদলে একটা fit \(+\) \(n\)টা ভাগ; high-leverage বিন্দুর error যথাযথভাবে বড় দেখায়	5.8
linearity of conditional expectation	\(\mathbb E[aX+bY\mid\mathcal G]=a\,\mathbb E[X\mid\mathcal G]+b\,\mathbb E[Y\mid\mathcal G]\) a.s. (\(X,Y\in L^1\)) — integral-এর রৈখিকতা (7.4) থেকে; pull-out/best-predictor প্রমাণে কর্মঘোড়া	7.7
linearity of expectation	\(\mathbb{E}[aX+bY+c]=a\mathbb{E}[X]+b\mathbb{E}[Y]+c\); independence লাগে না	2.3
linearity of integral	\(\int(af+bg)\,d\mu=a\int f\,d\mu+b\int g\,d\mu\); অঋণাত্মক স্তরে MCT + simple-additivity দিয়ে প্রমাণিত, পরে \(L^1\)-এ প্রসারিত	7.4
linearization	nonlinear function \(g\)-কে \(\mu\)-তে তার tangent (\(g(\mu)+g'(\mu)(x-\mu)\)) দিয়ে আনুমান করা; Delta method-এর হৃদয়	3.4
link function	GLM-এ mean ও linear predictor-কে যুক্ত করা function \(g(\text{mean})=\eta\); logistic-এ logit, OLS-এ identity, Poisson-এ log (৫.৫)	5.4
linkage	hierarchical clustering-এ "দুই cluster-এর দূরত্ব"-র সংজ্ঞা — single (নিকটতম জোড়া), complete (দূরতম), average (গড় জোড়া-দূরত্ব), Ward (merge-এ within-cluster SS-বৃদ্ধি সর্বনিম্ন); ভিন্ন linkage ভিন্ন আকারের cluster দেয়; Ward variance-objective বলে k-means-এর কাছাকাছি (গোলাকার, সমান-আকার cluster)	5.9
Lloyd's algorithm	k-means সমাধানের iterative পদ্ধতি: দুই ধাপ পালাক্রমে — assignment (centroid স্থির রেখে বিন্দু নিকটতম centroid-এ) ও update (assignment স্থির রেখে centroid \(=\) cluster-গড়); প্রতিটি ধাপ inertia কমায়-বা-সমান (§৭.১৫: গড়-ই within-SS minimizer) ⇒ অবশ্যই অভিসৃত, কিন্তু objective non-convex বলে শুধু local minimum-এ	5.9
local alternative	\(\theta_n=\theta_0+c/\sqrt n\) — \(H_0\)-র দিকে আসা ক্রম; তিন test-এর সমতা ও power বিশ্লেষণে ব্যবহৃত (Figure 4)	4.8
local maximum	আশেপাশের তুলনায় সর্বোচ্চ মান	0.3
local minimum	আশেপাশের তুলনায় সর্বনিম্ন মান	0.3
Local Outlier Factor (LOF)	density-ভিত্তিক anomaly detector: একটি বিন্দুর local density-কে তার প্রতিবেশীদের গড় density-র সঙ্গে তুলনা করে — \(\mathrm{LOF}\approx1\) inlier, \(\gg1\) outlier (প্রতিবেশীর তুলনায় বিরল), \(<1\) গুচ্ছ-কেন্দ্র; local বলে varying-density data-তে কাজ করে; canonical AUC \(1.000\)	6.9
local polynomial regression	Nadaraya–Watson-এর সম্প্রসারণ: প্রতিটা বিন্দুর চারপাশে স্থানীয়ভাবে (kernel-weighted) একটা polynomial fit করা (গড়/ধ্রুবক নয়); local-linear boundary-bias কমায়, তাই প্রান্তে NW-এর চেয়ে ভালো	5.7
locally linear embedding (LLE)	manifold learning পদ্ধতি: প্রতিটি বিন্দুকে প্রতিবেশীদের affine-যোগ (\(\sum_j w_{ij}=1\)) দিয়ে পুনর্গঠনের weight \(w_{ij}\) (translation/rotation-invariant) শিখে, সেই একই weight নিম্ন-মাত্রায় রক্ষা করে; শুধু local geometry আঠা (global geodesic ছাড়া)। canonical \(\lvert\text{corr}\rvert=0.998\)	6.8
location	data-র কেন্দ্র কোথায় তা নির্দেশক পরিমাপ (central tendency)	1.2
location-scale family	\(Y=aX+b\) আকারের রূপান্তর; \(b\) সরায় (location), \(a\) মাপ বদলায় (scale)	2.7
LOESS	locally estimated scatterplot smoothing — local polynomial regression-এর জনপ্রিয় ব্যবহারিক রূপ (সাধারণত local-linear/quadratic, nearest-neighbor span দিয়ে adaptive bandwidth); EDA-তে মসৃণ trend-curve আঁকতে বহুল-ব্যবহৃত	5.7
log link	Poisson GLM-এর canonical link \(g(\mu)=\log\mu=x^\top\beta\); দুটো সুবিধা — (i) positivity (\(\mu=e^{(\cdot)}>0\) সর্বদা), (ii) predictor-প্রভাব mean count-এ multiplicative (\(\mu=e^{\beta_0}\prod_j e^{\beta_j x_j}\))	5.5
log-likelihood	data-র likelihood-এর logarithm; MLE-তে maximize করা হয়	0.3
log-likelihood curvature	log-likelihood-এর দ্বিতীয় অন্তরকলজ \(\ell''(\theta)\)-এর ঋণ; তীক্ষ্ণ চূড়া = বড় curvature = বেশি Fisher information (Figure 1)	4.5
log-likelihood surface	একাধিক প্যারামিটারে \(\ell\)-এর গ্রাফ — Normal\((\mu,\sigma^2)\)-এ একটা single-peak পাহাড়, শীর্ষ ঠিক \((\bar X,\hat\sigma^2)\)-তে; MLE = শীর্ষ (Figure 2)	4.3
log-odds	\(g(p)=\log\!\big(p/(1-p)\big)\); sample proportion-এ Delta method-এর ক্লাসিক প্রয়োগ, \(\operatorname{Var}\approx 1/(n\,p(1-p))\)	3.4
log-sum problem	mixture log-likelihood \(\sum_i\log\sum_k\pi_k\mathcal N_k\)-এ \(\log\)-এর ভেতরে যোগফল থাকায় \(\log\)–\(\exp\) বাতিল হয় না, derivative-সমীকরণ coupled/nonlinear — তাই একক Gaussian-এর মতো closed-form MLE নেই, EM লাগে	6.7
logistic regression	binary outcome (\(y\in\{0,1\}\))-এর জন্য GLM: log-odds-কে \(x^\top\beta\)-র রৈখিক ধরে MLE দিয়ে fit; পূর্বাভাস \(p=\sigma(x^\top\beta)\in(0,1)\)	5.4
logit link	GLM link \(g(p)=\operatorname{logit}(p)=\log\frac{p}{1-p}=\eta\); probability-কে \((-\infty,\infty)\)-তে টেনে আনে, Bernoulli-র canonical link	5.4
LOOCV bandwidth selection	leave-one-out cross-validation দিয়ে tuning parameter বাছা: প্রতিটা \(x_i\)-তে নিজেকে বাদ দিয়ে predict করে held-out error হিসাব, যে \(h\) তা minimize করে সেটিই বাছা; সত্য \(f\) ছাড়াই data-চালিত — চলমান উদাহরণে \(h\approx0.03\); পূর্ণ কাঠামো ৫.৮	5.7
loss function (\(\ell\))	একটি prediction কত "খারাপ" তা মাপে — \(\ell(h(x),y)\) (যেমন squared-error \((h(x)-y)^2\), 0–1 loss); risk ও empirical risk এর গড় থেকেই গঠিত	6.1
LOTUS	law of the unconscious statistician: \(\mathbb{E}[g(X)]=\sum g(x)p(x)\) বা \(\int g(x)f(x)dx\)	2.5
Lévy's 0–1 law	\(A\in\mathcal F_\infty\) হলে \(\mathbb P(A\mid\mathcal F_n)=\mathbb E[\mathbf 1_A\mid\mathcal F_n]\to\mathbf 1_A\) a.s. — শর্তাধীন সম্ভাবনা \(0\)/\(1\)-এ থিতু; Kolmogorov's 0–1 law-কেও পুনঃপ্রমাণ করে	7.9
Lévy's continuity theorem	\(X_n\Rightarrow X\iff\varphi_{X_n}(t)\to\varphi_X(t)\) প্রতিটি \(t\)-তে (সীমা-\(\varphi\) \(0\)-তে অবিচ্ছিন্ন ⇒ tight); কঠিন weak convergence-কে সহজ pointwise cf-অভিসরণে অনুবাদকারী সেতু, CLT-প্রমাণের মুকুট-যন্ত্র	7.10
Lévy's upward theorem	\(Y\in L^1\), \(\mathcal F_\infty=\sigma(\bigcup_n\mathcal F_n)\) হলে \(\mathbb E[Y\mid\mathcal F_n]\to\mathbb E[Y\mid\mathcal F_\infty]\) a.s. ও \(L^1\) — "তথ্য জমলে অনুমান চূড়ান্ত-তথ্যের অনুমানে থিতু"; closed-martingale তত্ত্বের সরাসরি ফল	7.9
MAD	median absolute deviation; median থেকে পরম দূরত্বের median (robust)	1.2
Mahalanobis distance	covariance-ভারিত দূরত্ব \((x-\mu_c)^\top\Sigma_c^{-1}(x-\mu_c)\); LDA/QDA discriminant-এর কেন্দ্রীয় পদ — শুধু কেন্দ্র থেকে দূরত্ব নয়, শ্রেণির আকার/ছড়ানোও হিসাবে নেয়; QDA-তে \(\log\lvert\Sigma_c\rvert\)-সহ ব্যবহৃত হয়ে বড়-spread শ্রেণিকে "শাস্তি" দেয়	6.3
main effect	একটি factor-এর গড় প্রভাব, অন্য factor-এর সব level জুড়ে averaged ("fertilizer পাল্টালে গড়ে ফলন কত বদলায়")	5.3
manifold	উচ্চ-মাত্রিক ambient space-এর ভেতরে বসে থাকা একটা মসৃণ, স্থানীয়ভাবে-সমতল নিম্ন-মাত্রিক উপরিতল (যেমন ৩D-তে পেঁচানো ২D চাদর = swiss roll); manifold-এর গায়ে চলতে যত স্বাধীন স্থানাঙ্ক লাগে তা-ই তার intrinsic dimension \(d\)	6.8
manifold assumption	semi-supervised অনুমান: data একটা নিম্ন-মাত্রিক বাঁকা manifold-এ বসে, label সেই manifold বরাবর মসৃণভাবে বদলায় (Euclidean-এ কাছে নয়, manifold-এ কাছে যা গুরুত্বপূর্ণ); ৬.৮-এর manifold/neighbor-graph চিন্তার সরাসরি প্রয়োগ	6.9
manifold hypothesis	দাবি: বাস্তব উচ্চ-মাত্রিক (\(D\)) data পূর্ণ \(\mathbb R^D\) জুড়ে ছড়ানো নয়, বরং একটা অনেক-কম-মাত্রিক (\(d\ll D\)) মসৃণ manifold-এর কাছাকাছি কেন্দ্রীভূত; এই অনুমানই nonlinear dimensionality reduction-কে অর্থপূর্ণ করে (swiss roll: \(D=3,\ d=2\))	6.8
manifold learning	data একটা বাঁকা নিম্ন-মাত্রিক manifold-এ বসে — এই অনুমানে সেই manifold ও তার নিম্ন-মাত্রিক স্থানাঙ্ক শেখার unsupervised পদ্ধতির পরিবার (Isomap, LLE, t-SNE, Laplacian eigenmap প্রভৃতি); প্রতিবেশ-গঠনকে নিম্ন-মাত্রায় বহন করে	6.8
MAP estimate \(\hat\theta_{\text{MAP}}\)	\(\hat\theta_{\text{MAP}}=\arg\max_\theta p(\theta\mid\text{data})\) — posterior-এর শিখর (mode); flat prior-এ \(=\) MLE; informative prior = regularization (Figure 1: \(0.68\), §৭ Q4, Q11)	4.10
mapping notation	\(f:A\to B,\ x\mapsto f(x)\) লেখার রীতি	0.1
margin	দুই শ্রেণির মধ্যবর্তী "রাস্তার প্রস্থ" — canonical scale-এ geometric margin \(=2/\lVert w\rVert\); SVM এটি সর্বোচ্চ করে, যা \(\tfrac12\lVert w\rVert^2\) সর্বনিম্নকরণের সমতুল্য	6.4
margin of error	\(m=z_{\alpha/2}\,\mathrm{SE}\) — interval-এর কেন্দ্র থেকে প্রান্তের দূরত্ব (অনিশ্চয়তার ব্যাসার্ধ); CI \(=\hat\theta\pm m\)	4.6
marginal distribution	joint থেকে এক variable-এর ওপর যোগ/integrate করে পাওয়া একক distribution	2.6
marginal likelihood (evidence)	\(\int\pi(\theta)L(\theta)\,d\theta\) — Bayes' rule-এর হর (normalizing constant); \(\propto\) লেখায় সাধারণত বাদ দেওয়া হয়	4.10
Markov chain	states-এর উপর একটা random process \(X_0,X_1,\dots\) যেখানে পরের state-এর distribution শুধু এখনকার state-এর উপর নির্ভর করে; transition matrix \(P\) ও শুরুর distribution \(\mu_0\) দিয়ে সম্পূর্ণ বর্ণিত (E1 আবহাওয়া-chain)	3.6
Markov inequality	nonnegative \(X\), \(a>0\): \(P(X\ge a)\le\mathbb{E}[X]/a\); শুধু গড় থেকে tail-এর সর্বজনীন ছাদ	3.1
Markov property	"memorylessness": \(P(X_{n+1}=j\mid X_n=i,X_{n-1},\dots,X_0)=P(X_{n+1}=j\mid X_n=i)\) — ভবিষ্যৎ বর্তমানের উপর শর্তে অতীত থেকে স্বাধীন; অতীতের দরকারি সব তথ্য বর্তমান state-এ ধরা	3.6
martingale	integrable, adapted \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\) a.s. — "ন্যায্য খেলা" (আজ পর্যন্ত সব তথ্যে আগামীকালের সেরা পূর্বাভাস = আজকের মান); বায়াসহীন, কিন্তু নিশ্চল নয়	7.8
martingale convergence theorem	\(L^1\)-bounded (\(\sup_n\mathbb E\lvert X_n\rvert<\infty\)) submartingale/martingale a.s. একটা \(X_\infty\in L^1\)-এ অভিসারী; Doob's forward convergence theorem	7.9
martingale difference	increment \(D_n=X_n-X_{n-1}\) যেখানে \(\mathbb E[D_n\mid\mathcal F_{n-1}]=0\) — martingale-এর "ধাপ"; \(\mathbb E[X_n]=\mathbb E[X_0]\) ও martingale transform-এর মৌলিক উপাদান (SGD-র noise-অংশ)	7.8
martingale transform	\((H\cdot X)_n=\sum_{k\le n}H_k(X_k-X_{k-1})\), \(H\) predictable ও bounded — আবার একটা martingale; "predictable কোনো বাজি-কৌশল ন্যায্য খেলা হারাতে পারে না" (pull-out দিয়ে প্রমাণ)	7.8
mathematical induction	base case + inductive step দিয়ে সব \(n\)-এর জন্য প্রমাণ	0.1
matplotlib	Python-এর মূল plotting/গ্রাফ প্যাকেজ	0.6
matrix	সংখ্যার আয়তাকার ছক (\(m\times n\))	0.5
matrix multiplication	দুই matrix-এর গুণ; প্রতি entry = row·column dot product	0.5
maximization step (M-step)	EM-এর দ্বিতীয় ধাপ — responsibility স্থির রেখে expected complete-data log-likelihood (\(Q\)) maximize: \(\pi_k=\frac1n\sum_i\gamma_{ik}\), \(\mu_k=\frac{\sum_i\gamma_{ik}x_i}{\sum_i\gamma_{ik}}\), \(\Sigma_k\) = weighted covariance; একটা responsibility-weighted Gaussian-MLE (৪.৩-এর সম্প্রসারণ)	6.7
maximum (order statistic)	\(X_{(n)}=\max_i X_i\); CDF \([F(x)]^n\)	2.7
maximum likelihood estimation (MLE)	estimation পদ্ধতি: যে প্যারামিটার-মান observed data-কে সবচেয়ে সম্ভাব্য করে, সেটাই বেছে নেওয়া — অর্থাৎ likelihood \(L(\theta)\) (বা log-likelihood) সর্বোচ্চ করা (Figure 1)	4.3
maximum likelihood estimator	\(\hat\theta_{\text{MLE}}=\arg\max_\theta L(\theta)=\arg\max_\theta\ell(\theta)\) — likelihood-কে সর্বোচ্চকারী প্যারামিটার-মান; E1: \(\bar X\), E3: \(1/\bar X\), E4: \(\max_i X_i\)	4.3
maximum margin classifier	যে hyperplane দুই শ্রেণির নিকটতম বিন্দু থেকে সম্ভাব্য সর্বোচ্চ লম্ব-দূরত্বে (widest "street") থাকে; অসংখ্য শূন্য-ভুল boundary-র মধ্যে সবচেয়ে স্থিতিশীলটা বাছাই ⇒ ভালো generalization; SVM-এর মূল ধারণা	6.4
MCAR	Missing Completely At Random; অনুপস্থিতি সম্পূর্ণ এলোমেলো, কোনো variable-এর সাথে যুক্ত নয়	1.5
McFadden pseudo-R²	\(R^2_{\text{McF}}=1-\ell/\ell_0\); null-এর তুলনায় log-likelihood-উন্নতির আপেক্ষিক পরিমাপ (variance-ব্যাখ্যা নয়), OLS-\(R^2\)-এর চেয়ে ছোট দেখায় (এখানে \(0.489\))	5.4
MCMC	Markov Chain Monte Carlo — এমন Markov chain বানিয়ে নমুনা তোলা যার stationary distribution ঠিক কাঙ্ক্ষিত (প্রায়ই দুর্নিরূপণযোগ্য) target; chain-এর পথটাই নমুনা	3.6
MCMC (Markov chain Monte Carlo)	non-conjugate posterior থেকে নমুনা টানার পদ্ধতি (3.6); নমুনার histogram-ই আনুমানিক posterior, summaries নমুনার গড়/percentile (Figure 4, §৭ Q14)	4.10
mean	সব মানের গড় (যোগফল ÷ সংখ্যা); data-র ভারসাম্য বিন্দু	1.2
mean function	\(m(t)=\mathbb{E}[X_t]\); প্রতিটি সময়ে process-এর গড় স্তর — process-এর "কেন্দ্ররেখা"	3.5
mean lifetime (1/λ)	Exponential-এ গড় আয়ু \(\tau=1/\lambda\); invariance দিয়ে এর MLE \(\hat\tau=1/\hat\lambda=\bar X\) — কোনো নতুন গণনা ছাড়াই	4.3
mean square (MS)	\(\mathrm{MS}=\mathrm{SS}/df\) — degrees of freedom দিয়ে scale করা variation; \(\mathrm{MSB}=\mathrm{SSB}/(k-1)\), \(\mathrm{MSW}=\mathrm{SSW}/(n-k)\), প্রতিটি \(\sigma^2\)-এর estimate	5.3
mean squared error (MSE)	\(\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]\) — গড় বর্গ-ভুল; estimator-এর মান বিচারের চূড়ান্ত মাপকাঠি	4.4
mean-square convergence	\(L^p\) convergence-এর \(p=2\) রূপ; \(\mathbb{E}\lvert X_n-X\rvert^2\to 0\) (MSE \(\to 0\))	3.2
measurable function (preview)	যে function \(f\)-এ প্রতিটি Borel set-এর preimage \(f^{-1}(B)\) measurable — random variable-এর সঠিক সংজ্ঞা, যা Lebesgue integral সম্ভব করে; নির্মাণ 7.3-এ	7.1
measurable map	চিত্রণ \(f:(\Omega,\mathcal F)\to(E,\mathcal E)\) যা measurable iff প্রতিটি target-set-এর preimage source-σ-algebra-তে থাকে: \(f^{-1}(B)\in\mathcal F\) সব \(B\in\mathcal E\)-র জন্য; এতেই "\(f\) সম্পর্কে তোলা প্রশ্নের উত্তর measurable" নিশ্চিত হয়	7.3
measurable set	যে set একটা প্রদত্ত \(\sigma\)-algebra \(\mathcal F\)-এর সদস্য (তাই measure পায়); Lebesgue-এ ঠিক Carathéodory-criterion-মানা set-রা — Vitali set যেমন non-measurable, তাই বাদ	7.2
measurable space	একটা জোড়া \((\Omega,\mathcal F)\) — নমুনাক্ষেত্র \(\Omega\) ও তার উপর একটা \(\sigma\)-algebra \(\mathcal F\); যেখানে measure বসানো যায়, কিন্তু এখনো বসানো হয়নি	7.2
measure	একটা set-কে "কত বড়" (দৈর্ঘ্য/ক্ষেত্রফল/probability) তা বরাদ্দ করা function \(\mu\); অশূন্যতা, \(\mu(\varnothing)=0\) ও countable additivity মেনে চলে — দৈর্ঘ্য-ধারণার সাধারণীকরণ	7.1
measure zero / null set	এমন set \(A\) যার outer measure \(0\): যেকোনো \(\varepsilon>0\)-এ মোট দৈর্ঘ্য \(\le\varepsilon\)-এ ঢাকা যায়; \(\mathbb Q\cap[0,1]\) ও Cantor set উদাহরণ — dense বা uncountable হয়েও null	7.1
median	sorted data-র মাঝের মান (৫০তম percentile); robust location	1.2
median (continuous)	\(F(m)=0.5\); দু'পাশে সমান area	2.4
memoryless property	স্মৃতিহীন ধর্ম — \(P(X>s+t\mid X>s)=P(X>t)\); Geometric-এর স্বাক্ষর	2.3
memorylessness	\(P(X>s+t\mid X>s)=P(X>t)\); অতীত ভবিষ্যৎ বদলায় না (শুধু Exponential)	2.4
Mercer's condition	একটি \(K\)-কে valid kernel হতে হলে symmetric এবং যেকোনো বিন্দু-সেটের gram matrix \(K_{ij}=K(x_i,x_j)\) positive semi-definite (PSD) হতে হবে; এটি \(K(x,x')=\phi(x)^\top\phi(x')\) রূপে কোনো feature map \(\phi\)-এর অস্তিত্ব নিশ্চিত করে (প্রয়োজনীয় ও যথেষ্ট শর্ত)	6.4
mesokurtic	normal-সদৃশ kurtosis (excess = 0)	2.5
method of moments (MoM)	estimation পদ্ধতি: population moment-এর তাত্ত্বিক সূত্রকে নমুনা-moment-এর সমান ধরে প্যারামিটারের জন্য সমাধান করা; \(p\) প্যারামিটারে প্রথম \(p\)টা moment মেলানো হয় (Figure 1)	4.2
method selection (manifold)	কোন nonlinear পদ্ধতি — geodesic/সঠিক global unrolling চাইলে Isomap (এই manifold-এ সেরা, \(T\) ও corr \(1.000\)); local-linear যথেষ্ট হলে LLE; কেবল visualization/cluster দেখতে t-SNE/UMAP (global দূরত্ব অবিশ্বাস্য); feature-space-সাধারণীকরণে kernel PCA; মন্ত্র — local ও global দুই-ই যাচাই	6.8
Metropolis algorithm	প্রতিসম proposal-সহ MCMC: \(x'\) প্রস্তাব করো, তারপর \(\min(1,f(x')/f(x))\) সম্ভাবনায় accept করো; detailed balance নিশ্চিত করে target-ই stationary	3.6
Metropolis–Hastings	Metropolis-এর সাধারণ রূপ (asymmetric proposal \(q\)): accept-probability \(\min\!\big(1,\frac{f(x')q(x\mid x')}{f(x)q(x'\mid x)}\big)\) — proposal-এর পক্ষপাত সংশোধন করে detailed balance রাখে	3.6
MGF uniqueness	একই MGF মানে একই distribution; distribution-এর fingerprint	2.5
minimax rate	একটা estimation-সমস্যার সর্বোত্তম-সম্ভব অভিসারণ-হার — সবচেয়ে-খারাপ-ক্ষেত্রে (worst-case) ঝুঁকি ন্যূনতমকারী estimator-এর হার, যার চেয়ে ভালো কোনো পদ্ধতি করতে পারে না; প্রায়ই তথ্য-তাত্ত্বিক (Fano/Le Cam) যুক্তিতে প্রমাণিত	8.4
minimum (order statistic)	\(X_{(1)}=\min_i X_i\); CDF \(1-[1-F(x)]^n\)	2.7
Minkowski's inequality	\(\lVert f+g\rVert_p\le\lVert f\rVert_p+\lVert g\rVert_p\); ত্রিভুজ-অসমতা যা \(\lVert\cdot\rVert_p\)-কে প্রকৃত norm বানায়, Hölder দিয়ে প্রমাণিত	7.5
missing value	data-র ফাঁকা/অনুপস্থিত ঘর (NaN)	1.5
mixed-effects model	একই model-এ fixed effect (সব গোষ্ঠীতে অভিন্ন population-প্যারামিটার) ও random effect (গোষ্ঠী-ভিত্তিক, একটা distribution থেকে আসা বিচ্যুতি) মেশানো; clustered/nested data-র জন্য \(y_{ij}=\beta_0+\beta_1x_{ij}+u_j+\varepsilon_{ij}\) — "mixed" কারণ দুই ধরনের প্রভাব একসাথে	5.6
mixing	chain কত দ্রুত state-space explore করে; ভালো mixing = কম autocorrelation; খুব ছোট বা খুব বড় proposal step-এ poor mixing হয়	3.6
mixing (MCMC)	chain কত দ্রুত গোটা posterior চষে বেড়ায়; ভালো mixing = trace দ্রুত ওঠানামা করে, এক জায়গায় আটকে থাকে না (Figure 4)	4.10
mixing weight	GMM-এ component \(k\)-এর prior/জনসংখ্যা-অনুপাত \(\pi_k\ge0\), \(\sum_k\pi_k=1\); M-step-এ \(\pi_k=\frac1n\sum_i\gamma_{ik}\) (effective count-এর ভগ্নাংশ)। canonical আনুমানিক \([0.405,0.349,0.246]\) (প্রকৃত \([0.40,0.35,0.25]\))	6.7
mixture model	density-কে কয়েকটা সরল distribution-এর ওজনিত যোগফল হিসেবে লেখা — \(p(x)=\sum_k\pi_k\,p_k(x)\); প্রতিটি component একটা subpopulation, \(\pi_k\) তার অনুপাত। latent component-label সহ একটা generative model	6.7
ML vs REML	সাধারণ ML variance-কে biased-low দেয় (df-খরচ উপেক্ষা); REML unbiased। নিয়ম: ভিন্ন fixed-structure তুলনা (likelihood-ratio) করতে ML (REML-likelihood fixed-নির্ভর, তুলনাযোগ্য নয়), ভিন্ন variance/random-structure তুলনায় REML	5.6
MLE variance estimator \(\hat\sigma^2\)	\(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2=\frac{n-1}{n}S^2\) — biased low (bias \(=-\sigma^2/n\)) কিন্তু consistent; ছোট \(n\)-এ প্রায়ই কম MSE	4.4
MLE vs MoM	দুই estimation-নীতি: MLE data-কে সবচেয়ে সম্ভাব্য করে, MoM moment মেলায়; কখনো একই (Exp: দুটোই \(1/\bar X\)), কখনো ভিন্ন (Uniform: \(\max\) বনাম \(2\bar X\)); MLE প্রায়ই বেশি efficient ও সর্বদা বৈধ (Figure 3, 4)	4.3
MLE-based confidence interval	বড় নমুনায় MLE \(\hat\theta\approx\mathcal{N}(\theta,\widehat{\mathrm{se}}^2)\) ব্যবহার করে Wald CI; proportion-CI এর বিশেষ ঘটনা (E4)	4.6
modality	distribution-এ স্থানীয় শৃঙ্গের (peak) সংখ্যা	1.3
mode	data-য় সবচেয়ে বেশিবার আসা মান	1.2
mode (continuous)	density curve-এর সর্বোচ্চ বিন্দু (শৃঙ্গ)	2.4
model card	model-এর সৎ সারপত্র — উদ্দেশ্য, ব্যবহৃত data, uncertainty-সহ performance (AUC \(\approx0.99\pm0.008\)), এবং limitation (perfect separation, single-center data, class imbalance, বাইরের population-এ generalization প্রশ্নবিদ্ধ) স্পষ্টভাবে নথিভুক্ত করা	8.1
model selection	কয়েকটি প্রতিদ্বন্দ্বী মডেল থেকে "সেরা" বাছার প্রক্রিয়া; মাপকাঠি — adjusted \(R^2\), AIC, BIC, বা cross-validation; কাঁচা \(R^2\) অযোগ্য কারণ তা predictor যোগে কখনো কমে না	5.2
modulus bound	\(\lvert\varphi_X(t)\rvert\le\varphi_X(0)=1\) প্রতিটি \(t\)-তে; যেহেতু \(\lvert e^{itX}\rvert=1\), ত্রিভুজ-অসমতার integral-রূপে \(\lvert\mathbb E[e^{itX}]\rvert\le\mathbb E\lvert e^{itX}\rvert=1\) — \(\varphi\) unit disk-এ আবদ্ধ	7.10
MoM estimator	moment equations সমাধান করে পাওয়া estimator \(\hat\theta_{\text{MoM}}\); E2: \(1/\bar X\), E3: \(2\bar X\), E1 Normal: \((\bar X,\ \frac1n\sum(X_i-\bar X)^2)\)	4.2
moment	distribution-আকৃতির পরিমাপক; \(\mathbb{E}[X^k]\)-ভিত্তিক	2.5
moment equations	MoM-এর কেন্দ্রীয় সমীকরণ-সেট \(\mu_k'(\theta)=\hat\mu_k'\) (\(k=1,\dots,p\)); এগুলো \(\theta\)-এর জন্য সমাধান করে \(\hat\theta_{\text{MoM}}\) পাওয়া যায়	4.2
moment factory	MGF-এর ডাকনাম; \(M^{(k)}(0)=\mathbb{E}[X^k]\)	2.5
moment generating function (MGF)	\(M_X(t)=\mathbb E[e^{tX}]\); বিদ্যমান হলে distribution অনন্যভাবে নির্ধারণ করে, CLT-র একটা স্বচ্ছ প্রমাণে ব্যবহৃত	3.4
moment matching	sample moment ও population moment-কে সমান করার ক্রিয়া — MoM-এর সারমর্ম; যে moment মেলানো হয় শুধু সেটাই হুবহু মেলে (Figure 1)	4.2
moment-generating function	MGF: \(M_X(t)=\mathbb{E}[e^{tX}]\); moment ও sum-এ কাজে লাগে	2.5
moments from derivatives	\(\mathbb E\lvert X\rvert^k<\infty\Rightarrow\varphi\in C^k\) ও \(\varphi^{(k)}(0)=i^k\mathbb E[X^k]\); বিশেষত \(\varphi'(0)=i\mathbb E[X]\) এবং \(\varphi''(0)=-\mathbb E[X^2]\) (চিহ্ন \(i^2=-1\) থেকে) — \(\varphi\)-এর \(0\)-আচরণ moment ধরে	7.10
monotone / dominated convergence (preview)	MCT/DCT — শর্তসাপেক্ষে \(\lim\int f_n=\int\lim f_n\) অনুমতি দেয়; moving-spike-এ (C4) integrable dominating function না থাকায় swap ব্যর্থ, পূর্ণ বিবৃতি 7.4-এ	7.1
Monotone Convergence Theorem	MCT; \(0\le f_n\uparrow f\Rightarrow\int f_n\uparrow\int f\) — limit ও integral অদলবদল, এই অধ্যায়ের ভিত্তিপ্রস্তর	7.4
monotone function	কঠোরভাবে বাড়ন্ত বা হ্রাসমান function (invertible)	2.7
monotonic relationship	একমুখী সম্পর্ক (\(x\) বাড়লে \(y\) সবসময় বাড়ে/কমে), বাঁকা হলেও	1.4
monotonicity	\(A\subseteq B \Rightarrow P(A)\le P(B)\)	2.1
monotonicity of conditional expectation	\(X\le Y\) a.s. \(\Rightarrow\mathbb E[X\mid\mathcal G]\le\mathbb E[Y\mid\mathcal G]\) a.s.; বিশেষে \(X\ge0\Rightarrow\mathbb E[X\mid\mathcal G]\ge0\) — conditional Jensen ও convergence theorem-এর ভিত্তি	7.7
monotonicity of integral	\(f\le g\) (প্রায় সর্বত্র) \(\Rightarrow\int f\,d\mu\le\int g\,d\mu\); Fatou ও বহু সীমা-যুক্তির মৌলিক হাতিয়ার	7.4
Monte Carlo	random নমুনা টেনে কোনো প্রত্যাশা/integral আনুমান করার পদ্ধতি; নমুনা স্বাধীন হলে সরল Monte Carlo	3.6
Monte Carlo integration	\(\int g\,dF\approx\frac1n\sum g(X_i)\); high-dimensional integral-এ প্রধান কৌশল	3.3
Monte Carlo method	random নমুনার গড় দিয়ে integral/expectation আনুমান: \(\frac1n\sum g(X_i)\to\mathbb E[g(X)]\); LLN-নির্ভর	3.3
Monte Carlo simulation	random নমুনা দিয়ে probability/expectation আনুমানিক করার কৌশল	2.7
Monte-Carlo error	সসীম \(B\) (বা \(P\)) ব্যবহারে resampling-আঁচে অবশিষ্ট এলোমেলোতা; \(B\) বাড়ালে কমে, প্রকৃত লক্ষ্য-রাশি বদলায় না (Figure 1)	4.9
Monte-Carlo estimate of measure	uniform নমুনার set-এ পড়া ভগ্নাংশ দিয়ে \(\lambda(A)\) আনুমান: \(\lambda([0,0.3]\cup[0.5,0.9])\approx0.7003\) (\(N=10^6\), seed `default_rng(20260619)`, সত্য \(0.7\))	7.1
Monte-Carlo simulation	বহু কৃত্রিম নমুনা তৈরি করে (repeated random draws) কোনো statistic-এর আচরণ বা সীমাকে সংখ্যায় আনুমান করার পদ্ধতি; তত্ত্ব ও কোড—দুটোই একসঙ্গে যাচাইয়ের যন্ত্র, যেখানে জানা তাত্ত্বিক ফল সিমুলেশনে পুনরুৎপাদন করে বিশ্বাসযোগ্যতা প্রতিষ্ঠা করা হয়	8.2
Monte-Carlo standard error	সিমুলেশন-আনুমানের নিজস্ব অনিশ্চয়তা, যা তত্ত্ব নয় বরং সীমিত \(R\) থেকে আসে; গড়ের জন্য \(\approx s/\sqrt R\), অনুপাতের জন্য \(\sqrt{p(1-p)/R}\) (E2-তে coverage \(0.9130\), \(R=2000\) \(\Rightarrow\) MC SE \(0.0063\)); ফলের সঙ্গে এটি রিপোর্ট করা আবশ্যক	8.2
mosaic plot	contingency table-এর চিত্র, যেখানে টালির ক্ষেত্রফল যৌথ অনুপাতের সমানুপাতিক	1.4
most powerful test	প্রদত্ত \(\alpha\)-তে সর্বোচ্চ power-ওয়ালা test; NP lemma অনুসারে LRT (Figure 3-এর সর্বোচ্চ সম্ভাব্য curve)	4.7
moving spike	\(f_n=n\,\mathbf 1_{(0,1/n)}\); \(f_n\to0\) পয়েন্টওয়াইজ অথচ \(\int f_n=1\) — DCT-এর dominator প্রকল্প ও Fatou-এর কঠোরতা দেখানোর কেন্দ্রীয় প্রতি-উদাহরণ	7.4
multicollinearity	দুটি predictor variable-এর মধ্যে খুব জোরালো correlation (প্রায় একই তথ্য বহন)	1.5
multidimensional scaling (MDS)	শুধু জোড়া-দূরত্ব থেকে নিম্ন-মাত্রিক স্থানাঙ্ক পুনরুদ্ধারের পদ্ধতি: squared-distance \(\Delta\)-তে double-centering করে Gram \(B=-\tfrac12 H\Delta H\), তার শীর্ষ-\(d\) eigenvector embedding দেয়; Euclidean দূরত্বে MDS \(=\) PCA, শক্তি — যেকোনো দূরত্ব-matrix নিতে পারা	6.8
multinomial coefficient	\(n\)টি জিনিসকে \(r\) দলে ভাগের উপায় \(n!/(k_1!\cdots k_r!)\)	0.2
multiple comparisons problem	একসাথে অনেক জোড়া-test চালালে family-wise error জমে বাড়ে — ANOVA একটি global \(F\) দিয়ে তা এড়ায়	5.3
multiple linear regression	একাধিক predictor-এর regression, \(\hat y=\beta_0+\beta_1 x_1+\dots+\beta_{p-1}x_{p-1}\)	5.1
multiplication principle	পরপর ধাপের ("and") option সংখ্যাকে গুণ করে মোট উপায় গোনা	0.2
multiplication rule	joint probability \(P(A\cap B)=P(B)P(A\mid B)\)	2.2
multiplication rule (density)	\(f_{X,Y}(x,y)=f_{Y\mid X}(y\mid x)\,f_X(x)\)	2.6
mutual vs pairwise independence	পারস্পরিক (mutual): প্রতিটি উপসেটে \(\mathbb P(\bigcap_{i\in I}A_i)=\prod_{i\in I}\mathbb P(A_i)\); জোড়ায় (pairwise): কেবল সব জোড়ায় — pairwise থেকে mutual আসে না (XOR-coin প্রতিউদাহরণ)	7.6
mutually exclusive	দুই event একসাথে ঘটতে পারে না; \(A\cap B=\varnothing\) (disjoint)	2.1
mutually singular	\(\nu\perp\mu\): \(\Omega\)-কে দুই ভাগে ভাঙা যায় যাতে একটিতে \(\mu\), অন্যটিতে \(\nu\) পুরো ভর রাখে (পরস্পর-বিচ্ছিন্ন support)	7.5
\(n\)-step transition	\((P^n)_{ij}\) — ঠিক \(n\) ধাপে \(i\) থেকে \(j\)-তে পৌঁছানোর সম্ভাবনা; \(n\)-ধাপ transition matrix হলো ম্যাট্রিক্স-ঘাত \(P^n\)	3.6
n_estimators	ensemble-এ গাছের সংখ্যা \(B\); বাড়ালে gain দ্রুত উঠে floor-এ স্যাচুরেট করে, কখনো overfit করায় না (variance↓ বা স্থির, bias প্রায় অপরিবর্তিত)। canonical RF: \(1\to0.711\), \(5\to0.806\), \(25\to0.844\), \(300\to0.839\)	6.5
Nadaraya–Watson estimator	সরলতম kernel regression: \(\hat f(x)=\dfrac{\sum_i K_h(x-x_i)\,y_i}{\sum_i K_h(x-x_i)}=\sum_i w_i(x)y_i\) — \(y\)-গুলোর স্থানীয় weighted average (\(\sum_i w_i(x)=1\)); box kernel-এ এটি local mean (window-গড়)	5.7
Naive Bayes	generative classifier যা conditional independence ধরে: \(P(x\mid y)=\prod_j P(x_j\mid y)\); উচ্চ-মাত্রায়ও অল্প parameter (low variance); feature correlated হলে biased কিন্তু \(\arg\max\) ঠিক থাকায় তবু কার্যকর; GaussianNB প্রতিটি \(P(x_j\mid y)\)-কে Gaussian ধরে; canonical \(0.904\)	6.3
natural cubic spline	cubic regression spline যাতে দুই প্রান্তের বাইরে \(f\) রৈখিক (\(f''=0\) boundary-তে); এই শর্ত প্রান্তের উচ্চ-ঘাত ওঠানামা বন্ধ করে boundary-variance কমায়; একই knot-এ সাধারণ cubic spline-এর চেয়ে কম effective df; smoothing spline-এর সমাধান-শ্রেণি	5.7
natural filtration	একটা প্রক্রিয়ার নিজের তৈরি filtration \(\mathcal F_n=\sigma(X_0,\dots,X_n)\) — "এ-পর্যন্ত দেখা সব \(X\)-এর তথ্য"; স্বয়ংক্রিয়ভাবে বর্ধমান, আর এতে \((X_n)\) আপনাআপনি adapted	7.8
negation	\(\neg P\): "not \(P\)"	0.1
Negative Binomial distribution	\(r\)-তম success পেতে trial-সংখ্যা; mean \(r/p\); overdispersed count	2.3
negative binomial regression	overdispersion-প্রতিকার: variance \(\operatorname{Var}=\mu+\alpha\mu^2\) (quadratic), Gamma-mixed Poisson; full likelihood ⇒ AIC তুলনাযোগ্য; \(\alpha\to0\)-তে Poisson-এ ফেরে; উদাহরণে \(\alpha=0.179\), AIC \(1753.3\) (Poisson \(2237.9\), \(\Delta\approx485\))	5.5
negative part	\(f^-=\max(-f,0)\); ফাংশনের ঋণাত্মক অংশের অঋণাত্মক রূপ, \(\lvert f\rvert=f^++f^-\)	7.4
neighbor graph	প্রতিটি বিন্দুকে তার \(k\) নিকটতম প্রতিবেশীর সাথে edge দিয়ে জোড়া graph (edge-ওজন = local Euclidean দূরত্ব); Isomap-এ geodesic-আনুমানের ভিত্তি (shortest path), LLE/t-SNE-তে local গঠনের ভিত্তি; ৬.৭-এর kNN/দূরত্বের উপর দাঁড়ায়	6.8
nested models	একটি মডেল অন্যটির predictor-সেটের উপসেট; nested হলে SSE-তুলনা (partial \(F\)) বৈধ, এবং বড় মডেলের SSE কখনো ছোটটির চেয়ে বেশি নয়	5.2
Newton–Raphson (logistic)	\(\beta^{(t+1)}=\beta^{(t)}+(X^\top WX)^{-1}X^\top(y-p)\); Hessian \(-X^\top WX\) ব্যবহার করে iteratively MLE-তে converge (৪.৩)	5.4
Neyman–Pearson lemma	simple-vs-simple-এ most powerful level-\(\alpha\) test হলো likelihood-ratio test: reject if \(\Lambda=L(\theta_1)/L(\theta_0)>k\) (E4, §৭ Q11)	4.7
no pooling	প্রতিটা গোষ্ঠীর সম্পূর্ণ আলাদা স্বাধীন regression (\(J\)টা পৃথক intercept, শেয়ার নেই); ছোট গোষ্ঠীতে (\(n_j=10\)) noisy/overfit estimate, চরম মান বেরিয়ে আসে	5.6
no-free-lunch theorem	সব সম্ভাব্য problem-এর উপর গড়ে কোনো learner অন্যকে হারাতে পারে না; তাই কোনো universal-শ্রেষ্ঠ algorithm নেই — generalization-এর জন্য problem সম্পর্কে অনুমান (inductive bias) অপরিহার্য	6.1
nominal	ক্রমহীন categorical data (রং, শহর); "বড়/ছোট" অর্থহীন	1.1
non-asymptotic bound	নির্দিষ্ট সসীম \(n\)-এর জন্য বৈধ bound (limit ছাড়াই); finite-sample গ্যারান্টি	3.1
non-measurable set	যে set-কে কোনো সুসংগত translation-invariant, countably-additive measure দেওয়াই যায় না (যেমন Vitali \(V\)); এদের বাদ দিতেই domain-কে \(\sigma\)-algebra-তে সীমিত করা হয়	7.1
non-negativity (Axiom 1)	\(P(A)\ge 0\)	2.1
nonlinear dimensionality reduction	উচ্চ-মাত্রিক data-কে অল্প-মাত্রায় (\(d\ll D\)) নামানোর অরৈখিক কৌশল, যা বাঁকা manifold-গঠন রক্ষা করে — linear PCA-র (৫.৯) সীমা পেরিয়ে; canonical swiss roll-এ PCA ব্যর্থ (\(\lvert\text{corr}\rvert=0.165\)), Isomap সফল (\(1.000\))	6.8
nonnegative supermartingale convergence	\(X_n\ge0\) supermartingale স্বয়ংক্রিয়ভাবে \(L^1\)-bounded (\(\mathbb E\lvert X_n\rvert=\mathbb E[X_n]\le\mathbb E[X_0]\)), তাই a.s. একটা \(X_\infty\)-এ অভিসারী, \(\mathbb E[X_\infty]\le\mathbb E[X_0]\) (Fatou); branching/density-প্রয়োগের কর্মঘোড়া	7.9
nonparametric regression	\(f\)-এর কোনো নির্দিষ্ট সসীম-মাত্রিক রূপ আগে থেকে না বেঁধে data থেকেই \(\mathbb E[y\mid x]=f(x)\)-এর আকার শেখা; কার্যকর parameter-সংখ্যা \(n\)-এর সাথে বাড়তে পারে — নমনীয় কিন্তু বেশি data দরকার ও convergence ধীর; চলমান উদাহরণে \(\sin(2\pi x)\)-কে সরলরেখা (\(R^2=0.510\))-র বদলে kernel/spline দিয়ে ধরা	5.7
Normal distribution	ঘণ্টা-আকৃতি \(\mathcal{N}(\mu,\sigma^2)\); \(f=\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2}\)	2.4
normal equations	OLS minimization-এর শর্ত \(X^\top X\hat\beta=X^\top y\)	5.1
Normal Fisher information (mean)	\(I(\mu)=\frac{1}{\sigma^2}\) (E2); ছোট \(\sigma\) = তীক্ষ্ণ likelihood = বেশি তথ্য; \(\bar X\) এতে efficient	4.5
normalization	density-র মোট area \(=1\) করার শর্ত \(\int f = 1\)	0.4
normalization (Axiom 2)	\(P(\Omega)=1\)	2.1
normalizing constant	\(Z=\int f\) যা \(\pi=f/Z\) বানায়; MCMC accept-অনুপাতে \(Z\) কাটাকাটি হয়ে যায়, তাই un-normalized \(f\) জানলেই sampler চলে (Bayesian computation-এ চাবি)	3.6
Normal–Normal	conjugate জোড়া (\(\sigma^2\) জানা): posterior precision \(=\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\) (যোগ হয়), mean = prior-mean ও sample-mean-এর precision-ভারিত গড় (E2; §৭ Q7, Q10)	4.10
novelty detection	semi-supervised anomaly: training set ধরা হয় পুরো-স্বাভাবিক/পরিষ্কার, model স্বাভাবিকতার সীমানা শেখে, তারপর নতুন বিন্দু সেই সীমানার বাইরে পড়লে novelty বলে; outlier detection-এর বিপরীত (যেখানে training-এই দূষণ মিশে থাকে)	6.9
null hypothesis \(H_0\)	"কিছু বদলায়নি"/status-quo দাবি (যেমন \(\mu=\mu_0\)) যা চ্যালেঞ্জ করা হয়; test-এর সব হিসাব \(H_0\) সত্যি ধরে শুরু হয় (Figure 1)	4.7
null set	measure-শূন্য set: \(\mu(N)=0\); Lebesgue-এ \(\mathbb Q\cap[0,1]\) ও Cantor set null (dense বা uncountable হয়েও), আর complete measure-এ এদের সব subset-ও measurable	7.2
number of replications \(B\)	কতবার bootstrap resample করা হয় (\(B=1000\)–\(10000\)); বড় \(B\) histogram মসৃণ করে, কিন্তু \(\widehat{\mathrm{se}}\)-এর প্রকৃত মান বদলায় না (data ও \(n\)-নির্ভর) (Figure 1)	4.9
numeric integration	সংখ্যাগতভাবে integral-এর আনুমানিক মান (যেমন scipy quad)	0.4
numeric variable	সংখ্যাগত (quantitative) variable, যার উপর অর্থপূর্ণ গাণিতিক কাজ করা যায়	1.1
NumPy	দ্রুত সংখ্যাগত গণনার Python প্যাকেজ (array-ভিত্তিক)	0.6
observation	একটি একক পর্যবেক্ষণ; DataFrame-এর একটি row (= একটি unit)	1.1
observed count \(O_i\)	\(i\)-তম category-তে data থেকে পাওয়া সত্যিকারের গণনা (Figure 3)	4.8
observed vs expected information	observed \(=-\ell''(\hat\theta)\) (data থেকে সরাসরি), expected \(I(\theta)=-\mathbb{E}[\ell'']\) (গড়); দুটোই log-likelihood-এর তীক্ষ্ণতা মাপে	4.5
odds	event ঘটা বনাম না-ঘটার অনুপাত \(\frac{p}{1-p}\); logistic-এ \(\text{odds}=e^{\eta}=e^{x^\top\beta}\) (যেমন \(p=0.79\Rightarrow\) odds \(\approx3.76\))	5.4
odds ratio	predictor \(1\) একক বাড়লে odds যত গুণ হয়: \(e^{\hat\beta_j}\) (বাকি স্থির); \(>1\) positive, \(=1\) নিরপেক্ষ, \(<1\) negative প্রভাব (hours: \(e^{0.9224}=2.515\))	5.4
offset / exposure	observation-ভেদে exposure \(t_i\) ভিন্ন হলে rate model করতে \(\log\mu_i=\log t_i+x_i^\top\beta\), যেখানে \(\log t_i\) coefficient \(1\)-এ স্থির (offset) ⇒ \(\log(\mu_i/t_i)=x^\top\beta\); exposure দ্বিগুণ ⇒ count দ্বিগুণ	5.5
OLS estimator	normal equation-এর সমাধান \(\hat\beta=(X^\top X)^{-1}X^\top y\)	5.1
One-Class SVM	boundary-ভিত্তিক anomaly detector: kernel (RBF) দিয়ে স্বাভাবিক data-র চারপাশে একটা শক্ত সীমানা শেখে, বাইরে পড়া বিন্দুকে anomaly বলে; \(\nu\) outlier-ভগ্নাংশ নিয়ন্ত্রণ করে; canonical AUC \(0.941\) (এই ring-গঠনে boundary-পরিবার সামান্য পিছিয়ে)	6.9
one-sided vs two-sided test	\(H_1:\mu>\mu_0\)/\(\mu<\mu_0\) (এক লেজ) বনাম \(H_1:\mu\neq\mu_0\) (দুই লেজ); two-sided p-value দুই লেজের যোগফল (Figure 2)	4.7
one-standard-error rule	CV-min-এর বেশি রক্ষণশীল রূপ: threshold \(=\text{CV}_{\min}+\text{SE}_{\min}\) বানিয়ে তার নিচে থাকা সবচেয়ে সরল model বাছা; যুক্তি — এক SE-এর মধ্যের model-গুলো পরিসংখ্যানগতভাবে সমান-ভালো, তাই parsimony (Occam) মেনে সরলতমটি; চলমান উদাহরণে threshold \(\approx11.0\) → \(d{=}3\)	5.8
one-way ANOVA	একটিমাত্র categorical factor (যেমন fertilizer-এর ধরন) দিয়ে group-গড় তুলনা; \(H_0:\mu_1=\dots=\mu_k\), test \(F=\mathrm{MSB}/\mathrm{MSW}\sim F_{k-1,\,n-k}\)	5.3
online learning	data এক-এক করে স্রোতে এলে model incremental আপডেট: \(\theta_{t+1}=\theta_t-\eta_t\nabla\ell_t(\theta_t)\) (online/stochastic GD); সুবিধা — সব data একসাথে মেমরিতে লাগে না, ও concept drift-এ নিজে মানিয়ে নেয়; গুণমান regret দিয়ে মাপা	6.9
open science	ফল-প্রকাশের সাথে ডেটা, কোড ও পদ্ধতি উন্মুক্ত করা, যাতে অন্যরা যাচাই ও গড়তে পারে; reproducibility-র সামাজিক রূপ — এই curriculum নিজেই (master seed 20260619, চালানো-যায় কোড, canonical সংখ্যা) এর একটা জীবন্ত উদাহরণ	8.4
optimism of training error	একই data-তে fit-করে-error-মাপায় train error test error-কে যতটা কম দেখায় তার পরিমাণ; linear smoother-এ ঠিক \(\text{op}=\frac{2\sigma^2\operatorname{df}}{n}\) (\(\operatorname{df}=\operatorname{tr}(S)\)) — complexity-র সমানুপাতী, এটিই AIC/\(C_p\)-র "\(+2\operatorname{df}\)"-penalty-র উৎস; চলমান উদাহরণে \(d{=}3\)-এ \(\approx0.6\)	5.8
optimism penalty (\(C_p\) / AIC link)	train-fit-কে complexity-penalty দিয়ে সংশোধন করে test error আন্দাজ: \(\text{Err}_{\text{in}}\approx\overline{\text{err}}+\frac{2\sigma^2\operatorname{df}}{n}\) (Mallows' \(C_p\), AIC-এর "\(+2\operatorname{df}\)"); CV একই লক্ষ্য সরাসরি (likelihood/\(\operatorname{df}\) ছাড়া) অর্জন করে — ৫.২-এর AIC/BIC-র সাথে যোগসূত্র	5.8
optimization	function-এর সর্বোচ্চ/সর্বনিম্ন মান ও অবস্থান খোঁজা	0.3
optional sampling	optional stopping-এর সাধারণ রূপ — দুই stopping time \(\sigma\le\tau\)-তে \(\mathbb E[X_\tau\mid\mathcal F_\sigma]=X_\sigma\); "ন্যায্যতা যেকোনো (নিয়মমাফিক) নমুনায়ন-সময়েও টেকে"	7.8
optional stopping theorem (Doob)	martingale ও stopping time \(\tau\)-তে \(\mathbb E[X_\tau]=\mathbb E[X_0]\) — যদি (ক) \(\tau\) bounded, (খ) \(X\) bounded, বা (গ) \(\mathbb E[\tau]<\infty\) ও bounded increments; প্রতিটি শর্ত \(n\to\infty\)-সীমা-বিনিময় (DCT/MCT) বৈধ করে	7.8
order statistic / sample maximum	\(X_{(n)}=\max_i X_i\) — Uniform\((0,\theta)\)-এ MLE; এর variance \(\sim\theta^2/n^2\), MoM-এর \(2\bar X\)-এর (\(\sim\theta^2/n\)) চেয়ে অনেক ছোট	4.2
order statistics	ছোট থেকে বড় সাজানো observation x₍₁₎ ≤ … ≤ x₍ₙ₎	1.2
ordered pair	ক্রমিক জোড়া \((a,b)\); প্রথম-দ্বিতীয় অবস্থান গুরুত্বপূর্ণ	0.1
ordinal	ক্রমযুক্ত categorical data যেখানে ব্যবধান অর্থপূর্ণ নয় (Low < Medium < High)	1.1
ordinary least squares (OLS)	residual sum of squares \(\lVert y-X\beta\rVert^2\) minimize করে \(\hat\beta\) বাছার পদ্ধতি	5.1
orthogonal	পরস্পর লম্ব; dot product শূন্য	0.5
orthogonal increments	\(j<k\)-এ \(\mathbb E[d_jd_k]=0\) (\(d_k=X_k-X_{k-1}\), pull-out + martingale-ধর্ম); Pythagoras দিয়ে \(L^2\)-অভিসরণ ও SGD/SLLN-অভিসরণের ভিত্তি	7.9
orthogonality	\(f\perp g\iff\langle f,g\rangle=0\); "লম্ব" ফাংশন, statistics-এ কেন্দ্রিত random variable-দের uncorrelatedness	7.5
orthonormal basis	পরস্পর-লম্ব ও একক-norm ফাংশনের সম্পূর্ণ সংগ্রহ \(\{e_k\}\) (\(\langle e_i,e_j\rangle=\delta_{ij}\)); \(f=\sum_k\langle f,e_k\rangle e_k\) (Fourier-সম্প্রসারণ)	7.5
out-of-bag (OOB)	একটা bootstrap resample-এ যে মূল বিন্দুগুলো একবারও আসেনি; বড় \(n\)-এ প্রায় \(e^{-1}\approx36.8\%\) বিন্দু OOB (§৭ Q10)	4.9
out-of-bag (OOB) error	প্রতিটি bootstrap-গাছে বাদ-পড়া (\(\approx37\%\), \((1-\frac1n)^n\to e^{-1}\approx0.368\)) বিন্দুদের উপর prediction থেকে পাওয়া বিনামূল্যের, প্রায়-unbiased generalization-error — আলাদা validation set/CV ছাড়াই। canonical OOB \(0.848\) ≈ test \(0.839\)	6.5
outcome	random experiment-এর একটি একক সম্ভাব্য ফলাফল \(\omega\)	2.1
outer measure	যেকোনো set \(A\)-কে গণনাযোগ্য open-interval দিয়ে ঢেকে মোট দৈর্ঘ্যের infimum: \(\lambda^*(A)=\inf\big\{\sum_k\ell(I_k):A\subseteq\bigcup_k I_k\big\}\); "ঢেকে মাপা" — null set-এর হাতিয়ার	7.1
outlier	বাকি data থেকে অস্বাভাবিকভাবে দূরে থাকা মান	1.2
overdispersion	data-তে variance \(>\) mean (Poisson যা ধরে তার চেয়ে বেশি spread); unobserved heterogeneity/clustering থেকে আসে; উদাহরণে count mean \(19.56\), var \(205\) (var/mean \(\approx10.5\))	5.5
overfitting	model training-data-র random noise-কেও signal ভেবে fit করা; লক্ষণ — train error খুব ছোট (এমনকি \(<\sigma^2\)) কিন্তু CV/test error বড়; চলমান উদাহরণে \(d{=}10\) (train \(9.12<9\), CV \(10.90\)); CV/one-SE rule এর বিরুদ্ধে রক্ষাকবচ	5.8
overplotting	বহু বিন্দু একে অপরের উপর জমে scatterplot অপাঠ্য হয়ে যাওয়া	1.4
oversmoothing / undersmoothing	oversmoothing — অতি-বড় \(h\)/\(\lambda\) (বা অতি-ছোট df): চূড়া-খাঁজ চাপা পড়ে, high bias; undersmoothing — অতি-ছোট \(h\)/\(\lambda\) (বা অতি-বড় df): noise-ও fit হয়, কাঁপা, high variance; চলমান উদাহরণে \(h=0.40\) oversmooth (\(0.2865\)), \(h=0.02\) undersmooth-প্রবণ	5.7
p-value	\(P(\text{observed-এর চেয়ে অন্তত ততটা চরম ফল}\mid H_0\text{ সত্যি})\) — null-এর নিচে একটা লেজের ক্ষেত্রফল; ছোট p = data বিস্ময়কর (Figure 2)	4.7
p-value (as tail area)	shuffle/permutation-গুলোর কত ভাগ observed-এর মতো বা বেশি চরম; p-value-এর সবচেয়ে স্বচ্ছ, সূত্রহীন রূপ (Figure 4, §৭ Q8)	4.9
p-value uniformity under \(H_0\)	continuous statistic-এ \(H_0\) সত্যি হলে p-value \(\sim\text{Uniform}(0,1)\); তাই \(p\le\alpha\) নিয়ম ঠিক \(\alpha\) type I error দেয় (§৭ Q10)	4.7
PAC learning	Probably Approximately Correct — শেখার আনুষ্ঠানিক কাঠামো: \(1-\delta\) probability-তে (\(\delta\)=confidence) gap \(\le\epsilon\) (\(\epsilon\)=accuracy); finite-sample, distribution-free গ্যারান্টি, concentration inequality (3.1) থেকে উদ্ভূত	6.1
pairwise affinities \(p_{ij}, q_{ij}\)	t-SNE-তে দুই বিন্দু "প্রতিবেশী" হওয়ার সম্ভাবনা: high-D-তে \(p_{ij}\) (Gaussian), low-D-তে \(q_{ij}\) (Student-\(t\), \(q_{ij}\propto(1+\lVert y_i-y_j\rVert^2)^{-1}\)); t-SNE চায় \(q_{ij}\) যেন \(p_{ij}\)-র মতো হয় (high-D প্রতিবেশ-গঠন low-D-তে প্রতিফলিত)	6.8
pandas	tabular data বিশ্লেষণের Python প্যাকেজ (Series/DataFrame)	0.6
parallelogram law	\(\lVert f+g\rVert^2+\lVert f-g\rVert^2=2\lVert f\rVert^2+2\lVert g\rVert^2\); ঠিক যে norm-শর্ত একটি inner product জন্ম দেয় — কেবল \(p=2\)-তে সত্য	7.5
parameter	population-এর fixed কিন্তু সাধারণত unknown সাংখ্যিক বৈশিষ্ট্য (\(\mu, \sigma, p\); Greek অক্ষর)	1.1
parsimony	"যত কম predictor-এ যথেষ্ট ব্যাখ্যা, তত ভালো" নীতি (Occam's razor); BIC/adjusted \(R^2\) এই নীতিকে complexity-penalty দিয়ে আনুষ্ঠানিক করে	5.2
partial derivative	একটি variable নিয়ে derivative, বাকিগুলো ধ্রুবক	0.3
partial effect	অন্য সব predictor স্থির রেখে একটি predictor-এর coefficient-এর অর্থ (multiple regression)	5.1
partial F-test	দুটি nested মডেলের তুলনা — অতিরিক্ত predictor-গুচ্ছ যৌথভাবে SSE যথেষ্ট কমায় কিনা; \(F=\dfrac{(\text{SSE}_{\text{small}}-\text{SSE}_{\text{big}})/q}{\text{SSE}_{\text{big}}/(n-p)}\)	5.2
partial pooling	mixed model-এর আপস: complete- ও no-pooling-এর মাঝামাঝি; প্রতিটা গোষ্ঠীর estimate-কে \(\lambda_j\) অনুযায়ী গ্র্যান্ড-গড়ের দিকে shrink করে তথ্য গোষ্ঠী-জুড়ে "ধার" করা; no-pooling-এর চেয়ে কম variance, complete-pooling-এর চেয়ে কম bias	5.6
partition	\(\Omega\)-কে ঢাকা বিচ্ছিন্ন event-গুচ্ছ \(B_1,\dots,B_n\)	2.2
Pascal's triangle	\(\binom{n}{k}\)-এর ত্রিভুজাকার বিন্যাস; প্রতি ঘর উপরের দুই ঘরের যোগফল	0.2
path length (Isolation Forest)	একটি বিন্দুকে isolation-গাছে একা পাতায় আলাদা করতে যত random split লাগে, \(h(x)\); anomaly বিরল/বিচ্ছিন্ন বলে ছোট \(h\), inlier ঘন-গুচ্ছে বড় \(h\); normalizer \(c(n)\) সহ score \(s(x)=2^{-\mathbb E[h]/c(n)}\)	6.9
Pearson chi-square	goodness-of-fit ও dispersion পরিমাপ \(\chi^2=\sum_i\dfrac{(y_i-\hat\mu_i)^2}{\hat\mu_i}\) (Poisson-এ variance \(=\mu\) বলে হরে \(\hat\mu_i\)); উদাহরণে \(1096.3\), \(df=247\)	5.5
Pearson chi-square statistic	\(\chi^2=\sum_i\dfrac{(O_i-E_i)^2}{E_i}\) — observed বনাম expected-এর scaled squared mismatch-এর যোগ; বড় হলে \(H_0\) খারিজ (Figure 3)	4.8
Pearson correlation coefficient	covariance-কে standardize করা একক-মুক্ত সংখ্যা \(r=\operatorname{cov}/(s_x s_y)\), পরিসর \([-1,1]\)	1.4
penalized regression	regularized regression-এর সাধারণ নাম — OLS objective \(\lVert y-X\beta\rVert_2^2\)-এ একটি penalty পদ যোগ করা মডেল (ridge, lasso, elastic net সবই এর বিশেষ রূপ)	6.2
penalty / roughness penalty	smoothing criterion-এর দ্বিতীয় পদ \(\lambda\int(f''(t))^2dt\) — \(f\)-এর মোট বক্রতা (roughness) শাস্তি দেয়; \(f''\) বড় = তীক্ষ্ণ বাঁক, \(f''=0\) = সরলরেখা; ০.৩-এর দ্বিতীয় অন্তরকলজের ওপর দাঁড়ানো	5.7
penalty parameter (C)	soft-margin SVM-এ slack-শাস্তির ওজন; bias–variance knob — ছোট \(C\) = চওড়া margin, বেশি লঙ্ঘন সহ্য (high bias/under-fit), বড় \(C\) = সরু margin, প্রায় hard-margin (high variance/over-fit)। canonical \(C\)-sweep: \(0.1\to0.833/121\), \(1\to0.900/63\), \(10\to0.944/45\), \(100\to0.933/37\)	6.4
percentile	যে মানের নিচে data-র নির্দিষ্ট শতাংশ পড়ে	1.2
percentile interval (CI)	bootstrap বণ্টনের \(\alpha/2\) ও \(1-\alpha/2\) quantile-এ কেটে বানানো \((1-\alpha)\) CI \(=[\hat\theta^_{(\alpha/2)},\hat\theta^_{(1-\alpha/2)}]\); normality বা \(\widehat{\mathrm{se}}\)-সূত্র লাগে না; skew সরাসরি ধরে (অসম হতে পারে) (Figure 2, §৭ Q3, Q6)	4.9
perfect separation	কোনো hyperplane class দুটোকে নিখুঁত আলাদা করলে logistic-MLE অসীমে চলে যায় (\(\lvert\hat\beta\rvert\to\infty\)); প্রতিকার: penalized/regularized fit	5.4
perfect separation (quasi-complete separation)	class-দুটো এত আলাদা যে কোনো feature-সমাবেশ পুরোপুরি পৃথক করে ফেলে, তখন unpenalized logistic MLE \(\to\pm\infty\) এবং valid standard error থাকে না; remedy L2-penalty বা feature-decorrelation। এই অধ্যায়ে full 30-feature MLE diverges	8.1
permutation	ক্রম গুরুত্বপূর্ণ এমন বাছাই/সাজানো, \(P(n,k)=n!/(n-k)!\)	0.2
permutation null distribution	label-shuffle করে পাওয়া group-difference statistic-এর বণ্টন; \(0\)-কে কেন্দ্র করে; observed তা থেকে কত দূরে তা-ই প্রমাণ (Figure 4)	4.9
permutation test	দুই দলের তুলনায় resampling test: \(H_0\) (label অর্থহীন) ধরে label বারবার এলোমেলো করে null distribution বানায়; p-value = লেজের ভগ্নাংশ; কোনো বণ্টন-অনুমান নেই (Figure 4, §৭ Q4, Q8)	4.9
perplexity	t-SNE-র hyperparameter — প্রতিটি বিন্দুর Gaussian affinity \(p_{ij}\)-র bandwidth এমনভাবে স্কেল করে যেন "কার্যকর প্রতিবেশী-সংখ্যা" \(\approx\) perplexity; ছোট মান local গঠনে জোর, বড় মান বেশি-global; ফল perplexity-সংবেদী	6.8
\(\pi\)-system	intersection-বদ্ধ একটা set-পরিবার: \(A,B\in\mathcal P\Rightarrow A\cap B\in\mathcal P\); যেমন সব \((-\infty,x]\) বা সব interval — uniqueness-যুক্তির ছোট্ট "বীজ"-পরিবার	7.2
pipeline	ধাপে-ধাপে নির্ধারক (deterministic) ও reproducible বিশ্লেষণ-প্রবাহ	1.5
pivot	এমন quantity (যেমন \(Z=\frac{\bar X-\mu}{\sigma/\sqrt n}\)) যার distribution \(\theta\)-নিরপেক্ষ; CI বানানোর মূল কৌশল (§৭ Q9)	4.6
pivot method	pivot-এর \(P(-z_{\alpha/2}\le\cdot\le z_{\alpha/2})=1-\alpha\) থেকে শুরু করে \(\theta\)-কে isolate করে CI derive করা	4.6
pivotal quantity	যে রাশির distribution অজানা parameter-নিরপেক্ষ; যেমন \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\) ও \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) — confidence interval নির্মাণের ভিত্তি	4.1
platykurtic	normal-এর চেয়ে হালকা লেজ ও ভোঁতা চূড়া (excess kurtosis < 0)	1.3
plug-in principle	"population-এর অজানা পরিমাণের জায়গায় তার নমুনা-প্রতিরূপ বসিয়ে দাও" — MoM এর একটা উদাহরণ (\(\mu_k'\to\hat\mu_k'\)); LLN-এর কারণে যুক্তিসঙ্গত	4.2
point estimate	একটা একক সংখ্যা দিয়ে \(\theta\)-এর অনুমান (interval নয়); যেমন \(\hat\mu=\bar X_n=172.4\)	4.1
point estimation	data থেকে কোনো অজানা প্যারামিটার \(\theta\)-এর একটি একক সংখ্যাগত আনুমান \(\hat\theta\) বের করা (interval নয়); estimator হলো নমুনার একটা ফাংশন \(\hat\theta=\hat\theta(X_1,\dots,X_n)\)	4.2
Poisson distribution	ব্যবধিতে বিরল ঘটনার সংখ্যা; \(\lambda^k e^{-\lambda}/k!\), mean \(=\) variance \(=\lambda\)	2.3
Poisson Fisher information	\(I(\lambda)=\frac{1}{\lambda}\) (E3); \(\bar X\) efficient, asymptotic SE \(=\sqrt{\lambda/n}\) (Figure 3)	4.5
Poisson limit theorem	Binomial\((n,p)\to\) Poisson\((\lambda)\) যখন \(n\to\infty,\,np\to\lambda\)	2.3
Poisson process	rate \(\lambda\)-র counting process: \(N(t)\sim\text{Poisson}(\lambda t)\), independent increments, interarrival time iid \(\text{Exp}(\lambda)\) (E2)	3.5
Poisson regression	count outcome (\(y\in\{0,1,2,\dots\}\))-এর জন্য GLM: log link-এ \(\log\mu_i=x_i^\top\beta\) (অর্থাৎ \(\mu_i=e^{x_i^\top\beta}\)), response Poisson; MLE/IRLS দিয়ে fit, coefficient rate-ratio হিসেবে পঠিত	5.5
polynomial kernel	\(K(x,x')=(x^\top x'+c)^d\) — degree-\(d\) পর্যন্ত feature-মিথস্ক্রিয়া ধরে; nonlinearity আনে কিন্তু make_moons-এ RBF-এর চেয়ে কম উপযুক্ত; canonical (deg 3) \(0.833\)	6.4
pooled covariance	LDA-তে সব শ্রেণির data একত্র করে অনুমিত একটিই শেয়ার-covariance \(\hat\Sigma\) (শ্রেণি-প্রতি deviation-গুলোর ভারিত গড়); শেয়ার-\(\Sigma\) ধারণার বাস্তব estimate, যা LDA-কে কম-parameter (কম variance) রাখে	6.3
pooled OLS SE problem	clustering-এ একই গোষ্ঠীর observation redundant ⇒ effective \(n\) ছোট ⇒ between-cluster coefficient (যেমন intercept)-এর OLS-SE মারাত্মক underestimated; উদাহরণে intercept SE OLS \(0.867\) বনাম সঠিক mixed \(1.416\)	5.6
population	আগ্রহের পুরো গোষ্ঠী; যাদের সম্পর্কে সিদ্ধান্ত নিতে চাই (আকার \(N\), প্রায়ই পুরোটা অদৃশ্য)	1.1
population mean	পুরো population-এর প্রকৃত গড় \(\mu\) (একটি parameter)	1.1
population moment	\(\mu_k'=\mathbb{E}[X^k]\) — distribution-এর \(k\)-তম কাঁচা (raw) moment, প্যারামিটারের ফাংশন (যেমন Exp-এ \(\mu_1'=1/\lambda\))	4.2
population regression line	bivariate normal \(\rho=0.6\)-এ \(\mathbb E[X\mid Y{=}y]=\rho y=0.6y\) — সরলরেখা, ঢাল \(\hat\beta=\operatorname{Cov}(X,Y)/\operatorname{Var}(Y)=\rho\), intercept \(0\); "শর্তাধীন প্রত্যাশা = regression function" এর কংক্রিট মুখ	7.7
portmanteau theorem	weak convergence-এর সমতুল্য বহু-শর্ত চরিত্রায়ণ; প্রধান রূপ — \(X_n\Rightarrow X\iff\mathbb E[f(X_n)]\to\mathbb E[f(X)]\) প্রতিটি bounded continuous \(f\)-এ (অন্য রূপ: open/closed set, CDF)	7.10
positive part	\(f^+=\max(f,0)\); ফাংশনের অঋণাত্মক অংশ, সাধারণ integral-এর সংজ্ঞায় \(f=f^+-f^-\)-এর প্রথম পদ	7.4
positive-definite	সব eigenvalue \(>0\) (বা \(\mathbf{x}^\top A\mathbf{x}>0\)) symmetric matrix	0.5
positive-definite function	যেকোনো \(t_1,\dots,t_n\) ও \(c_1,\dots,c_n\in\mathbb C\)-তে \(\sum_{j,k}c_j\bar c_k\,\varphi(t_j-t_k)\ge0\); প্রতিটি cf positive-definite — Bochner-এর চরিত্রায়ণের অর্ধেক	7.10
positive-part James–Stein	\(\hat\theta^{JS+}=\big(1-\frac{p-2}{\lVert X\rVert^2}\big)^{+}X\) (\((a)^+=\max(0,a)\)) — shrinkage factor-কে ঋণাত্মক হতে দেয় না (worst case পুরো ০-তে shrink); সাধারণ JS-কেও dominate করে, তাই বাস্তবে ব্যবহার্য	8.3
positive/negative part \(f^\pm\)	যেকোনো measurable \(f\)-কে দুই অঋণাত্মক টুকরোয় ভাঙা: \(f^+=\max(f,0)\) ও \(f^-=\max(-f,0)\), তাই \(f=f^+-f^-\) ও \(\lvert f\rvert=f^++f^-\); এতে approximation theorem অঋণাত্মক থেকে সাধারণ \(f\)-এ প্রসারিত হয়	7.3
post-hoc test	\(F\) significant হওয়ার পরে কোন জোড়া-গড় আলাদা তা খোঁজার পরীক্ষা; FWER নিয়ন্ত্রিত রাখে (যেমন Tukey HSD)	5.3
posterior	data দেখার পর হালনাগাদ বিশ্বাস \(P(B\mid A)\)	2.2
posterior \(p(\theta\mid\text{data})\)	data দেখার পরে \(\theta\) নিয়ে আপডেটেড বিশ্বাস; prior ও likelihood-এর মাঝে বসে, দুটোর চেয়ে সরু (Figure 1)	4.10
posterior mean	\(\mathbb{E}[\theta\mid\text{data}]=\int\theta\,p(\theta\mid\text{data})\,d\theta\) — posterior-এর ভারকেন্দ্র; squared-error loss-এ optimal point estimate (Figure 1: \(0.67\))	4.10
posterior odds	prior odds \(\times\) likelihood ratio	2.2
posterior predictive	ভবিষ্যৎ পর্যবেক্ষণের পূর্বাভাস \(p(\tilde y\mid\text{data})=\int p(\tilde y\mid\theta)\,p(\theta\mid\text{data})\,d\theta\); \(\theta\)-র অনিশ্চয়তার ওপর গড় (E4; §৭ Q8)	4.10
posterior probability	data দেখার পর শ্রেণির সম্ভাবনা \(P(y=c\mid x)=\dfrac{\pi_c f_c(x)}{\sum_l\pi_l f_l(x)}\) (Bayes-নিয়ম, ২.২); generative classifier-এর কেন্দ্রীয় পরিমাণ — যার \(\arg\max\)-ই শ্রেণি-সিদ্ধান্ত	6.3
potential outcomes	causal inference-এর মৌলিক কাঠামো: প্রতিটি ইউনিটের treatment ও control উভয় অবস্থার একটা কল্পিত ফলাফল \(Y(1),Y(0)\), যার একটাই পর্যবেক্ষিত (\"causal inference-এর মৌলিক সমস্যা\"); causal effect \(=\mathbb E[Y(1)-Y(0)]\)	8.4
power \(=1-\beta\)	সত্যিকারের effect ধরতে পারার সম্ভাবনা \(P(\text{reject}\mid H_1)\); effect-size/\(n\) বাড়লে \(\alpha\) থেকে \(1\)-এর দিকে ওঠে (Figure 3)	4.7
power rule	\(\frac{d}{dx}x^n=nx^{n-1}\) নিয়ম	0.3
precision	\(\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}\); "positive" বলা case-এর কত অংশ সত্যিই positive (এখানে \(0.88\)); FP-খরচ বেশি হলে গুরুত্বপূর্ণ	5.4
predictable process	\((H_n)_{n\ge1}\) predictable যদি প্রতিটি \(H_n\) \(\mathcal F_{n-1}\)-measurable — "এক-ধাপ-আগেই জানা", ঘটনা ঘটার আগেই (যেমন বাজির আকার); "ভবিষ্যৎ উঁকি দেওয়া যায় না"-র গণিত	7.8
predictor variable	যা দিয়ে ভবিষ্যদ্বাণী করি, ব্যাখ্যাকারী/স্বাধীন চলক (\(x\), feature)	5.1
preimage	\(X\) দিয়ে একটা target-set \(B\)-তে পৌঁছানো সব input-এর সংগ্রহ: \(X^{-1}(B)=\{\omega\in\Omega:X(\omega)\in B\}=\{X\in B\}\); union/intersection/complement সংরক্ষণ করে — যা measurability-যুক্তির মেরুদণ্ড	7.3
premeasure	একটা algebra \(\mathcal A\)-র উপর সংজ্ঞায়িত আদি "আকার" \(\mu_0\) (\(\mu_0(\varnothing)=0\) ও \(\mathcal A\)-র ভেতরে থাকা গণনাযোগ্য disjoint union-এ additive); Carathéodory যাকে গোটা \(\sigma(\mathcal A)\)-এ প্রসারিত করে	7.2
preregistration	একটা বিশ্লেষণ চালানোর আগে তার hypothesis ও পদ্ধতি (কী, কীভাবে, কোন test) লিখে নথিভুক্ত করা — ফল-দেখে-পরে-গল্প (p-hacking, selective reporting) এড়াতে; reproducibility ও গবেষণা-সততার হাতিয়ার	8.4
primal problem (SVM)	SVM-এর মূল optimization \(\min_{w,b,\xi}\tfrac12\lVert w\rVert^2+C\sum_i\xi_i\) s.t. \(y_i(w^\top x_i+b)\ge1-\xi_i,\ \xi_i\ge0\); \(w\)-এর মাত্রায় চলক (feature-সংখ্যা-নির্ভর), যার দ্বৈত (dual) kernel-trick-এর পথ খোলে	6.4
principal component (PC)	covariance \(\Sigma\)-এর একটা orthonormal eigenvector \(v_j\) — data-র একটা প্রধান-অক্ষ; PC-গুলো eigenvalue-ক্রমে সাজানো (PC1 সর্বোচ্চ-variance দিক, PC2 তার লম্বে পরবর্তী-সর্বোচ্চ, …); §৭-এ Lagrangian-প্রমাণে দেখানো "variance-সর্বোচ্চকারী একক-দিক" \(=\) শীর্ষ-eigenvector	5.9
principal component analysis (PCA)	standardized data-র covariance \(\Sigma\)-এর eigen-decomposition করে ক্রমান্বয়ে variance-সর্বোচ্চকারী লম্ব দিক (principal component) খুঁজে উচ্চ-মাত্রিক, correlated feature-কে কয়েকটা অর্থপূর্ণ অক্ষে নামানোর কৌশল (dimensionality reduction); চলমান উদাহরণে \(4\)-D data-কে \(2\) PC-তে নামিয়ে \(99.4\%\) variance ধরে রাখে	5.9
prior	data দেখার আগে hypothesis-এ বিশ্বাস \(P(B)\)	2.2
prior \(\pi(\theta)\)	data দেখার আগে প্যারামিটার \(\theta\) নিয়ে বিশ্বাস, একটা distribution হিসেবে (Figure 1-এ নীল বক্ররেখা)	4.10
prior probability	data দেখার আগে শ্রেণির সম্ভাবনা \(\pi_c=P(y=c)\); সাধারণত প্রশিক্ষণে প্রতিটি শ্রেণির অনুপাত থেকে অনুমান; posterior-এ likelihood-এর সাথে গুণ হয়	6.3
probability density function	continuous random variable-এর সম্ভাব্যতার ঘনত্ব curve \(f(x)\)	0.4
probability inequality	random variable-এর probability/tail-এর উপর একটি সীমা (bound) দেয় এমন অসমতা; distribution পুরো না জেনেও	3.1
probability integral transform	\(U=F_X(X)\sim\text{Uniform}(0,1)\), \(X\)-এর distribution যাই হোক	2.7
probability mass function	PMF, সম্ভাব্যতা ভর-অপেক্ষক \(p_X(k)=P(X=k)\); অঋণাত্মক, যোগফল \(1\)	2.3
probability measure	প্রতিটি event-কে \([0,1]\)-এ পাঠানো axiom-মানা function \(P\)	2.1
product measure	iid অনুক্রমের যৌথ law = প্রতিটি coordinate-এর law-এর গুণফল \(\bigotimes_i P_X\) (\(\mathbb R^{\mathbb N}\)-তে); iid \(\iff\) যৌথ law = product measure (7.2-এর নির্মাণ)	7.6
product rule	\((uv)'=u'v+uv'\) নিয়ম	0.3
projection (onto column space)	\(\hat y\) হলো \(y\)-এর \(\text{col}(X)\)-এ orthogonal projection; residual তার লম্ব	5.1
projection (PC score)	data-কে PC-অক্ষে উৎক্ষেপ: score \(z=Xv\), বা top-\(k\)-এ \(Z=XV_k\in\mathbb R^{n\times k}\); \(z_{i1}=x_i^\top v_1\) হলো বিন্দু \(x_i\)-এর PC1-অক্ষে নতুন স্থানাঙ্ক (প্রধান দিকে কেন্দ্র থেকে কতদূর); orthonormal \(V\) বলে PC-score পরস্পর uncorrelated	5.9
projection theorem	closed subspace \(M\)-এ যেকোনো \(f\)-এর একক নিকটতম বিন্দু \(\hat f\) আছে, residual \(f-\hat f\perp M\); least squares ও conditional expectation-এর জ্যামিতি	7.5
Prokhorov's theorem	tight বণ্টন-অনুক্রমের একটি weakly-অভিসারী subsequence থাকে (relative compactness ⇔ tightness); Lévy's continuity theorem-এর "weak limit বিদ্যমান" অংশের ভিত্তি	7.10
proof by contradiction	উল্টোটা ধরে অসম্ভব পরিস্থিতি দেখিয়ে মূলটি প্রতিষ্ঠা	0.1
proof by contrapositive	\(\neg Q \Rightarrow \neg P\) প্রমাণ করে \(P \Rightarrow Q\) প্রতিষ্ঠা	0.1
proper subset	\(A \subsetneq B\): subset কিন্তু সমান নয়	0.1
proportion CI (Wald)	\(\hat p\pm z_{\alpha/2}\sqrt{\hat p(1-\hat p)/n}\) (E3); আসলে Bernoulli-র MLE \(\hat p\)-এর large-sample CI; চরম \(p\)/ছোট \(n\)-এ under-cover করে	4.6
proportion test (one-sample)	\(T=\frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}\) (E3); null-এর \(\mathrm{SE}\)-তে \(p_0\) (— \(\hat p\) নয়, কারণ \(H_0\) সত্যি ধরে)	4.7
proposal distribution	\(q(x'\mid x)\) — বর্তমান state থেকে পরের প্রার্থী \(x'\) প্রস্তাবের নিয়ম (যেমন random-walk \(x'=x+\mathcal N(0,\text{step}^2)\))	3.6
proposition	সত্য বা মিথ্যা — এমন একটি বাক্য	0.1
pruning	অতি-নমনীয় (overfit) গাছ ছোট করে variance কমানোর কৌশল — pre-pruning (max_depth/min_samples দিয়ে আগেই থামানো) বা post-pruning (পূর্ণ গাছ গড়ে cost-complexity দিয়ে শাখা কাটা); bias সামান্য বাড়িয়ে variance বড় কমায়। canonical: depth \(10\to3\), test \(0.733\to0.794\)	6.5
pseudo-random seed	`np.random.default_rng(20260619)`-এর মতো একটা নির্দিষ্ট বীজমান যা random stream-কে স্থির করে; একই seed \(\Rightarrow\) একই ধারা \(\Rightarrow\) reproducible ফল, তবে `default_rng` draw-order-নির্ভর—draw-এর ক্রম বদলালে ফলও বদলায়	8.2
pseudo-residual	gradient boosting-এ round \(t\)-এ যে target-এ গাছ fit হয় — \(r_i=-\big[\partial L/\partial F(x_i)\big]_{F=F_{t-1}}\) (loss-এর negative gradient); squared loss-এ এটা ঠিক সাধারণ residual \(y_i-F_{t-1}(x_i)\), অন্য loss-এ গাছ এই negative-gradient-কে সর্বত্র smooth-আনুমানিত করে generalize করে	6.6
pull-out property (taking out what is known)	\(Y\) \(\mathcal G\)-measurable, \(XY\in L^1\Rightarrow\mathbb E[YX\mid\mathcal G]=Y\,\mathbb E[X\mid\mathcal G]\) — "জানা \(Y\) ধ্রুবকের মতো বাইরে আসে"; indicator \(Y=\mathbf 1_{G_0}\)-এ \(\int_G\mathbf 1_{G_0}(\cdot)=\int_{G\cap G_0}(\cdot)\) দিয়ে প্রমাণ	7.7
pushforward measure (image measure)	\(X\) যেভাবে \(\Omega\)-র ভর \(\mathbb P\)-কে \(\mathbb R\)-এ ঠেলে দেয়: \(P_X=\mathbb P\circ X^{-1}\), অর্থাৎ \(P_X(B)=\mathbb P(X^{-1}(B))=\mathbb P(X\in B)\) — \((\mathbb R,\mathcal B)\)-এর উপর একটা probability measure	7.3
Pólya urn	কলস থেকে বল তুলে তার রঙের আরেকটা সঙ্গে ফেরত — সময় \(n\)-এ রঙের অনুপাত \(X_n\) একটা martingale (\(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\)); স্ব-শক্তিশালী প্রক্রিয়াতেও অনুপাত গড়ে স্থির	7.8
QQ-plot	quantile–quantile plot; data-quantile বনাম তাত্ত্বিক quantile (normality-যাচাই)	1.3
QQ-plot of residuals	residual-এর sample quantile বনাম তাত্ত্বিক Normal quantile; বিন্দু \(y=x\) রেখা বরাবর হলে Normality অনুমান যুক্তিসঙ্গত (৩.৪-এর QQ-ধারণা)	5.2
quadratic discriminant analysis (QDA)	generative classifier — শ্রেণি-প্রতি আলাদা covariance \(\Sigma_c\); quadratic পদ টিকে থাকে ⇒ boundary quadratic (উপবৃত্ত/অধিবৃত্ত); বেশি parameter (বেশি variance) কিন্তু কম bias; covariance অসমান হলে LDA-কে হারায়; canonical \(0.919\) (best); LDA = QDA-র বিশেষ ক্ষেত্র (\(\Sigma_c\) সব সমান)	6.3
quadratic variation	\(L^2\)-martingale \(X\)-এর predictable variation \(\langle X\rangle_n=\sum_{k\le n}\mathbb E\big[(X_k-X_{k-1})^2\mid\mathcal F_{k-1}\big]\) — জমা-হওয়া শর্তাধীন ভেদ; random walk-এ \(\langle S\rangle_n=n\), আর \(X_n^2-\langle X\rangle_n\) martingale	7.8
quantile	percentile-এর ভগ্নাংশ-রূপ (0.5 quantile = median)	1.2
quantile function	CDF-এর উল্টো \(Q(p)=F^{-1}(p)\); কোন মানের নিচে probability \(p\) জমে	2.4
quartile	data-কে চার ভাগে ভাগকারী মান: Q1, Q2(median), Q3	1.2
quasi-Poisson	overdispersion-প্রতিকার: \(\operatorname{Var}=\phi\mu\) ধরে SE-কে \(\sqrt{\hat\phi}\) দিয়ে স্ফীত করা (\(\mathrm{SE}_{\text{quasi}}=\sqrt{\hat\phi}\,\mathrm{SE}_{\text{Poisson}}\)); quasi-likelihood (পূর্ণ distribution নয়), তাই AIC তুলনীয় নয়; উদাহরণে \(\sqrt{4.44}\approx2.107\)	5.5
quotient rule	\((u/v)'=(u'v-uv')/v^2\) নিয়ম	0.3
R-squared	মডেল-ব্যাখ্যাত variation-এর অনুপাত \(R^2=1-\text{SSE}/\text{SST}\), পরিসর \([0,1]\); simple-এ \(=r^2\)	5.1
Rademacher complexity	একটা model-শ্রেণি এলোমেলো noise-এর (Rademacher চিহ্ন \(\pm1\)) সাথে কতটা খাপ খায় তার একটা মাপ; generalisation-ত্রুটির শক্ত, data-নির্ভর সীমা দেয় (VC-এর চেয়ে প্রায়ই আঁটোসাঁটো)	8.4
Radon–Nikodym derivative / density	সেই \(f=\tfrac{d\nu}{d\mu}\ge0\) যাতে \(\nu(A)=\int_A f\,d\mu\); pdf \(f_X=\tfrac{dP_X}{d\lambda}\) ও likelihood ratio \(\tfrac{dP}{dQ}\) এর বিশেষ রূপ	7.5
Radon–Nikodym existence	\(\nu(G)=\int_G X\,d\mathbb P\ll\mathbb P\), তাই density \(\tfrac{d\nu}{d\mathbb P}\big\rvert_{\mathcal G}=\mathbb E[X\mid\mathcal G]\) — সাধারণ \(X\in L^1\)-এ অস্তিত্ব-ইঞ্জিন (7.5)	7.7
Radon–Nikodym theorem	\(\nu\ll\mu\) ও σ-finite \(\Rightarrow\) একটি অঋণাত্মক density \(f=\tfrac{d\nu}{d\mu}\) আছে (a.e.-অনন্য) যাতে \(\nu(A)=\int_A f\,d\mu\); "কঠোর pdf"-এর অস্তিত্ব-ইঞ্জিন	7.5
Radon–Nikodym via martingales	density \(\frac{d\mathbb Q}{d\mathbb P}\)-র martingale-নির্মাণ: ক্রমশ-সূক্ষ্ম \((\mathcal F_n)\)-এ সীমাবদ্ধ density \(X_n=\frac{d\mathbb Q}{d\mathbb P}\rvert_{\mathcal F_n}\) একটা অঋণাত্মক (UI, \(\mathbb Q\ll\mathbb P\)) martingale, সীমা \(X_\infty=\frac{d\mathbb Q}{d\mathbb P}\rvert_{\mathcal F_\infty}\)	7.9
random effect	গোষ্ঠী-ভিত্তিক বিচ্যুতি \(u_j\sim\mathcal N(0,\sigma_u^2)\) — গোষ্ঠীগুলোকে বৃহত্তর জনগোষ্ঠীর নমুনা ধরা হয়; \(J\)টা আলাদা parameter নয়, শুধু একটা variance \(\sigma_u^2\) estimate (বিরাট parsimony)	5.6
random experiment	অনিশ্চিত ফলাফলের পরীক্ষা যার সম্ভাব্য outcome জানা কিন্তু ফল আগে বলা যায় না	2.1
random forest	bagging-এর উন্নত রূপ — প্রতিটি split-এ এলোমেলো \(m=\sqrt{p}\)টি feature থেকেই সেরা split খুঁজে গাছগুলো decorrelate করে (\(\rho\)↓), তাই variance-floor bagging-এর চেয়ে নিচু। canonical (\(B{=}300\)): test \(0.839\), OOB \(0.848\); \(m=\sqrt{20}\approx4\)	6.5
random intercept	শুধু উচ্চতা গোষ্ঠী-ভেদে বদলায় (\(\beta_0+u_j\)), ঢাল \(\beta_1\) অভিন্ন ⇒ সব গোষ্ঠীর regression-রেখা সমান্তরাল, কেবল উলম্বভাবে স্থানান্তরিত; চলমান উদাহরণের model	5.6
random slope	predictor-এর প্রভাবও গোষ্ঠী-ভেদে বদলায় (\(\beta_1+u_{1j}\)): \(y_{ij}=\beta_0+\beta_1x_{ij}+u_{0j}+u_{1j}x_{ij}+\varepsilon_{ij}\) ⇒ রেখাগুলো আর সমান্তরাল নয়; intercept-slope random part-এর covariance \(\sigma_{01}\) নতুন parameter	5.6
random variable	ফলাফল→সংখ্যা একটি function, \(X:\Omega\to\mathbb{R}\)	0.1
random vector	একটা measurable map \(X:(\Omega,\mathcal F)\to(\mathbb R^d,\mathcal B(\mathbb R^d))\) — একসঙ্গে \(d\)টি random variable \((X_1,\dots,X_d)\); \(X\) measurable iff প্রতিটি উপাংশ \(X_i\) measurable	7.3
random walk	\(S_n=\sum_{i=1}^{n} X_i\) যেখানে \(X_i\) iid ধাপ (\(\pm1\)); discrete-time process, \(\mathbb{E}[S_n]=0\) কিন্তু \(\operatorname{Var}(S_n)=n\) — তাই \(0\) থেকে দূরত্ব \(\sqrt{n}\)-হারে বাড়ে (E1)	3.5
random walk on a graph	graph-এর প্রতি ধাপে কোনো প্রতিবেশী node-এ সমান সম্ভাবনায় যাওয়া (E2); undirected graph-এ সর্বদা reversible, stationary \(\pi_i\propto\deg(i)\)	3.6
random-effects ANOVA	৫.৩-এর random-effects (one-way) ANOVA-ই random-intercept model-এর regression-রূপ — total variance-কে between (\(\sigma_u^2\)) ও within (\(\sigma_\varepsilon^2\)) component-এ ভাঙা; ICC এখান থেকেই আসা ধারণা	5.6
randomization	treatment/condition এলোমেলোভাবে unit-এ বণ্টন; পরিচিত-অপরিচিত confounder ভেঙে causal তুলনা সম্ভব করে — design-এর ভিত্তি	5.3
randomization test	permutation test-এর সমার্থক; group label-কে random treatment-assignment ধরে p-value হিসাব	4.9
range	আসলে যত output পাওয়া যায়, \(f(A)\); codomain-এর subset	0.1
rank	মানগুলোকে ছোট-থেকে-বড় ক্রমে দেওয়া অবস্থান-সংখ্যা	1.4
rate (Exponential)	প্রতি এককে গড় ঘটনার হার \(\lambda\); mean \(=1/\lambda\)	2.4
rate (intensity)	\(\lambda\); Poisson process-এ একক সময়ে গড় event-সংখ্যা; \(\mathbb{E}[N(t)]=\lambda t\)	3.5
rate of change	কত দ্রুত function বদলাচ্ছে তার পরিমাপ	0.3
rate ratio	\(e^{\hat\beta_j}\) — predictor \(j\) এক একক বাড়লে প্রত্যাশিত count কত গুণ হয় (বাকি স্থির); উদাহরণে temp \(e^{0.0597}=1.0616\) (per \(+1\)°C), per \(+5\)°C \(1.348\), weekend \(e^{0.301}=1.351\); \(>1\) বাড়ায়, \(=1\) নিরপেক্ষ, \(<1\) কমায়	5.5
rate vs count	offset-সহ Poisson regression count নয়, rate (\(\mu/t\)) model করে; exposure-proportionality জোর করতে offset লাগে — না দিলে rate-interpretation নষ্ট	5.5
raw (uncentered) moment	মূল-বিন্দু \(0\)-সাপেক্ষে moment \(\mathbb{E}[X^k]\); MoM-এ সাধারণত এগুলোই মেলানো হয় (central moment-এর বিপরীত)	4.2
raw moment	\(0\)-এর সাপেক্ষে \(k\)-th moment; \(\mu_k'=\mathbb{E}[X^k]\)	2.5
RBF / Gaussian kernel	\(K(x,x')=\exp(-\gamma\lVert x-x'\rVert^2)\) — সবচেয়ে বহুল-ব্যবহৃত kernel; অন্তর্নিহিত feature-space অসীম-মাত্রিক তবু গণনাযোগ্য; \(\gamma\) kernel-প্রস্থ/capacity নিয়ন্ত্রণ করে; ছোট \(\gamma\) মসৃণ (under-fit), বড় \(\gamma\) wiggly (over-fit)। canonical সেরা \(C{=}10\) এ \(0.944\)	6.4
recall	\(\frac{TP}{TP+FN}\) — সত্যিকার anomaly-র কত ভাগ ধরলাম (miss-এর বিপরীত); rare-শ্রেণিতে মূল মাপ — "সব inlier" trivial detector accuracy \(0.95\) পেলেও recall \(0\) (canonical IF @5% recall \(1.00\))	6.9
recall (sensitivity, TPR)	\(\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}\); সত্যিকারের positive-দের কত অংশ ধরা পড়ল (এখানে \(0.887\)); ROC-এর \(y\)-অক্ষ	5.4
reconstruction	প্রক্ষিপ্ত score থেকে আসল-মাত্রায় আনুমানিক ফেরা: \(\hat X=ZV_k^\top\) (\(p\)-মাত্রায়, কিন্তু \(X\)-এর সমান নয়); হারানো অংশ বাদ-দেওয়া PC-দিকের, reconstruction-error (গড় Frobenius-বর্গ) \(=\sum_{j>k}\lambda_j\) (চলমান উদাহরণে \(0.017+0.008=0.025\), প্রায় lossless); top-\(k\) PC সব rank-\(k\) approx-এর মধ্যে এই error সর্বনিম্ন করে (Eckart–Young)	5.9
reconstruction weights (LLE)	LLE-র প্রথম ধাপে শেখা সহগ \(w_{ij}\) — \(x_i\)-কে তার প্রতিবেশীদের রৈখিক যোগ হিসেবে লেখার barycentric স্থানাঙ্ক; \(\sum_j w_{ij}=1\) শর্ত weight-কে input-translation/rotation-এ অপরিবর্তিত রাখে, তাই geometry নিম্ন-মাত্রায় হুবহু বহনযোগ্য	6.8
rectangular data	structured data-র সমার্থক: টেবিল-আকৃতির data (rows × columns)	1.1
recursive partitioning	tree বানানোর প্রক্রিয়া — প্রতিটি node-এ সেরা split বেছে data দুই child-এ ভাগ, তারপর প্রতিটি child-এ একই প্রক্রিয়া পুনরাবৃত্ত (recursion), যতক্ষণ থামার শর্ত (max_depth, min_samples, pure node) পূরণ হয়	6.5
reference (baseline) coding	একটি group-কে baseline ধরে বাকিদের indicator রাখা; তখন \(\beta_0=\) reference গড়, প্রতিটি slope \(=\) সেই group ও reference-এর গড়-পার্থক্য	5.3
regression function	\(\mathbb E[X\mid Y]=g(Y)\) — \(Y\) থেকে \(X\)-এর নিঃশর্ত সেরা পূর্বাভাস (কোনো রৈখিকতা-অনুমান ছাড়া); 5.1-এর linear regression কেবল এর \(g(Y)=a+bY\)-রূপ সীমিত আনুমান	7.7
regression spline	টুকরো-টুকরো polynomial (knot-এ মসৃণ-জোড়া) দিয়ে \(f\) মডেল করা; গাণিতিকভাবে একটা B-spline basis বানিয়ে \(\hat f(x)=\sum_k\hat\gamma_k B_k(x)\), যেখানে \(\hat\gamma\) = \(y\)-কে basis-matrix-এর ওপর সাধারণ OLS — অর্থাৎ basis-expansion-এ linear regression	5.7
regret \(R_T\)	online learner-এর মান: \(R_T=\sum_t\ell_t(\theta_t)-\min_{\theta^\}\sum_t\ell_t(\theta^\)\) — online-ভাবে নেওয়া সিদ্ধান্তের মোট ক্ষতি বনাম পিছন-ফিরে-জানা সেরা স্থির \(\theta^\\); ভালো algorithm-এ sublinear* (\(o(T)\), যেমন \(O(\sqrt T)\)), তাই average regret \(R_T/T\to0\)	6.9
regular conditional distribution	\(\mathbb P(X\in\cdot\mid\mathcal G)(\omega)\) — প্রতিটি (প্রায়) \(\omega\)-তে একটি সত্যিকার probability measure হিসেবে সমগ্র শর্তাধীন বণ্টন; শর্তাধীন density ও প্রত্যাশাকে এক ছাতার নিচে আনে (Polish space-এ অস্তিত্ব)	7.7
regular martingale	closed/UI martingale-এর সমার্থ: যে martingale একটা \(X_\infty\in L^1\)-এ \(L^1\)-তে অভিসারী ও \(X_n=\mathbb E[X_\infty\mid\mathcal F_n]\) — "সুনিয়মিত" আচরণ	7.9
regularity conditions	smoothness ও \(\partial_\theta\!\leftrightarrow\!\int\) বিনিময়ের শর্ত যা score-এর গড় \(0\), CRLB ও MLE-asymptotics-কে বৈধ করে (§৭ Q10–Q11)	4.5
regularization	overfit ঠেকাতে loss-এর সাথে একটি penalty (coefficient-size-এর জরিমানা) \(\lambda\cdot(\text{norm})\) যোগ করে effective-capacity একটানা কমানোর কৌশল; \(\lambda=0\) (OLS, পূর্ণ capacity) থেকে \(\lambda\to\infty\) (সব coefficient \(\to0\)) পর্যন্ত knob; সামান্য bias কিনে অনেক variance বেচে ৬.১-এর U-curve-এর তলায় নামা	6.2
regularization path	\(\lambda\)-র পুরো পরিসর জুড়ে coefficient-গুলো কীভাবে বদলায় তার বক্ররেখা/তালিকা; \(\lambda\uparrow\) ⇒ lasso-তে nonzero একঘেয়ে কমে; canonical path #nonzero: \(\lambda\,0.05\to16,\,0.10\to9,\,0.20\to5,\,0.30\to4,\,0.50\to4\) (সত্য support \(\{0,1,2,3\}\))	6.2
rejection region \(R\)	\(T\)-এর যে মানে \(H_0\) বাতিল করা হয়; \(P(T\in R\mid H_0)=\alpha\) (Figure 1)	4.7
relation	\(A \times B\)-এর একটি subset; কোন জোড়া "সম্পর্কিত" তার তালিকা	0.1
relative efficiency	দুই estimator-এর MSE (বা variance)-এর অনুপাত; Figure 4-এ \(\mathrm{MSE}(2\bar X)/\mathrm{MSE}(\max)\approx3.9\)	4.4
relative efficiency (vs CRLB)	দুই estimator-এর efficiency-অনুপাত বা একটির floor-এর তুলনায় অবস্থান; অর্ধেক-data estimator \(e=0.5\) (দ্বিগুণ নমুনা দরকার)	4.5
relative frequency	frequency ÷ n; ভগ্নাংশ বা proportion (যোগফল 1)	1.3
REML (restricted maximum likelihood)	variance component estimate করার পদ্ধতি যা fixed-effect estimate করার df-খরচ ছাড় দিয়ে (residual-space-এ project করে) unbiased \(\hat\sigma^2\) দেয় — sample-variance-এ \(n\)-বনাম-\(n-1\)-এর mixed-model অ্যানালগ; variance/random-structure-এর জন্য পছন্দ (চলমান fit REML)	5.6
replication	প্রতিটি condition-এ একাধিক স্বাধীন unit (\(n=20\)/cell); \(\sigma^2\) আনুমান ও within-group variation পরিমাপের জন্য অপরিহার্য	5.3
replications	একই পরীক্ষা \(R\) বার স্বাধীনভাবে চালানো (যেমন E1-এ \(R=60000\), E2-এ \(D=2000\) dataset); বড় \(R\) \(\Rightarrow\) ছোট Monte-Carlo error, তাই আনুমানের নির্ভুলতা replication-সংখ্যার সঙ্গে বাড়ে	8.2
representative sample	যে sample-এর গঠন population-এর গঠনের কাছাকাছি (SRS গড়ে এটি দেয়)	1.1
reproducibility	একই seed দিলে হুবহু একই ফলাফল পাওয়ার বৈশিষ্ট্য (পুনরুৎপাদনযোগ্যতা)	0.6
resampling with replacement	মূল \(n\)টা মান থেকে এলোমেলোভাবে টেনে ফেরত রেখে আবার টানা — মোট \(n\)বার; একই মান একাধিকবার আসতে পারে, কিছু বাদ পড়ে — এটাই bootstrap variation-এর উৎস (§৭ Q1, Q10)	4.9
residual	প্রকৃত ও fitted মানের পার্থক্য \(\hat\varepsilon_i=y_i-\hat y_i\)	5.1
residual orthogonality	residual প্রতিটি predictor column-এর সাথে orthogonal, \(X^\top\hat\varepsilon=\mathbf 0\)	5.1
residual plot	fitted মান (বা predictor)-এর বিপরীতে residual \(\hat\varepsilon_i\)-এর scatter; এলোমেলো অনুভূমিক ব্যান্ড = অনুমান ঠিক, funnel = heteroscedasticity, বাঁক = nonlinearity — diagnostics-এর সবচেয়ে সস্তা ও প্রথম পরীক্ষা	5.2
residual sum of squares (RSS/SSE)	residual-গুলোর বর্গের যোগফল \(\sum_i\hat\varepsilon_i^2\), যা OLS minimize করে	5.1
residual-vs-fitted plot	\(\hat y_i\) বনাম \(\hat\varepsilon_i\); Linearity ও Equal-variance অনুমান একসাথে চোখে যাচাই করার মূল চিত্র	5.2
response variable	যা ভবিষ্যদ্বাণী করতে চাই, নির্ভরশীল চলক \(y\)	5.1
responsibility	E-step-এ গণনা করা \(\gamma_{ik}=P(z_i{=}k\mid x_i)\) — বিন্দু \(x_i\)-এর "দায়িত্ব" component \(k\) কতটা নেয়, একটা Bayes posterior (prior \(\pi_k\), likelihood \(\mathcal N_k\), evidence \(p(x_i)\)); \(\sum_k\gamma_{ik}=1\)। canonical ambiguous বিন্দু \([0.864,0.002,0.133]\)	6.7
restriction (under \(H_0\))	\(H_0\) যতগুলো স্বাধীন প্যারামিটার-সম্পর্ক আটকায়; Wilks-এর \(k\) (= df) এই সংখ্যা	4.8
reverse martingale	অ-ক্রমহ্রাসমান σ-algebra-পরিবার \(\mathcal G_0\supseteq\mathcal G_1\supseteq\cdots\)-এ সংজ্ঞায়িত martingale; সর্বদা UI ও a.s./\(L^1\)-অভিসারী — SLLN-এর martingale-প্রমাণ ও de Finetti-উপপাদ্যের যন্ত্র (Klenke Ch.12)	7.9
reversibility	detailed balance-এর সমার্থ ধর্ম: equilibrium-এ chain-কে সময়ে উল্টো চালালেও একই পরিসংখ্যান দেখায়	3.6
ridge closed-form / invertibility	\(\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y\); \(\lambda>0\) হলে \(X^\top X+\lambda I\) positive-definite (eigenvalue \(\ge\lambda>0\)), তাই \(X^\top X\) singular (\(p>n\) বা collinear) হলেও সর্বদা invertible — OLS-এর normal equation-এর তুলনায় ridge-এর সংখ্যাগত সুবিধা	6.2
ridge regression	\(\min_\beta\lVert y-X\beta\rVert_2^2+\lambda\lVert\beta\rVert_2^2\); closed-form \(\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y\); সব coefficient-কে \(0\)-র দিকে সংকুচিত করে কিন্তু কোনোটাকে ঠিক \(0\) করে না; multicollinearity সারায়; canonical \(\lambda^\*{\approx}0.21\), MSE \(2.075\), \(20\) nonzero	6.2
Riemann integral	\(\int_a^b f\)-কে domain-কে vertical strip-এ ভেঙে (upper/lower sum মিলিয়ে) গণনা; সংকীর্ণ — \(\mathbf 1_{\mathbb Q}\)-এর মতো wild function-এ ব্যর্থ (C2)	7.1
Riemann sum	অনেকগুলো rectangle-এর area যোগ করে integral-এর আনুমানিক মান \(\sum f(x_i^*)\Delta x\)	0.4
Riemann vs Lebesgue	Riemann domain (\(x\)-অক্ষ) কুচি করে, Lebesgue range (\(y\)-মান) কুচি করে; Lebesgue কঠোরভাবে বড় ও limit-সহনশীল	7.4
Riesz representation theorem	একটি Hilbert space-এ প্রতিটি bounded linear functional \(\Lambda f=\langle f,g\rangle\) আকারে একক \(g\) দিয়ে লেখা যায়; Radon–Nikodym-এর \(L^2\)-প্রমাণের ভিত্তি	7.5
Riesz–Fischer theorem	প্রতিটি \(L^p\) (\(1\le p<\infty\)) complete — তাই Banach space; absolutely-convergent-series criterion দিয়ে প্রমাণিত	7.5
right-skewed	ডান দিকে লম্বা লেজ; সাধারণত mean > median	1.3
risk (of an estimator)	quadratic loss-এ একটা estimator \(\hat\theta\)-এর মোট প্রত্যাশিত বর্গ-ত্রুটি \(R(\hat\theta,\theta)=\mathbb E\lVert\hat\theta-\theta\rVert^2\); \(\theta\)-এর একটা ফাংশন (estimator-কে তার পুরো risk-বক্ররেখা দিয়ে বিচার করা হয়); MLE-র risk সর্বত্র \(p\)	8.3
risk / expected risk (\(R(h)\))	পুরো (অজানা) distribution \(P(x,y)\)-র উপর প্রত্যাশিত loss \(R(h)=\mathbb E[\ell(h(x),y)]\) — অদেখা data-তে গড় ভুল; modeling-এর আসল লক্ষ্য এটিই minimize করা, কিন্তু \(P\) অজানা	6.1
robust covariance	outlier-প্রভাব কমিয়ে \(\mu,\Sigma\) আঁচ করার পদ্ধতি (যেমন Minimum Covariance Determinant), যাতে দূষিত data-তেও Mahalanobis-threshold নির্ভরযোগ্য থাকে; Elliptic Envelope-এর ভিত্তি (নয়তো কয়েকটা outlier-ই \(\Sigma\)-কে ফুলিয়ে নিজেদের লুকিয়ে ফেলত)	6.9
robust statistic	outlier থাকলেও সামান্য বদলায় এমন পরিমাপ	1.2
ROC / AUC	threshold-মুক্ত পারফরম্যান্স-বক্ররেখা (TPR বনাম FPR) ও তার নিচের ক্ষেত্রফল; AUC = P(random positive-এর score \(>\) random negative-এর score), imbalance-এ accuracy-র চেয়ে নির্ভরযোগ্য। canonical logistic AUC \(0.997\)	8.1
ROC AUC	threshold-নিরপেক্ষ র‍্যাঙ্কিং-মাপ: random anomaly-কে random inlier-এর চেয়ে উঁচু score দেওয়ার সম্ভাবনা (\(1.0\) নিখুঁত, \(0.5\) এলোমেলো); class-imbalance-এ accuracy বিভ্রান্তিকর বলে এটাই পছন্দ; canonical IF/LOF/Elliptic \(1.000\), OC-SVM \(0.941\)	6.9
ROC curve	threshold \(0\to1\) ঘোরালে TPR (recall) বনাম FPR (\(=1-\)specificity)-এর curve; threshold বাছাই ও discrimination দেখার হাতিয়ার	5.4
running maximum	\(X_n^*=\max_{0\le k\le n}\lvert X_k\rvert\) — সময় \(n\) পর্যন্ত পথের চরম-বিচ্যুতি; Doob's maximal ও \(L^p\) inequalities ঠিক একে বাঁধে	7.9
running mean	\(n\)-এর সাথে ক্রমে হালনাগাদ হওয়া চলমান গড় \(\bar X_n\); LLN-এ true mean-এ গড়িয়ে যাওয়ার দৃশ্যরূপ	3.3
sample	population থেকে নেওয়া পর্যবেক্ষিত উপসেট (আকার \(n\), সাধারণত \(n \ll N\))	1.1
sample maximum (as MLE)	Uniform\((0,\theta)\)-এ \(\hat\theta_{\text{MLE}}=\max_i X_i\) — likelihood \(\max_i X_i\)-এ লাফিয়ে চূড়ায় ওঠে, তারপর \(\theta^{-n}\) ধরে ক্ষয়; কখনো \(\theta\) ছাড়ায় না (সর্বদা বৈধ)	4.3
sample maximum / order statistic	\(X_{(n)}=\max_i X_i\) — Uniform\((0,\theta)\)-এর MLE; biased low (\(\mathbb{E}=\frac{n}{n+1}\theta\)) কিন্তু \(\mathrm{Var}\sim\theta^2/n^2\), তাই MSE অতি ছোট (Figure 4)	4.4
sample mean	sample-এর গড় \(\bar{x} = \frac{1}{n}\sum_i x_i\); population mean \(\mu\)-এর estimator	1.1
sample mean concentration	\(\bar X_n\) data বাড়লে \(\mu\)-র চারপাশে আরও আঁটসাঁটভাবে কেন্দ্রীভূত হওয়া; LLN-এর পরিমাণগত রূপ	3.1
sample median	মাঝের order statistic (\(n\) বিজোড় হলে \(X_{((n+1)/2)}\))	2.7
sample moment	\(\hat\mu_k'=\frac1n\sum_{i=1}^n X_i^k\) — data থেকে হিসাব করা \(k\)-তম কাঁচা moment; population moment-এর plug-in estimate	4.2
sample path	process-এর একটিমাত্র realization — একটা স্থির outcome \(\omega\) ধরে \(t\mapsto X_t(\omega)\) পুরো ফাংশন; "একটা পরীক্ষার পুরো ইতিহাস"	3.5
sample proportion	binary বৈশিষ্ট্যযুক্ত sample-এর অনুপাত \(\hat{p} = k/n\) (= binary গড়)	1.1
sample reweighting	AdaBoost-এর প্রতি round-শেষে নমুনা-ওজন আপডেট — ভুল-শ্রেণিবদ্ধ বিন্দু \(w_i\leftarrow w_ie^{\alpha_t}\) (বাড়ে), ঠিক-বিন্দু \(w_ie^{-\alpha_t}\) (কমে), তারপর normalize; পরের learner-কে এখনো-ভুল বিন্দুর দিকে মন দিতে বাধ্য করে। reweight-পরে আগের learner ঠিক \(50\%\) weighted-error-এ নামে	6.6
sample size determination	চাহিদা-মাফিক margin of error \(m\) পেতে দরকারি নমুনা-আকার \(n\ge(z_{\alpha/2}\sigma/m)^2\) (proportion-এ worst-case \(\hat p=0.5\)) (§৭ Q8)	4.6
sample space	সব সম্ভাব্য ফলাফলের set, \(\Omega\) (probability-তে)	0.1
sample variance	\(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\); \(\sigma^2\)-এর unbiased estimator, ভাজক \(n-1\) (এক df খরচ)	4.1
sample variance \(S^2\)	\(S^2=\frac1{n-1}\sum(X_i-\bar X)^2\) — \(\sigma^2\)-এর unbiased estimator (\(\mathbb{E}[S^2]=\sigma^2\)); \(n-1\) ভাজক বলে "Bessel correction"	4.4
sampling bias	বাছাই-পদ্ধতি কিছু unit-কে systematically বেশি/কম নেয়, ফলে statistic-এ পদ্ধতিগত ভুল	1.1
sampling distribution	একই population থেকে বারবার (কাল্পনিক) নমুনা তুললে একটা statistic \(T\)-এর যে distribution হয়; inference-এর কেন্দ্রীয় বস্তু — এর কেন্দ্র দেয় bias, ছড়ানো দেয় standard error	4.1
Sauer–Shelah lemma	যদি \(d_{\mathrm{VC}}=d\) হয়, তবে growth function \(\Pi_{\mathcal H}(n)\le\sum_{i=0}^{d}\binom{n}{i}=O(n^d)\) — অর্থাৎ \(d_{\mathrm{VC}}\) সসীম হলে labeling-সংখ্যা exponential নয়, polynomial; এটিই অসীম-\(\mathcal H\)-এ generalization-bound সম্ভব করে	6.1
scalar	একটি একক সংখ্যা (vector নয়), যা দিয়ে vector scale করা হয়	0.5
scale (Exponential)	\(\theta=1/\lambda\); scipy.stats.expon এই scale চায়	2.4
scatterplot	\((x,y)\) জোড়াকে সমতলে বিন্দু হিসেবে আঁকা চিত্র; সম্পর্কের প্রথম ছবি	1.4
score equation	first-order condition \(\ell'(\theta)=0\) (একাধিক প্যারামিটারে প্রতিটি partial \(=0\)) — মসৃণ অভ্যন্তরীণ সর্বোচ্চে MLE বের করার সমীকরণ (\(\ell''<0\) দিয়ে সর্বোচ্চ যাচাই)	4.3
score equation (Poisson)	log canonical link-এ MLE-শর্ত \(X^\top(y-\mu)=\mathbf 0\) (logistic-এর \(X^\top(y-p)=0\)-র জমজ); intercept থাকলে conservation \(\sum_i\hat\mu_i=\sum_i y_i\) (sample mean সংরক্ষিত)	5.5
score function	log-likelihood-এর derivative \(\ell'(\theta)=\frac{\partial}{\partial\theta}\sum_i\log f(X_i;\theta)\); মসৃণ অভ্যন্তরীণ চূড়ায় MLE আসে score equation \(\ell'(\theta)=0\) সমাধান করে	4.3
score statistic	\(S=\dfrac{U(\theta_0)^2}{I(\theta_0)}\) — \(\theta_0\)-তে log-likelihood-এর ঢাল ও information থেকে; MLE বের না করেই চলে; \(\xrightarrow{d}\chi^2_1\) (Figure 1, §৭ Q7)	4.8
score test (Rao)	score statistic-ভিত্তিক \(H_0:\theta=\theta_0\) test; শুধু null-এ হিসাব লাগে; multinomial-এ Pearson \(\chi^2\)-এ পরিণত হয় (§৭ Q9)	4.8
scree plot	eigenvalue (বা explained-variance-ratio) বনাম PC-নম্বরের লেখচিত্র — কতগুলো PC রাখা উচিত তা দৃশ্যত বাছতে; খাড়া-পতন-থেকে-সমতল বাঁকই "elbow"; চলমান উদাহরণে PC2→PC3-এ তীক্ষ্ণ পতন (\(0.343\to0.0042\)) ⇒ elbow PC2-র পরে ⇒ \(2\) PC রাখা	5.9
secant line	curve-এর দুটো বিন্দু যোগকারী সরলরেখা	0.3
second derivative	derivative-এর derivative; curvature মাপে	0.3
second derivative test	\(f''\)-এর চিহ্ন দিয়ে max/min নির্ণয়	0.3
second-order Delta method	\(g'(\mu)=0\) হলে ব্যবহৃত; \(n(g(\bar X_n)-g(\mu))\xrightarrow{d}\tfrac12 g''(\mu)\sigma^2\chi^2_1\) — limit Normal নয়, chi-square	3.4
seed	pseudo-random generator-এর শুরুর মান; reproducibility নিশ্চিত করে	0.6
self-independence (\(\mathbb P(A)=\mathbb P(A)^2\))	একটি ঘটনা নিজের থেকে স্বাধীন হলে \(\mathbb P(A)=\mathbb P(A\cap A)=\mathbb P(A)^2\Rightarrow\mathbb P(A)\in\{0,1\}\); 0–1 law-এর এক-লাইন বীজগণিতিক হৃৎপিণ্ড	7.6
self-selection bias	উত্তরদাতারা নিজেরা বাছাই হওয়ায় সৃষ্ট bias (যেমন স্বেচ্ছা অনলাইন জরিপ)	1.1
self-training	সরলতম semi-supervised কৌশল: labeled data-তে classifier ফিট করে, তার সবচেয়ে-আত্মবিশ্বাসী unlabeled-প্রেডিকশনগুলোকে "pseudo-label" হিসেবে training-এ যোগ করে, বারবার পুনরাবৃত্তি; সরল কিন্তু ভুল-pseudo-label জমলে বিপথগামী হতে পারে	6.9
semi-supervised learning	অল্প label-যুক্ত + বহু label-হীন বিন্দু একসাথে ব্যবহার করে শেখা; unlabeled data সাহায্য করে কেবল যদি গঠন label-সম্পর্কিত হয় (cluster/manifold/smoothness অনুমান); canonical-এ labeled-only \(0.833\) → LabelSpreading \(0.989\)	6.9
sensitivity	\(P(+\mid D)\); রোগীকে test ধরার হার (true positive rate)	2.2
separating hyperplane	feature-space-এ যে সমতল \(w^\top x+b=0\) দুই শ্রেণির অঞ্চল ভাগ করে; \(w\) এর লম্ব-অভিমুখ, \(b\) স্থানান্তর; SVM এদের মধ্যে max-margin-টি বাছে	6.4
sequential (online) updating	প্রতিটা নতুন data-তে আগের posterior পরের ধাপের prior হয়ে যায়; conjugacy-তে শুধু parameter আপডেট (Figure 2, §৭ Q12)	4.10
sequential ensemble	boosting-এর গঠন — গাছগুলো পরস্পর-নির্ভর, \(h_t\) গড়তে আগের সমষ্টি \(F_{t-1}\)-এর ভুল (reweighted data বা residual) লাগে, তাই \(h_{t-1}\) শেষ না হলে \(h_t\) শুরু করা যায় না (parallel নয়); bagging/RF-এর parallel-স্বাধীন ensemble-এর সরাসরি বিপরীত	6.6
Series	pandas-এর index-যুক্ত নামাঙ্কিত 1D array (একটি কলাম)	0.6
set	কিছু সুনির্দিষ্ট, পরস্পর-আলাদা বস্তুর সংগ্রহ; ক্রম ও পুনরাবৃত্তি গোনা হয় না	0.1
set-builder notation	শর্ত দিয়ে set লেখার রীতি, \(\{x \mid \text{শর্ত}\}\)	0.1
shattering	\(\mathcal H\) যদি কিছু বিন্দু-সেটের সব \(2^k\)টি ±labeling আলাদা করতে পারে, তবে সেই সেটকে shatter করে; \(d_{\mathrm{VC}}\) = বৃহত্তম shatter-যোগ্য সেটের আকার; 2D-তে 3 অ-সমরেখ বিন্দু shatter হয়, 4 হয় না	6.1
shrinkage	গোষ্ঠী-estimate-কে গ্র্যান্ড-গড়ের দিকে টানা — partial pooling-এর প্রভাব; কতটা তা নির্ভর করে shrinkage factor \(\lambda_j\)-এর ওপর; ছোট/noisy গোষ্ঠী বেশি টানা, বড়/তথ্যবহুল কম; noisy চরম মান নিয়ন্ত্রণ করে	5.6
shrinkage estimator	unbiased estimator-কে \(0\)-র দিকে টেনে (factor \(c<1\)) সামান্য bias ঢুকিয়ে variance কমানো; MSE-optimal \(c^\ast=\theta^2/(\theta^2+\sigma_0^2)<1\) (§৭ Q11)	4.4
shrinkage factor (\(\lambda_j\))	গোষ্ঠীর data কতটা "বিশ্বাস" পায়: \(\lambda_j=\dfrac{n_j\sigma_u^2}{n_j\sigma_u^2+\sigma_\varepsilon^2}\); BLUP \(\approx\lambda_j\times\)(গোষ্ঠীর raw-deviation); \(n_j\)-তে একঘেয়ে বাড়ে; উদাহরণে \(\lambda_{10}=0.855\), \(\lambda_{20}=0.922\), \(\lambda_{30}=0.947\)	5.6
shrinkage factor (ridge)	orthonormal \(X\)-এ ridge-coefficient OLS-এর সমানুপাতিক সংকোচন \(\hat\beta_j^{\text{ridge}}=\hat\beta_j^{\text{OLS}}/(1+\lambda)\); factor \(\frac1{1+\lambda}\in(0,1)\) for \(\lambda>0\) বলে কোনো coefficient ঠিক \(0\) হয় না — এজন্যই ridge sparse নয়	6.2
\(\sigma\)-algebra	\(\Omega\)-এর subset-দের পরিবার \(\mathcal F\) যা \(\Omega\) ধারণ করে এবং complement ও গণনাযোগ্য union-এ বদ্ধ; এ থেকেই \(\varnothing\), গণনাযোগ্য intersection ও set-difference-এর বদ্ধতা আসে — "পরিমাপযোগ্য ঘটনা"-র বৈধ পরিবার	7.2
\(\sigma\)-algebra (preview)	একটা set \(\Omega\)-এর কিছু subset-এর পরিবার \(\mathcal F\) যা \(\Omega\) ধারণ করে এবং complement ও গণনাযোগ্য union/intersection-এ বদ্ধ; measure যেখানে সংজ্ঞায়িত হয় (event-দের বৈধ পরিবার), পূর্ণ নির্মাণ 7.2-এ	7.1
\(\sigma\)-finite	measure যেখানে \(\Omega=\bigcup_n\Omega_n\) সম্ভব এমন গণনাযোগ্য \(\Omega_n\)-এ যাদের প্রতিটির \(\mu(\Omega_n)<\infty\); Carathéodory uniqueness ও \(\pi\)–\(\lambda\)-এর আবশ্যক শর্ত (Lebesgue \(\sigma\)-finite: \(\mathbb R=\bigcup_n[-n,n]\))	7.2
\(\sigma\)-finite integral	যে measure space-এ \(\Omega=\bigcup_n\Omega_n\) (\(\mu(\Omega_n)<\infty\)); integral ও limit-interchange-জাতীয় ফল এই শর্তে মসৃণ চলে	7.4
\(\sigma(X)\) (generated σ-algebra of \(X\))	\(X\)-কে measurable করা সবচেয়ে ছোট σ-algebra: \(\sigma(X)=X^{-1}(\mathcal B)=\{X^{-1}(B):B\in\mathcal B\}\); simple \(X\)-এর \(k\)টি ভিন্ন মান হলে \(\lvert\sigma(X)\rvert=2^k\) (\(k=2,3,4\to 4,8,16\))	7.3
sigmoid (logistic) function	\(\sigma(z)=\frac{1}{1+e^{-z}}\); logit-এর inverse, \(\eta\)-কে \((0,1)\)-তে S-আকৃতিতে চেপে আনে; \(\sigma(0)=0.5\), \(\sigma(\pm\infty)=1/0\)	5.4
sigmoid-derivative identity	\(\sigma'(z)=\sigma(z)(1-\sigma(z))\); তাই \(\frac{\partial p}{\partial\eta}=p(1-p)=\) Bernoulli variance, যা score/Hessian/IRLS-weight-এর চাবিকাঠি	5.4
signed area	চিহ্নসহ ক্ষেত্রফল; x-অক্ষের নিচের অংশ ঋণাত্মক ধরা হয়	0.4
significance level \(\alpha\)	type I error-এর আগে-থেকে-বাছা ঊর্ধ্বসীমা (যেমন \(0.05\)); এটাই critical value ঠিক করে	4.7
silhouette score	প্রতিটি বিন্দুর cluster-membership-এর মান: \(s_i=\frac{b_i-a_i}{\max(a_i,b_i)}\in[-1,1]\), \(a_i=\) নিজের cluster-এর গড়-দূরত্ব, \(b_i=\) নিকটতম-অন্য cluster-এর গড়-দূরত্ব; \(\to1\) ভালো-বসানো, \(\approx0\) সীমান্ত, \(<0\) সম্ভবত ভুল cluster; গড়-\(s\) সর্বোচ্চকারী \(K\) বাছা — label-মুক্ত, সংখ্যাগত, তাই elbow-এর চেয়ে নির্ভরযোগ্য; চলমান উদাহরণে \(k{=}3\to0.712\) (সর্বোচ্চ)	5.9
Silverman's rule of thumb	bandwidth-এর default আনুমান h ≈ 1.06·σ̂·n^(−1/5)	1.3
simple function	সসীম-মানের measurable function \(s=\sum_{i=1}^n a_i\mathbf 1_{A_i}\) (\(a_i\in\mathbb R,\ A_i\in\mathcal F\)); approximation theorem ও Lebesgue integral (7.4)-এর মৌলিক ইট	7.3
simple function integral	\(\int\sum_i a_i\mathbf 1_{A_i}\,d\mu=\sum_i a_i\mu(A_i)\); "উচ্চতা × আকার"-এর যোগফল, প্রতিনিধিত্ব-নিরপেক্ষ ও linear	7.4
simple linear regression	একটিমাত্র predictor-এর regression, \(\hat y=\beta_0+\beta_1 x\)	5.1
simple random sample	SRS: প্রতিটি unit সমান সম্ভাবনায় ও স্বাধীনভাবে বাছাই-করা নমুনা	1.1
singular matrix	inverse-হীন matrix (\(\det=0\))	0.5
singular measure	\(\mu\)-এর সাপেক্ষে singular \(\nu\) (\(\nu\perp\mu\)): এমন একটি set আছে যেখানে \(\nu\)-এর সব ভর অথচ \(\mu\)-measure শূন্য; Lebesgue decomposition-এর density-হীন অংশ	7.5
singular value decomposition (SVD)	\(X=USV^\top\) — যেকোনো matrix-এর গুণনপচন; PCA-র সংখ্যাগতভাবে স্থিতিশীল পথ: \(V\)-র column \(=\) PC দিক (eigenvector), singular-value-বর্গ \(s_j^2/n=\lambda_j\) (eigenvalue), \(US=\) PC score; covariance সরাসরি না বানিয়েই PCA দেয়, তাই বাস্তবে এটাই ব্যবহৃত	5.9
skewness	distribution কোন দিকে হেলানো; তৃতীয় standardized moment g₁	1.3
slack (of a bound)	bound ও প্রকৃত মানের পার্থক্য; ঢিলা bound-এ বড়, আঁটসাঁট bound-এ ছোট	3.1
slack variable	soft-margin-এ প্রতিটি বিন্দুর margin-লঙ্ঘনের পরিমাপ \(\xi_i\ge0\) (\(\xi_i=0\) নিরাপদ বাইরে, \(0<\xi_i<1\) margin-এর ভিতরে কিন্তু সঠিক পাশে, \(\xi_i>1\) ভুল পাশে); \(C\sum_i\xi_i\) রূপে শাস্তিপ্রাপ্ত	6.4
SLLN via martingale	বৃহৎ সংখ্যার শক্তিশালী সূত্রের martingale-প্রমাণ: গড় \(\bar X_n=\frac1n\sum_{k\le n}\xi_k\)-কে backwards-martingale-কাঠামোয় বসিয়ে convergence theorem দিয়ে \(\bar X_n\to\mu\) a.s. (7.6-এর পুনঃপ্রমাণ)	7.9
slope	রেখার ঢাল, প্রতি একক x-এ y-এর পরিবর্তন	0.3
slope coefficient	predictor-এর এক-একক পরিবর্তনে \(\hat y\)-এর গড় পরিবর্তন, \(\beta_j\)	5.1
Slutsky's theorem	\(X_n\xrightarrow{d}X\) ও \(Y_n\xrightarrow{P}c\) হলে \(X_n+Y_n\xrightarrow{d}X+c\), \(X_nY_n\xrightarrow{d}cX\); CLT-তে \(\sigma\)-কে \(S_n\) দিয়ে বদলানো ও Delta method প্রমাণের হাতিয়ার	3.4
smoother matrix (\(S\))	linear smoother-এ \(\hat{\mathbf f}=S\mathbf y\)-এর \(n\times n\) matrix; regression spline-এ \(S=B(B^\top B)^{-1}B^\top\) একটা orthogonal projection (\(S^\top=S\), \(S^2=S\), \(\operatorname{tr}(S)=K\)); kernel-এ row \(i\) = \(x_i\)-এর চারপাশের normalized kernel-weight	5.7
smoothing parameter (\(\lambda\))	smoothing spline-এ roughness-শাস্তির ওজন; \(\lambda\to0\) ⇒ interpolation (চরম overfit, high variance), \(\lambda\to\infty\) ⇒ সরলরেখা/linear fit (চরম oversmooth, high bias); মাঝামাঝি মান সর্বোত্তম আপস	5.7
smoothing spline	প্রতিটা data-বিন্দুতে knot বসিয়ে penalized criterion \(\sum_i(y_i-f(x_i))^2+\lambda\int f''^2\) minimize করে পাওয়া spline; knot বাছার বদলে \(\lambda\) দিয়ে নমনীয়তা নিয়ন্ত্রণ; সমাধান সর্বদা natural cubic spline; চলমান উদাহরণে \(s=13.5\) → MSE \(0.0197\)	5.7
smoothness assumption	semi-supervised-এর মূল অনুমান: কাছাকাছি দুই বিন্দুর label সম্ভবত এক (ছোট পরিবর্তনে label বদলায় না); label propagation এটি graph-diffusion ও \(f^\top L f\)-minimization দিয়ে বাস্তবায়িত করে	6.9
soft assignment	প্রতিটি বিন্দুকে সব component-এ ভগ্নাংশে (responsibility \(\gamma_{ik}\in[0,1]\), যোগফল \(1\)) বণ্টন — GMM-এর ধরন; সীমানা-অনিশ্চয়তা ধরে রাখে (যেমন \([0.864,0.002,0.133]\) = প্রধানত comp-\(1\), সামান্য comp-\(3\))। hard assignment-এর বিপরীত	6.7
soft margin	hard-margin-এর শিথিল রূপ — প্রতিটি বিন্দুতে slack \(\xi_i\ge0\) অনুমোদন করে কিছু margin-লঙ্ঘন সহ্য করে, উদ্দেশ্যে \(C\sum_i\xi_i\) শাস্তি যোগ; inseparable/noisy data-র (যেমন make_moons) জন্য অপরিহার্য	6.4
soft-thresholding	orthonormal-এ lasso-র সমাধান-অপারেটর \(\hat\beta_j=\operatorname{sign}(z_j)\big(\lvert z_j\rvert-\lambda/2\big)_+\) — \(\lvert z_j\rvert\le\lambda/2\) হলে \(0\), নাহলে magnitude থেকে \(\lambda/2\) বিয়োগ করে চিহ্ন রাখা; lasso-র "shrink + zero" আচরণের গাণিতিক রূপ ও sparsity-র উৎস	6.2
sparse regression	এমন regression যা ইচ্ছাকৃতভাবে অল্প-সংখ্যক nonzero coefficient-যুক্ত মডেল খোঁজে (অর্থাৎ feature selection-সহ fit); lasso/elastic net এর প্রধান হাতিয়ার; সত্য মডেল sparse হলে বিশেষ লাভজনক	6.2
sparsity	সমাধান-vector-এ অধিকাংশ coefficient ঠিক \(0\) হওয়ার বৈশিষ্ট্য; lasso/elastic net এটি প্ররোচিত করে; ব্যাখ্যাযোগ্যতা ও কম-variance দেয়; canonical lasso path \(\lambda{=}0.30\)-এ মাত্র \(4\) nonzero	6.2
Spearman rank correlation	rank-এর উপর Pearson; যেকোনো monotonic সম্পর্ক ও outlier-robust পরিমাপ, \(\rho\)	1.4
specificity	\(P(-\mid D^c)\); সুস্থকে test ছেড়ে দেওয়ার হার (true negative rate)	2.2
spherically symmetric	multivariate normal \(N(\theta,I_p)\)-এর গোলীয় প্রতিসাম্য — density কেবল \(\lVert x-\theta\rVert\)-এর উপর নির্ভর; তাই \(\theta=0\)-তে \(\lVert X\rVert^2\sim\chi^2_p\), আর JS-এর \(\lVert X\rVert^2\)-নির্ভর radial shrinkage এই প্রতিসাম্যের সাথে সামঞ্জস্যপূর্ণ	8.3
splitting criterion	কোন split "সেরা" তা মাপার function — classification-এ Gini বা entropy (information gain সর্বোচ্চকরণ), regression-এ variance/MSE-হ্রাস; greedy-ভাবে প্রতিটি node-এ স্থানীয়-সেরা split বাছাইয়ের ভিত্তি	6.5
spurious correlation	কাকতালীয় বা confounder-চালিত অর্থহীন correlation	1.4
standard deviation	variance-এর বর্গমূল; মূল data-র এককে spread	1.2
standard error	একটা estimator-এর standard deviation; \(\bar X_n\)-এর \(\sigma/\sqrt{n}\), \(g(\bar X_n)\)-এর Delta method-পূর্বাভাস \(\lvert g'(\mu)\rvert\sigma/\sqrt{n}\)	3.4
standard error (SE)	একটি estimator-এর standard deviation; Monte Carlo-তে \(\operatorname{SE}\propto 1/\sqrt n\), error band-এর প্রস্থ ঠিক করে	3.3
standard error from Fisher info	\(\mathrm{SE}(\hat\theta)=\sqrt{\frac{1}{nI(\hat\theta)}}\) — MLE-র অনিশ্চয়তা; 4.6-এ confidence interval-এর ভিত্তি	4.5
standard error of coefficient	\(\widehat{\mathrm{se}}(\hat\beta_j)=\hat\sigma\sqrt{(X^\top X)^{-1}_{jj}}\); \(\operatorname{Var}(\hat\beta)=\sigma^2(X^\top X)^{-1}\) থেকে — coefficient-এর অনিশ্চয়তার পরিমাপ, \(t\) ও CI-র ভিত্তি	5.2
standard error of CV	fold-জুড়ে fold-MSE-গুলোর variability-র মাপ \(\text{SE}=s_{\text{fold}}/\sqrt{K}\); CV-গড়ের অনিশ্চয়তা বোঝায় ও one-SE rule-এ threshold বানাতে লাগে; চলমান উদাহরণে \(d{=}3\)-এ \(\approx0.85\)	5.8
standard Normal	\(\mathcal{N}(0,1)\); mean \(0\), sd \(1\); CDF \(\Phi\)	2.4
standardization	z-score-এ রূপান্তর (mean 0, std 1 বানানো)	1.2
standardized sample mean	\(Z_n=\dfrac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\); CLT-র কেন্দ্রীয় রাশি, mean \(0\) ও variance \(1\)	3.4
stars and bars	একরকম জিনিসকে শ্রেণিতে বণ্টনের গণনা-কৌশল \(\binom{n+r-1}{r-1}\)	0.2
state space	\(X_t\) যেসব মান নিতে পারে তার set; discrete (গণনা, যেমন \(N(t)\)) বা continuous (যেমন Brownian motion)	3.5
stationarity (strict)	যেকোনো শিফট \(h\)-এ \((X_{t_1+h},\dots,X_{t_k+h})\)-এর joint distribution \(h\)-নিরপেক্ষ; "পরিসংখ্যান সময়ের সাথে বদলায় না" (E4)	3.5
stationary distribution	\(\pi\) এমন distribution যে \(\pi=\pi P\) (ও \(\sum_i\pi_i=1\)); একবার পৌঁছালে আর বদলায় না — transition-এর ভারসাম্য/fixed point (E3); E1-এ \(\pi=(2/3,1/3)\)	3.6
statistic	sample থেকে গণনাযোগ্য সংখ্যা; random (sample বদলালে বদলায়) (\(\bar{x}, s, \hat{p}\); Roman অক্ষর)	1.1
statistical inference	একটা population-এর অজানা বৈশিষ্ট্য (estimand) সম্পর্কে নমুনা-data থেকে সিদ্ধান্ত টানার প্রক্রিয়া — estimation, confidence interval, hypothesis testing	4.1
statistical learning	data থেকে এমন একটি ফাংশন/মডেল \(h\) শেখার তত্ত্ব যা অদেখা data-তেও কাজ করে; কেন্দ্রীয় প্রশ্ন — সীমিত নমুনায় ভালো করা মডেল পুরো distribution-এ ভালো করবে কি (generalization); Part VI-এর ভিত্তি	6.1
statistical learning theory	কেন training-data-য় ভালো model অদেখা data-তেও ভালো করে তার গাণিতিক ভিত্তি (generalisation); মূল যন্ত্র VC dimension, Rademacher complexity, ও deep-learning theory; ML-এর তাত্ত্বিক হৃদয় (← Part VI, III concentration)	8.4
statistical vs practical significance	"\(p\) ছোট" (signal আছে) ≠ "effect বড়/গুরুত্বপূর্ণ"; বিশাল \(n\)-এ তুচ্ছ effect-ও significant হতে পারে — effect size/CI দেখা জরুরি (§৭ Q4)	4.7
Stein's lemma	\(X\sim N(\theta,1)\), \(g\) মসৃণ ⇒ \(\mathbb E[(X-\theta)g(X)]=\mathbb E[g'(X)]\) (normal-density-র উপর integration by parts, \(f'(x)=-(x-\theta)f(x)\)); \"\((X-\theta)\)-যুক্ত পদ\"-কে \"derivative-প্রত্যাশা\"-য় বদলে \(\theta\) সরায় — SURE-এর একক ইট	8.3
Stein's paradox	\(p\ge3\) মাত্রায় normal-means সমস্যায় স্পষ্ট estimator MLE \(\hat\theta=X\) সেরা নয় — একটা shrinkage estimator (James–Stein) তাকে প্রতিটি \(\theta\)-তে হারায়; এমনকি coordinate-গুলো সম্পূর্ণ অসম্পর্কিত হলেও যৌথভাবে সংকুচিত করা পৃথকভাবে estimate করার চেয়ে ভালো — সহজাত-বিরোধী অথচ প্রমাণিত	8.3
Stein's Unbiased Risk Estimate (SURE)	estimator \(\hat\theta=X+g(X)\)-এর risk-এর একটা \(\theta\)-মুক্ত unbiased estimate: \(\mathbb E\lVert\hat\theta-\theta\rVert^2=\mathbb E[p+2\,\nabla\!\cdot g(X)+\lVert g(X)\rVert^2]\); সত্যিকারের \(\theta\) না জেনেও risk আন্দাজ করা যায়	8.3
step-function structure of \(\mathbb E[X\mid\mathcal G]\)	finite partition-এ \(\mathbb E[X\mid\mathcal G]\) একটি ধাপ-অপেক্ষক — প্রতি atom-এ একটি ধ্রুবক; \(\mathcal G\)-measurability মানকে atom-ভেদে ধ্রুব করে, averaging তা atom-গড়ে বাঁধে	7.7
stepwise selection	criterion (AIC/\(p\)-value) ধরে predictor ধাপে ধাপে যোগ (forward) বা বাদ (backward) দেওয়ার লোভী অনুসন্ধান; সুবিধাজনক কিন্তু overfitting ও \(p\)-value বিকৃতির ঝুঁকিপূর্ণ	5.2
stochastic differential equation (SDE)	একটা random-চালিকা-সহ অন্তরকল সমীকরণ \(dX_t=\mu(X_t)\,dt+\sigma(X_t)\,dW_t\) (\(W_t\) Brownian motion); সমাধানে Itô calculus লাগে (Brownian path সাধারণ calculus মানে না); finance/physics/diffusion-model-এর ভিত্তি (← Part VII 7.8-7.9 martingale)	8.4
stochastic gradient boosting	প্রতি round-এ training-row ও/বা feature-এর একটা এলোমেলো উপসেটে গাছ fit করা — subsampling variance কমায় ও গাছ decorrelate করে overfitting ঠেকায়; gradient boosting-এর তিনটি মূল regularizer-এর একটি (shrinkage ও depth/early-stopping-এর সাথে)	6.6
stochastic matrix	অঋণাত্মক ভুক্তি ও সারি-যোগ \(1\) বিশিষ্ট বর্গ ম্যাট্রিক্স; প্রতিটি transition matrix stochastic, আর এর সর্বদা একটি eigenvalue ঠিক \(1\) থাকে (Perron–Frobenius)	3.6
stochastic process	একই probability space-এ সংজ্ঞায়িত random variable-এর একটা সংগ্রহ \(\{X_t\}\), \(t\) index (সময়/স্থান) দিয়ে সাজানো; "সময়ের সাথে বিবর্তিত randomness"-এর মডেল	3.5
stopped process	\(X_n^\tau=X_{n\wedge\tau}\) ("\(\tau\) পর্যন্ত খেলো, তারপর থামো") — martingale হলে এটিও martingale, কারণ থামা = predictable bounded বাজি \(H_n=\mathbf 1_{\{\tau\ge n\}}\) দিয়ে transform; তাই \(\mathbb E[X_{n\wedge\tau}]=\mathbb E[X_0]\)	7.8
stopping time	random variable \(\tau:\Omega\to\{0,1,\dots\}\cup\{\infty\}\) যেখানে \(\{\tau\le n\}\in\mathcal F_n\) সব \(n\)-তে — থামার সিদ্ধান্ত কেবল অতীত-তথ্যে, ভবিষ্যৎ উঁকি দিয়ে নয়; \(\tau\wedge m\)-ও stopping time	7.8
stratification	split/fold-এর প্রতিটি অংশে মূল class-অনুপাত ধরে রাখা (benign fraction \(\approx0.627\)); imbalance-এ CV-variance কমায় এবং কোনো fold-এ একটি class অতি-উপস্থাপন/অনুপস্থিত হওয়া ঠেকায়	8.1
streaming	data সম্পূর্ণ আগে-থেকে নয়, এক-এক বিন্দু (বা mini-batch) ক্রমাগত আসছে — এই সেটিংয়েই online learning প্রযোজ্য; বিশাল/অসীম data-তে একবারে সব রাখা অসম্ভব বলে incremental প্রক্রিয়াকরণ আবশ্যক	6.9
strong law of large numbers (SLLN)	\(\bar X_n\xrightarrow{a.s.}\mu\); প্রায় প্রতিটি গোটা পথ আক্ষরিকভাবে \(\mu\)-তে যায়; শর্ত শুধু \(\mathbb E\lvert X_i\rvert<\infty\)	3.3
strong learner	boosting-এ অনেক weak learner-এর ওজনিত সমষ্টি \(F_T(x)=\sum_t\alpha_t h_t(x)\) যা নিম্ন training/test-error অর্জন করে; তত্ত্ব বলে যথেষ্ট weak learner যোগ করলে যেকোনো-নিম্ন training-error সম্ভব	6.6
structured data	সারি-কলামবিশিষ্ট আয়তাকার (rectangular) data; প্রতিটি column-এর নির্দিষ্ট type	1.1
Student's t-statistic	\(T=\frac{\bar X_n-\mu}{S/\sqrt{n}}\); \(\sigma\)-কে \(S\) দিয়ে বদলানোয় \(t_{n-1}\) distribution অনুসরণ করে, \(z\)-statistic-এর small-sample সংস্করণ	4.1
Student-t tail (t-SNE)	t-SNE-র low-D affinity Gaussian নয়, ভারী-লেজ Student-\(t\) (\(1\) df, \(q_{ij}\propto(1+\lVert y_i-y_j\rVert^2)^{-1}\)) — দূরত্ব বাড়লেও \(q\) ধীরে (বহুপদীয়) পড়ে, তাই দূরের বিন্দু low-D-তে মুছে যায় না; crowding কমিয়ে cluster স্পষ্ট ও আলাদা রাখে	6.8
studentized range distribution	\(k\)টি group-গড়ের সর্বোচ্চ-সর্বনিম্ন পরিসরের (scaled) distribution; Tukey HSD-এর critical value এখান থেকে — তাই Tukey-CI সাধারণ \(t\)-CI-র চেয়ে চওড়া	5.3
studentized residual	residual-কে তার নিজস্ব আনুমানিক std দিয়ে scale করা: \(r_i=\hat\varepsilon_i/\sqrt{\hat\sigma^2(1-h_{ii})}\); বিভিন্ন leverage-এর বিন্দুর residual তুলনাযোগ্য করে, outlier শনাক্তে ব্যবহৃত	5.2
Sturges' formula	bin-সংখ্যার থাম্ব-রুল ⌈log₂ n + 1⌉	1.3
sub-σ-algebra (as information)	\(\mathcal G\subseteq\mathcal F\) — "যতটুকু জানা" তথ্যকে ধরা; \(\mathcal G\) যত সূক্ষ্ম তত বেশি তথ্য; \(\mathcal G=\{\varnothing,\Omega\}\) (কিছু জানি না) ⇒ \(\mathbb E[X\mid\mathcal G]=\mathbb E[X]\), \(\mathcal G=\mathcal F\) (সব জানি) ⇒ \(=X\)	7.7
submartingale	adapted integrable \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]\ge X_n\) a.s. — পক্ষে-ঝোঁকা, গড়ে বাড়ে; convex \(\varphi\)-তে martingale থেকে \(\varphi(X_n)\) submartingale হয় (conditional Jensen)	7.8
subset	\(A \subseteq B\): \(A\)-এর প্রতিটি সদস্য \(B\)-তেও আছে	0.1
substitution	chain rule-এর উল্টো integration কৌশল (\(u=g(x)\) ধরা)	0.4
sufficiency (intuition)	"\(T\)-ই inference-এর জন্য যথেষ্ট" — দুই ভিন্ন-ক্রম dataset একই \(T\) দিলে একই likelihood, একই MLE (Figure 4)	4.5
sufficient condition for consistency	bias\(\to0\) এবং variance\(\to0\) (\(\Rightarrow\) MSE\(\to0\)) হলে Chebyshev দিয়ে \(\hat\theta_n\xrightarrow{P}\theta\) (§৭ Q10)	4.4
sufficient statistic	statistic \(T(X)\) যা প্যারামিটার সম্পর্কে data-র সব তথ্য ধরে রাখে; \(T\) দেওয়া থাকলে raw data আর কিছু বলে না (Figure 4)	4.5
sum of random variables	\(S=X+Y\); independent হলে density convolution দিয়ে পাওয়া যায়	2.7
sum of squares	বিচ্যুতির বর্গের যোগফল; ANOVA-তে variation-কে উৎস-অনুযায়ী (between/within/factor/interaction/residual) ভাগ করার একক	5.3
\(\sum X_i\) as sufficient statistic	Bernoulli/Poisson-এ \(T=\sum X_i\) sufficient; ক্রম অপ্রাসঙ্গিক, কেবল যোগফলেই সব তথ্য (Figure 4; §৭ Q12)	4.5
sums and products measurable	measurable \(X,Y\)-এর \(X+Y\) ও \(XY\) আবার measurable; \(\{X+Y<x\}=\bigcup_{q\in\mathbb Q}(\{X<q\}\cap\{Y<x-q\})\) (গণনাযোগ্য union over \(\mathbb Q\)), গুণ \(XY=\tfrac14[(X+Y)^2-(X-Y)^2]\) ও \(t\mapsto t^2\) Borel	7.3
sup/limsup of measurable functions	measurable \(X_n\)-দের \(\sup_n X_n,\inf_n X_n,\limsup_n X_n,\liminf_n X_n,\lim_n X_n\) আবার measurable; key: \(\{\sup_n X_n\le x\}=\bigcap_n\{X_n\le x\}\) (গণনাযোগ্য intersection of events)	7.3
supermartingale	adapted integrable \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]\le X_n\) a.s. — বিপক্ষে-ঝোঁকা, গড়ে কমে (যেমন ঘর-সুবিধাযুক্ত ক্যাসিনো); নাম-সাদৃশ্য subharmonic ফাংশনের উল্টো	7.8
support	সমর্থন — random variable-এর সব সম্ভাব্য মানের set \(\mathcal{X}\)	2.3
support of a law	\(X\)-এর law \(P_X\) যেখানে "ভর রাখে" — ক্ষুদ্রতম closed set \(S\) with \(P_X(S)=1\); যেমন \(Y=X^2,\ X\sim U(-1,1)\)-এ support \([0,1]\), যেখানে density \(\dfrac{1}{2\sqrt y}\) (\(y\to 0\)-এ \(\to\infty\), তবু \(\int_0^1=1\))	7.3
support vector	সেই training-বিন্দু যাদের dual coefficient \(\alpha_i>0\) — জ্যামিতিকভাবে margin-এর উপর বা ভিতরে/ভুল পাশে; decision function \(f(x)=\sum_i\alpha_i y_i K(x_i,x)+b\) কেবল এদের উপর নির্ভর; non-SV মুছলে boundary অপরিবর্তিত; canonical RBF\(C{=}10\)-এ ৪৫টি	6.4
support vector machine (SVM)	discriminative classifier যা দুই শ্রেণিকে সর্বোচ্চ margin-এ আলাদা করা hyperplane \(w^\top x+b=0\) খোঁজে; soft-margin-এ slack ও penalty \(C\), এবং kernel-trick দিয়ে nonlinear boundary; সিদ্ধান্ত অল্প কয়েকটি support vector-নির্ভর (sparse)। canonical (make_moons): linear \(0.811\), RBF \(C{=}10\) \(0.944\)	6.4
supporting line	convex curve-এর কোনো বিন্দুতে tangent, যা পুরো curve-এর নিচে থাকে; Jensen-প্রমাণের হাতিয়ার	3.1
sure event	পুরো \(\Omega\); probability \(1\)	2.1
surjective	onto: codomain-এর প্রতিটি element কোনো input থেকে আসে (range=codomain)	0.1
survival function	\(S(x)=P(X>x)=1-F(x)\); "\(x\) অতিক্রম করে টিকে থাকার" probability	2.4
symbolic integration	closed-form/বীজগাণিতিক রূপে integral (যেমন sympy integrate)	0.4
symmetric difference	\(A \triangle B\): একটিতে আছে কিন্তু দুটোতে একসাথে নেই	0.1
symmetric matrix	\(A=A^\top\) সমানুবর্তী matrix	0.5
system of linear equations	একসাথের রৈখিক সমীকরণ, \(A\mathbf{x}=\mathbf{b}\)	0.5
t-distribution	\(t_k=\frac{Z}{\sqrt{V/k}}\) (\(Z\sim\mathcal N(0,1)\), \(V\sim\chi^2_k\) স্বাধীন); \(0\)-কেন্দ্রিক, Normal-এর চেয়ে ভারী লেজ; \(\sigma\) অজানা থাকলে \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\) (E3)	4.1
t-interval	\(\sigma\) অজানা হলে \(\bar x\pm t_{n-1,\alpha/2}\,s/\sqrt n\) (E2); z-interval-এর চেয়ে চওড়া, কারণ \(s\) আঁচের বাড়তি অনিশ্চয়তা (Figure 3)	4.6
t-SNE	t-distributed Stochastic Neighbor Embedding — visualization-কেন্দ্রিক manifold পদ্ধতি: high-D affinity \(p_{ij}\) (Gaussian, perplexity-স্কেল) ও low-D affinity \(q_{ij}\) (Student-\(t\)) সংজ্ঞায়িত করে \(\mathrm{KL}(P\Vert Q)\) minimize করে embedding শেখে; local-strong, global-weak। canonical \(T=0.999,\ \lvert\text{corr}\rvert=0.857\)	6.8
t-test	\(\sigma\) অজানা হলে \(T=\frac{\bar x-\mu_0}{s/\sqrt n}\sim t_{n-1}\) (E2); ছোট \(n\)-এ z ব্যবহার করলে type I error স্ফীত (§৭ Q14)	4.7
t-test (regression)	প্রতিটি coefficient-এর জন্য \(H_0:\beta_j=0\) পরীক্ষা: \(t_j=\hat\beta_j/\widehat{\mathrm{se}}(\hat\beta_j)\sim t_{n-p}\) — "অন্য predictor রেখে এই predictor কি দরকার?"; ৪.৭-এর \(t\)-test-এর সরাসরি প্রয়োগ	5.2
tail (of a distribution)	distribution-এর প্রান্ত — খুব বড় বা খুব ছোট মানের অঞ্চল	3.1
tail bound	একটি distribution-এর প্রান্তে (tail) কত mass থাকতে পারে তার উপরসীমা	3.1
tail event	\(A\in\mathcal T\) — কোনো সসীম উপসর্গ (প্রথম \(m-1\)টি \(X_i\)) বদলালেও যার সত্য-মিথ্যা বদলায় না; যেমন \(\{\sum X_n\ \text{converges}\}\), \(\{\limsup\bar X_n>c\}\)	7.6
tail random variable	\(\mathcal T\)-measurable random variable (যেমন \(\limsup_n X_n\), \(\liminf_n\bar X_n\)); 0–1 law-এ a.s. ধ্রুবক — CDF একটি \(\{0,1\}\)-মানের ধাপ	7.6
tail σ-algebra	\(\mathcal T=\bigcap_{m\ge1}\sigma(X_m,X_{m+1},\dots)\); যে তথ্য সসীম-সংখ্যক \(X_i\) বদলালেও অটুট — "অসীম-দূরের লেজ"	7.6
tangent line	curve-কে একটি বিন্দুতে স্পর্শকারী রেখা	0.3
target distribution	যে distribution থেকে আমরা নমুনা চাই (\(\pi\) বা un-normalized \(f\)); MCMC-তে এটাই chain-এর stationary distribution বানানো হয় (Figure 4-এর লাল curve)	3.6
Taylor expansion of \(\varphi\)	\(\varphi(t)=1+it\mathbb E[X]-\tfrac{t^2}{2}\mathbb E[X^2]+o(t^2)\); গড়-শূন্য একক-ভেদে \(\varphi(t)=1-\tfrac{t^2}{2}+o(t^2)\) — CLT-প্রমাণের একমাত্র analytic input	7.10
test / generalization error (Err)	model আগে-না-দেখা স্বাধীন data-তে যে গড়-বর্গ-ভুল করবে; modeling-এর প্রকৃত লক্ষ্য, decomposition \(\text{Err}=\sigma^2+\text{bias}^2+\text{variance}\); train error এটিকে under-estimate করে, CV সৎভাবে আন্দাজ করে (চলমান উদাহরণে deg-\(3\) test MSE \(9.71\approx\sigma^2\))	5.8
test of independence	\(r\times c\) contingency table-এ row ও column স্বাধীন কিনা তার \(\chi^2\) test; \(E_{ij}=\frac{\text{row}_i\,\text{col}_j}{n}\), df \(=(r-1)(c-1)\) (§৭ Q14)	4.8
test statistic \(T\)	data-কে একটা সংখ্যায় চাপানো যার null distribution জানা (যেমন \(z=\frac{\bar x-\mu_0}{\sigma/\sqrt n}\)); মাপে data \(H_0\) থেকে কত দূরে	4.7
tidy data	"এক row = এক observation, এক column = এক variable" নিয়মে সাজানো data	1.1
tightness	একটা বণ্টন-পরিবারের ভর "অসীমে পালায় না": প্রতি \(\epsilon\)-এ একটা compact \([-M,M]\) আছে যাতে \(\mathbb P(\lvert X_n\rvert>M)<\epsilon\) সব \(n\)-এ; Lévy-তে সীমা-\(\varphi\)-এর \(0\)-অবিচ্ছিন্নতা এটি নিশ্চিত করে	7.10
Tonelli (series form)	অঋণাত্মক পদের জন্য \(\int\sum_n f_n\,d\mu=\sum_n\int f_n\,d\mu\) (যোগ ও integral অদলবদল); MCT-এর সরাসরি ফল	7.4
total / between-cluster SS	spread-পচন \(\text{TSS}=\text{WSS}+\text{BSS}\): total \(\text{TSS}=\sum_i\lVert x_i-\bar x\rVert^2\) (grand-mean থেকে, \(K\)-নিরপেক্ষ ধ্রুবক, \(=k{=}1\) inertia \(=1200\)), within \(\text{WSS}=\) inertia, between \(\text{BSS}=\sum_k\lvert C_k\rvert\lVert\mu_k-\bar x\rVert^2\); WSS কমানো \(\Leftrightarrow\) BSS বাড়ানো; ANOVA-র variance-বিভাজনের clustering-অনুরূপ (৫.১)	5.9
total mean squared error	একাধিক প্যারামিটার একসাথে estimate করার risk — সব coordinate-এর MSE-র যোগফল \(\sum_i\mathbb E[(\hat\theta_i-\theta_i)^2]=\mathbb E\lVert\hat\theta-\theta\rVert^2\); JS বনাম MLE-র তুলনার মাপকাঠি	8.3
total sum of squares (SST)	\(y\)-এর মোট variation \(\sum_i(y_i-\bar y)^2\)	5.1
tower property / iterated expectation	\(\mathcal H\subseteq\mathcal G\Rightarrow\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]=\mathbb E[X\mid\mathcal H]\); বিশেষে \(\mathbb E[\mathbb E[X\mid\mathcal G]]=\mathbb E[X]\) — "ধাপে-ধাপে গড়, মোটাটাই জেতে" (পাশায় \(4\cdot\tfrac12+3\cdot\tfrac12=3.5\))	7.7
trace plot	iteration বনাম chain-state-এর plot (Figure 3); burn-in, mode-হপিং ও mixing চোখে যাচাইয়ের হাতিয়ার	3.6
train/test split	data-কে model-fitting ও নিরপেক্ষ-মূল্যায়নে ভাগ করা; এখানে stratified \(70/30\) (seed \(20260619\) → train \(398\) / test \(171\)) — test-set কেবল একবার, চূড়ান্ত রিপোর্টিং-এর সময় ছোঁয়া হয়	8.1
train/validation/test split	data-কে তিন ভূমিকায় ভাগ: train (parameter \(\hat\beta\) শেখা), validation (tuning parameter/model বাছা), test (চূড়ান্ত মডেলের honest error, একবার-মাত্র); test বারবার দেখলে leakage ⇒ optimistic, তাই একদম শেষে একবার ব্যবহার	5.8
training error	model যে data-তে fit হয়েছে সেই একই data-তে মাপা গড়-বর্গ-ভুল \(\frac1n\sum_i(y_i-\hat f(x_i))^2\); complexity বাড়ালে একঘেয়ে কমে (চলমান উদাহরণে \(d{=}1\to22.08\), \(d{=}10\to9.12\), এমনকি \(\sigma^2=9\)-এর নিচে), তাই model-complexity বাছার অযোগ্য — সবসময় optimistic	5.8
transformation	একটি random variable-কে function দিয়ে নতুন random variable-এ রূপান্তর, \(Y=g(X)\)	2.7
transition matrix	সব \(P_{ij}\) নিয়ে গঠিত ম্যাট্রিক্স \(P\); প্রতিটি ভুক্তি \(\ge0\) আর প্রতিটি সারি যোগে \(1\) (row-stochastic), কারণ প্রতিটি state থেকে কোথাও-না-কোথাও যেতেই হয়	3.6
transition probability	\(P_{ij}=P(X_{n+1}=j\mid X_n=i)\) — এক ধাপে state \(i\) থেকে \(j\)-তে যাওয়ার সম্ভাবনা (Figure 1-এর তীর)	3.6
translation invariance	measure সরালে বদলায় না: \(\lambda(A+t)=\lambda(A)\) সব \(t\)-এ; length-এর একটি কাম্য ধর্ম, কিন্তু countable additivity-র সঙ্গে মিলে Vitali-অসম্ভবতা ঘটায় (C3)	7.1
transpose	row ও column অদলবদল করা matrix, \(A^\top\)	0.5
triangular distribution	দুই independent Uniform(0,1)-এর sum-এর ত্রিভুজাকার density (চূড়া \(s=1\)-এ)	2.7
trimmed mean	দুই প্রান্ত থেকে নির্দিষ্ট ভগ্নাংশ বাদ দিয়ে নেওয়া গড়	1.2
truncation	চলককে কেটে আবদ্ধ করা \(X_n'=X_n\mathbf 1_{\{\lvert X_n\rvert\le n\}}\) — সব আঘূর্ণ সসীম হয়, maximal inequality প্রয়োগযোগ্য; Etemadi-র SLLN-প্রমাণের কেন্দ্রীয় কৌশল	7.6
trustworthiness	embedding-গুণমানের মাপ \(T\in[0,1]\): low-D-তে দেখানো \(k\)-নিকটতম প্রতিবেশীরা high-D-তেও কি কাছের ছিল (মিথ্যা-প্রতিবেশী নেই — local বিশ্বস্ততা); উঁচু \(T\) global গঠন নিশ্চিত করে না (PCA: \(T=0.968\) কিন্তু \(\lvert\text{corr}\rvert=0.165\)), তাই global মাপের সাথে দেখা জরুরি	6.8
Tukey HSD	সব জোড়ার গড়-পার্থক্যের জন্য studentized-range-ভিত্তিক simultaneous CI ও adjusted \(p\); FWER-কে \(\alpha\)-তে ধরে রেখে "কোন জোড়া আলাদা" বলে	5.3
tuning / hyperparameter	model fit-এর আগে বেছে নেওয়া complexity-নিয়ন্ত্রক মান যা data থেকে সরাসরি estimate হয় না (polynomial degree, bandwidth \(h\), df, penalty \(\lambda\)); CV-grid-search-এর প্রধান লক্ষ্য — প্রতিটা grid-মানে CV-error হিসাব করে সেরাটা বাছা	5.8
tuning parameter / regularization strength (\(\lambda\))	penalty-র ওজন \(\lambda\ge0\) — capacity নিয়ন্ত্রণের knob; \(\lambda\uparrow\) ⇒ বেশি shrink, কম nonzero, কম variance বেশি bias; সাধারণত cross-validation (৫.৮) দিয়ে বাছা হয়; canonical ridge \(\lambda^\{\approx}0.21\), lasso \(\lambda^\{\approx}0.042\)	6.2
two-way ANOVA	দুটি factor একসাথে (যেমন fertilizer \(\times\) irrigation) — প্রতিটির main effect ও তাদের interaction আলাদা করে মাপে	5.3
type I error	\(H_0\) সত্যি তবু বাতিল করা (false positive); এর সম্ভাবনা \(\alpha=P(\text{reject}\mid H_0)\) (Figure 1-লাল region)	4.7
type II error	\(H_1\) সত্যি তবু \(H_0\) না-বাতিল করা (false negative); সম্ভাবনা \(\beta=P(\text{fail to reject}\mid H_1)\) (Figure 1-বেগুনি)	4.7
typewriter sequence	\([0,1]\)-এ পিছলে-যাওয়া indicator; \(\xrightarrow{P}0\) করে কিন্তু \(\xrightarrow{a.s.}\) করে না — মূল প্রতি-উদাহরণ	3.2
U-curve (test error vs complexity)	test/generalization error বনাম model-complexity-র U-আকৃতির বক্ররেখা — বাঁয়ে underfit (bias-প্রধান), ডানে overfit (variance-প্রধান), মাঝে min; train error একঘেয়ে নামে বলে এর সাথে মেলে না; চলমান উদাহরণে min \(d{=}3\) (0.102)	6.1
UI ⇔ \(L^1\)-convergence ⇔ closed	martingale-এর তিন-সমতুল্যতা: uniform integrability \(\iff\) \(L^1\)-অভিসরণ (ও a.s.) \(\iff\) closed (\(X_n=\mathbb E[X_\infty\mid\mathcal F_n]\)); Pólya/Radon–Nikodym/Bayes-প্রয়োগের প্রাণ	7.9
UMAP	Uniform Manifold Approximation and Projection — t-SNE-র মতো neighbor-গ্রাফ-ভিত্তিক visualization/embedding পদ্ধতি, কিন্তু দ্রুততর ও বড়-scale-এ ভালো; fuzzy-topological প্রতিবেশ-গঠন রক্ষা করে। t-SNE-র মতোই মূলত visualization-হাতিয়ার, downstream-feature নয়	6.8
unbiased estimator	যে estimator-এর প্রত্যাশিত মান সত্যিকারের parameter-এর সমান (\(\mathbb{E}[\bar{X}] = \mu\))	1.1
uncorrelated	\(\operatorname{Cov}(X,Y)=0\); রৈখিক সম্পর্ক নেই (তবে dependent হতে পারে)	2.6
undefined mean	\(\mathbb E\lvert X\rvert=\infty\) হওয়ায় কোনো \(\mu\) না থাকা; Cauchy-র মতো ক্ষেত্রে LLN প্রযোজ্য নয়	3.3
under-coverage	প্রকৃত coverage প্রতিশ্রুত \(1-\alpha\)-এর নিচে; যেমন ছোট \(n\) ও \(\sigma\) অজানা হলে z-interval ব্যবহার (§৭ Q13)	4.6
underfitting	model বাস্তব signal ধরতে অক্ষম (অতি-সরল) ⇒ উচ্চ bias, train ও test দুটোই বড়; চলমান উদাহরণে \(d{=}1\) (cubic \(f\)-কে সরলরেখায় ধরা, MSE \(\approx22\)); complexity বাড়ালে কমে — bias–variance-এর bias-প্রধান প্রান্ত	5.8
uniform continuity of \(\varphi\)	\(\varphi_X\) গোটা \(\mathbb R\)-এ সমভাবে অবিচ্ছিন্ন (শুধু অবিচ্ছিন্ন নয়); DCT (7.4) দিয়ে \(\sup_t\lvert\varphi(t+h)-\varphi(t)\rvert\le\mathbb E\lvert e^{ihX}-1\rvert\to0\), dominating function ধ্রুবক \(2\)	7.10
Uniform distribution	\([a,b]\)-এ সব মান সমান-সম্ভাব্য; সমতল PDF \(f=\frac{1}{b-a}\)	2.4
uniform integrability	\(\sup_n\mathbb E[\lvert X_n\rvert\mathbf 1_{\{\lvert X_n\rvert>K\}}]\to0\) যখন \(K\to\infty\) — "সীমায় ভর হারায় না"; a.s.-অভিসরণকে \(L^1\)-অভিসরণে উন্নীত করে (Vitali), DCT-র dominated-শর্তের শিথিল রূপ	7.9
uniform integrability (preview)	একটা family \(\{X_i\}\) uniformly integrable যদি \(\sup_i\mathbb E[\lvert X_i\rvert\,\mathbf 1_{\{\lvert X_i\rvert>K\}}]\to0\) (\(K\to\infty\)) — OST/martingale-convergence-এ সীমা-বিনিময়ের সঠিক শর্ত (7.9-এর পূর্ণ হাতিয়ার)	7.8
unimodal	একটিমাত্র চূড়াবিশিষ্ট distribution	1.3
union	\(A \cup B\): যা \(A\) বা \(B\)-তে আছে	0.1
union bound	\(P(\bigcup_i A_i)\le\sum_i P(A_i)\) (Boole's inequality)	2.1
uniqueness theorem	\(\varphi_X(t)=\varphi_Y(t)\ \forall t\iff X\overset{d}{=}Y\) — cf আইনকে অনন্যভাবে নির্ধারণ করে; দুই random variable-এর একই cf মানে একই বণ্টন (Fourier-invertibility থেকে)	7.10
unit	population/sample-এর একক উপাদান (যেমন একজন মানুষ, একটি পণ্য, একটি লেনদেন)	1.1
unit vector	দৈর্ঘ্য ১-এর vector	0.5
univariate analysis	একক variable-এর center, spread ও shape বিশ্লেষণ	1.5
universal quantifier	\(\forall\): "for all / প্রত্যেকের জন্য"	0.1
universal set	প্রসঙ্গের সব সম্ভাব্য বস্তুর set, \(U\)	0.1
universality (CLT)	মূল বণ্টন যাই হোক, মানক যোগফল একই \(N(0,1)\)-এ মেলে; কারণ \(\varphi\)-সীমায় কেবল দ্বিতীয়-ক্রম তথ্য (গড়, ভেদ) বাঁচে, তৃতীয়+ moment \(o(\frac1n)\)-এ মুছে যায়	7.10
unsupervised learning	লেবেল (\(y\)) ছাড়া শুধু feature-matrix \(X\in\mathbb R^{n\times p}\) থেকে data-র অন্তর্নিহিত গঠন বের করার শিক্ষা — লক্ষ্য ভবিষ্যদ্বাণী নয়, বরং structure উন্মোচন (কত মাত্রায় data বাস করে, কয় দলে ভাগ হয়); supervised-এর বিপরীত, মানদণ্ড predictive error নয় বরং reconstruction/separation/stability; এ অধ্যায়ের দুই স্তম্ভ PCA ও clustering	5.9
upcrossing	একটা ধারা/process \(a\)-র নিচ থেকে উঠে \(b\)-র উপরে পৌঁছানোর একটি সম্পূর্ণ "ঊর্ধ্ব-পারাপার" (\(a<b\)); সময় \(n\) পর্যন্ত এমন পারাপারের সংখ্যা \(U_n([a,b])\) — অভিসরণ-বিশ্লেষণের কেন্দ্রীয় গণক	7.9
upper / lower Darboux integral	\(\overline{\int}f=\inf_P U(f,P)\) ও \(\underline{\int}f=\sup_P L(f,P)\); সমান হলে Riemann integral বিদ্যমান, \(\mathbf 1_{\mathbb Q}\)-এ \(\overline{\int}=1\ne0=\underline{\int}\)	7.1
validation set	training-এ দেখা হয়নি এমন data-অংশ, যেখানে tuning parameter / model বাছা হয় (degree, \(h\), \(\lambda\), model-পরিবার); cross-validation এর data-সাশ্রয়ী বিকল্প — আলাদা অংশ স্থায়ীভাবে কেটে না রেখে fold ঘুরিয়ে validation	5.8
variability	data কতটা ছড়ানো তা নির্দেশক পরিমাপ (dispersion)	1.2
variable	পরিমাপযোগ্য বৈশিষ্ট্য/চলক (DataFrame-এ একটি column)	1.1
variance	mean থেকে বর্গ-বিচ্যুতির গড় (spread-এর বর্গ-এককে)	1.2
variance component	মোট পরিবর্তনশীলতার পৃথক উৎস-ভিত্তিক টুকরো: between-group \(\sigma_u^2\) ও within-group \(\sigma_\varepsilon^2\); ৫.৩-এর ANOVA sum-of-squares বিভাজনের ধারাবাহিকতা; উদাহরণে \(\hat\sigma_u^2=37.64\), \(\hat\sigma_\varepsilon^2=63.69\)	5.6
variance floor	CRLB-র দৃশ্যরূপ — log-log plot-এ ঢাল \(-1\)-এর সরল রেখা \(\frac{1}{nI(\theta)}\); এর নিচের এলাকা unbiased estimator-এর জন্য নিষিদ্ধ (Figure 2)	4.5
variance inflation factor (VIF)	\(\text{VIF}_j=1/(1-R_j^2)\) (\(R_j^2\) = predictor \(j\)-কে বাকিদের ওপর regress করার \(R^2\)); collinearity-জনিত coefficient-variance বৃদ্ধির গুণক — se বাড়ে \(\sqrt{\text{VIF}_j}\) গুণ; থাম্ব-রুল VIF \(>5\) (বা \(>10\)) উদ্বেগজনক	5.2
variance of a sum	\(\operatorname{Var}(X+Y)=\operatorname{Var}X+\operatorname{Var}Y+2\operatorname{Cov}(X,Y)\)	2.6
variance of estimator	\(\mathrm{Var}(\hat\theta)=\mathbb{E}[(\hat\theta-\mathbb{E}\hat\theta)^2]\) — estimate নমুনাভেদে কতটা ওঠানামা করে (precision-এর অভাব) (Figure 1)	4.4
variance reduction	ensemble-এর কেন্দ্রীয় লক্ষ্য — \(B\)টি correlated estimator-এর গড়ের variance \(\rho\sigma^2+\frac{1-\rho}{B}\sigma^2\); \(B\) বাড়ালে দ্বিতীয় পদ মরে কিন্তু \(\rho\sigma^2\) floor থাকে, তাই গাছ-গড় ও decorrelation দুই পথে variance কমানো হয়	6.5
variational inference	একটা কঠিন posterior-কে একটা সরল, নিয়ন্ত্রণযোগ্য distribution-শ্রেণি দিয়ে approximate করা — sampling-এর বদলে একটা lower-bound (ELBO) সর্বোচ্চকরণ (optimisation); computational statistics-এর মূল, EM-এর সাধারণীকরণ (← Part IV, VI EM)	8.4
VC dimension (\(d_{\mathrm{VC}}\))	অসীম hypothesis class-এর capacity-র মাপ: সবচেয়ে বড় বিন্দু-সংখ্যা যাকে \(\mathcal H\) shatter করতে পারে; \(\ln\lvert\mathcal H\rvert\)-এর জায়গা নেয় generalization-bound-এ; চলমান উদাহরণে 2D linear classifier-এর \(d_{\mathrm{VC}}=3\) (সাধারণভাবে \(\mathbb R^p\)-এ \(p+1\))	6.1
vector	মান ও দিকসম্পন্ন রাশি; সংখ্যার ক্রমিক তালিকা	0.5
vectorization	loop ছাড়াই পুরো array-তে একসাথে operation চালানো	0.6
VIF (variance inflation factor)	multicollinearity-র মাপ \(\text{VIF}_j=1/(1-R_j^2)\) যেখানে \(R_j^2\) = বাকি predictor দিয়ে \(x_j\)-এর regression; \(>10\) severe। canonical mean perimeter \(934.95\), mean radius \(891.13\), mean area \(52.68\) (radius/perimeter/area প্রায়-অভিন্ন তথ্য বহন করে)	8.1
violin plot	boxplot + দুই পাশে আয়না-করা KDE; পূর্ণ density-আকৃতি দেখায়	1.3
Vitali set	Axiom of Choice দিয়ে \(x\sim y\iff x-y\in\mathbb Q\)-এর প্রতি class থেকে একটি প্রতিনিধি নিয়ে গড়া \(V\subseteq[0,1]\); non-measurable — translate-গুলো disjoint, \(1\le\sum\lambda(V)\le3\) অসম্ভব	7.1
Wald confidence interval	\(\hat\theta\pm z_{\alpha/2}\,\widehat{\mathrm{se}}\) — MLE-র asymptotic normality থেকে; \(\widehat{\mathrm{se}}=1/\sqrt{n\,I(\hat\theta)}\) (E4, §৭ Q11)	4.6
Wald test	\(W=\dfrac{(\hat\theta-\theta_0)^2}{\widehat{\mathrm{se}}^{\,2}}\) — MLE \(\hat\theta\) ও \(\theta_0\)-এর scaled অনুভূমিক দূরত্ব; শুধু MLE-তে হিসাব; \(\xrightarrow{d}\chi^2_1\) (Figure 1, §৭ Q6)	4.8
weak (wide-sense) stationarity	\(m(t)\) ধ্রুবক এবং \(C(s,t)\) কেবল lag \(h=t-s\)-এর ফাংশন (\(\operatorname{Var}<\infty\)); Gaussian process-এ strict-এর সমতুল্য	3.5
weak convergence	convergence in distribution-এর আরেক নাম (দুর্বলতম mode)	3.2
weak law of large numbers (WLLN)	\(\bar X_n\xrightarrow{P}\mu\); প্রতিটি \(\varepsilon>0\)-এ \(P(\lvert\bar X_n-\mu\rvert\ge\varepsilon)\to 0\); finite variance-এ Chebyshev দিয়ে প্রমাণযোগ্য	3.3
weak learner	এমন classifier যার error random guessing-এর চেয়ে ধারাবাহিকভাবে একটু কম (\(\varepsilon<0.5\), binary-তে); boosting-এর base unit। canonical decision stump (depth-\(1\)): test \(0.739\), error \(0.261<0.5\) — দুর্বল কিন্তু chance-এর চেয়ে ভালো	6.6
Weak vs Strong LLN	weak: \(\bar X_n\xrightarrow{P}\mu\) (in probability, 3.3); strong: \(\bar X_n\to\mu\) a.s. — a.s. ⇒ in probability, উল্টোটা নয়; strong-এ শুধু \(\mathbb E\lvert X\rvert<\infty\) লাগে (variance নয়)	7.6
weighted mean	প্রতিটি মানকে আলাদা weight দিয়ে নেওয়া গড় (Σwx / Σw)	1.2
white noise	iid (বা uncorrelated) mean-\(0\) ক্রম; \(\gamma(0)=\sigma^2\), \(\gamma(h)=0\) (\(h\ne0\)); সরলতম stationary process, অন্য process-এর নির্মাণ-ব্লক	3.5
Wilks' theorem	বড় নমুনায় \(H_0\)-র অধীনে \(-2\log\Lambda\xrightarrow{d}\chi^2_k\), \(k=\) আটকানো প্যারামিটার সংখ্যা (restrictions/df); LRT-কে practical করে (Figure 2, §৭ Q10)	4.8
within-group variation (SSW)	প্রতিটি group-এর ভেতরের ছড়ানো (শুধু noise): \(\mathrm{SSW}=\sum_g\sum_i(y_{gi}-\bar y_g)^2\); \(df=n-k\); \(\mathrm{MSW}\) সর্বদা \(\sigma^2\)-এর unbiased estimate	5.3
worst-case (distribution)	যে distribution একটি bound-কে প্রায় সমতায় নেয়; সর্বজনীন bound-এর রক্ষণশীলতার কারণ	3.1
XGBoost	gradient boosting-এর regularized, scalable বাস্তবায়ন (এবং LightGBM/CatBoost) — shrinkage, গাছ-গভীরতা/সংখ্যা-সীমা, stochastic subsampling, ও অতিরিক্ত L1/L2 (leaf-weight) penalty দিয়ে overfitting নিয়ন্ত্রণ করে; tabular data-তে প্রায়ই সেরা off-the-shelf predictor	6.6
Young's inequality	ধনাত্মক \(a,b\) ও conjugate \(\tfrac1p+\tfrac1q=1\)-এ \(ab\le\tfrac{a^p}{p}+\tfrac{b^q}{q}\); Hölder ও Cauchy–Schwarz-এর point-wise বীজ (\(p=q=2\) দেয় AM–GM)	7.5
z-interval	\(\sigma\) জানা হলে \(\bar x\pm z_{\alpha/2}\,\sigma/\sqrt n\) (E1); pivot \(\frac{\bar X-\mu}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\) থেকে	4.6
z-score	(x − mean)/std; mean থেকে কত std দূরে তা একক-নিরপেক্ষভাবে	1.2
z-test	\(\sigma\) জানা হলে \(T=\frac{\bar x-\mu_0}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\) (E1)	4.7
zero-inflated model	যখন data-তে প্রত্যাশার তুলনায় অতিরিক্ত শূন্য (structural zeros) — দুটো প্রক্রিয়ার mixture (একটা "সর্বদা শূন্য", একটা Poisson/NB); ZIP/ZINB — count GLM-এর সম্প্রসারণ (এই data-তে দরকার পড়েনি)	5.5
π-system independence criterion	π-system \(\mathcal P_i\)-তে factorization \(\mathbb P(\bigcap A_i)=\prod\mathbb P(A_i)\) মিললেই \(\sigma(\mathcal P_1),\dots,\sigma(\mathcal P_n)\) স্বাধীন (π–λ থেকে); তাই random variable-এর স্বাধীনতা CDF-স্তরেই যাচাইযোগ্য	7.6