Skip to content

পরিভাষা (Glossary) — English term → বাংলা ব্যাখ্যা

এই শিক্ষাক্রমের নীতি: technical/mathematical term সর্বদা ইংরেজিতে, ব্যাখ্যা বাংলায়। (Parts 0–VIII সম্পূর্ণ — শূন্য থেকে measure-তাত্ত্বিক PhD স্তর ও integrative capstone।)

English term বাংলা ব্যাখ্যা অধ্যায়
\(-2\log\Lambda\) LRT statistic; log-likelihood-এর চূড়া থেকে \(\theta_0\)-তে উল্লম্ব ড্রপের দ্বিগুণ; \(H_0\)-র অধীনে \(\xrightarrow{d}\chi^2_k\) (Wilks) 4.8
2D density দুই-চলক ঘনত্বের মসৃণ contour চিত্র (kernel density) 1.4
a.s. uniqueness (of conditional expectation) \(\int_G Z\,d\mathbb P=\int_G Z'\,d\mathbb P\ \forall G\in\mathcal G\) ও দুটোই \(\mathcal G\)-measurable ⇒ \(Z=Z'\) a.s. (7.4); তাই \(\mathbb E[X\mid\mathcal G]\) একটি version পর্যন্ত অনন্য 7.7
absence of evidence ≠ evidence of absence "significant নয়" মানে "\(H_0\) সত্যি" নয় — হয়তো power কম ছিল (ছোট \(n\)/effect, Figure 3-নিচু curve; §৭ Q4) 4.7
absolute continuity (\(\nu\ll\mu\)) \(\mu(A)=0\Rightarrow\nu(A)=0\); \(\mu\) যা অদৃশ্য দেখে \(\nu\)-ও তা অদৃশ্য দেখে — Radon–Nikodym density থাকার আবশ্যিক ও (σ-finite-এ) যথেষ্ট শর্ত 7.5
acceptance probability \(\alpha(x,x')=\min(1,\,f(x')/f(x))\) (প্রতিসম proposal) — প্রস্তাবিত move গ্রহণের সম্ভাবনা; কেবল target-অনুপাত লাগে, normalizing constant নয় 3.6
accuracy \(\frac{\mathrm{TP}+\mathrm{TN}}{n}\); সঠিক পূর্বাভাসের অনুপাত — threshold- ও imbalance-নির্ভর, তাই একা বিভ্রান্তিকর হতে পারে (এখানে \(0.855\)) 5.4
AdaBoost adaptive boosting — প্রতি round-এ weighted-error \(\varepsilon_t\)-এর weak learner বাছে, ওজন দেয় \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\), ভুল-বিন্দুর নমুনা-ওজন বাড়ায়; exponential loss-এর forward stagewise additive modeling। canonical (stump base): n_est \(50\to\mathbf{0.850}\) চূড়া, তারপর পতন 6.6
adapted process \((X_n)\) adapted \((\mathcal F_n)\)-এর সাপেক্ষে যদি প্রতিটি \(X_n\) \(\mathcal F_n\)-measurable — "বর্তমান তথ্যেই \(X_n\) জানা" (যেমন আজকের সম্পদ); martingale হতে আবশ্যক 7.8
adaptive boosting AdaBoost-এর পূর্ণরূপ — "adaptive" কারণ প্রতিটি round নমুনা-বণ্টন আগের ভুলের দিকে মানিয়ে নেয় (reweighting); এই মানিয়ে-নেওয়াই algorithm-কে কঠিন বিন্দুতে ফোকাস করায়, কিন্তু একই কারণে label-noise/outlier-সংবেদনশীল করে 6.6
addition principle বিচ্ছিন্ন ("or") উপায়ের সংখ্যাকে যোগ করে মোট উপায় গোনা 0.2
addition rule \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\) 2.1
additivity of Fisher information iid নমুনায় মোট information \(I_n(\theta)=nI_1(\theta)\) — প্রতিটি observation \(I_1\) পরিমাণ তথ্য যোগ করে (§৭ Q13) 4.5
adjusted R-squared predictor-সংখ্যার জন্য সংশোধিত \(R^2\), \(1-\frac{\text{SSE}/(n-p)}{\text{SST}/(n-1)}\) 5.1
adjusted Rand index (ARI) দুটো cluster-বিন্যাস (যেমন প্রাপ্ত বনাম সত্য label) কতটা মেলে তার chance-সংশোধিত মাপ: বিন্দু-জোড়ার সম্মতি গুনে প্রত্যাশিত-আকস্মিক-সম্মতি বিয়োগ; পুরোপুরি মিললে \(1\), এলোমেলো বিন্যাসে \(\approx0\); চলমান উদাহরণে \(k{=}3\to0.990\) (প্রায়-নিখুঁত পুনরুদ্ধার); সীমা — সত্য label জানা লাগে, তাই বাস্তব unsupervised-এ silhouette-এর মতো internal মাপ লাগে 5.9
admissibility / inadmissibility একটা estimator admissible যদি কোনো estimator তাকে dominate না করে; নাহলে inadmissible (অগ্রহণযোগ্য — একটা প্রতিদ্বন্দ্বী আছে যা কখনো খারাপ নয়); Stein: MLE \(\hat\theta=X\) inadmissible যখন \(p\ge3\), admissible যখন \(p\le2\) 8.3
affine/scaling rule \(\varphi_{aX+b}(t)=e^{itb}\,\varphi_X(at)\); standardization \(\frac{X-\mu}{\sigma}\)-এ \(\varphi_{(X-\mu)/\sigma}(t)=e^{-i\mu t/\sigma}\varphi_X(t/\sigma)\) — CLT-এর centering–scaling সামলায় 7.10
AIC Akaike Information Criterion \(=-2\ell+2K\) (\(\ell\) maximized log-likelihood, \(K\) free parameter incl. variance); fit ও complexity-র আপস, ছোটটাই ভালো; prediction-অনুকূল (asymptotically efficient) 5.2
algebra (field) \(\Omega\)-এর subset-দের পরিবার যা \(\Omega\) ধারণ করে, complement-বদ্ধ ও সসীম union-বদ্ধ; \(\sigma\)-algebra-র দুর্বলতর রূপ — "finite-or-cofinite on \(\mathbb N\)" algebra কিন্তু \(\sigma\)-algebra নয় 7.2
almost everywhere "প্রায় সর্বত্র" (a.e.); একটি measure-শূন্য সেট বাদে সর্বত্র সত্য — measure-শূন্য সেট integral-এ অবদান রাখে না 7.4
almost everywhere (a.e.) একটা ধর্ম "প্রায় সর্বত্র" সত্য মানে যে set-এ তা ব্যর্থ তার measure \(0\); যেমন \(\mathbf 1_{\mathbb Q}=0\) a.e. — Lebesgue তত্ত্বে null set উপেক্ষণীয় 7.1
almost sure convergence \(P(\lim_n X_n=X)=1\); প্রায় প্রতিটি পথ আক্ষরিকভাবে থিতু হয়, লেখা \(X_n\xrightarrow{a.s.}X\) 3.2
almost surely (a.s.) একটি ঘটনা probability-\(1\) set-এ ঘটে (\(\mathbb P=1\)); a.e.-অভিসরণের probability-রূপ — SLLN-এর গন্তব্য, in-probability-র চেয়ে শক্তিশালী 7.6
almost-sure convergence \(X_n\to X_\infty\) "প্রায়-নিশ্চিতভাবে" — একটা \(\mathbb P\)-null set বাদে প্রতিটি \(\omega\)-তে \(X_n(\omega)\to X_\infty(\omega)\); convergence theorem-এর প্রাথমিক উপসংহার (পথ থিতু হয়, গন্তব্য random হতে পারে) 7.9
alternative hypothesis \(H_1\) \(H_0\) ভুল হলে যা সত্যি — গবেষণা/বিকল্প দাবি; two-sided \(\mu\neq\mu_0\) বা one-sided \(\mu>\mu_0\)/\(\mu<\mu_0\) 4.7
anomaly detection data-র মধ্যে এমন বিন্দু চিহ্নিত করা যারা (i) বিরল এবং (ii) স্বাভাবিক গঠন/density থেকে দূরে — সম্ভবত ভিন্ন প্রক্রিয়া থেকে আসা; চারটি স্বজ্ঞাগত পরিবার: statistical (Mahalanobis), density (LOF), isolation (Isolation Forest), boundary (One-Class SVM) 6.9
anomaly score \(s(x)\) প্রতিটি বিন্দুর "কতটা anomaly" তার ক্রমিক মান; Isolation Forest-এ \(s(x)=2^{-\mathbb E[h(x)]/c(n)}\) (\(s\to1\) = anomaly), LOF/Elliptic-এ দূরত্ব/density থেকে; threshold বা ROC AUC মূল্যায়নের ভিত্তি 6.9
ANOVA (analysis of variance) একাধিক group-এর গড় সমান কিনা পরীক্ষার পদ্ধতি — total variation-কে between- ও within-group অংশে ভেঙে তাদের অনুপাত (\(F\)) নিয়ে; নাম "variance" হলেও আসলে গড় তুলনা করে 5.3
ANOVA as regression one-way ANOVA = dummy-encoded linear regression; group-গড় \(\to\) coefficient, \(H_0:\mu\) সব সমান \(\to\) regression-এর overall \(F\)-test (\(\beta=0\) সব slope) — একই OLS-যন্ত্র 5.3
ANOVA assumptions (i) group/observation independence, (ii) within-group Normality, (iii) equal variance — ৫.১-এর LINE-এর I, N, E-এর সরাসরি অনুরূপ 5.3
Anscombe's quartet একই \(r\)/mean/line কিন্তু সম্পূর্ণ ভিন্ন আকৃতির চারটি dataset; correlation-এর সীমাবদ্ধতার উদাহরণ 1.4
antiderivative যে function-এর derivative নিলে আদি function ফেরে (\(F'=f\)) 0.4
aperiodic কোনো state-এ ফেরার সম্ভাব্য ধাপ-সংখ্যাগুলোর গসাগু \(1\); periodicity না থাকলে \(\mu_n\) দোলা ছাড়াই \(\pi\)-তে গড়ায় (convergence-এর শর্ত) 3.6
approximation theorem (simple functions) প্রতিটি অঋণাত্মক measurable \(f\ge 0\) হলো simple function-দের একটা ক্রমবর্ধমান point-wise limit \(0\le f_n\uparrow f\); সাধারণ \(f\)-এ \(f=f^+-f^-\) — Lebesgue integral (7.4)-এর সরাসরি ভিত্তি 7.3
AR(1) process \(X_t=\phi X_{t-1}+\varepsilon_t\) (\(\lvert\phi\rvert<1\)); সরলতম stationary dependent process, \(\gamma(h)=\frac{\sigma^2}{1-\phi^2}\phi^{\lvert h\rvert}\) 3.5
area under the curve curve ও x-অক্ষের মধ্যেকার ক্ষেত্রফল, যা integral পরিমাপ করে 0.4
array NumPy-র সমজাতীয় সংখ্যার গ্রিড; দ্রুত গণনার মূল object 0.6
asymptotic equivalence (of tests) বড় নমুনায় LRT, Wald, score তিনটাই একই \(\chi^2_k\) limit-এ যায় ও অনুপাত \(\to1\); ছোট \(n\)-এ আলাদা (Figure 4, §৭ Q11) 4.8
asymptotic normality বড় নমুনায় কোনো estimator/রাশি আনুমানিক Normal হওয়ার ধর্ম; \(\bar X_n\overset{\text{approx}}{\sim}\mathcal N(\mu,\sigma^2/n)\) 3.4
asymptotic normality of MLE বড় নমুনায় \(\hat\theta\approx\mathcal{N}\!\big(\theta,\frac{1}{nI(\theta)}\big)\) — MLE একসাথে Normal, asymptotically unbiased ও efficient (Figure 3) 4.5
asymptotic variance of MLE MLE-র বড়-নমুনা variance \(=\frac{1}{nI(\theta)}\) — ঠিক CRLB floor; SE \(=\sqrt{1/[nI(\hat\theta)]}\) (Figure 3) 4.5
asymptotically efficient বড় নমুনায় যার variance CRLB floor ছোঁয়; MLE-র মূল গুণ — তাই "asymptotically সেরা" estimator 4.5
asymptotically unbiased \(n\to\infty\)-এ bias \(\to0\); অনেক MoM estimator (যেমন \(1/\bar X\)) biased কিন্তু asymptotically unbiased 4.2
atom একটা (সসীম/গণনাযোগ্য) \(\sigma\)-algebra-র অবিভাজ্য ক্ষুদ্রতম অশূন্য সদস্য; generator-রা \(\Omega\)-কে atom-এ ভাঙে, আর \(k\)টি atom-এ \(\sigma\)-algebra-র আকার \(2^k\) (\(\lvert\sigma(\{A\})\rvert=4\), \(\lvert\sigma(\{A,B\})\rvert=16\)) 7.2
atom of a finite partition finite \(\mathcal G=\sigma(\{G_1,\dots,G_k\})\)-এর সবচেয়ে ছোট অশূন্য ঘটনা; \(\mathbb E[X\mid\mathcal G]\) প্রতিটি atom-এ ধ্রুব = atom-এ \(X\)-এর গড় (ধাপ-অপেক্ষক, step function) 7.7
AUC (area under ROC) ROC-এর নিচের ক্ষেত্রফল; "random positive > random negative score পাওয়ার সম্ভাবনা"; threshold-নিরপেক্ষ, imbalance-এ নির্ভরযোগ্য (\(0.5\) random, \(1\) perfect; এখানে \(0.924\)) 5.4
autocorrelation (of a chain) পরপর MCMC নমুনার নির্ভরশীলতা; বেশি হলে কার্যকর নমুনা-সংখ্যা (effective sample size) কমে, তাই দীর্ঘ chain লাগে 3.6
autocorrelation function (ACF) \(\rho(h)=\gamma(h)/\gamma(0)\); lag-\(h\) autocovariance-কে \([-1,1]\)-এ normalize করা; নির্ভরতার দৈর্ঘ্য পরিমাপের সরঞ্জাম 3.5
autocovariance at lag \(\gamma(h)=C(t,t+h)\) stationary process-এ; \(h\)-এর সাথে কীভাবে memory ক্ষীণ হয় তা দেখায়; AR(1)-এ \(\gamma(h)\propto\phi^{\lvert h\rvert}\) 3.5
autocovariance function \(C(s,t)=\operatorname{Cov}(X_s,X_t)\); দুটি ভিন্ন সময়ের মান কতটা একসাথে ওঠানামা করে তার মাপ; process-এর memory/নির্ভরতার গঠন 3.5
auxiliary regression predictor \(j\)-কে বাকি সব predictor-এর ওপর regress করা; তার \(R_j^2\) থেকে VIF গণনা হয় — collinearity-র উৎস চিহ্নিত করে 5.2
averaging property \(\int_G\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_G X\,d\mathbb P\ \forall G\in\mathcal G\) — "প্রতিটি \(\mathcal G\)-set-এ গড় \(X\)-এর সাথে মেলে"; শুধু \(G=\Omega\) (মোট গড়) দুর্বল, "সব \(G\)" প্রতিটি atom-এ গড় বাঁধে 7.7
Axes matplotlib-এ একক plot আঁকার ক্ষেত্র 0.6
Axiom of Choice (AC) অসীম-অনেক অশূন্য সংগ্রহ থেকে একসঙ্গে একটি করে উপাদান বাছার অনুমতি; Vitali-নির্মাণে অপরিহার্য (Solovay: AC ছাড়া non-measurable set প্রমাণই করা যায় না) 7.1
axis array operation কোন দিক বরাবর হবে তা নির্দেশক (0=কলাম, 1=সারি) 0.6
axis-aligned split "\(x_j\le t\)?" রূপের split যা কেবল একটা feature-অক্ষের সমকোণে data কাটে; ফলে tree-এর decision boundary সিঁড়ির মতো (staircase), মসৃণ তির্যক রেখা নয় — তির্যক সীমা ধরতে অনেক ধাপ লাগে 6.5
B-spline (basis spline) regression spline-এর জন্য ব্যবহৃত স্থানীয়, সংখ্যাগতভাবে স্থিতিশীল basis-function-সেট \(\{B_k(x)\}\); প্রতিটি \(B_k\) কয়েকটা সংলগ্ন knot-এর ওপর nonzero (compact support) ⇒ basis-matrix sparse, OLS সুস্থিত 5.7
backward martingale reverse martingale-এর সমার্থ: পেছন-দিকে-সরু তথ্য \((\mathcal G_n)\)-এ \(\mathbb E[Y\mid\mathcal G_n]\); Lévy's downward theorem \(\mathbb E[Y\mid\mathcal G_n]\to\mathbb E[Y\mid\mathcal G_\infty]\) (a.s. ও \(L^1\)) এতে চলে 7.9
bagging bootstrap aggregating — \(B\)টি bootstrap-নমুনায় গাছ গড়ে গড় করা (\(\hat f_{\text{bag}}=\frac1B\sum_b\hat f_b\)); high-variance base-learner-এর variance কমায়, কিন্তু গাছ correlated বলে floor \(\rho\sigma^2\)-এ আটকায়। canonical (\(B{=}300\)): \(0.822\) 6.5
balanced design প্রতিটি cell-এ সমান observation-সংখ্যা (\(n=20\)); variance-অসমতার প্রতি \(F\)-test-কে robust করে এবং Type I/II/III SS-কে এক করে 5.3
Banach space পূর্ণ (complete) normed vector space — প্রতিটি Cauchy অনুক্রম space-এর ভেতরেই অভিসারী; প্রতিটি \(L^p\) (\(1\le p<\infty\)) একটি Banach space 7.5
bandwidth KDE-র smoothing প্যারামিটার h; histogram-এর bin-প্রস্থের সমতুল্য 1.3
bandwidth (\(h\)) kernel-এর প্রস্থ — কত দূরের বিন্দু "কাছের" গণ্য হবে নিয়ন্ত্রণ করে; ছোট \(h\) → কাঁপা fit, উচ্চ variance; বড় \(h\) → মসৃণ/চাপা fit, উচ্চ bias; optimal \(h^\*\propto n^{-1/5}\); চলমান উদাহরণে সেরা \(h\approx0.05\) (LOOCV \(0.03\)) 5.7
bar chart categorical data-র জন্য গ্যাপ-সহ বার-চিত্র (count বা proportion) 1.3
base-rate fallacy prior/base rate উপেক্ষা করে শর্তাধীন সম্ভাবনা ভুল বিচার 2.2
basis expansion মূল predictor \(x\)-কে রূপান্তরিত feature-সেট \(\{B_1(x),\dots,B_K(x)\}\)-এ বিস্তৃত করে \(f(x)=\sum_k\gamma_k B_k(x)\) লেখা — তখন nonlinear \(f\)-ও parameter \(\gamma\)-তে রৈখিক, তাই OLS খাটে; ৫.১-এর polynomial-basis-এর সাধারণীকরণ (এখানে B-spline basis) 5.7
Bayes classifier প্রতিটি \(x\)-কে সর্বোচ্চ-posterior শ্রেণিতে দেওয়া নিয়ম \(\hat y(x)=\arg\max_c P(y=c\mid x)\); 0–1 loss-এর অধীনে optimal (সর্বনিম্ন প্রত্যাশিত ভুল); বাস্তব classifier-রা এই posterior-কেই আনুমানিক করার চেষ্টা 6.3
Bayes error Bayes classifier-এরও অনিবার্য অবশিষ্ট ভুল \(R^\*=\mathbb E_X[1-\max_c P(c\mid X)]\); শ্রেণি-overlap-জনিত; কোনো classifier (সত্য posterior জানলেও) এর নিচে নামতে পারে না — accuracy-র তাত্ত্বিক উচ্চসীমা 6.3
Bayes' rule (parameter form) \(p(\theta\mid\text{data})\propto\pi(\theta)\,L(\theta)\); posterior = prior × likelihood (normalize করে); 2.2-এর Bayes theorem-এর density-রূপ (Figure 1) 4.10
Bayes' theorem \(P(B_k\mid A)=P(A\mid B_k)P(B_k)/\sum_i P(A\mid B_i)P(B_i)\) 2.2
Bayesian consistency \(n\to\infty\)-এ posterior সত্য প্যারামিটারে গুটিয়ে আসে (frequentist LLN-এর সমান্তরাল, 3.3); prior-এর প্রভাব ম্লান হয় (Figure 2) 4.10
Bayesian credible interval যে interval-এ \(\theta\) থাকার posterior probability \(1-\alpha\); frequentist CI থেকে ভিন্ন (এখানে \(\theta\)-কে probability দেওয়া হয়, §৭ Q2-এর বিপরীত ধারণা) 4.6
Bayesian inference একটা পরিসংখ্যানিক দৃষ্টিভঙ্গি যেখানে প্যারামিটার \(\theta\)-কে random ধরা হয় ও তার সম্পর্কে অনিশ্চয়তা একটা probability distribution দিয়ে প্রকাশ করা হয়; data দিয়ে prior → posterior আপডেট 4.10
Bayesian information criterion (BIC) model-selection criterion \(\mathrm{BIC}=-2\ell(\hat\theta)+p\log n\) (কম = ভালো; \(p\) = parameter-সংখ্যা) — \(-2\ell\) (misfit) ও \(p\log n\) (complexity-penalty)-এর ভারসাম্য, Occam-এর ক্ষুর। canonical by \(K\): \(1{:}5626.7,2{:}5111.7,3{:}\mathbf{4828.8},4{:}4857.5,5{:}4890.9,6{:}4925.9\) — সর্বনিম্ন \(K=3\) 6.7
Bayesian nonparametrics অসীম-মাত্রিক বস্তুর (সম্পূর্ণ distribution বা function) উপর prior বসানো, যাতে model-জটিলতা ডেটার সাথে বাড়ে; দুই স্তম্ভ Dirichlet process ও Gaussian process (← Part IV 4.10, VII 7.5) 8.4
Bayesian updating posterior-কে পরের prior ধরে ক্রমান্বয়ে বিশ্বাস পরিমার্জন 2.2
BCa interval bias-corrected and accelerated bootstrap CI; bias/skew বেশি হলে percentile-এর চেয়ে ভালো coverage (§৮ নোট) 4.9
Beppo Levi MCT-এর অপর নাম (Beppo Levi-র উপপাদ্য); অঋণাত্মক বাড়ন্ত sequence-এ limit ও integral অদলবদলের অনুমতি 7.4
Bernoulli distribution একটামাত্র হ্যাঁ/না trial; mean \(p\), variance \(p(1-p)\) 2.3
Bernoulli Fisher information \(I(p)=\frac{1}{p(1-p)}\) (E1); \(p=0.5\)-এ সর্বনিম্ন, প্রান্তে (\(p\to0,1\)) বিশাল 4.5
Bernoulli likelihood \(L(\beta)=\prod_i p_i^{y_i}(1-p_i)^{1-y_i}\), \(p_i=\sigma(x_i^\top\beta)\); log-likelihood \(\ell=\sum_i[y_i\eta_i-\log(1+e^{\eta_i})]\) — logistic-MLE-র ভিত্তি 5.4
Berry–Esseen bound CLT-approximation-এর error-এর upper bound \(\propto \rho/(\sigma^3\sqrt{n})\) (\(\rho\) third moment); skewness যত বেশি error তত বড়, হার \(1/\sqrt{n}\) 3.4
Berry–Esseen theorem CLT-অভিসারণের হারকে স্পষ্ট আবদ্ধ করে: \(\sup_x\lvert F_n(x)-\Phi(x)\rvert\le \frac{C\rho}{\sigma^3\sqrt n}\), যেখানে \(\rho=\mathbb E\lvert X-\mu\rvert^3\); এতে দূরত্ব \(n^{-1/2}\)-এ কমে, যা E1-এর KS-মান (\(n=5\!:0.0590\to n=320\!:0.0071\)) নিশ্চিত করে 8.2
Bessel's correction sample variance-এ n-এর বদলে n−1 দিয়ে ভাগ (unbiased করতে) 1.2
best \(L^2\) predictor সব \(\mathcal G\)-measurable \(Z\)-এর মধ্যে \(\mathbb E[(X-Z)^2]\) ন্যূনতম হয় ঠিক \(Z=\mathbb E[X\mid\mathcal G]\)-তে; Pythagoras \(\mathbb E[(X-Z)^2]=\mathbb E[(X-\mathbb E[X\mid\mathcal G])^2]+\mathbb E[(\mathbb E[X\mid\mathcal G]-Z)^2]\) (cross term orthogonality-তে শূন্য) 7.7
best constant predictor \(X\in L^2\)-কে \(\operatorname{span}\{1\}\)-এ projection; \(\min_c\mathbb E[(X-c)^2]\)-এর সমাধান \(c=\mathbb E[X]\), residual-error \(=\operatorname{Var}(X)\) — mean = ধ্রুবক-জগতে projection 7.5
Beta / Uniform limit Pólya urn-এর রঙ-অনুপাতের a.s.-সীমা \(X_\infty\) একটা random variable — Beta\((r_0,w_0)\)-বণ্টিত (শুরুর লাল/সাদা গণনা = প্যারামিটার); শুরু \(1{,}1\)-এ Uniform\((0,1)\) (mean \(0.5007\), std \(0.2853\), সমতল deciles) 7.9
Beta distribution \([0,1]\)-এ একটি অনুপাত; shape \(\alpha,\beta\); নমনীয় আকৃতি 2.4
beta function Beta-র normalization ধ্রুবক \(B(\alpha,\beta)=\Gamma(\alpha)\Gamma(\beta)/\Gamma(\alpha+\beta)\) 2.4
Beta–Binomial conjugate জোড়া: prior \(\text{Beta}(a,b)\), \(n\) চেষ্টায় \(k\) সাফল্য ⇒ posterior \(\text{Beta}(a+k,\ b+n-k)\) (E1; Figure 1–2, §৭ Q9) 4.10
between-group variation (SSB) group-গড়গুলো grand mean থেকে কত ছড়ানো: \(\mathrm{SSB}=\sum_g n_g(\bar y_g-\bar y)^2\); signal + noise বহন করে, \(df=k-1\) 5.3
bias estimator-এ \(\mathbb{E}[\hat\theta]-\theta\); expectation-ভিত্তিক (Part IV) 2.5
bias (of an estimator) \(\mathbb{E}[\hat\theta]-\theta\) — estimate গড়ে কতটা সত্যি থেকে সরে; MoM-এ nonlinear রূপান্তরে সসীম \(n\)-এ bias থাকতে পারে (যেমন \(1/\bar X\) উপরে হেলে — Jensen) 4.2
bias of MLE সসীম \(n\)-এ MLE biased হতে পারে — যেমন Normal-এর \(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2\) (হরে \(n\), \(n-1\) নয়) সামান্য নিচে-biased; bias \(\to0\) যখন \(n\to\infty\) (4.4) 4.3
bias reduction boosting-এর কেন্দ্রীয় লক্ষ্য — high-bias weak learner ক্রমিকভাবে যোগ করে ensemble-এর capacity বাড়িয়ে bias কমানো (bagging-এর variance↓-এর বিপরীত); n_estimators ও \(\nu\) এর "complexity-ডায়াল", কিন্তু অতিরিক্ত round-এ variance/overfit ফিরে আসে (চূড়ার পর পতন) 6.6
biased estimator যার \(\mathbb{E}[\hat\theta]\ne\theta\) (যেমন \(\hat\sigma^2\) low, \(\max\) low); কখনও কম MSE দেয় বলে কাম্য হতে পারে 4.4
bias–variance decomposition \(\mathrm{MSE}(\hat\theta)=[\,b(\hat\theta)\,]^2+\mathrm{Var}(\hat\theta)\) — MSE-কে bias² ও variance-এ ভাঙা, cross-term শূন্য (Figure 2; §৭ Q9) 4.4
bias–variance of CV (in \(K\)) CV-estimate-এর গুণমান \(K\)-এর সাথে বদলায়: ছোট \(K\) (training-set ছোট) ⇒ error over-estimate (pessimistic bias) কিন্তু কম-correlated fit ⇒ কম variance; \(K=n\) (LOOCV) ⇒ bias প্রায় শূন্য কিন্তু correlated fit ⇒ বেশি variance; তাই \(K=5/10\) আপস 5.8
bias–variance trade shrinkage-এর যুক্তি: MSE=bias²+variance (← 4.4); MLE unbiased (bias \(0\), variance \(1\)), JS সামান্য bias কিনে variance \(c^2\)-গুণ কমায়; \(p\ge3\)-তে variance-সাশ্রয় জেতে, total risk নামে 8.3
bias–variance trade-off complexity-র দুই বিপরীত খরচের ভারসাম্য — কমাতে গেলে একটা বাড়ে; সর্বোত্তম মডেল সেই বিন্দুতে যেখানে \(\text{bias}^2+\text{var}\) সর্বনিম্ন (U-curve-এর তলা); regularization (6.2) এটি সরাসরি tune করে 6.1
bias–variance tradeoff bias² ও variance বিপরীত দিকে চলে, তাই MSE-র সর্বনিম্ন পেতে দুটোর ভারসাম্য করতে হয়; একটু bias মেনে variance কমালে MSE কমতে পারে (Figure 2) 4.4
bias–variance tradeoff (regularization) \(\lambda\) বাড়ালে variance↓ কিন্তু bias↑ — regularization সরাসরি এই ভারসাম্য tune করে; সর্বোত্তম \(\lambda\) সেই বিন্দু যেখানে test-MSE সর্বনিম্ন (৬.১-এর U-curve-এর তলা); canonical: সামান্য bias-এ ridge MSE \(2.077\to2.075\), lasso \(1.843\) 6.2
BIC Bayesian Information Criterion \(=-2\ell+(\ln n)K\); AIC-এর চেয়ে কড়া penalty (\(\ln n>2\) যখন \(n>7\)), তাই বেশি parsimonious; consistent (সত্য মডেল \(n\to\infty\)-এ বাছে) 5.2
biconditional \(P \Leftrightarrow Q\): "\(P\) iff \(Q\)"; সত্যমান একই হলে সত্য 0.1
bijective একই সাথে injective ও surjective; এদেরই inverse থাকে 0.1
bilinearity (of covariance) \(\operatorname{Cov}(aX+bY,Z)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z)\) 2.6
bimodal দুটি চূড়াবিশিষ্ট distribution; প্রায়ই লুকানো উপদলের ইঙ্গিত 1.3
bin histogram/frequency table-এ মানের একটি ধারাবাহিক টুকরো (class interval) 1.3
binary ঠিক দুটি শ্রেণির categorical data (yes/no), প্রায়ই \(0/1\)-এ কোড করা 1.1
binning data-কে bin-এ ভাগ করার প্রক্রিয়া 1.3
binomial coefficient \(\binom{n}{k}=n!/(k!(n-k)!)\); \((x+y)^n\) বিস্তারের সহগ 0.2
Binomial distribution \(n\) স্বাধীন trial-এ success-সংখ্যা; \(\binom{n}{k}p^k(1-p)^{n-k}\), mean \(np\) 2.3
binomial theorem \((x+y)^n=\sum_k\binom{n}{k}x^{n-k}y^k\) 0.2
bivariate analysis দুটি variable একসাথে কীভাবে চলে তা বিশ্লেষণ 1.4
bivariate Normal distribution দুই variable-এর যৌথ Normal; marginal ও conditional উভয়ই Normal, conditional mean রৈখিক 2.6
blocking পরিচিত nuisance-উৎস (যেমন irrigation, জমির উর্বরতা) আলাদা করে model-এ আনা; residual/within variation কমিয়ে \(F\)-এর power বাড়ায় 5.3
BLUE Best Linear Unbiased Estimator — সর্বনিম্ন variance-যুক্ত নিরপেক্ষ রৈখিক estimator 5.1
BLUP (best linear unbiased predictor) random effect-এর shrink-করা estimate \(\hat u_j=\lambda_j(\bar y_j-\mu)\) — গোষ্ঠীর raw-deviation-কে \(\lambda_j\) দিয়ে গ্র্যান্ড-গড়ের দিকে টানা; উদাহরণে স্কুল \(0\) (\(n_0=20\)): \(\hat u_0=+6.05\) (\(=0.922\times6.56\)) 5.6
Bochner's theorem একটা ফাংশন \(\varphi:\mathbb R\to\mathbb C\) ঠিক তখনই কোনো বণ্টনের cf, যখন তা \(\varphi(0)=1\), অবিচ্ছিন্ন এবং positive-definite — cf-জগৎ ও বণ্টন-জগতের পূর্ণ মিল 7.10
boosting দুর্বল (high-bias) learner ক্রমিকভাবে যোগ করে শক্তিশালী predictor \(F_T(x)=\sum_t\alpha_t h_t(x)\) বানানোর ensemble-কৌশল; প্রতিটি নতুন learner আগের সমষ্টির ভুল সংশোধন করে, তাই মূলত bias কমায় (bagging-এর variance↓-এর বিপরীত)। নির্ভরশীল/sequential বলে parallel train করা কঠিন 6.6
bootstrap একটা resampling পদ্ধতি যা মূল নমুনাকেই population ধরে replacement-সহ বারবার resample করে statistic \(\hat\theta\)-এর sampling distribution আঁচ করে (SE, CI, p-value); তত্ত্বের সূত্র না থাকলেও চলে (Figure 1, §৭ Q1) 4.9
bootstrap aggregating bagging-এর পূর্ণরূপ — bootstrap (৪.৯, with-replacement resample) + aggregating (গড়/majority-vote); ৪.৯-এর resample-পদ্ধতিকে inference থেকে prediction-এর variance-হ্রাসে রূপান্তর 6.5
bootstrap confidence interval data থেকে replacement-সহ resample করে statistic-এর sampling distribution আনুমান, তারপর সেই resample-বণ্টনের percentile থেকে CI নির্মাণ (← 4.9); E2-তে \(B=1000\) resample-এ mean-এর percentile bootstrap CI-র গড় width \(0.5869\) 8.2
bootstrap distribution \(B\)টা \(\hat\theta^*_b\)-এর বণ্টন; \(\hat\theta\)-কে কেন্দ্র করে; sampling distribution-এর সিমুলেশন-ভিত্তিক নকল — শেখা আসে কেন্দ্র থেকে নয়, বিস্তার থেকে (Figure 1, §৭ Q2) 4.9
bootstrap replicate \(\hat\theta^*_b\) \(b\)-তম bootstrap resample থেকে পাওয়া statistic-এর মান; \(B\)টা মিলে bootstrap distribution (Figure 1) 4.9
bootstrap resample \(X^*\) replacement-সহ \(n\)টা টেনে বানানো একটা নকল নমুনা; এর থেকে একটা bootstrap replicate \(\hat\theta^*_b\) হিসাব হয় 4.9
bootstrap sample training-set থেকে size-\(n\) with-replacement resample; bagging/RF-এর প্রতিটি গাছের training-data, এবং OOB-র উৎস (গড়ে \(\approx63\%\) স্বতন্ত্র বিন্দু in-bag, \(\approx37\%\) out-of-bag)। canonical \(n_{\text{train}}=420\): in-bag \(\approx265\), OOB \(\approx155\) 6.5
bootstrap standard error \(\widehat{\mathrm{se}}_{\text{boot}}\) bootstrap replicate-গুলোর standard deviation \(\sqrt{\frac{1}{B-1}\sum_b(\hat\theta^*_b-\bar\theta^*)^2}\); \(\hat\theta\)-র sampling-variation-এর আঁচ; গড়ে \(\approx s/\sqrt n\) (Figure 1, §৭ Q2, Q12) 4.9
Borel \(\sigma\)-algebra \(\mathcal B(\mathbb R)\) \(\mathbb R\)-এর প্রমিত \(\sigma\)-algebra \(=\sigma(\text{open sets})=\sigma(\text{open intervals})=\sigma\big((-\infty,x]\big)\); ব্যবহারিক প্রায় সব set এতে পড়ে, random variable-এর target \(\sigma\)-algebra 7.2
Borel function একটা measurable map \(g:(\mathbb R,\mathcal B)\to(\mathbb R,\mathcal B)\) (বা \(\mathbb R^d\)-তে); RV \(X\)-এর সঙ্গে রচিত হলে \(g\circ X=g(X)\) আবার RV — তাই \(X^2,\lvert X\rvert,e^X\) ইত্যাদি বৈধ নতুন RV 7.3
Borel set (preview) open interval থেকে গণনাযোগ্য union/intersection/complement-এ গড়া \(\mathbb R\)-এর প্রমিত \(\sigma\)-algebra \(\mathcal B(\mathbb R)\)-এর সদস্য; ব্যবহারিক প্রায় সব set এতে পড়ে, পূর্ণ আলোচনা 7.2-এ 7.1
Borel–Cantelli lemma (first) যেকোনো \((A_n)\)-এ (স্বাধীনতা লাগে না) \(\sum_n\mathbb P(A_n)<\infty\Rightarrow\mathbb P(A_n\ \text{i.o.})=0\); countable subadditivity + অভিসৃত-ধারার-লেজ\(\to0\) দিয়ে 7.6
Borel–Cantelli lemma (second) \((A_n)\) স্বাধীন\(\sum_n\mathbb P(A_n)=\infty\Rightarrow\mathbb P(A_n\ \text{i.o.})=1\); গুণফল \(\prod(1-\mathbb P(A_n))\le\exp(-\sum)\) দিয়ে (স্বাধীনতা অপরিহার্য) 7.6
borrowing strength অসম্পর্কিত প্যারামিটার একসাথে estimate করার সময় তথ্য ভাগ করে নেওয়া — JS সব coordinate-কে একই common factor \(\lVert X\rVert^2\) দিয়ে shrink করে, ফলে একটার estimate অন্যদের সমষ্টিগত তথ্যে উন্নত হয়; multiple group-mean shrinkage-এর মূল ধারণা 8.3
boundary maximum likelihood-এর সর্বোচ্চ parameter-space-এর প্রান্তে, অভ্যন্তরে নয় — তখন \(\ell'=0\) খাটে না; Uniform\((0,\theta)\)-এ MLE \(=\max_i X_i\) আকৃতি বিচার করে পাওয়া যায় (Figure 4) 4.3
branching martingale স্বাভাবিকীকৃত আকার \(W_n=Z_n/m^n\) — একটা অঋণাত্মক martingale (\(\mathbb E[W_n]=1\) সব \(n\)-এ), তাই a.s. একটা সীমা \(W\ge0\)-এ অভিসারী; \(L\log L\)/UI-শর্ত \(W\)-এর অ-অবক্ষয় ঠিক করে 7.9
breakdown point statistic ভাঙতে যত ভগ্নাংশ data নষ্ট করতে হয় তার সর্বনিম্ন মান 1.2
broadcasting ভিন্ন আকারের array-কে স্বয়ংক্রিয়ভাবে মিলিয়ে operation করার NumPy নিয়ম 0.6
Brownian motion (Wiener process) \(W_0=0\), independent increments, \(W_t-W_s\sim\mathcal N(0,t-s)\); একটি Gaussian process যার \(m(t)=0\), \(C(s,t)=\min(s,t)\); সন্তত কিন্তু কোথাও অন্তরকলনযোগ্য নয় 3.5
burn-in MCMC-র শুরুর কিছু নমুনা যা এখনো stationary-তে পৌঁছায়নি, তাই ফেলে দেওয়া হয় (Figure 3-এর ছায়া-অঞ্চল); নাহলে শুরুর-state bias আনে 3.6
calibration predicted probability বনাম observed frequency মেলে কিনা তার পরীক্ষা (calibration curve diagonal-এ থাকলে well-calibrated, নাহলে over/under-confident); এই অধ্যায়ে logistic ও RF দুই model-ই প্রায়-diagonal 8.1
Cantelli's SLLN (4th moment) iid ও \(\mathbb E[X^4]<\infty\Rightarrow\bar X_n\to\mu\) a.s.; \(\mathbb E[S_n^4]=O(n^2)\) দেখিয়ে \(\sum_n\mathbb E[\bar X_n^4]<\infty\) ⇒ Borel–Cantelli I — সহজ কিন্তু শক্তিশালী-নয় পথ 7.6
Cantor set \([0,1]\) থেকে বারবার middle-third ফেলে পাওয়া \(C=\bigcap_k C_k\); অপসারিত দৈর্ঘ্য \(=1\) তাই \(\lambda(C)=0\), অথচ uncountable (\(\lvert C\rvert=2^{\aleph_0}\)) — measure-zero \(\ne\) ছোট 7.1
capacity / model complexity hypothesis class কত-বিচিত্র ফাংশন ধরতে পারে তার মাপ (polynomial degree, parameter-সংখ্যা, \(d_{\mathrm{VC}}\)); বেশি capacity = কম bias কিন্তু বেশি variance ও বড় generalization-gap; U-curve-এর মূল অক্ষ 6.1
Carathéodory criterion \(E\) measurable iff এটা প্রতিটি test set \(A\)-কে additively কাটে: \(\mu^*(A)=\mu^*(A\cap E)+\mu^*(A\cap E^c)\) সব \(A\)-র জন্য; যা measurable set-দের বেছে নেয় 7.2
Carathéodory extension theorem একটা algebra-র premeasure \(\sigma(\mathcal A)\)-এ একটা measure-এ প্রসারিত হয় (\(\sigma\)-finite হলে একমাত্রভাবে), এবং Carathéodory-measurable set-রা একটা complete \(\sigma\)-algebra গড়ে যার উপর \(\mu^*\) একটা measure 7.2
CART Classification And Regression Trees — Breiman-এর binary recursive-partitioning algorithm; classification-এ Gini, regression-এ squared-error impurity দিয়ে greedy split বাছে; scikit-learn-এর tree এর বাস্তবায়ন 6.5
Cartesian product \(A \times B\): সব ordered pair \((a,b)\)-এর set 0.1
Categorical (pandas) pandas-এ categorical data সংরক্ষণের dtype; ordered=True দিলে ক্রম রক্ষা হয় 1.1
categorical variable শ্রেণিগত (qualitative) variable; শ্রেণি/লেবেল নির্দেশ করে, সংখ্যা নয় 1.1
Cauchy distribution heavy-tailed distribution যার \(\mathbb E\lvert X\rvert=\infty\); mean অসংজ্ঞায়িত, তাই LLN ভাঙে (running mean থিতু হয় না) 3.3
Cauchy distribution (no mean) pdf \(f(x)=\tfrac1{\pi(1+x^2)}\); \(\mathbb E\lvert X\rvert=\infty\) (লেজ \(\sim1/(\pi\lvert x\rvert)\)), তাই SLLN ভাঙে — \(\bar X_n\) থামে না, ঘোরে (নিজেও হুবহু Cauchy থাকে) 7.6
Cauchy–Schwarz inequality \(\lvert\langle f,g\rangle\rvert\le\lVert f\rVert_2\lVert g\rVert_2\); Hölder-এর \(p=q=2\) রূপ, statistics-এ \(\lvert\rho\rvert\le1\)-এর ভিত্তি, সমতা কেবল linear dependence-এ 7.5
causal inference correlation নয়, কারণ-অনুমান: \"\(X\) বদলালে \(Y\) বদলাবে কি?\" — observational data থেকেও বৈধ কার্যকারণ-দাবির শর্ত ও পদ্ধতি; তিন স্তম্ভ potential outcomes, DAG, instrumental variable; epidemiology/econometrics/policy/A-B testing-এর ভিত্তি (← Part IV,V) 8.4
causation একটি ঘটনা প্রকৃতপক্ষে অন্যটিকে ঘটায় — correlation যা প্রমাণ করে না 1.4
CDF cumulative distribution function \(F_X(x)=P_X((-\infty,x])=\mathbb P(X\le x)\); monotone, right-continuous, \(0\to 1\) — এবং π–λ (7.2) দিয়ে CDF একাই পুরো law \(P_X\)-কে নির্ধারণ করে 7.3
CDF method \(F_Y(y)=P(g(X)\le y)\) লিখে, \(X\)-এর ভাষায় অনুবাদ করে \(Y\)-এর distribution বের করা 2.7
cell mean factorial design-এ এক নির্দিষ্ট factor-combination-এর (যেমন C-high) গড়; interaction পড়ার মূল একক 5.3
center of mass যে বিন্দুতে probability-ভর ভারসাম্যে; \(\mathbb{E}[X]\)-এর ভৌত রূপ 2.5
centered kernel matrix kernel PCA-তে double-centered \(\tilde K=HKH\) (\(H=I-\tfrac1n\mathbf 1\mathbf 1^\top\)) — feature-space-এ data মূলবিন্দু-কেন্দ্রিক করতে (\(\sum_i\phi(x_i)=0\)), যেহেতু \(\phi\) সরাসরি জানা নেই; PCA-র covariance-গঠনের kernel-সংস্করণ 6.8
Central Limit Theorem (CLT) iid \(X_i\) (\(\sigma^2<\infty\))-এর জন্য \(Z_n=\sqrt{n}(\bar X_n-\mu)/\sigma\xrightarrow{d}\mathcal N(0,1)\); উৎসের আকৃতি যাই হোক standardize-করা গড় Normal-এ যায় 3.4
Central Limit Theorem (rigorous) iid \(X_i\), \(\mathbb E[X]=\mu\), \(\operatorname{Var}(X)=\sigma^2\in(0,\infty)\)\(Z_n=\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\Rightarrow N(0,1)\); cf-প্রমাণ \(\varphi_{Z_n}(t)=(\varphi_W(t/\sqrt n))^n\to e^{-t^2/2}\) + Lévy — 3.4-এর স্বজ্ঞাগত CLT এখানে প্রমাণিত 7.10
central moment গড়ের সাপেক্ষে \(k\)-th moment; \(\mu_k=\mathbb{E}[(X-\mu)^k]\) 2.5
centroid একটা cluster-এর প্রতিনিধি-বিন্দু — তার সদস্যদের গড় \(\mu_k=\frac1{\lvert C_k\rvert}\sum_{i\in C_k}x_i\); k-means update-ধাপে এটাই বসানো হয় কারণ গড় \(\sum_{i\in C_k}\lVert x_i-c\rVert^2\)-এর একমাত্র (global) minimizer (convex quadratic, Hessian \(2\lvert C_k\rvert I\succ0\)) 5.9
chain rule composite function-এর derivative: \(f'(g)\cdot g'\) 0.3
change of variables monotone \(g\)-র জন্য density সরাসরি রূপান্তরের সূত্র (Jacobian সহ) 2.7
Chapman–Kolmogorov \((P^{m+n})_{ij}=\sum_k (P^m)_{ik}(P^n)_{kj}\) — দীর্ঘ যাত্রাকে মাঝপথের state \(k\)-তে ভেঙে যোগ; total probability + Markov property-র matrix-রূপ (\(P^{m+n}=P^mP^n\)) 3.6
characteristic equation \(\det(A-\lambda I)=0\), যার মূল eigenvalue 0.5
characteristic function \(\varphi_X(t)=\mathbb{E}[e^{itX}]\); MGF না থাকলেও সবসময় থাকে 2.5
characteristic function of Bernoulli \(\varphi_{\text{Bern}(p)}(t)=1-p+pe^{it}\) (সরাসরি যোগফল); \(\varphi_{\text{Bern}(0.3)}(1)=0.8621+0.2524i\) (\(\lvert\cdot\rvert\approx0.8983\)); iid-যোগে \((1-p+pe^{it})^n\) = Binomial-এর cf 7.10
characteristic function of exponential \(\varphi_{\text{Exp}(\lambda)}(t)=\frac{\lambda}{\lambda-it}\); \(\int_0^\infty e^{itx}\lambda e^{-\lambda x}\,dx\) থেকে; \(\varphi_{\text{Exp}(1)}(1)=\frac{1}{1-i}=0.5+0.5i\) (\(\lvert\cdot\rvert=0.7071\)) 7.10
characteristic function of normal \(\varphi_{N(\mu,\sigma^2)}(t)=e^{i\mu t-\sigma^2 t^2/2}\); বিশেষত \(\varphi_{N(0,1)}(t)=e^{-t^2/2}\) (ODE \(\varphi'=-t\varphi\) থেকে), যা CLT-এর target; \(\varphi_{N(0,1)}(1)=0.6065\) 7.10
characteristic function of Poisson \(\varphi_{\text{Poisson}(\lambda)}(t)=e^{\lambda(e^{it}-1)}\); গুণফল-ধর্মে \(e^{\lambda_1(e^{it}-1)}e^{\lambda_2(e^{it}-1)}=e^{(\lambda_1+\lambda_2)(e^{it}-1)}\) ⇒ স্বাধীন Poisson-এর যোগ আবার Poisson 7.10
characteristic function vs MGF \(\varphi_X(t)=\mathbb E[e^{itX}]\) সর্বদা বিদ্যমান (\(\lvert e^{itX}\rvert=1\), ঘোরে কিন্তু বাড়ে না); MGF \(M_X(t)=\mathbb E[e^{tX}]\) heavy-tail বণ্টনে (Cauchy, log-normal) অস্তিত্বহীন; যেখানে \(M\) আছে \(\varphi(t)=M(it)\) 7.10
Chebyshev inequality \(P(\lvert X-\mu\rvert\ge k\sigma)\le 1/k^2\); mean ও variance থেকে; অন্তত \(1-1/k^2\) mass \(\mu\pm k\sigma\)-এ 3.1
Chebyshev's inequality \(P(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon)\le\mathrm{MSE}/\varepsilon^2\) — MSE→0 থেকে consistency প্রমাণের মূল হাতিয়ার (§৭ Q10) 4.4
check-on-generator good-sets-এর ব্যবহারিক ফল: পুরো \(\mathcal B\) নয়, শুধু generator-এ preimage যাচাই করলেই হয় — \(X\) RV iff \(\{X\le x\}\in\mathcal F\ \forall x\) (কারণ \(\mathcal B=\sigma((-\infty,x])\)) 7.3
Chernoff method \(P(X\ge a)\le e^{-sa}\mathbb{E}[e^{sX}]\) (MGF-এ Markov) তারপর \(s\)-minimize; exponential tail bound-এর কৌশল 3.1
chi-square critical value \(\chi^2_{k,1-\alpha}\) — যার ডানে \(\alpha\) ভর; statistic এটি ছাড়ালে \(H_0\) প্রত্যাখ্যান (\(\chi^2_{1,0.95}=3.84\), \(\chi^2_{5,0.95}=11.07\)) 4.8
chi-square distribution \(\chi^2_k\)\(k\)টি স্বাধীন \(\mathcal N(0,1)\)-এর বর্গের যোগফলের distribution; \(0\)-এর ডানে, ডানে-skewed; \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) (E2) 4.1
chi-square test দুই categorical variable স্বাধীন কিনা যাচাইকারী পরীক্ষা 1.4
choosing k (k-NN) k-NN-এর \(k\) = bias–variance knob; accuracy-বনাম-\(k\) U-আকার: ছোট \(k\)-তে variance-প্রধান, বড় \(k\)-তে দূরের প্রতিবেশী টেনে bias-প্রধান; canonical \(k\): \(1{\to}0.859,\,3{\to}0.889,\,5{\to}0.896,\,15{\to}0.911,\,25{\to}0.911\) (সেরা \(15\)) 6.3
chord একটি curve-এর দুই বিন্দু জুড়ে সরলরেখা; convexity-তে curve-এর উপরে থাকে 3.1
CI width / half-width width \(=2m=2z_{\alpha/2}\mathrm{SE}\); half-width \(m\propto1/\sqrt n\) — interval অর্ধেক সরু করতে \(n\) চারগুণ (Figure 4) 4.6
CI-test duality (regression) \(\hat\beta_j\pm t_{\alpha/2,n-p}\widehat{\mathrm{se}}\)-এ \(\beta_0\) থাকা ⇔ \(H_0:\beta_j=\beta_0\) \(\alpha\)-তে বাতিল না-হওয়া; ৪.৬–৪.৭-এর duality coefficient-পর্যায়ে 5.2
CI–test duality \((1-\alpha)\) CI = সেই সব \(\mu_0\) যাদের level-\(\alpha\) test বাতিল করে না; reject \(H_0:\mu=\mu_0\) iff \(\mu_0\) CI-এর বাইরে (Figure 4, §৭ Q9) 4.7
class imbalance এক শ্রেণি অন্যটির চেয়ে বহুগুণ বেশি (anomaly: \(285\) inlier বনাম \(15\) anomaly); তখন accuracy গরিষ্ঠ-শ্রেণিতে ডুবে যায় ("সব inlier" = \(0.95\) অথচ recall \(0\)), তাই precision/recall/ROC AUC দেখতে হয় 6.9
class-conditional density শ্রেণি \(c\) দেওয়া থাকলে feature-এর বিতরণ \(f_c(x)=P(x\mid y=c)\) (likelihood); generative classifier এটিই model করে — LDA/QDA Gaussian ধরে, Naive Bayes প্রান্তিকগুলোর গুণফল ধরে 6.3
classical probability favorable outcome / total outcome হিসেবে সম্ভাবনা 0.2
classification discrete শ্রেণি-লেবেল predict করার supervised কাজ (regression-এর continuous \(y\)-র বিপরীতে); লক্ষ্য প্রতিটি \(x\)-কে সঠিক শ্রেণিতে ফেলা; এই অধ্যায়ের চার পদ্ধতি LDA/QDA/Naive Bayes/k-NN 6.3
closed martingale যে martingale একটা single \(Z\in L^1\) দিয়ে "আবদ্ধ": \(X_n=\mathbb E[Z\mid\mathcal F_n]\) সব \(n\)-এ (একটা Doob martingale); UI martingale-এর সমতুল্য রূপ, \(Z=X_\infty\) নেওয়া যায় 7.9
closed-form estimator iteration/optimization ছাড়াই সরাসরি সূত্রে পাওয়া estimator; MoM-এর বড় সুবিধা (E2–E4 সবই closed-form) — প্রায়ই MLE-র starting point 4.2
cluster assumption semi-supervised অনুমান: একই গুচ্ছের বিন্দু সম্ভবত একই শ্রেণি, অর্থাৎ decision boundary কম-ঘনত্বের অঞ্চল দিয়ে যায় (low-density separation), ঘন গুচ্ছের মাঝখান দিয়ে নয়; make_moons-এ দুই চাঁদের মাঝের ফাঁকে boundary 6.9
clustered / nested data observation যখন গোষ্ঠীতে বাঁধা (শিক্ষার্থী একই স্কুলে, রোগী একই হাসপাতালে, একই ব্যক্তির বারবার-মাপা) ⇒ গোষ্ঠী-অভ্যন্তরীণ correlation, observation স্বাধীন নয়; এই dependence উপেক্ষা করলে OLS-SE ভুল 5.6
clustering লেবেল ছাড়া বিন্দুদের স্বাভাবিক দলে (cluster) ভাগ করার unsupervised কৌশল — একই দলের বিন্দু কাছাকাছি, ভিন্ন দলেরগুলো দূরে; প্রধান রূপ k-means (centroid-ভিত্তিক) ও hierarchical (গাছ-ভিত্তিক); মানদণ্ড within/between-spread, silhouette 5.9
codomain function-এর output যেখানে থাকতে পারে (\(B\)) 0.1
coefficient of determination \(R^2\) (as variance ratio) \(R^2=\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)\) — law of total variance-এর ব্যাখ্যাকৃত ভগ্নাংশ; bivariate normal-এ \(=\rho^2=0.36\), 5.1-এর \(R^2\)-এর measure-তাত্ত্বিক পরিচয় 7.7
combination ক্রম গুরুত্বপূর্ণ নয় এমন বাছাই, \(\binom{n}{k}\) 0.2
common CI misinterpretation ভুল: "\(\theta\) এই নির্দিষ্ট interval-এ থাকার সম্ভাবনা ৯৫%"; \(\theta\) random নয়, একবার বসলে interval হয় ধরেছে নয় ধরেনি (Figure 2-ডান) 4.6
compensator / predictable increasing process Doob decomposition-এর \(A_n=\sum_{k\le n}\big(\mathbb E[X_k\mid\mathcal F_{k-1}]-X_{k-1}\big)\) — predictable, অ-হ্রাসমান (\(A_0=0\)); submartingale-এর "প্রত্যাশিত drift", যা বাদ দিলে martingale ফেরে 7.8
complement \(A^c = U \setminus A\): universal set-এর মধ্যে যা \(A\)-তে নেই 0.1
complement rule \(P(A^c)=1-P(A)\) 2.1
complete measure measure space যেখানে যেকোনো null set (\(\mu(N)=0\))-এর প্রতিটি subset measurable (এবং null); Carathéodory-নির্মাণ সর্বদা complete দেয়, তাই Lebesgue measure complete 7.2
complete pooling সব গোষ্ঠী মিলিয়ে একটাই regression (গোষ্ঠী উপেক্ষা) = pooled OLS; between-group বৈচিত্র্য ও clustering-SE-সংশোধন হারায় ⇒ over-confident inference 5.6
complete-data likelihood latent \(z_i\) যদি জানা থাকত তখনকার likelihood — \(\ell_c=\sum_i[\log\pi_{z_i}+\log\mathcal N(x_i;\mu_{z_i},\Sigma_{z_i})]\); এতে \(\log\)-এর ভেতরে যোগফল (log-sum) নেই বলে MLE সহজ (প্রতি component আলাদা Gaussian-MLE)। M-step এর expected রূপ (\(Q\)) maximize করে 6.7
completeness একটি metric/normed space-এর ধর্ম যেখানে প্রতিটি Cauchy অনুক্রম একটি limit-এ পৌঁছায় (space-এর ভেতরে); limit-যুক্তিকে নিরাপদ করে 7.5
complex exponential \(e^{itX}\) Euler-সূত্রে \(e^{itX}=\cos tX+i\sin tX\); cf-এর integrand, \(\lvert e^{itX}\rvert=1\) (unit circle-এ) — এই একটিমাত্র তথ্যই cf-এর সর্বত্র-অস্তিত্ব ও \(\lvert\varphi\rvert\le1\) দেয় 7.10
component vector-এর একেকটি সংখ্যাগত উপাংশ 0.5
composition of measurable maps দুই measurable map-এর রচনা measurable: \(g\circ f\) measurable যদি \(f,g\) measurable, কারণ \((g\circ f)^{-1}(B)=f^{-1}(g^{-1}(B))\); বিশেষত Borel \(g\)-তে \(g(X)\) RV 7.3
compound symmetry random-intercept-এর চাপানো covariance-গঠন: একই গোষ্ঠীর যেকোনো জোড়ার \(\operatorname{Cov}=\sigma_u^2\), প্রতিটির \(\operatorname{Var}=\sigma_u^2+\sigma_\varepsilon^2\), ভিন্ন গোষ্ঠীর \(0\)\(\Sigma_j=\sigma_\varepsilon^2 I+\sigma_u^2\mathbf 1\mathbf 1^\top\) (অভিন্ন off-diagonal); এ থেকেই within-group corr \(=\rho\) 5.6
computational formula (variance) \(\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\) 2.5
concave উপরের দিকে বাঁকা (\(\frown\)); \(f''\le0\) 0.3
concave function \(-g\) convex; chord curve-এর নিচে; \(g''\le0\) (যেমন \(\log,\sqrt{\cdot}\)) 3.1
concavity / IRLS (Poisson) Poisson log-likelihood concave (Hessian \(-X^\top WX\preceq0\), \(W=\operatorname{diag}(\mu_i)>0\)), তাই full-rank \(X\)-এ একক MLE; Newton–Raphson প্রতিধাপে weighted least squares (IRLS), weight \(w_i=\mu_i\) 5.5
concavity of log-likelihood অনেক মডেলে (Bernoulli, Exponential, Normal) \(\ell\) অবতল (\(\ell''<0\)), তাই critical point অনন্য সর্বোচ্চ ও hill-climbing সেখানেই পৌঁছায় (Figure 1, 2) 4.3
concentration inequality random variable (বিশেষত sample mean) তার expectation-এর চারপাশে কতটা ঘনীভূত তা দেখানো অসমতা 3.1
concentration of measure বহু independent পরিমাণের যোগফল/গড় তার গড়ের কাছে প্রবলভাবে কেন্দ্রীভূত হওয়ার ঘটনা 3.1
concept drift streaming-এ data-জনিত বণ্টন সময়ের সঙ্গে সরে যাওয়া (যা শেখা হয়েছিল তা পুরোনো হয়ে যায়); online learning-এর সুবিধা হলো \(\theta\) ক্রমাগত আপডেট হওয়ায় model স্বয়ংক্রিয়ভাবে নতুন বণ্টনে মানিয়ে নেয় (batch model পিছিয়ে পড়ত) 6.9
conditional density \(f_{X\mid Y}(x\mid y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}\) (\(f_Y(y)>0\)) — regular conditional distribution-এর density-রূপ; \(\mathbb E[X\mid Y{=}y]=\int x\,f_{X\mid Y}(x\mid y)\,dx\) (2.6-এর সূত্র) 7.7
conditional distribution এক variable জানার পরে অন্যটির বণ্টন, \(f_{Y\mid X}(y\mid x)=f_{X,Y}/f_X\) 2.6
conditional expectation \(\mathbb{E}[Y\mid X=x]=\int y\,f_{Y\mid X}(y\mid x)\,dy\); \(X\) জানলে \(Y\)-এর গড় (regression function) 2.6
conditional expectation given a random variable \(\mathbb E[X\mid Y]:=\mathbb E[X\mid\sigma(Y)]\)\(Y\)-এর বহন-করা তথ্যের নিচে \(X\)-এর সেরা অনুমান; Doob–Dynkin-এ একটি measurable \(g\)-তে \(=g(Y)\) 7.7
conditional expectation given a σ-algebra \(\mathbb E[X\mid\mathcal G]\) — আংশিক তথ্য \(\mathcal G\subseteq\mathcal F\)-এর নিচে \(X\)-এর সেরা অনুমান; a.s.-অনন্য \(\mathcal G\)-measurable random variable, একটি সংখ্যা নয় (2.2-এর \(\mathbb E[X\mid Y{=}y]\)-এর কঠোর সাধারণীকরণ, continuous শর্তেও খাটে) 7.7
conditional independence \(P(A\cap B\mid C)=P(A\mid C)P(B\mid C)\); \(C\) জানার পর স্বাধীন 2.2
conditional Jensen inequality \(\varphi\) convex ⇒ \(\varphi(\mathbb E[X\mid\mathcal G])\le\mathbb E[\varphi(X)\mid\mathcal G]\) a.s. — 7.5-এর Jensen-এর শর্তাধীন রূপ; supporting line দিয়ে প্রমাণ, \(L^p\)-contraction-এর উৎস 7.7
conditional MCT / Fatou / DCT 7.4-এর তিন convergence theorem-এর শর্তাধীন রূপ — \(X_n\uparrow X\Rightarrow\mathbb E[X_n\mid\mathcal G]\uparrow\mathbb E[X\mid\mathcal G]\) ইত্যাদি; conditional expectation-এর limit-আচরণ নিরাপদ করে 7.7
conditional probability \(B\) ঘটেছে ধরে \(A\) ঘটার সম্ভাবনা \(P(A\mid B)=P(A\cap B)/P(B)\) 2.2
conditional probability \(\mathbb P(A\mid\mathcal G)\) \(\mathbb P(A\mid\mathcal G):=\mathbb E[\mathbf 1_A\mid\mathcal G]\) — একটি \([0,1]\)-মানের \(\mathcal G\)-measurable random variable; Bayesian updating-এর কঠোর রূপ (\(\mathbb P(A\mid Y{=}y)\) পুনরুদ্ধার করে) 7.7
conditional variance \(\operatorname{Var}(X\mid\mathcal G)=\mathbb E[X^2\mid\mathcal G]-(\mathbb E[X\mid\mathcal G])^2\) — শর্ত-পরবর্তী অবশিষ্ট অনিশ্চয়তা; bivariate normal-এ \(\operatorname{Var}(X\mid Y)=1-\rho^2=0.64\) (\(y\)-নিরপেক্ষ) 7.7
confidence interval (CI) প্যারামিটারের একটা পরিসর-অনুমান \([\,L(X),\,U(X)\,]\) যা estimate-এর সাথে অনিশ্চয়তাও বহন করে; সাধারণত গঠন estimate \(\pm\) margin of error (Figure 1) 4.6
confidence level \(1-\alpha\) পদ্ধতির long-run coverage — বহুবার নমুনা নিলে যত ভাগ interval সত্যি \(\theta\)-কে ধরে; \(95\%\Rightarrow\alpha=0.05\) 4.6
confidence–precision tradeoff একই \(n\)-এ confidence ↑ ⇒ width ↑ (precision ↓); দুটোই উন্নত করতে \(n\) বাড়াতে হয় (§৭ Q4) 4.6
confirmatory analysis নিশ্চিতকরণমূলক বিশ্লেষণ; পূর্বনির্ধারিত hypothesis স্বাধীন data-তে যাচাই করা 1.5
confounder গুপ্ত তৃতীয় চলক যা দুই variable-কেই প্রভাবিত করে, ভুয়া সম্পর্ক তৈরি করে 1.4
confounding তৃতীয় variable-এর কারণে দুটি variable-এর সম্পর্ক বিভ্রান্তিকর দেখানো 1.5
confusion matrix প্রকৃত vs পূর্বাভাসিত class-এর \(2\times2\) গণনা \(\begin{bmatrix}\text{TN}&\text{FP}\\\text{FN}&\text{TP}\end{bmatrix}\); threshold-নির্ভর সব classification-metric-এর ভিত্তি (এখানে \([[61,15],[14,110]]\)) 5.4
conjugate exponents \(p,q\) যেখানে \(\tfrac1p+\tfrac1q=1\) (\(1\le p,q\le\infty\)); Hölder-এর জোড়া ঘাত, \(p=2\Rightarrow q=2\), \(p=1\Rightarrow q=\infty\) 7.5
conjugate index conjugate exponent-এর অপর নাম; \(p\)-এর সঙ্গী \(q=\tfrac{p}{p-1}\) যাতে \(\tfrac1p+\tfrac1q=1\) 7.5
conjugate prior এমন prior পরিবার যার সাথে নির্দিষ্ট likelihood মিললে posterior একই পরিবারে থাকে; আপডেট = শুধু parameter বদল (Figure 2, §৭ Q9–Q10) 4.10
conjunction \(P \wedge Q\): "\(P\) and \(Q\)" 0.1
consequences of overdispersion Poisson \(\hat\beta\) ঠিক থাকে কিন্তু SE underestimated (\(\sqrt\phi\) গুণ ছোট) ⇒ Wald \(z\) স্ফীত, \(p\)-value কৃত্রিমভাবে ছোট, CI অতি-সংকীর্ণ ⇒ over-confident, anti-conservative (বেশি false positive) 5.5
consistency \(n\to\infty\)-এ \(\hat\theta\xrightarrow{P}\theta\) — estimate সত্যিকারের প্যারামিটারে গড়ায়; MoM estimator (মৃদু শর্তে) consistent, LLN + continuous mapping-এর ফল (Figure 2) 4.2
consistency (estimator) \(\hat\theta_n\xrightarrow{P}\theta\); estimator বড় নমুনায় সঠিক মানে থিতু হওয়া (এই mode-এর প্রয়োগ) 3.2
consistent estimator যে estimator consistency শর্ত মেনে চলে; LLN দিয়ে sample mean ও sample variance উভয়ই consistent 3.3
constant of integration indefinite integral-এ যুক্ত অজানা ধ্রুবক \(C\) 0.4
contamination (\(\nu\)) training data-তে anomaly/দূষণের আনুমানিক ভগ্নাংশ (এই অধ্যায়ে \(\nu=15/300=0.05\)); আগে-জানা \(\nu\) detector-কে threshold দেয় — anomaly-score-এর উপরের \(\nu\) ভগ্নাংশ বিন্দুকে anomaly হিসেবে ছাঁটা হয় (sklearn contamination) 6.9
contingency table দুই categorical variable-এর যৌথ গণনার ছক (cross-tabulation) 1.4
continuity graph-এ লাফ/ফাঁক নেই; কলম না তুলে আঁকা যায় 0.3
continuity from above নিম্নমুখী set-এ measure-এর limit: \(A_n\downarrow A\Rightarrow\mu(A_n)\to\mu(A)\), তবে কোনো-একটা \(\mu(A_{n_0})<\infty\) লাগে; নয়তো \(\lambda([n,\infty))=\infty\not\to 0=\lambda(\varnothing)\) ভাঙন (\(\infty-\infty\) অর্থহীন) 7.2
continuity from below বর্ধমান set-এ measure-এর limit: \(A_n\uparrow A\Rightarrow\mu(A_n)\to\mu(A)\)শর্তহীন; উদাহরণ \(\lambda([0,1-\tfrac1n])=1-\tfrac1n\to 1\) (\(n=1,2,5,100\to 0.0,0.5,0.8,0.99\)) 7.2
continuity of measure measure-এর limit-ধর্ম: \(A_k\uparrow A\Rightarrow\mu(A_k)\to\mu(A)\) (এবং \(A_k\downarrow A\), সসীম-measure শর্তে); countable additivity-রই সমতুল্য রূপ, Cantor-এ \(\lambda(C_k)\downarrow\lambda(C)\) 7.1
continuity point যেখানে CDF \(F\) ধাপহীন; in-distribution-এর সংজ্ঞা শুধু এসব বিন্দুতে \(F_n\to F\) চায় 3.2
continuous যে function-এ ছিদ্র/লাফ নেই, limit ও মান মেলে 0.3
continuous \(\Rightarrow\) Borel প্রতিটি continuous \(g:\mathbb R\to\mathbb R\) Borel-measurable, কারণ open set-এর preimage open (তাই Borel) আর open interval-রা \(\mathcal B\) generate করে; ফলে continuous রূপান্তর RV-কে RV-তে নেয় 7.3
continuous mapping theorem \(X_n\xrightarrow{d/P}X\)\(h\) continuous হলে \(h(X_n)\xrightarrow{d/P}h(X)\); Delta/Slutsky যুক্তিতে \(g'(\xi_n)\xrightarrow{P}g'(\mu)\)-এ ব্যবহৃত 3.4
continuous random variable অবিচ্ছিন্ন দৈব চলক; মান একটি interval জুড়ে অবিচ্ছিন্নভাবে ছড়ানো (মাপা যায়, গোনা যায় না) 2.4
contrapositive \(\neg Q \Rightarrow \neg P\); মূল implication-এর সমতুল্য 0.1
converge (integral) improper integral একটি সসীম মানে পৌঁছালে 0.4
convergence almost everywhere \(f_n\to f\) \(\mu\)-a.e. (null set বাদে point-wise অভিসরণ, 7.4); "a.s." এর probability-রূপ, SLLN-এর অভিসরণ-ধরন 7.6
convergence in \(L^p\) \(\mathbb{E}\lvert X_n-X\rvert^p\to 0\); "গড় ভুল (\(p\)-ঘাতে)" শূন্যে নামে, লেখা \(X_n\xrightarrow{L^p}X\) 3.2
convergence in distribution \(F_n(x)\to F(x)\) \(F\)-এর প্রতিটি continuity point-এ; কেবল CDF/আকৃতি মেলে, লেখা \(X_n\xrightarrow{d}X\) 3.2
convergence in probability প্রতিটি \(\varepsilon>0\)-এ \(P(\lvert X_n-X\rvert>\varepsilon)\to 0\); "বড় ভুলের সম্ভাবনা মুছে যায়", লেখা \(X_n\xrightarrow{P}X\) 3.2
convergence of random variables দৈব চলকের sequence \(X_n\) "limit \(X\)-এর দিকে যাওয়া"-র ধারণা; একাধিক ভিন্ন অর্থ (mode) আছে 3.2
convergence rate কোনো অনুক্রম তার সীমার দিকে যত দ্রুত এগোয় তার পরিমাপ; CLT-তে \(\sup_x\lvert F_n(x)-\Phi(x)\rvert\sim n^{-1/2}\), তাই log-log প্লটে slope \(\approx-0.5\) (E1-এ ফিট slope \(-0.4998\), \(C=0.1326\)) 8.2
convergence to stationarity সদাচারী chain-এ যেকোনো শুরু থেকে \(\mu_n=\mu_0 P^n\to\pi\); chain তার শুরু "ভুলে যায়" (Figure 2) — MCMC-র ভিত্তি 3.6
converse \(Q \Rightarrow P\); মূল implication-এর সমতুল্য নয় 0.1
convex নিচের দিকে বাঁকা (\(\smile\)); \(f''\ge0\) 0.3
convex function যে function-এ chord সবসময় curve-এর উপরে; \(g''\ge0\); বাটির মতো 3.1
convolution দুই independent random variable-এর sum-এর density: \((f_X*f_Y)(s)=\int f_X(x)f_Y(s-x)\,dx\) 2.7
Cook's distance \(D_i=\dfrac{r_i^2}{p}\cdot\dfrac{h_{ii}}{1-h_{ii}}\) (studentized \(r_i\)); বিন্দু \(i\) বাদ দিলে \(\hat\beta\) কতটা সরে তার সম্মিলিত পরিমাপ (leverage × residual); \(D_i>1\) ⇒ influential 5.2
correct interpretation of a CI "৯৫%" = পদ্ধতির coverage (random জিনিস = interval, \(\theta\) স্থির); বহু interval-এর ~৯৫% \(\theta\)-কে ধরে (Figure 2-বাঁ; §৭ Q2) 4.6
correct interpretation of p-value p \(=\) \(H_0\) সত্যি ধরে চরম-ফলের সম্ভাবনা; এটা \(P(H_0\text{ true})\) নয় (frequentist-এ \(H_0\) random নয়, §৭ Q2) 4.7
correlation \(\rho=\operatorname{Cov}(X,Y)/(\sigma_X\sigma_Y)\in[-1,1]\); একক-মুক্ত covariance 2.6
correlation coefficient (\(r\)) দুই variable-এর linear সম্পর্কের শক্তি ও দিক মাপা সংখ্যা 1.4
correlation heatmap correlation matrix-কে রঙিন গ্রিডে দেখানো (এক নজরে সব জোড়ার সম্পর্ক) 1.5
correlation matrix সব variable-জোড়ার Pearson \(r\)-এর symmetric matrix \(R\), কর্ণে \(1\) 1.4
count data \(\{0,1,2,\dots\}\)-এ থাকা গণনা-আউটকাম ("দিনে কয়টা ভাড়া") — ঋণাত্মক নয়, discrete, ছোট মানে right-skewed; তাই OLS/Normal নয়, Poisson-ভিত্তিক GLM দরকার 5.5
countable additivity (\(\sigma\)-additivity) গণনাযোগ্য-অনেক disjoint set-এর union-এর measure প্রতিটির measure-এর যোগফল: \(\mu\big(\bigsqcup_k A_k\big)=\sum_k\mu(A_k)\); C1-এ \(\mathbb N\)-এ uniform probability নিষিদ্ধ করে এই শর্তই 7.1
countable additivity (Axiom 3) disjoint \(A_i\)-এর জন্য \(P(\bigcup_i A_i)=\sum_i P(A_i)\) 2.1
countable subadditivity যেকোনো (disjoint না-হলেও) গণনাযোগ্য union-এর measure যোগফলের \(\le\): \(\mu\big(\bigcup_k A_k\big)\le\sum_k\mu(A_k)\); outer measure-এরও সংজ্ঞাগত ধর্ম 7.2
countable vs uncountable countable: \(\mathbb N\)-এর সঙ্গে bijection-যোগ্য (যেমন \(\mathbb Q\)); uncountable: তা নয় (যেমন \(\mathbb R\), Cantor set); countable \(\Rightarrow\) measure \(0\), কিন্তু উল্টোটা নয় 7.1
counting measure \(\mu(E)=\lvert E\rvert\) — set-এর উপাদান-সংখ্যা (অসীম হলে \(\infty\)); সর্বদা measure, কিন্তু \(\mu(\Omega)\ne 1\) হলে probability নয় (যেমন \(\mu(\{1,2,3\})=3\)) 7.2
counting process \(N(t)=\) সময় \([0,t]\)-এ ঘটে যাওয়া event-সংখ্যা; ডানদিক-সন্তত (right-continuous) সিঁড়ি-ফাংশন, \(+1\) লাফে বাড়ে 3.5
counting-measure integral = sum counting measure \(\mu(\{k\})=1\)-এ \(\int f\,d\mu=\sum_k f(k)\); integral-তত্ত্ব সিরিজ-তত্ত্বকে বিশেষ ক্ষেত্রে ঢেকে নেয় 7.4
covariance দুই variable-এর একসাথে চলার পরিমাপ, \(\frac{1}{n-1}\sum(x_i-\bar x)(y_i-\bar y)\) 1.4
covariance matrix variable-দের variance/covariance ধারণকারী symmetric matrix \(\Sigma\) 0.5
covariance matrix \(\Sigma\) feature-জোড়ার যুগ্ম-পরিবর্তনশীলতার \(p\times p\) matrix, \(\Sigma=\frac1n X^\top X\) (center-করা \(X\)); symmetric ও PSD (eigenvalue \(\ge0\)); PCA এর eigen-গঠনেই দাঁড়ায়, off-diagonal correlation-ই PCA-কে অর্থপূর্ণ করে; standardize করলে \(\Sigma\) হয় correlation matrix (২.৬) 5.9
coverage probability \(P_\theta\big(L(X)\le\theta\le U(X)\big)\) — random interval-টা স্থির \(\theta\)-কে ধরার সম্ভাবনা; \(\ge1-\alpha\) হলে \(C_n\) একটা \((1-\alpha)\) CI (§৭ Q10) 4.6
Cramér–Rao inequality CRLB-র আনুষ্ঠানিক রূপ; Cauchy–Schwarz দিয়ে প্রমাণিত: \(1=\mathrm{Cov}(\hat\theta,U)^2\le\mathrm{Var}(\hat\theta)I(\theta)\) (§৭ Q11) 4.5
Cramér–Rao lower bound (CRLB) যেকোনো unbiased estimator-এর জন্য \(\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}\) — variance-এর শক্ত মেঝে, যার নিচে যাওয়া অসম্ভব (Figure 2; §৭ Q11) 4.5
Cramér–Wold device \(\mathbb R^d\)-এ random vector-এর weak convergence সব এক-মাত্রিক রৈখিক projection \(\langle\theta,X_n\rangle\)-এর weak convergence দিয়ে চরিত্রায়িত; cf-পদ্ধতিকে বহু-মাত্রায় তোলার যন্ত্র (multivariate CLT-এর পথ) 7.10
credible interval posterior-এর \((1-\alpha)\) ভর ধরা ব্যবধান; \(P(\theta\in[L,U]\mid\text{data})=1-\alpha\)\(\theta\) random, interval fixed (Figure 3, §৭ Q6) 4.10
credible vs confidence interval credible: \(\theta\) random, interval fixed (posterior সম্ভাবনা); confidence (4.6): \(\theta\) fixed, interval random (long-run coverage); সংখ্যা প্রায়ই কাছাকাছি, অর্থ আলাদা (Figure 3, §৭ Q2) 4.10
critical point যেখানে \(f'(x)=0\) বা অসংজ্ঞায়িত 0.3
critical value \(c\) rejection region-এর সীমা-মান (যেমন \(z_{\alpha/2}\), \(t_{n-1,\alpha/2}\)); \(T\) এর বাইরে গেলে reject (Figure 1) 4.7
critical value \(t_{n-1,\alpha/2}\) Student-t (\(n-1\) df)-এর critical value; \(\sigma\) অজানা হলে multiplier; সবসময় \(z_{\alpha/2}\)-এর চেয়ে বড়, \(n\to\infty\)-এ মেলে (Figure 3) 4.6
critical value \(z_{\alpha/2}\) standard normal-এর বিন্দু যার ডানে \(\alpha/2\) ভর; \([-z_{\alpha/2},z_{\alpha/2}]\)-এ \(1-\alpha\) ভর (\(z_{0.025}\approx1.96\), \(z_{0.005}\approx2.576\)) 4.6
critical-value method vs p-value method \(T\) vs \(c\) তুলনা (reject if \(T\in R\)) বনাম \(p\) vs \(\alpha\) তুলনা (reject if \(p\le\alpha\)) — একই সিদ্ধান্তের দুই রূপ 4.7
cross-tabulation contingency table তৈরির প্রক্রিয়া (pandas crosstab) 1.4
cross-validation (CV) data ঘুরিয়ে-ফিরিয়ে এক অংশে fit করে অন্য (held-out) অংশে predict করে generalization error-এর নিরপেক্ষ অনুমান ও tuning parameter বাছার নীতিনিষ্ঠ, data-চালিত পদ্ধতি; সত্য \(f\) জানার দরকার নেই, model-কে black-box ধরেই চলে — তাই AIC/BIC-র চেয়ে general; চলমান উদাহরণে polynomial degree বাছে \(d{=}3\) 5.8
cross-validation (stratified K-fold) data-কে K ভাগে ভেঙে ঘুরিয়ে-ফিরিয়ে train/validate করে generalization-error-এর প্রায়-unbiased আন্দাজ ও তার variance পাওয়া। canonical logistic AUC \(0.993\pm0.008\), RF \(0.989\pm0.007\) 8.1
crowding problem উচ্চ-মাত্রায় একটা বিন্দুর মাঝারি-দূরত্বের প্রতিবেশী অনেক, কিন্তু \(2\)D-র সীমিত জায়গায় সেগুলো সব রাখা যায় না — তারা কেন্দ্রে চেপে cluster গুলিয়ে যায়; t-SNE ভারী-লেজ Student-\(t\) \(q_{ij}\) দিয়ে এটি উপশম করে (মাঝারি-দূরত্বের জন্য বেশি জায়গা) 6.8
cumulative distribution function CDF, ক্রমযোজিত বণ্টন-অপেক্ষক \(F_X(x)=P(X\le x)\); অ-হ্রাসমান step function 2.3
curse of dimensionality মাত্রা \(p\) বাড়লে আয়তন ঘাতীয়ভাবে বাড়ে ⇒ data বিরল, "নিকটতম" প্রতিবেশীও দূরে (\(1\%\) আয়তন ধরতে \(p{=}10\)-এ প্রতি বাহুর \(\approx63\%\) লাগে), দূরত্ব-পার্থক্য মুছে যায়; k-NN ও দূরত্ব-নির্ভর পদ্ধতিকে উচ্চ-মাত্রায় দুর্বল করে 6.3
curse of dimensionality (rate) nonparametric estimate-এর ধীর convergence: optimal kernel-MSE \(\propto n^{-4/5}\) (parametric \(n^{-1}\)-এর চেয়ে ধীর), \(h^\*\propto n^{-1/5}\); কারণ অজানা \(f\)-এর প্রতিটা স্থানীয় অংশ আলাদা শিখতে হয়; উচ্চ মাত্রায় আরও তীব্র 5.7
CV-min rule যে tuning-মান \(K\)-fold CV-error সর্বনিম্ন করে সেটাই বাছার নিয়ম; সরল কিন্তু CV-গড় noisy বলে সামান্য overfit-প্রবণ — তাই প্রায়ই one-SE rule-এর সাথে তুলনা করা হয়; চলমান উদাহরণে \(d{=}3\) বাছে 5.8
DAG (directed acyclic graph) কার্যকারণ-সম্পর্কের একটা দিকযুক্ত, চক্র-হীন গ্রাফ যা confounding, mediation ও collider চেনায়; কোন চলকে সমন্বয় (adjust) করলে বৈধ causal effect পাওয়া যায় তা নির্ধারণ করে (Pearl-এর do-calculus) 8.4
Darboux sum একটা partition-এ subinterval-প্রতি \(\sup\) (upper) বা \(\inf\) (lower) গুণ দৈর্ঘ্য যোগ করে পাওয়া আনুমান; upper = lower হলেই Riemann-integrable — \(\mathbf 1_{\mathbb Q}\)-এ \(U=1\ne0=L\) 7.1
data cleaning missing value ও outlier সংশোধন/হ্যান্ডল করে data ব্যবহারযোগ্য করা 1.5
data inspection data-র গঠন পরিদর্শন (shape, dtype, head, describe) 1.5
data leakage test/future data-র তথ্য অজান্তে training/বিশ্লেষণে ঢুকে পড়া 1.5
data pipeline একটি সম্পূর্ণ বিশ্লেষণ-শৃঙ্খল framing→EDA→preprocessing→modeling→inference→validation→interpretation; এই অধ্যায় breast_cancer-এ (\(569\times30\)) সাত ধাপ একসাথে জোড়ে — কোনো ধাপ বাদ দিলে পরের ধাপের সিদ্ধান্ত বিভ্রান্ত হয় 8.1
DataFrame pandas-এর সারি-কলামবিশিষ্ট টেবিল-আকৃতির data object 0.6
De Morgan's laws \((A\cup B)^c=A^c\cap B^c\)\((A\cap B)^c=A^c\cup B^c\) 0.1
decision boundary feature-space-এ যে পৃষ্ঠ দুই শ্রেণির অঞ্চল আলাদা করে (\(\delta_0(x)=\delta_1(x)\)); LDA-তে hyperplane (linear), QDA/GaussianNB-তে quadratic, k-NN-তে \(k\)-নির্ভর piecewise (ছোট \(k\) wiggly, বড় \(k\) মসৃণ) 6.3
decision function (SVM) নতুন বিন্দুর স্কোর \(f(x)=\sum_{i:\alpha_i>0}\alpha_i y_i K(x_i,x)+b\); চিহ্ন \(\operatorname{sign}(f(x))\) শ্রেণি দেয়; কেবল support vector-নির্ভর; \(\lvert f(x)\rvert\) margin থেকে দূরত্ব নির্দেশ করে 6.4
decision rule (reject vs fail to reject) \(T\in R\) (বা \(p\le\alpha\)) হলে reject \(H_0\); নইলে fail to reject — "\(H_0\) প্রমাণিত" বোঝায় না (§৭ Q4) 4.7
decision threshold \(\hat p\)-কে \(0/1\)-এ রূপান্তরের cutoff (সাধারণত \(0.5\)); বাড়ালে precision↑ recall↓, কমালে উল্টো — FP বনাম FN-খরচের ভারসাম্যে বাছাই 5.4
decision tree feature-space-কে বারবার axis-aligned split দিয়ে আয়তাকার অঞ্চলে ভাগ করে এমন predictive model; প্রতিটি leaf majority class (classification) বা response-গড় (regression) দেয়; interpretable (root→leaf = if-then নিয়ম) কিন্তু গভীর হলে high variance। canonical full tree (depth \(10\), \(51\) leaf): test \(0.733\) 6.5
decorrelation random forest-এর মূল কৌশল — feature-subsampling দিয়ে গাছগুলোর pairwise correlation \(\rho\) কমানো; variance-সূত্র \(\rho\sigma^2+\frac{1-\rho}{B}\sigma^2\)-এর floor \(\rho\sigma^2\) নামায় বলে bagging-এর চেয়ে কম variance (\(\rho{=}0.5\to0.05\) হলে \(V(100)\): \(0.505\to0.0595\)) 6.5
defining property of conditional expectation দুই শর্ত: (i) \(\mathbb E[X\mid\mathcal G]\) \(\mathcal G\)-measurable; (ii) averaging \(\int_G\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_G X\,d\mathbb P\) সব \(G\in\mathcal G\)-তে — একসঙ্গে \(Z\)-কে atom-গড়ে অনন্যভাবে বাঁধে 7.7
definite integral নির্দিষ্ট সীমার মাঝে integral \(\int_a^b f\,dx\); ফল একটি সংখ্যা 0.4
degrees of freedom অনুমান-পরবর্তী স্বাধীন তথ্যের সংখ্যা (sample variance-এ n−1) 1.2
degrees of freedom (ANOVA) between \(=k-1\), within \(=n-k\); two-way: factor \(=k_i-1\), interaction \(=(k_1-1)(k_2-1)\), residual \(=n-k_1k_2\); যোগফল \(=n-1\) 5.3
degrees of freedom (df) একটা distribution-এর আকৃতি-নিয়ন্ত্রক parameter; স্বাধীন তথ্যের সংখ্যা — \(S^2\)-এ \(\bar X\) অনুমানে এক df খরচ বলে df \(=n-1\) 4.1
degrees of freedom (effective) linear smoother-এর নমনীয়তা/জটিলতার একক-সংখ্যা পরিমাপ \(=\operatorname{tr}(S)\) (\(S\) = smoother matrix); regression spline-এ \(\operatorname{tr}(S)=K\) = basis-সংখ্যা = estimate-করা coefficient; ভিন্ন পদ্ধতিকে (\(h\)/df/\(\lambda\)) এক স্কেলে তুলনাযোগ্য করে — ৫.২-এর model-complexity-র সাধারণীকরণ 5.7
Delta method \(g\) differentiable ও \(g'(\mu)\ne 0\) হলে \(\sqrt{n}(g(\bar X_n)-g(\mu))\xrightarrow{d}\mathcal N(0,(g'(\mu))^2\sigma^2)\); nonlinear function-কে tangent দিয়ে linearize করে asymptotic distribution বের করা 3.4
delta method (CI-তে) মসৃণ \(g\)-এর জন্য \(g(\hat\theta)\pm z_{\alpha/2}\,\lvert g'(\hat\theta)\rvert\,\widehat{\mathrm{se}}\) — রূপান্তরিত প্যারামিটার \(\psi=g(\theta)\)-এর approximate CI (§৭ Q11) 4.6
dendrogram hierarchical clustering-এর merge-ইতিহাসের গাছ-চিত্র; প্রতিটি merge একটা উল্লম্ব জোড়, merge-উচ্চতা \(=\) যে দূরত্বে দুই cluster মিশেছে (বড় উচ্চতা \(=\) বেশি ভিন্ন); কোনো উচ্চতায় আনুভূমিক রেখা টেনে কাটলে যত শাখা ছেদ করে তত cluster — বড় উল্লম্ব লাফের নিচে কাটা ভালো 5.9
density probability নয়, বরং probability জমার হার; \(f(x)\) ১-এর বেশি হতে পারে 2.4
density (histogram) relative frequency ÷ bin-প্রস্থ; density-অক্ষে মোট ক্ষেত্রফল 1 1.3
density estimation label ছাড়া (unsupervised) data থেকে অজানা probability density \(p(x)\) অনুমান করার কাজ; দুই দর্শন — KDE (nonparametric, প্রতি বিন্দুতে kernel) ও mixture model (parametric, অল্প \(K\) component)। data সত্যিই অল্প subpopulation থেকে এলে mixture compact ও ব্যাখ্যামূলক 6.7
density-ratio anomaly Sugiyama-ঘরানার পদ্ধতি: test ও reference বণ্টনের density-ratio (বা একটি বিন্দুর local density-অনুপাত) আঁচ করে কম-ratio বিন্দুকে anomaly বলা; LOF-ও মূলত একটি local density-ratio (নিজের বনাম প্রতিবেশীর density) 6.9
derivative তাৎক্ষণিক পরিবর্তনের হার / tangent-এর slope 0.3
design effect (Deff) clustering-জনিত কার্যকর-নমুনা-হ্রাসের পরিমাপ \(\text{Deff}=1+(\bar n-1)\rho\); সঠিক SE \(\approx\sqrt{\text{Deff}}\times\)(naive OLS SE); উদাহরণে \(1+(21.3-1)\cdot0.371\approx8.5\), \(\sqrt{8.5}\approx2.9\) — তাই OLS intercept SE এত ভুল 5.6
design matrix প্রতিটি row এক observation, column-গুলো predictor (প্রথম column intercept-এর সব \(1\)), চিহ্ন \(X\) 5.1
detailed balance \(\pi_i P_{ij}=\pi_j P_{ji}\) সব \(i,j\)-এর জন্য — প্রতি জোড়া state-এর মধ্যে দুদিকের probability-প্রবাহ সমান (reversibility); এটা সত্য হলে \(\pi\) স্বয়ংক্রিয়ভাবে stationary 3.6
determinant matrix-এর area/volume scaling factor, \(\det(A)\) 0.5
deviance \(D=-2\ell\) (residual deviance); fit-এর badness-পরিমাপ, null deviance \(D_0=-2\ell_0\)-এর সাথে তুলনায় likelihood-ratio test দেয় (এখানে \(D=135.83\)) 5.4
deviation একটি মান তার mean থেকে কতটা সরে, \(x_i-\bar x\) 1.4
difference \(A \setminus B\): \(A\)-তে আছে কিন্তু \(B\)-তে নেই 0.1
difference quotient \((f(x+h)-f(x))/h\); secant-এর slope 0.3
differentiation derivative বের করার ক্রিয়া 0.3
dimensionality reduction উচ্চ-মাত্রিক (\(p\)) data-কে কম মাত্রায় (\(k\ll p\)) প্রকাশ করা, যতটা সম্ভব তথ্য (variance/গঠন) রেখে; PCA এর সবচেয়ে প্রচলিত রৈখিক রূপ — top-\(k\) PC-তে প্রক্ষেপ; উপকার: কম্প্রেশন, visualization, noise-হ্রাস, ML-pipeline-এ feature-নির্মাণ 5.9
Dirac measure বিন্দু \(x\)-এ সব ভর: \(\delta_x(E)=\mathbf 1\{x\in E\}\) (\(x\in E\) হলে \(1\), নয়তো \(0\)); \(\delta_x(\Omega)=1\) তাই probability measure — degenerate ("নিশ্চিত") distribution, যেমন \(\delta_0\) 7.2
direct proof hypothesis ধরে সরাসরি conclusion-এ পৌঁছানো 0.1
Dirichlet function \(D=\mathbf 1_{\mathbb Q}\): rational-এ \(1\), irrational-এ \(0\); সংজ্ঞায়িত হয়েও Riemann-integrable নয় (প্রতিটি partition-এ \(U=1,L=0\)) — crack C2-এর কেন্দ্রীয় উদাহরণ 7.1
Dirichlet process একটা \"distribution-এর উপর distribution\" — অজানা distribution-কে nonparametric-ভাবে estimate করা; clustering-এ component-সংখ্যা আগে না বেঁধে ডেটাকে তা বেছে নিতে দেয় (infinite mixture) 8.4
discrete গণনাযোগ্য numeric data, সাধারণত পূর্ণসংখ্যা ("কতগুলো"; সন্তান-সংখ্যা) 1.1
discrete random variable বিচ্ছিন্ন দৈব চলক — যার সম্ভাব্য মান গণনাযোগ্য (countable) 2.3
discrete stochastic integral martingale transform \((H\cdot X)_n\)-এর আরেক নাম — \(H\) predictable integrand-এর সাপেক্ষে \(X\)-এর "যোগফল-সমাকল"; continuous-time-এ Itô-ইন্টিগ্রালের বিচ্ছিন্ন পূর্বসূরি 7.8
discriminant function প্রতি শ্রেণির স্কোর-ফাংশন \(\delta_c(x)\) (\(=\log\pi_c f_c(x)\)-এর \(c\)-নির্ভর অংশ) যার \(\arg\max_c\) শ্রেণি দেয়; LDA-তে \(x\)-এ linear, QDA-তে quadratic; দুই \(\delta\) সমান হওয়ার সেট-ই decision boundary 6.3
discriminative model \(P(x)\) উপেক্ষা করে সরাসরি \(P(y\mid x)\) বা decision boundary শেখে; logistic regression (৫.৪) ও SVM (৬.৪) এর উদাহরণ; generative-এর তুলনায় কম ধারণা, প্রায়ই কম data-তে ভালো 6.3
disjoint \(A \cap B = \varnothing\): কোনো সাধারণ সদস্য নেই (mutually exclusive) 0.1
disjunction \(P \vee Q\): "\(P\) or \(Q\)" 0.1
dispersion parameter \(\alpha\) (NB) negative binomial-এর extra-variance parameter; \(\operatorname{Var}=\mu+\alpha\mu^2\); \(\alpha=0\) ⇒ Poisson, \(\alpha>0\) ⇒ overdispersion; উদাহরণে \(\hat\alpha=0.179\) (mu\(=28.6\)-এ NB var \(\approx175\) vs Poisson \(28.6\)) 5.5
dispersion parameter (\(\hat\phi\)) overdispersion-এর পরিমাপ \(\hat\phi=\text{Pearson }\chi^2/df\) (বা deviance\(/df\)); \(\approx1\) হলে equidispersion, \(\gg1\) হলে overdispersion; উদাহরণে \(1096.3/247=4.44\) 5.5
distribution একটি variable-এর সম্পূর্ণ ছবি — কোন মান কত ঘন ঘন আসে 1.3
diverge (integral) improper integral সসীম মানে না পৌঁছালে 0.4
domain function-এর input-set (\(A\)) 0.1
dominance একটা estimator \(\hat\theta_1\) dominate করে \(\hat\theta_2\)-কে যদি \(R(\hat\theta_1,\theta)\le R(\hat\theta_2,\theta)\) প্রতিটি \(\theta\)-তে ও অন্তত একটিতে কঠোরভাবে কম; \(p\ge3\)-তে James–Stein dominate করে MLE-কে 8.3
Dominated Convergence Theorem DCT; \(f_n\to f\)\(\lvert f_n\rvert\le g\in L^1\Rightarrow\int f_n\to\int f\); Fatou থেকে উৎপাদিত, সবচেয়ে ব্যবহৃত সীমা-উপপাদ্য 7.4
dominating function DCT-এর সেই \(g\in L^1\) যা সব \(f_n\)-কে ঢাকে (\(\lvert f_n\rvert\le g\)); integrable ছাদ না থাকলে DCT খাটে না (moving-spike) 7.4
Doob decomposition যেকোনো submartingale \(X_n=M_n+A_n\) অনন্যভাবে (a.s.) — \(M\) martingale (বিশুদ্ধ গোলমাল), \(A\) predictable অ-হ্রাসমান compensator; ঝোঁক ও গোলমাল আলাদা করে 7.8
Doob martingale যেকোনো \(Y\in L^1\)-এ \(X_n=\mathbb E[Y\mid\mathcal F_n]\) — tower থেকে স্বয়ংক্রিয় martingale ("\(Y\)-এর ক্রমে-পরিশীলিত অনুমান", Bayesian updating-এর গতিশীল রূপ); 7.9-এ \(X_n\to Y\) 7.8
Doob's \(L^p\) inequality \(p>1\)-এ \(\lVert X_n^*\rVert_p\le\frac{p}{p-1}\lVert X_n\rVert_p\) — running maximum-এর \(L^p\)-নর্মকে শেষ-মানের নর্ম দিয়ে বাঁধে (maximal inequality + Hölder); \(L^2\)-bounded martingale-নিয়ন্ত্রণে মুখ্য 7.9
Doob's maximal inequality অঋণাত্মক submartingale-এ \(\lambda\,\mathbb P(\max_{k\le n}X_k\ge\lambda)\le\mathbb E[X_n\,\mathbf 1_{\{\max\ge\lambda\}}]\le\mathbb E[X_n]\); Markov inequality-র "পুরো-পথ-সর্বোচ্চ" সংস্করণ, hitting-time-এ optional stopping দিয়ে প্রমাণিত 7.9
Doob's upcrossing lemma submartingale-এ \(\mathbb E[U_n([a,b])]\le\frac{\mathbb E[(X_n-a)^+]}{b-a}\) — "\(a\)-তে কিনে \(b\)-তে বেচা" predictable কৌশলে অসীম মুনাফা অসম্ভব বলে upcrossing-সংখ্যাকে বাঁধে; পুরো convergence-তত্ত্বের ইঞ্জিন 7.9
Doob–Dynkin lemma যদি \(Z\) \(\sigma(Y)\)-measurable হয় তবে একটি measurable \(g\) আছে যাতে \(Z=g(Y)\); এ থেকেই \(\mathbb E[X\mid Y]=g(Y)\), আর \(g(y)=\mathbb E[X\mid Y{=}y]\) (2.2/2.6-এর সূত্র পুনরুদ্ধার) 7.7
dot product দুই vector থেকে একটি সংখ্যা: \(\sum u_i v_i\) 0.5
double integral দুই variable-এর function-এর surface-এর নিচের volume \(\iint f\,dA\) 0.4
double-centering squared-distance matrix \(\Delta\) থেকে inner-product (Gram) matrix বের করার অপারেশন \(B=-\tfrac12 H\Delta H\), উপাদান-সূত্রে \(B_{ij}=-\tfrac12(\Delta_{ij}-\bar\Delta_{i\cdot}-\bar\Delta_{\cdot j}+\bar\Delta_{\cdot\cdot})\); প্রমাণে দেখানো এটি ঠিক \(z_i^\top z_j\) ফেরায় (centered data-তে), classical MDS-এর প্রথম ধাপ 6.8
dtype array-র উপাদানের data type (যেমন int64, float64) 0.6
dummy (indicator) variable categorical group-কে \(0/1\) column-এ রূপান্তর; এর মাধ্যমে ANOVA হুবহু একটি linear regression হয়ে ওঠে 5.3
dyadic approximation approximation theorem-এর সুনির্দিষ্ট নির্মাণ: \(f_n=\min\!\big(n,\ \lfloor 2^n f\rfloor/2^n\big)\)\(2^{-n}\) ধাপ-উচ্চতার "সিঁড়ি"; monotone increasing ও সর্বোচ্চ error \(2^{-n}\) (\(n=1,2,3,4\to 0.5,0.25,0.125,0.0625\)) 7.3
Dynkin \(\pi\)\(\lambda\) theorem যদি একটা \(\pi\)-system \(\mathcal P\) একটা \(\lambda\)-system \(\mathcal L\)-এ থাকে, তবে \(\sigma(\mathcal P)\subseteq\mathcal L\); ফল — uniqueness: \(\pi\)-system-এ মেলা দুই measure \(\sigma(\mathcal P)\)-এ মেলে, তাই CDF একটা law সম্পূর্ণ pin করে 7.2
ECDF empirical CDF; F̂_n(t) = #{xᵢ ≤ t}/n, bin-মুক্ত step-function 1.3
EDA (Exploratory Data Analysis) অন্বেষণমূলক উপাত্ত বিশ্লেষণ; ছবি ও summary দিয়ে data থেকে প্যাটার্ন ও সূত্র খোঁজার ধাপ 1.5
effect size \(d\) \(H_0\) থেকে সত্য কত দূরে, standardized: \(d=(\mu_1-\mu_0)/\sigma\); power curve-এর অনুভূমিক অক্ষ (Figure 3) 4.7
effect size (eta-squared) \(\eta^2=\mathrm{SSB}/\mathrm{SST}\) — factor কত শতাংশ total variation ব্যাখ্যা করে; regression-এর \(R^2\)-এর ANOVA-সমতুল্য 5.3
efficiency দুই unbiased estimator-এর মধ্যে যেটির sampling distribution-এর variance (SE) ছোট সেটি বেশি efficient; Normal data-তে mean median-এর চেয়ে efficient 4.1
efficiency (of MLE) কম variance-বিশিষ্ট estimator বেশি efficient; যেখানে MLE ও MoM ভিন্ন, MLE সাধারণত কম variance দেয় (Uniform-এ SD প্রায় ৩ গুণ ছোট — Figure 3); MLE asymptotically efficient (4.4) 4.3
efficient estimator যে unbiased estimator ঠিক CRLB অর্জন করে (\(\mathrm{Var}=\frac{1}{nI}\), \(e=1\)); যেমন Normal-mean ও Poisson-এ \(\bar X\) (Figure 2) 4.5
eigen-decomposition matrix-কে eigenvalue ও eigenvector-এ ভাঙা; PCA-র ভিত্তি 0.5
eigenvalue যে scalar \(\lambda\)-এ matrix কেবল vector-কে প্রসারিত করে 0.5
eigenvalue / eigenvector \(\Sigma v=\lambda v\): eigenvector \(v\) যে দিকে \(\Sigma\) শুধু লম্বায়/সংকোচন করে (ঘোরায় না), eigenvalue \(\lambda\) সেই স্কেল-গুণক; PCA-তে eigenvector \(=\) PC-দিক, eigenvalue \(\lambda_j=\) সেই PC-বরাবর data-র variance (\(v_j^\top\Sigma v_j=\lambda_j\)); symmetric \(\Sigma\)-এ eigenvalue বাস্তব (\(\ge0\), PSD) ও eigenvector orthogonal (০.৫) 5.9
eigenvector transformation-এ যে দিক অপরিবর্তিত থাকে, \(A\mathbf{v}=\lambda\mathbf{v}\) 0.5
elastic net \(\min\lVert y-X\beta\rVert_2^2+\lambda_1\lVert\beta\rVert_1+\lambda_2\lVert\beta\rVert_2^2\) — lasso (\(L_1\), sparsity) ও ridge (\(L_2\), grouping/স্থিতিশীলতা)-র মিশ্রণ; correlated feature-গোষ্ঠীকে একসাথে নির্বাচন/shrink করে, pure lasso-র অস্থির একক-নির্বাচন এড়ায় 6.2
elbow method \(K\) বাছার পদ্ধতি: inertia বনাম \(K\) আঁকা, যেখানে পতন হঠাৎ ছোট হয়ে "কনুই" তৈরি করে সেই \(K\) বাছা (এর পর আরও cluster দিলে সামান্যই লাভ); চলমান উদাহরণে inertia \([1200,527,135,111,91,72]\), পতন \(392\to24\)elbow \(k{=}3\); চোখে-দেখা/বিষয়ভিত্তিক বলে silhouette-এর তুলনায় কম নির্ভরযোগ্য 5.9
element / member set-এর একটি সদস্য; \(x \in A\) মানে \(x\), \(A\)-এর সদস্য 0.1
elementary event একটিমাত্র outcome নিয়ে গঠিত event 2.1
Elliptic Envelope statistical anomaly detector: inlier-রা একটা Gaussian/উপবৃত্তীয় গুচ্ছে বসে ধরে নিয়ে (robust) \(\mu,\Sigma\) আঁচ করে, বড় Mahalanobis \(D_M^2\) (\(\chi^2_p\)-cutoff ছাড়িয়ে) বিন্দুকে anomaly বলে; canonical ROC AUC \(1.000\) (inlier-গুচ্ছ Gaussian বলে নিখুঁত) 6.9
EM algorithm Expectation–Maximization — incomplete/latent-variable data-তে MLE-র পুনরাবৃত্ত পদ্ধতি: E-step (latent-এর posterior/responsibility) ও M-step (weighted MLE) পালা করে; প্রতি iteration-এ log-likelihood একঘেয়ে (monotone) বাড়ায় বা স্থির রাখে (কখনো কমায় না)। non-convex — local optimum-এ আটকাতে পারে, তাই একাধিক restart 6.7
embedding উচ্চ-মাত্রিক বিন্দু \(x_i\in\mathbb R^D\)-এর নিম্ন-মাত্রিক প্রতিরূপ \(y_i\in\mathbb R^d\) (\(d\ll D\)) — dimensionality reduction-এর আউটপুট; ভালো embedding manifold-এর প্রতিবেশ/দূরত্ব রক্ষা করে (local: trustworthiness, global: প্রকৃত স্থানাঙ্কের সাথে corr দিয়ে যাচাই) 6.8
empirical Bayes prior-এর প্যারামিটার আগে থেকে না জেনে ডেটা থেকে estimate করে Bayesian shrinkage প্রয়োগ; JS = empirical-Bayes: prior \(\theta_i\sim N(0,\tau^2)\)-এর shrinkage \(\frac{\tau^2}{\tau^2+1}\)-এ \(\tau^2\)-কে \(\lVert X\rVert^2\) থেকে estimate করলে ঠিক \(1-\frac{p-2}{\lVert X\rVert^2}\) (Efron–Morris) 8.3
empirical CDF নমুনা থেকে গড়া step-function CDF \(F_n\); \(\xrightarrow{d}\)-তে limit CDF \(F\)-এর দিকে গড়ায় 3.2
empirical distribution প্রতিটি observed মানে 1/n ভর বসানো distribution (ECDF-এর ভিত্তি) 1.3
empirical distribution \(\hat F_n\) মূল নমুনার বণ্টন যেখানে প্রতিটা পর্যবেক্ষণে সমান ভর \(1/n\); bootstrap এটিকেই "population" হিসেবে ব্যবহার করে (plug-in principle) 4.9
empirical risk training data-তে গড় loss \(\frac1n\sum\ell\); LLN দিয়ে true risk \(\mathbb E[\ell]\)-তে যায় (ML generalization-এর শুরু) 3.3
empirical risk (\(\hat R_n(h)\)) হাতে-থাকা \(n\) নমুনার উপর গড় loss \(\hat R_n(h)=\frac1n\sum_i\ell(h(x_i),y_i)\); \(R\) অজানা বলে এটিই বাস্তবে minimize করি; train error-ও এটাই 6.1
empirical risk minimization (ERM) \(\hat h=\arg\min_{h\in\mathcal H}\hat R_n(h)\) — empirical risk সর্বনিম্ন করা \(h\) বাছার নীতি; \(\mathcal H\) বড় করলে \(\hat R_n(\hat h)\) একঘেয়ে নামে (কখনো বাড়ে না), তাই একা train error model বাছতে পারে না 6.1
empirical rule (68-95-99.7) Normal-এ \(\mu\pm1\sigma,\pm2\sigma,\pm3\sigma\)-এ ≈৬৮/৯৫/৯৯.৭% area 2.4
empty set কোনো সদস্যবিহীন set, \(\varnothing\); প্রতিটি set-এর subset 0.1
ensemble অনেকগুলো base-learner (এখানে tree) একত্রে মিলিয়ে একটি শক্তিশালী predictor — সমান্তরালে গড় (bagging, random forest, variance↓) বা ক্রমিকভাবে যোগ (boosting, bias↓); একক learner-এর দুর্বলতা সমষ্টিতে কাটানো 6.5
entropy তথ্য-তত্ত্বের অশুদ্ধতা-মাপ \(H_m=-\sum_c\hat p_{mc}\log_2\hat p_{mc}\) (bit-এ); pure node-এ \(0\), binary \(50\)\(50\)-তে সর্বোচ্চ \(1\); Gini-র বিকল্প criterion, প্রায় একই split বাছে। canonical \(6\)A–\(4\)B node: \(H=0.971\) 6.5
epsilon band limit-এর চারপাশে \([X-\varepsilon,\,X+\varepsilon]\) ফালি; বাইরে-থাকা ভগ্নাংশ \(\xrightarrow{P}\)-এর দৃশ্যরূপ 3.2
equal-tailed credible interval credible interval যার দুই প্রান্ত posterior-এর \(\frac{\alpha}{2}\)\(1-\frac{\alpha}{2}\) quantile (Figure 3-বাঁ; §৭ Q6) 4.10
equally likely সব outcome সমসম্ভাব্য, প্রত্যেকের probability \(1/\lvert\Omega\rvert\) 2.1
equidispersion Poisson-এর মৌলিক ধর্ম \(\operatorname{Var}(y\mid x)=\mathbb E[y\mid x]=\mu\) — একটিমাত্র parameter \(\mu\) একসাথে center ও spread ঠিক করে; §৭-এ \(\mathbb E[Y]=\operatorname{Var}(Y)=\mu\) প্রমাণিত 5.5
equidispersion test dispersion \(\hat\phi\) বা NB-র \(\alpha\)-র LR test দিয়ে Poisson-অনুমান (\(\operatorname{Var}=\mu\)) যাচাই; \(\hat\phi\gg1\) বা \(\alpha>0\) significant হলে Poisson বাতিল, quasi-Poisson/NB দরকার 5.5
equilibrium / steady state stationary distribution-এর বিকল্প নাম; long-run-এ chain যে distribution-এ থিতু হয় 3.6
equivalence relation / class reflexive, symmetric, transitive সম্পর্ক (\(x\sim y\iff x-y\in\mathbb Q\)) যা set-কে disjoint class-এ ভাগ করে; Vitali-নির্মাণের ভিত্তি — প্রতি class থেকে এক প্রতিনিধি 7.1
ergodic chain irreducible + aperiodic (+ positive recurrent) chain; এতে \(\mu_n\to\pi\) এবং সময়-গড় \(=\) \(\pi\)-সাপেক্ষে space-গড় (ergodic theorem — MCMC-তে নমুনা-গড় কাজ করার কারণ) 3.6
ERM hypothesis (\(\hat h\)) ERM-এর ফলাফল — empirical risk minimize করা নির্দিষ্ট মডেল; এর generalization gap \(R(\hat h)-\hat R_n(\hat h)\) নিয়ন্ত্রণই learning theory-র লক্ষ্য 6.1
error outlier data-entry ভুল বা অসম্ভব মান (যেমন ঋণাত্মক দাম) — সংশোধন/বাদ দেওয়া উচিত 1.5
estimand যে অজানা কিন্তু স্থির population-রাশি অনুমান করতে চাই — \(\theta\) (যেমন \(\mu\), \(\sigma^2\), \(p\)); random নয় 4.1
estimate কোনো নির্দিষ্ট sample-এ estimator-এর প্রকৃত মান (একটি সংখ্যা) 1.1
estimator অজানা parameter আন্দাজ করতে ব্যবহৃত statistic (যেমন \(\hat{\mu} = \bar{x}\)) 1.1
event sample space-এর একটি subset 0.1
evidence (marginal) data-র মোট সম্ভাবনা \(P(A)\); normalizing constant 2.2
evidence lower bound (ELBO) \(\mathcal L(q,\theta)=\mathbb E_q[\log p(x,z\mid\theta)]-\mathbb E_q[\log q(z)]\) — log-evidence \(\log p(x\mid\theta)\)-এর নিচের একটি bound, কারণ \(\log p(x)=\mathcal L+\mathrm{KL}\) এবং \(\mathrm{KL}\ge0\) (Jensen)। E-step একে tight করে, M-step একে বাড়ায় — EM-এর monotonicity-র ভিত্তি 6.7
excess kurtosis kurtosis − 3; normal-এ 0, ভারী লেজে ধনাত্মক 1.3
exchangeability \(H_0\)-র অধীনে যেকোনো permutation-এ যৌথ বণ্টন অপরিবর্তিত; permutation test-এর একমাত্র (ও যথেষ্ট) শর্ত (§৭ Q11) 4.9
existential quantifier \(\exists\): "there exists / এমন কিছু আছে" 0.1
expectation random variable-এর গড় মান, density-তে \(\int x\,f(x)\,dx\) 0.4
expectation (as integral) \(\mathbb E[X]=\int_\Omega X\,d\mathbb P\); probability-র গড় আসলে probability measure-এর সাপেক্ষে integral 7.4
expectation step (E-step) EM-এর প্রথম ধাপ — parameter \(\theta\) স্থির রেখে প্রতিটি বিন্দুর responsibility \(\gamma_{ik}=\frac{\pi_k\mathcal N(x_i;\mu_k,\Sigma_k)}{\sum_l\pi_l\mathcal N(x_i;\mu_l,\Sigma_l)}\) গণনা (= latent-এর posterior); ELBO-এর lower bound-কে current likelihood-এ tight করে (\(\mathrm{KL}=0\)) 6.7
expected count \(E_i\) \(H_0\) সত্য হলে প্রত্যাশিত গণনা \(E_i=np_i^{(0)}\) (GOF) বা \(\frac{\text{row}_i\,\text{col}_j}{n}\) (independence) (Figure 3) 4.8
expected value expectation-এর প্রতিশব্দ; \(\mathbb{E}[X]\) 2.5
experimental design ডেটা-সংগ্রহের পরিকল্পনা (randomization, replication, blocking, factorial structure) যাতে প্রশ্নের উত্তর সর্বনিম্ন bias ও noise-এ পাওয়া যায় 5.3
explained sum of squares (SSR) মডেল-ব্যাখ্যাত variation \(\sum_i(\hat y_i-\bar y)^2\); \(\text{SST}=\text{SSR}+\text{SSE}\) 5.1
explained variance ratio \(j\)-তম PC মোট variance-এর কত অংশ ধরে: \(\lambda_j/\sum_l\lambda_l\); চলমান উদাহরণে eigenvalue \([2.614,1.375,0.017,0.008]\) (যোগফল \(\approx4=\operatorname{tr}\Sigma\)) ⇒ ratio \([0.651,0.343,0.0042,0.0019]\)PC1+PC2 \(=99.4\%\); কোন PC কতটা তথ্যবহ তা পরিমাপ করে 5.9
explained vs unexplained variance ব্যাখ্যাকৃত (explained/between) \(=\operatorname{Var}(\mathbb E[X\mid\mathcal G])\); অব্যাখ্যাত (unexplained/within) \(=\mathbb E[\operatorname{Var}(X\mid\mathcal G)]\); ব্যাখ্যাকৃত ভগ্নাংশ \(\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)=\rho^2=R^2=0.36\) 7.7
exponential decay bound \(n\)-এর সাথে \(e^{-cn}\) হারে নামে (Hoeffding); polynomial \(1/n\)-এর চেয়ে বহু দ্রুত 3.1
Exponential distribution ধ্রুব rate \(\lambda\)-এ ঘটনার অপেক্ষার সময়; \(f=\lambda e^{-\lambda x}\) 2.4
exponential family distribution-গোষ্ঠী (Bernoulli, Normal, Poisson, …) যাদের জন্য GLM/canonical-link তত্ত্ব প্রযোজ্য; logistic-এর Bernoulli এর সদস্য 5.4
exponential loss \(L(y,F)=\exp(-yF(x))\), \(y\in\{-1,+1\}\); AdaBoost এই loss-এর forward stagewise additive minimization — এর উপর minimize করলেই \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\) ও reweighting-নিয়ম দুটোই বেরিয়ে আসে (প্রমাণ — সমাধান ১২) 6.6
extinction probability শাখা-প্রক্রিয়া কখনো বিলুপ্ত হওয়ার সম্ভাবনা \(\mathbb P(\exists n: Z_n=0)\); subcritical/critical \(m\le1\)-এ \(=1\) (প্রায়-নিশ্চিত বিলুপ্তি, কারণ \(\mathbb E[Z_n]=m^n\to0\)), supercritical \(m>1\)-এ \(<1\) 7.9
extrapolation data-র পরিসরের বাইরে মডেল প্রয়োগ করে ভবিষ্যদ্বাণী (ঝুঁকিপূর্ণ) 5.1
extreme value একটি নমুনার চরম (min/max) মান; reliability ও বন্যা-জাতীয় বিশ্লেষণে গুরুত্বপূর্ণ 2.7
F-distribution \(F_{d_1,d_2}=\frac{U/d_1}{V/d_2}\) (\(U\sim\chi^2_{d_1}\), \(V\sim\chi^2_{d_2}\) স্বাধীন); দুই variance-এর অনুপাত তুলনায় ব্যবহৃত, ডানে-skewed (E4) 4.1
F-test (ANOVA) \(F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}=\dfrac{\mathrm{MSB}}{\mathrm{MSW}}\sim F_{k-1,\,n-k}\) under \(H_0\); signal-to-noise অনুপাত — \(H_0\)-তে \(\approx1\), গড় আলাদা হলে \(\gg1\) 5.3
F-test (overall) \(H_0:\beta_1=\cdots=\beta_{p-1}=0\) (সব slope একসাথে শূন্য) বনাম অন্তত একটি \(\ne0\): \(F=\dfrac{\text{SSR}/(p-1)}{\text{SSE}/(n-p)}\sim F_{p-1,\,n-p}\) — মডেল আদৌ কিছু ব্যাখ্যা করে কিনা 5.2
factorial \(1\) থেকে \(n\) পর্যন্ত সব পূর্ণসংখ্যার গুণফল \(n!\); \(0!=1\) 0.2
factorial design একই পরীক্ষায় একাধিক factor-এর সব combination অন্তর্ভুক্ত করা (\(3\times2\) এখানে), যাতে main effect ও interaction দুটোই দক্ষভাবে মাপা যায় 5.3
factorial experiment design এক বা একাধিক factor (যেমন sample size \(n\), polynomial degree \(d\)) পদ্ধতিগতভাবে বদলে প্রতিটির প্রভাব মাপার নকশা; নির্ভরযোগ্য উপসংহারের জন্য একবারে এক factor বদলানো (isolation), যেমন E3-তে degree-জুড়ে noise স্থির রেখে কেবল \(d\) বদলানো 8.2
factorization (Doob–Dynkin) একটা RV \(Y\) \(\sigma(X)\)-measurable হয় iff \(Y=g(X)\) কোনো Borel \(g\)-র জন্য; অর্থাৎ "\(Y\) কেবল \(X\)-এর তথ্যে দাঁড়ালে" \(Y\) আসলে \(X\)-এরই একটা Borel-ফাংশন — conditioning (7.7)-এর মূল লেমা 7.3
factorization theorem (Fisher–Neyman) \(T\) sufficient \(\iff\) \(f(x;\theta)=g(T(x),\theta)\,h(x)\); likelihood data-র উপর নির্ভর করে কেবল \(T\)-র মাধ্যমে (§৭ Q12) 4.5
fair game "ন্যায্য খেলা" — martingale-এর স্বজ্ঞাগত রূপ (\(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\), গড়ে লাভ-ক্ষতি নেই); পক্ষে-ঝোঁকা = submartingale (favorable), বিপক্ষে = supermartingale (unfavorable) 7.8
false-positive paradox বিরল রোগে নির্ভুল test-এও positive-দের অধিকাংশ সুস্থ 2.2
family-wise error rate (FWER) একগুচ্ছ test মিলিয়ে অন্তত একটি false positive পাওয়ার সম্ভাবনা; \(m\) স্বাধীন test-এ \(1-(1-\alpha)^m\) (\(k=3\) জোড়ায় \(\approx0.14\), \(k=5\)-এ \(\approx0.40\)) 5.3
Fatou's lemma \(f_n\ge0\Rightarrow\int\liminf_n f_n\,d\mu\le\liminf_n\int f_n\,d\mu\); কেবল অসমতা ("ভর পালাতে পারে, ফিরে আসে না"), MCT থেকে উৎপাদিত 7.4
feature একটি measured বৈশিষ্ট্য; DataFrame-এর একটি column (variable-এর সমার্থক) 1.1
feature importance প্রতিটি feature-এর সব split-এ মোট impurity-হ্রাস (normalize করে যোগফল \(1\)) — সিদ্ধান্তে আপেক্ষিক অবদানের মাপ; high-cardinality feature-কে পক্ষপাত করে (তখন permutation importance ভালো)। canonical: idx4 \(0.164\), idx6 \(0.132\), idx15 \(0.087\) 6.5
feature importance / permutation importance কোন feature সিদ্ধান্তে কত অবদান রাখে — impurity-based (RF-এর split-gain যোগফল) বনাম permutation (একটি feature এলোমেলো করে accuracy-পতন মাপা, model-agnostic ও কম পক্ষপাতী)। canonical permutation worst area \(0.0126\) 8.1
feature map রূপান্তর \(\phi:x\mapsto\phi(x)\) যা মূল feature-কে উচ্চমাত্রিক space-এ পাঠায় যেখানে শ্রেণিগুলো linearly separable হতে পারে; kernel \(K(x,x')=\phi(x)^\top\phi(x')\) এর inner product দেয়, তাই \(\phi\) স্পষ্টভাবে গণনা না করেই kernel-এর মাধ্যমে কাজ চলে (RBF-এ \(\phi\) অসীম-মাত্রিক) 6.4
feature selection প্রাসঙ্গিক feature-গুলো বেছে অপ্রাসঙ্গিকগুলো বাদ দেওয়া; lasso coefficient ঠিক \(0\) করে এটি স্বয়ংক্রিয়ভাবে করে (embedded selection); ridge পারে না (সব nonzero রাখে); canonical lasso \(20\to17\) feature 6.2
Figure matplotlib-এ পুরো ছবির ধারক (একাধিক Axes রাখে) 0.6
filtration বর্ধমান sub-σ-algebra-অনুক্রম \((\mathcal F_n)_{n\ge0}\), \(\mathcal F_0\subseteq\mathcal F_1\subseteq\cdots\subseteq\mathcal F\) — সময়ে জমে-ওঠা তথ্যের গাণিতিক রূপ ("তথ্য জমে, কখনো হারায় না"); \((\Omega,\mathcal F,(\mathcal F_n),\mathbb P)\) = filtered probability space 7.8
finite additivity কেবল সসীম-সংখ্যক disjoint set-এর জন্য measure যোগ হওয়ার দুর্বলতর শর্ত; এতে \(\mathbb N\)-এ "uniform" বস্তু বানানো যায় কিন্তু limit-যুক্তিতে ভরসা করা যায় না 7.1
finite difference ছোট \(h\) দিয়ে derivative-এর সংখ্যাগত আনুমান 0.3
finite variance \(\operatorname{Var}(X)=\sigma^2<\infty\); Chebyshev-ভিত্তিক WLLN-প্রমাণের যথেষ্ট শর্ত 3.3
finite-dimensional distributions process-এর যেকোনো সসীম সময়-সংগ্রহের joint distribution; এদের পুরো পরিবার দিয়েই process নির্ধারিত হয় (Gaussian হলে শুধু \(m,C\) যথেষ্ট) 3.5
first derivative test \(f'\)-এর চিহ্ন দিয়ে max/min নির্ণয় 0.3
first passage time \(\tau_c=\min\{n:X_n=c\}\) — একটা স্তর \(c\)-তে প্রথম পৌঁছানোর stopping time; নিরপেক্ষ walk-এ \(+1\)-উত্তরণে \(\tau<\infty\) a.s. কিন্তু \(\mathbb E[\tau]=\infty\) (OST-ভঙ্গের উৎস, \(\mathbb E[S_\tau]=1\ne0\)) 7.8
Fisher information \(I(\theta)=\mathbb{E}[U(\theta)^2]=-\mathbb{E}[\ell''(\theta)]\) — log-likelihood তার চূড়ায় কতটা তীক্ষ্ণ (curvature); data প্যারামিটার সম্পর্কে কত তথ্য বহন করে (Figure 1) 4.5
fitted value মডেলের ভবিষ্যদ্বাণী \(\hat y_i=x_i^\top\hat\beta\) 5.1
five-number summary min, Q1, median, Q3, max — boxplot-এর ভিত্তি 1.3
fixed effect সব গোষ্ঠীতে অভিন্ন, population-জোড়া স্থির সহগ (\(\beta_0,\beta_1\)) — আমরা সরাসরি এই মানগুলোতেই আগ্রহী; উদাহরণে hours-এর প্রভাব \(\hat\beta_1=1.878\) সব স্কুলে এক বলে ধরা 5.6
flat (uniform) prior ধ্রুবক prior \(\pi(\theta)=c\) — "কোনো পূর্ব-ঝোঁক নেই"; তখন MAP \(=\) MLE, posterior \(\propto\) likelihood (§৭ Q11; Figure 2-এ \(\text{Beta}(1,1)\)) 4.10
forward stagewise additive modeling additive model \(F_T=\sum_t\alpha_t h_t\) ক্রমিকভাবে গড়ার সাধারণ কাঠামো — প্রতি round-এ আগের পদ স্থির রেখে কেবল নতুন \((\alpha_t,h_t)\) loss-minimize করে যোগ (আগেরগুলো পুনরায় adjust না করে); AdaBoost = exponential loss-এ এর প্রয়োগ 6.6
Fourier transform of a law \(\varphi_X\)-কে বণ্টন \(P_X\)-এর Fourier transform হিসেবে দেখা; এই বিপরীত-যোগ্য (invertible) রূপান্তরই uniqueness ও inversion-এর ভিত্তি (\(\varphi\) পুরো বণ্টন এনকোড করে, তথ্য হারায় না) 7.10
Freedman–Diaconis rule bin-প্রস্থের robust থাম্ব-রুল 2·IQR / n^(1/3) 1.3
frequency একটি bin বা category-তে observation-এর সংখ্যা (count) 1.3
frequency table মানের পরিসরকে bin-এ ভাগ করে প্রতি bin-এর count-এর সারণি 1.3
frequentist interpretation probability \(=\) relative frequency \(n_A/n\)-এর সীমা (\(n\to\infty\)) 2.1
frequentist probability "probability = দীর্ঘকালীন আপেক্ষিক ফ্রিকোয়েন্সি"; LLN এই ব্যাখ্যার আনুষ্ঠানিক ভিত্তি 3.3
function \(f:A\to B\): প্রতিটি input-এর ঠিক একটিমাত্র output 0.1
function of a random variable random variable-এর ওপর প্রয়োগ করা function \(g(X)\), নিজেও random 2.7
functional gradient descent gradient boosting-এর তাত্ত্বিক রূপ — সাধারণ gradient descent parameter-space-এ পা ফেলে, এটা function-space-এ: \(F_t=F_{t-1}+\nu h_t\approx F_{t-1}-\nu g\), যেখানে negative gradient \(-g\) প্রতি round-এ একটা গাছ দিয়ে আনুমানিত; পুরো function \(F\)-ই variable 6.6
Fundamental Theorem of Calculus উপপাদ্য যা differentiation ও integration-কে পরস্পরের বিপরীত প্রমাণ করে 0.4
Galton–Watson branching process শাখা-প্রক্রিয়া: প্রতিটি ব্যক্তি স্বাধীনভাবে একই বণ্টন থেকে সন্তান নেয় (গড় \(m\)); \(n\)-তম প্রজন্মের আকার \(Z_n\), \(\mathbb E[Z_{n+1}\mid\mathcal F_n]=mZ_n\), \(\mathbb E[Z_n]=m^n\) 7.9
gambler's fallacy "পরপর tail-এর পর head আসবেই"-জাতীয় ভুল ধারণা; LLN পুরোনো বিচ্যুতি শোধরায় না, শুধু dilute করে 3.3
gambler's ruin নিরপেক্ষ random walk দুই বাধা \(-a,+b\)-এ থামা; OST-এ \(\mathbb P(\text{hit }+b)=\frac{a}{a+b}\), আর \(S_n^2-n\) martingale-এ \(\mathbb E[\tau]=ab\) — বাধা \(-8,+4\)-এ \(\mathbb P(+b)=\frac23\approx0.6667\), \(\mathbb E[\tau]=32\) 7.8
gamma RBF kernel-এর প্রস্থ-পরামিতি \(\gamma\) — প্রতিটি বিন্দুর প্রভাব-ব্যাসার্ধ নিয়ন্ত্রণ; ছোট \(\gamma\) = প্রশস্ত kernel = প্রায়-linear/মসৃণ boundary, বড় \(\gamma\) = সংকীর্ণ kernel = স্থানীয়/wiggly; \(C\)-এর সঙ্গে একত্রে tune করতে হয়। canonical \(\gamma\)-sweep (\(C\) স্থির): \(0.1\to0.800\), \(5\to0.956\), \(20\to0.956/132\) 6.4
Gamma distribution shape \(k\) ও scale \(\theta\); \(k\)টি স্বাধীন Exponential-এর যোগফল 2.4
gamma function factorial-এর continuous সম্প্রসারণ \(\Gamma(k)=\int_0^\infty t^{k-1}e^{-t}dt\); \(\Gamma(n)=(n-1)!\) 2.4
Gamma-Poisson mixture negative binomial-এর উৎপত্তি: Poisson rate নিজেই Gamma-distributed (random heterogeneity) হলে marginal distribution NB হয় — তাই NB স্বাভাবিকভাবে overdispersion ধরে; উদাহরণের data ঠিক এই process 5.5
Gaussian Normal distribution-এর বিকল্প নাম 2.4
Gaussian mixture model (GMM) যে mixture-এ প্রতিটি component একটা Gaussian — \(p(x)=\sum_{k=1}^K\pi_k\,\mathcal N(x;\mu_k,\Sigma_k)\); দুই-ধাপ generative: \(z_i\sim\text{Categorical}(\pi)\), তারপর \(x_i\sim\mathcal N(\mu_{z_i},\Sigma_{z_i})\)। canonical (3-component 2D): BIC \(4828.8\), per-sample LL \(-3.933\), ARI \(0.97\) 6.7
Gaussian Naive Bayes (GaussianNB) Naive Bayes-এর সেই রূপ যেখানে প্রতিটি শ্রেণি-শর্তাধীন প্রান্তিক \(P(x_j\mid y)\) একটি univariate Gaussian; কার্যত শ্রেণি-প্রতি diagonal covariance-যুক্ত QDA (off-diagonal correlation \(=0\) ধরা), boundary axis-aligned quadratic; canonical \(0.904\) 6.3
Gaussian process যে process-এর যেকোনো সসীম সংগ্রহ \((X_{t_1},\dots,X_{t_k})\) multivariate Normal; সম্পূর্ণরূপে \(m(t)\)\(C(s,t)\) দিয়ে নির্ধারিত (E3) 3.5
Gauss–Markov theorem linearity + zero-mean + homoscedastic + uncorrelated error হলে OLS হলো BLUE 5.1
generalization training-এ দেখা না-যাওয়া নতুন data-তে মডেলের ভালো পারফরম্যান্স; পুরো learning theory-র কেন্দ্রীয় লক্ষ্য — train-performance নয়, test-performance 6.1
generalization bound \(R(h)\le\hat R_n(h)+(\text{capacity-পদ})\) আকারের গ্যারান্টি যা true risk-কে empirical risk + complexity-জরিমানা দিয়ে আবদ্ধ করে; পদটি মোটামুটি \(\sqrt{(\text{capacity})/n}\), তাই data বাড়ালে gap কমে 6.1
generalization gap true risk ও empirical risk-এর পার্থক্য \(R(\hat h)-\hat R_n(\hat h)\); ছোট হলে ERM নিরাপদ, বড় হলে overfit; capacity-bound (finite-\(\mathcal H\)/VC) এই gap-কেই upper-bound করে 6.1
generalized cross-validation (GCV) LOOCV-shortcut-এ প্রতিটা leverage \(S_{ii}\)-কে গড় \(\operatorname{tr}(S)/n\) দিয়ে বদলানো রূপ: \(\text{GCV}=\frac{\frac1n\sum_i(y_i-\hat y_i)^2}{(1-\operatorname{tr}(S)/n)^2}\); leverage-অসমতার প্রতি কম সংবেদনশীল, rotation-invariant; smoothing-spline \(\lambda\) tuning-এ বহুল-ব্যবহৃত (৫.৭-এর \(\operatorname{tr}(S)\) ঢোকে) 5.8
generalized likelihood ratio test composite \(H_0\) (\(\Theta_0\) একাধিক মান) ক্ষেত্রে LRT; sup নেওয়া হয় \(\Theta_0\)\(\Theta\) উভয়ে; \(\xrightarrow{d}\chi^2_k\) 4.8
generalized linear model (GLM) linear-predictor কাঠামোর (\(\eta=x^\top\beta\)) সাধারণীকরণ — random component (distribution), systematic component (\(\eta\)), ও link function দিয়ে বিভিন্ন outcome-এ বিস্তৃত; OLS = Normal + identity link 5.4
generated \(\sigma\)-algebra \(\sigma(\mathcal G)\) সংগ্রহ \(\mathcal G\)-কে ধারণকারী smallest \(\sigma\)-algebra, সংজ্ঞায়িত \(\sigma(\mathcal G)=\bigcap\{\mathcal H:\mathcal H\ \sigma\text{-algebra},\ \mathcal G\subseteq\mathcal H\}\) — সব এমন \(\sigma\)-algebra-র intersection (যা আবার \(\sigma\)-algebra) 7.2
generative model শ্রেণি-শর্তাধীন density \(f_c(x)\) ও prior \(\pi_c\) model করে Bayes-নিয়মে posterior পায় (কার্যত \(P(x,y)\)-র যৌথ গঠন শেখে); LDA, QDA, Naive Bayes সবই generative; canonical QDA \(0.919\), NB \(0.904\), LDA \(0.881\) 6.3
generative vs discriminative দুই দর্শন: generative \(P(x\mid y),\pi_c\) model করে Bayes-নিয়মে \(P(y\mid x)\) পায় (LDA/QDA/NB); discriminative সরাসরি \(P(y\mid x)\)/boundary শেখে (logistic, SVM); generative-এ বেশি ধারণা (ভুল হলে bias) কিন্তু কম data-তে কাজ চলে 6.3
generator of a σ-algebra একটা সংগ্রহ \(\mathcal G\) যার থেকে \(\sigma(\mathcal G)\) গড়ে; এখানে Borel-এর সুবিধাজনক generator \(\{(-\infty,x]:x\in\mathbb R\}\) — যাতে measurability শুধু \(\{X\le x\}\)-এ পরীক্ষাযোগ্য (7.2-এর \(\mathcal B=\sigma((-\infty,x])\) ব্যবহার করে) 7.3
geodesic distance manifold-বরাবর (গায়ে হেঁটে) দুই বিন্দুর সংক্ষিপ্ততম দূরত্ব \(d_G\) — সোজা Euclidean দূরত্বের বিপরীত; swiss roll-এ প্রতিবেশী দুই পাক Euclidean-এ কাছে কিন্তু geodesic-এ বহু দূর; Isomap kNN-graph-এ shortest path দিয়ে এটি আনুমান করে 6.8
Geometric distribution প্রথম success পেতে trial-সংখ্যা; \((1-p)^{k-1}p\), mean \(1/p\) 2.3
Gini impurity node-এর অশুদ্ধতার মাপ \(G_m=\sum_c\hat p_{mc}(1-\hat p_{mc})\); pure node-এ \(0\), binary \(50\)\(50\)-তে সর্বোচ্চ \(0.5\); CART-এর default splitting-criterion (log লাগে না বলে entropy-র চেয়ে সস্তা)। canonical \(6\)A–\(4\)B node: \(G=0.48\) 6.5
Glivenko–Cantelli theorem n বাড়লে ECDF প্রকৃত CDF-এ সুষমভাবে ছোটে 1.3
GLM trilogy একই কাঠামো (random component + linear predictor + link + MLE/IRLS) তিন outcome-এ: Normal+identity (৫.১ linear), Bernoulli+logit (৫.৪ logistic), Poisson+log (৫.৫); শুধু distribution ও link বদলায় 5.5
global balance stationarity-র অপর নাম: প্রতিটি state \(j\)-তে মোট-ঢোকা \(=\) মোট-বেরোনো (\(\sum_i\pi_iP_{ij}=\pi_j\)); detailed balance এর চেয়ে কঠোরতর শর্ত 3.6
global minimum সমগ্র domain-এ সর্বনিম্ন মান 0.3
good-sets principle measurability-প্রমাণের কৌশল: \(\mathcal D=\{B:X^{-1}(B)\in\mathcal F\}\) ("সুসেট"-পরিবার) নিজেই একটা σ-algebra (preimage union/complement-সংরক্ষণ থেকে); তাই generator \(\mathcal D\)-তে থাকলেই \(\sigma(\text{generator})\subseteq\mathcal D\) 7.3
goodness-of-fit (GOF) test categorical data কোনো নির্দিষ্ট বণ্টন \(p_i^{(0)}\) মানে কিনা তার Pearson \(\chi^2\) test; df \(=k-1-\#\text{আঁচ-করা প্যারামিটার}\) (§৭ Q8) 4.8
gradient সব partial derivative-এর vector; দ্রুততম বৃদ্ধির দিক 0.3
gradient boosting প্রতি round-এ loss-এর negative gradient (pseudo-residual) \(r_i\)-এ একটা regression tree \(h_t\) fit করে \(F_t=F_{t-1}+\nu h_t\) আপডেট; squared loss-এ \(r_i=y_i-F_{t-1}(x_i)\) (সাধারণ residual), তাই "fit the residual" = "fit the negative gradient"। canonical (\(n{=}200\)): train \(1.000\)/test \(0.850\) 6.6
gradient descent \(-\nabla f\) দিকে ধাপে ধাপে নেমে minimum খোঁজা 0.3
grand mean সব observation মিলিয়ে সামগ্রিক গড় \(\bar y\); balanced design-এ group-গড়ের সরল গড়; \(\mathrm{SSB},\mathrm{SST}\)-এর reference বিন্দু 5.3
graph Laplacian \(L=D-W\) similarity-graph থেকে গড়া matrix (\(W\) symmetric similarity, \(D\) diagonal degree \(D_{ii}=\sum_j w_{ij}\)); quadratic form \(f^\top L f=\tfrac12\sum_{ij}w_{ij}(f_i-f_j)^2\ge0\) label-অমসৃণতা মাপে, label propagation এটি minimize করে; ৬.৮-এর Laplacian-eigenmap-এর সঙ্গে একই ভাষা 6.9
group comparison categorical শ্রেণি অনুযায়ী numeric variable-এর distribution তুলনা 1.5
group mean একটি group-এর observation-গুলোর গড় \(\bar y_g\); group-গড়ের পারস্পরিক পার্থক্যই ANOVA-র signal 5.3
groupby কলামের মান অনুযায়ী সারি দলে ভাগ করে দলভিত্তিক সারাংশ (split→apply→combine) 0.6
grouping effect elastic net (ও ridge)-এর প্রবণতা: highly correlated feature-দের coefficient পরস্পরের কাছাকাছি রাখা, তাই গোষ্ঠীকে একসাথে রাখা/shrink করা; pure lasso যেখানে গোষ্ঠী থেকে একটিকে এলোমেলোভাবে বাছে, সেখানে এটি স্থিতিশীলতা আনে 6.2
growth function (\(\Pi_{\mathcal H}(n)\)) \(n\)টি বিন্দুর উপর \(\mathcal H\) সর্বোচ্চ কতগুলো ভিন্ন labeling তৈরি করতে পারে (≤ \(2^n\)); \(n\le d_{\mathrm{VC}}\)-এ ঠিক \(2^n\), তারপর polynomial হয়ে যায় — capacity-র সূক্ষ্ম মাপ 6.1
Hamiltonian Monte Carlo (HMC) physics-অনুপ্রাণিত একটা চতুর MCMC যা target-এর gradient ব্যবহার করে উচ্চ-মাত্রায় দ্রুত mixing করে (random-walk এড়িয়ে); আধুনিক probabilistic-programming (Stan)-এর ইঞ্জিন 8.4
hard assignment প্রতিটি বিন্দুকে ঠিক একটা cluster-এ (\(0/1\), সর্বোচ্চ-\(\gamma\)/নিকটতম centroid) দেওয়া — k-means-এর ধরন; soft assignment-এর অনিশ্চয়তা মুছে দেয় (সীমানা-সংলগ্ন বিন্দুতে বিভ্রান্তিকর)। GMM-এ \(\sigma\to0\) সীমায় responsibility hard হয় 6.7
hard margin যে SVM কোনো margin-লঙ্ঘন সহ্য করে না (সব \(y_i(w^\top x_i+b)\ge1\)); কেবল linearly separable data-তে সম্ভব; primal \(\min\tfrac12\lVert w\rVert^2\) s.t. margin-শর্ত 6.4
harmonic vs Basel series \(\sum 1/n=\infty\) (harmonic, \(\sim\ln N\) — BC-II দেয় i.o.\(=1\)) বনাম \(\sum 1/n^2=\pi^2/6\approx1.6449<\infty\) (Basel — BC-I দেয় i.o.\(=0\)); দুই প্রতিবেশী, বিপরীত ভাগ্য 7.6
hat matrix \(\hat y=Hy\)-এ projection matrix \(H=X(X^\top X)^{-1}X^\top\), \(y\)-কে column space-এ প্রক্ষেপ করে 5.1
heatmap matrix-এর মানকে রঙের মাধ্যমে দেখানো চিত্র 1.4
heavy tail এমন distribution যার tail ধীরে কমে (যেমন Cauchy), mean অসংজ্ঞায়িত হতে পারে 2.7
Hermitian symmetry \(\overline{\varphi_X(t)}=\varphi_X(-t)\) (কারণ \(\overline{e^{itX}}=e^{-itX}\)); ফলে \(X\) প্রতিসম (\(X\overset{d}{=}-X\)) হলে \(\varphi_X\) বাস্তব-মানের, \(\operatorname{Re}\varphi\) even ও \(\operatorname{Im}\varphi\) odd 7.10
heteroscedasticity error-variance \(x\)-ভেদে পরিবর্তনশীল; SE/CI ভুল করে দেয় 5.1
hexbin plot সমতলকে hexagon ঘরে ভেঙে প্রতিটিতে বিন্দু-সংখ্যা রঙে দেখানো; বড় data-র জন্য 1.4
hierarchical / multilevel model mixed-effects model-এর সমার্থক নাম, যখন data-র স্তর-কাঠামোয় (শিক্ষার্থী ⊂ স্কুল, রোগী ⊂ হাসপাতাল) নিচের স্তরের observation উপরের স্তরের গোষ্ঠীতে বাসা-বাঁধা; প্রতিটা স্তরে আলাদা variance component 5.6
hierarchical clustering বিন্দু-দলগুলোর nested শ্রেণিবিন্যাস গড়ার কৌশল; agglomerative রূপ প্রতিটি বিন্দুকে আলাদা cluster ধরে শুরু করে বারবার নিকটতম দুই cluster merge করে; সুবিধা: \(K\) আগে দিতে হয় না (পরে গাছ কেটে যেকোনো \(K\)), nested গঠন দেখায়, deterministic; k-means-এর পরিপূরক 5.9
hierarchy of convergence mode-গুলোর এক-মুখী imply-চেইন: \(a.s.\Rightarrow P\), \(L^p\Rightarrow P\), \(P\Rightarrow d\) 3.2
high-dimensional statistics \(p\gtrsim n\) বা \(p\gg n\) শাসনে (parameter-সংখ্যা \(\ge\) নমুনা) estimation ও inference-এর তত্ত্ব; মূল ধারণা sparsity, lasso-তত্ত্ব, minimax rate; genomics/imaging/text-এর ভিত্তি (← Part V,VI 6.2, III inequality) 8.4
higher-order derivative derivative-এর derivative (২য়, ৩য়…) 0.3
Hilbert space inner product-যুক্ত complete space; অসীম-মাত্রিক ইউক্লিডীয় জ্যামিতি, \(L^2\) তার প্রধান উদাহরণ (projection theorem সহ) 7.5
hinge loss margin-লঙ্ঘনের উত্তল শাস্তি \(\max(0,\,1-y_i f(x_i))\); \(y_i f(x_i)\ge1\) হলে শূন্য, নইলে রৈখিকভাবে বাড়ে; 0–1 loss-এর convex surrogate (উপরের সীমা), যা margin-কে পুরস্কৃত করে ও দক্ষ optimization দেয় 6.4
histogram data কোন পরিসরে কতবার পড়ল তা দেখানো bar-চিত্র 0.6
hitting time একটা সেট \(B\)-তে প্রথম প্রবেশের সময় \(\tau_B=\min\{n:X_n\in B\}\) — একটা stopping time (\(\{\tau_B\le n\}=\bigcup_{k\le n}\{X_k\in B\}\in\mathcal F_n\)); gambler's-ruin-এর "\(-a\) বা \(+b\)-এ পৌঁছানো" এর বিশেষ রূপ 7.8
Hoeffding bound (finite-\(\mathcal H\)) finite hypothesis class-এ uniform bound \(R(h)\le\hat R_n(h)+\sqrt{\frac{\ln\lvert\mathcal H\rvert+\ln(2/\delta)}{2n}}\), Hoeffding (3.1) + union bound থেকে; চলমান উদাহরণে (\(\delta{=}0.05\)) \(\lvert\mathcal H\rvert{=}1000,n{=}100\to0.230\); \(n{=}1000\to0.073\); \(\lvert\mathcal H\rvert{=}10^6,n{=}1000\to0.094\) 6.1
Hoeffding inequality independent bounded \(X_i\in[a_i,b_i]\): \(P(\lvert\bar X_n-\mathbb{E}\bar X_n\rvert\ge t)\le 2\exp(-2n^2t^2/\sum(b_i-a_i)^2)\) 3.1
Hoeffding's lemma \(X\in[a,b],\mathbb{E}[X]=0\Rightarrow \mathbb{E}[e^{sX}]\le e^{s^2(b-a)^2/8}\); Hoeffding-প্রমাণের মূল ধাপ 3.1
holdout (held-out set) data-র যে অংশ fit-এ ব্যবহার না করে আলাদা রেখে দেওয়া হয় শুধু error মাপতে; সরলতম validation-কৌশল (single holdout); CV হলো বহু-বার holdout ঘুরিয়ে গড় করা — single-split-এর ভাগ্য-নির্ভরতা কমায় 5.8
holdout test MSE একটা স্বাধীন test-set-এ (একই process থেকে নতুন data) চূড়ান্ত মডেলের গড়-বর্গ-ভুল — generalization-এর সবচেয়ে সরাসরি, নিরপেক্ষ মাপ; চলমান উদাহরণে deg-\(3\) মডেলের \(9.71\approx\sigma^2=9\), যা CV (\(10.15\))-কে সৎ অনুমান হিসেবে যাচাই করে 5.8
homogeneity of variance সব group-এ error-variance সমান (\(\sigma^2\) স্থির) — ANOVA-র মূল অনুমান (LINE-এর 'E'); ভাঙলে \(F\)-এর \(p\)-value বিকৃত (প্রতিকার: Welch ANOVA, transform) 5.3
homoscedastic conditional variance \(\operatorname{Var}(X\mid Y{=}y)\) সব \(y\)-তে একই (সমভেদ) — normal-এ noise-পদ \(\sqrt{1-\rho^2}Z\) পুরোপুরি \(Y\)-স্বাধীন বলে; \(0.64\) ধ্রুব, \(y\)-নির্ভর নয় 7.7
homoscedasticity সব \(x\)-এ error-variance সমান (LINE-এর 'E'); বিপরীত = heteroscedasticity 5.1
Hypergeometric distribution without-replacement sampling-এ success-সংখ্যা; \(\binom{K}{k}\binom{N-K}{n-k}/\binom{N}{n}\) 2.3
hypothesis class (\(\mathcal H\)) যে candidate ফাংশনগুলোর মধ্য থেকে learner একটি \(h\) বাছে তাদের সমষ্টি (যেমন সব degree-\(d\) polynomial, সব 2D-রেখা); \(\mathcal H\) বড় করা = capacity বাড়ানো; \(\mathcal H\) বাছা নিজেই একটি inductive bias 6.1
Hölder's inequality \(\int\lvert fg\rvert\,d\mu\le\lVert f\rVert_p\lVert g\rVert_q\) (\(\tfrac1p+\tfrac1q=1\)); গুণফলকে দুই আলাদা norm-এ আবদ্ধ করে, Young থেকে উৎপাদিত 7.5
i.i.d. independent and identically distributed — স্বাধীন ও অভিন্নভাবে বণ্টিত নমুনা 2.7
i.i.d. (independent and identically distributed) একই distribution থেকে স্বাধীনভাবে আসা চলক \(X_1,\dots,X_n\); LLN/CLT-র মানক অনুমান 3.3
identically distributed দুই RV \(X,Y\) "একই বণ্টনের" (\(X\stackrel{d}{=}Y\)) যদি \(P_X=P_Y\), সমতুল্যভাবে \(F_X=F_Y\); এতে একই \(\Omega\)-তে থাকা বা সমান হওয়া লাগে না — কেবল pushforward law মিলতে হয় 7.3
identity matrix কর্ণে ১, বাকি ০; গুণের নিরপেক্ষ উপাদান \(I\) 0.5
iid (independent and identically distributed) অনুক্রম \(X_1,X_2,\dots\) পরস্পর-স্বাধীন এবং সবার একই বণ্টন \(P_X\); SLLN ও CLT-র মূল কাঠামো 7.6
implication \(P \Rightarrow Q\): "\(P\) হলে \(Q\)"; শুধু \(P\) সত্য–\(Q\) মিথ্যা হলে মিথ্যা 0.1
impossible event empty set \(\varnothing\); probability \(0\) 2.1
improper integral অসীম সীমার (বা অসীম মানের) integral, limit দিয়ে সংজ্ঞায়িত 0.4
imputation missing ঘরে যুক্তিসঙ্গত মান (যেমন group-median) বসিয়ে পূরণ করা 1.5
inadmissibility of the MLE Stein (1956)-এর মূল ফল: multivariate normal-এর মানে-estimate-এ usual MLE \(\hat\theta=X\) quadratic loss-এ inadmissible যখন \(p\ge3\) — পরিসংখ্যানের সবচেয়ে স্বাভাবিক estimator-টাও উচ্চ মাত্রায় সেরা নয় 8.3
inclusion–exclusion বহু event-এর union-এর probability পর্যায়ক্রমে যোগ-বিয়োগ করে 2.1
increment process-এর দুই সময়ের পার্থক্য \(X_t-X_s\); random walk ও Poisson/Brownian-এ এরা স্বাধীন (independent increments) 3.5
indefinite integral সীমাহীন integral \(\int f\,dx = F+C\); ফল একটি function (antiderivative) 0.4
independence \(P(A\cap B)=P(A)P(B)\); একটা অন্যটার সম্ভাবনা বদলায় না 2.2
independence & conditional expectation \(X\perp\!\!\!\perp\mathcal G\Rightarrow\mathbb E[X\mid\mathcal G]=\mathbb E[X]\) a.s. — "যে তথ্য কিছু বলে না, শর্ত ধরা অর্থহীন"; প্রমাণে \(\mathbb E[X\mathbf 1_G]=\mathbb E[X]\mathbb P(G)\) (2.2-এর স্বাধীনতা) 7.7
independence (of events) ঘটনা \(A,B\) স্বাধীন যদি \(\mathbb P(A\cap B)=\mathbb P(A)\,\mathbb P(B)\) — একটির ঘটা অন্যটির সম্ভাবনা বদলায় না; পরিসংখ্যানের সব iid-ভিত্তির নীরব অনুমান 7.6
independence (of random variables) \(f_{X,Y}=f_X f_Y\); একটির মান জানলে অন্যটির distribution বদলায় না 2.6
independence of mean and variance Normal population-এর বিশেষ ধর্ম: \(\bar X_n\perp S^2\); এই স্বাধীনতাই \(t_{n-1}\)-এর নির্মাণ সম্ভব করে 4.1
independence-product rule \(X\perp Y\Rightarrow\varphi_{X+Y}(t)=\varphi_X(t)\,\varphi_Y(t)\) (7.6-এর factorization \(\mathbb E[e^{itX}e^{itY}]=\mathbb E[e^{itX}]\mathbb E[e^{itY}]\)); iid-তে \(\varphi_{S_n}=\varphi_{X_1}^{\,n}\) — convolution-কে গুণফলে রৈখিক করে, CLT-এর বীজ 7.10
independent increments অ-overlapping সময়-ব্যবধানের increment-গুলো পরস্পর স্বাধীন; Poisson process ও Brownian motion-এর সংজ্ঞায়ক ধর্ম 3.5
independent random variables \(X_1,\dots,X_n\) স্বাধীন যদি \(\sigma(X_i)\)-গুলো স্বাধীন \(\iff\) সব Borel \(B_i\)-তে \(\mathbb P(\bigcap_i\{X_i\in B_i\})=\prod_i\mathbb P(X_i\in B_i)\); স্বাধীন চলকের measurable ফাংশনও স্বাধীন 7.6
independent σ-algebras sub-σ-algebra \(\mathcal F_1,\dots,\mathcal F_n\) স্বাধীন যদি যেকোনো \(A_i\in\mathcal F_i\) নির্বাচনে \(\mathbb P(\bigcap_i A_i)=\prod_i\mathbb P(A_i)\); স্বাধীনতার পূর্ণ-সাধারণ রূপ (তথ্যের অসংলগ্নতা) 7.6
index set যে set থেকে \(t\) আসে; discrete-time হলে \(\{0,1,2,\dots\}\), continuous-time হলে \([0,\infty)\) — process discrete না continuous তা এটাই ঠিক করে 3.5
indicator function \(\mathbf 1_A(x)\): \(x\in A\) হলে \(1\), নয়তো \(0\); set ও function-এর সেতু, এর Lebesgue integral \(\int\mathbf 1_A\,d\lambda=\lambda(A)\) 7.1
inductive bias learner-এর পূর্ব-অনুমান যা অদেখা বিন্দুতে extrapolation সম্ভব করে (যেমন সরলতা/মসৃণতার prior, hypothesis class \(\mathcal H\) বাছা); no-free-lunch অনুযায়ী এটি ছাড়া শেখা অসম্ভব; ভালো শেখা = মানানসই bias বাছা 6.1
inductive hypothesis induction-এ \(P(k)\) সত্য ধরে নেওয়ার ধাপ 0.1
inequality \(1-x\le e^{-x}\) যেকোনো বাস্তব \(x\)-এ সত্য মৌলিক অসমতা; BC-II-তে গুণফল \(\prod(1-\mathbb P(A_n))\)-কে \(\exp(-\sum\mathbb P(A_n))\)-এ নামিয়ে অপসারী-যোগফলকে \(0\)-তে ফেলার চাবি 7.6
inertia / within-cluster SS k-means-এর objective: \(W=\sum_{k}\sum_{i\in C_k}\lVert x_i-\mu_k\rVert^2\) — প্রতিটি বিন্দু তার cluster-centroid থেকে বর্গ-দূরত্বের যোগফল; ছোট \(W\) \(=\) আঁটসাঁট cluster; \(K\) বাড়ালে একঘেয়ে কমে (চরমে \(K=n\) হলে \(0\)), তাই সরাসরি minimize করে \(K\) বাছা যায় না — elbow লাগে; চলমান উদাহরণে \(k{=}3\to135.3\) 5.9
inference sample থেকে population সম্পর্কে সিদ্ধান্ত/অনুমান টানার প্রক্রিয়া 1.1
inference problem মূল ধাঁধা: হাতে শুধু একটা নমুনা, তা থেকে population-এর অজানা \(\theta\) অনুমান ও সেই অনুমানের অনিশ্চয়তা পরিমাপ 4.1
infinitely often একটা ঘটনা \(n\) বাড়লেও বারবার (অসীমবার) ঘটে; typewriter-এ পথ থিতু না-হওয়ার কারণ 3.2
inflated type I error ভুল null distribution ব্যবহারে প্রকৃত \(\alpha\) প্রতিশ্রুতের চেয়ে বড় হওয়া; যেমন ছোট \(n\)\(\sigma\) অজানা হলে z ব্যবহার (§৭ Q14) 4.7
inflection point যেখানে curvature-এর চিহ্ন বদলায় 0.3
influence (of a point) একটা পর্যবেক্ষণ estimate-কে কতটা টানে; jackknife-এ outlier বাদ দিলে \(\hat\theta_{(i)}\) সবচেয়ে লাফায় বলে চোখে দেখা যায় (Figure 3) 4.9
influential observation যে বিন্দু বাদ দিলে fitted মডেল (\(\hat\beta\)) স্পষ্টভাবে বদলায়; high leverage বড় residual একত্রে — Cook's \(D\) দিয়ে ধরা হয় 5.2
information (σ-algebra as) \(\sigma(X)\)-এর ব্যাখ্যা: "\(X\) পর্যবেক্ষণ করলে যেসব ঘটনার সত্য-মিথ্যা জানা যায়" তাদের পরিবার; \(X\equiv c\) দিলে \(\{\varnothing,\Omega\}\) (তথ্য শূন্য), injective \(X\) দিলে পুরো \(\mathcal F\) (সর্বোচ্চ তথ্য) — conditioning (7.7) ও filtration (7.8)-এর বীজ 7.3
information gain একটা split-এর গুণমান \(\Delta=I_{\text{parent}}-\sum_{\text{child}}\frac{N_{\text{child}}}{N}I_{\text{child}}\) (impurity-হ্রাস, \(I\) = Gini বা entropy); tree সেই split বাছে যা \(\Delta\) সর্বোচ্চ করে। canonical (parent \(6\)A–\(4\)B): সেরা split-এ Gini-gain \(0.213\), IG \(0.42\) 6.5
informative prior যথেষ্ট পূর্ব-জ্ঞান বহনকারী (non-flat) prior; posterior ও MAP-কে prior-mode-এর দিকে টানে (regularization-এর সমতুল্য) 4.10
initial distribution \(\mu_0\) — chain শুরুর সময় states-এর উপর probability distribution (যেমন \([1,0]\) মানে নিশ্চিত Sunny থেকে শুরু); \(\mu_n=\mu_0 P^n\) 3.6
injective one-to-one: ভিন্ন input → ভিন্ন output 0.1
inner product \(\langle f,g\rangle=\int fg\,d\mu\); bilinear form যা \(\lVert f\rVert_2^2=\langle f,f\rangle\) দেয় এবং কোণ ও orthogonality সংজ্ঞায়িত করে 7.5
instance-based learning কোনো global parameter "fit" না করে training-বিন্দু মনে রেখে নতুন \(x\)-এ স্থানীয় প্রতিবেশী দিয়ে সিদ্ধান্ত (memory-based, lazy, non-parametric); k-NN-ই প্রধান উদাহরণ; canonical \(0.896\) (\(k{=}5\)), \(0.911\) (\(k{=}15\)) 6.3
instrumental variable (IV) treatment ও outcome-এর মধ্যে লুকানো confounder থাকলেও causal effect বের করার কৌশল: একটা \"instrument\" চলক যা কেবল treatment-এর মাধ্যমে outcome-কে প্রভাবিত করে; econometrics-এর কেন্দ্রীয় হাতিয়ার 8.4
integrable function যে measurable \(f\)-এ \(\int\lvert f\rvert\,d\mu<\infty\); তখন \(\int f=\int f^+-\int f^-\) সুসংজ্ঞায়িত 7.4
integral বক্ররেখার নিচের signed area / সঞ্চয় (accumulation) 0.4
integral of nonnegative measurable function \(\int f\,d\mu=\sup\{\int s\,d\mu:\,0\le s\le f,\ s\ \text{simple}\}\); \(f\)-এর নিচে-আঁটা সব simple-এর integral-এর supremum 7.4
integrand যে function-এর integral নেওয়া হচ্ছে 0.4
integration by parts product rule-এর উল্টো কৌশল: \(\int u\,dv = uv - \int v\,du\) 0.4
interaction effect এক factor-এর প্রভাব অন্য factor-এর level-ভেদে বদলায় কিনা; শূন্য হলে প্রভাব additive, নয়তো synergy/antagonism — interaction plot বা cell-mean পার্থক্যে ধরা 5.3
interarrival time পরপর দুই event-এর মধ্যকার সময় \(\tau_k\); Poisson process-এ iid \(\text{Exp}(\lambda)\), mean \(1/\lambda\) (memoryless) 3.5
intercept \(x=0\)-এ রেখার মান, \(\beta_0\) 5.1
interchange of limit and integral \(\lim_n\int f_n=\int\lim_n f_n\) কখন বৈধ — সেই কেন্দ্রীয় প্রশ্ন; MCT, Fatou (অসমতা), DCT উত্তর দেয় 7.4
intersection \(A \cap B\): যা দুটোতেই আছে 0.1
intraclass correlation (ICC) মোট variance-এর কত অংশ গোষ্ঠী-ভেদ থেকে: \(\rho=\dfrac{\sigma_u^2}{\sigma_u^2+\sigma_\varepsilon^2}\); সমার্থকভাবে একই গোষ্ঠীর দুই সদস্যের outcome-correlation; উদাহরণে \(37.64/(37.64+63.69)=0.371\) (\(\sim37\%\) স্কুল-ভেদ) 5.6
intrinsic vs ambient dimension ambient dimension \(D\) = data যে space-এ প্রকাশিত (swiss roll-এ \(3\)); intrinsic dimension \(d\) = manifold-এর প্রকৃত স্বাধীনতা/মাত্রা (\(2\), চাদরের দৈর্ঘ্য+প্রস্থ)। dimensionality reduction-এর লক্ষ্য \(D\) থেকে \(d\)-তে নামা গঠন রেখে 6.8
invariance property (equivariance) যেকোনো ফাংশন \(g\)-এর জন্য \(\widehat{g(\theta)}_{\text{MLE}}=g(\hat\theta_{\text{MLE}})\) — রূপান্তরিত প্যারামিটারের MLE পেতে শুধু MLE-টা \(g\)-তে বসানো (যেমন \(\hat\tau=1/\hat\lambda=\bar X\)); নতুন optimization লাগে না 4.3
inverse \(AA^{-1}=I\) মানানসই matrix; matrix-এর "ভাগ" 0.5
inverse function \(f^{-1}\): output থেকে ফিরে input; কেবল bijective-এর জন্য 0.1
inverse transform sampling \(X=F_X^{-1}(U)\), \(U\sim\text{Uniform}(0,1)\) দিয়ে যেকোনো distribution থেকে নমুনা তৈরি 2.7
inverse-CDF method Uniform(0,1)-কে \(F^{-1}\)-এ পাঠিয়ে যেকোনো distribution simulate করা 2.4
inversion formula ঘনত্ব integrable হলে \(f_X(x)=\frac{1}{2\pi}\int_{-\infty}^\infty e^{-itx}\varphi_X(t)\,dt\)\(\varphi\) থেকে density পুনরুদ্ধার; uniqueness-কে গঠনমূলক (constructive) করে 7.10
IQR interquartile range = Q3 − Q1; মাঝের ৫০%-এর spread (robust) 1.2
IQR fence outlier শনাক্তের robust নিয়ম: \([Q_1-1.5\,\mathrm{IQR},\ Q_3+1.5\,\mathrm{IQR}]\) 1.5
IRLS (iteratively reweighted least squares) logistic-MLE-র Newton–Raphson সমাধান, প্রতিধাপে weight \(w_i=p_i(1-p_i)\)-সহ WLS-solve; closed form না-থাকায় ব্যবহৃত 5.4
irreducible যে chain-এ যেকোনো state থেকে (কয়েক ধাপে) অন্য যেকোনো state-এ পৌঁছানো যায়; অনন্য stationary distribution থাকার শর্ত 3.6
irreducible error model যত ভালোই হোক যে ভুল কখনো সরে না—noise-এর নিজস্ব ভেদ \(\sigma^2\); bias–variance ভাঙনের তৃতীয় পদ, total error-এর একটা মেঝে (E3-তে \(\sigma=0.7\), তাই \(\sigma^2=0.4900\)) 8.2
irreducible error (\(\sigma^2\)) noise-variance \(\operatorname{Var}(\varepsilon)\); যেকোনো model যত ভালোই হোক test error-এর এই অংশ কমানো যায় না (best-case floor); চলমান উদাহরণে \(\sigma^2=9\), আর সঠিক-specified deg-\(3\) মডেলের test MSE \(9.71\approx\sigma^2\) এই floor-কে স্পর্শ করে 5.8
Isolation Forest isolation-ভিত্তিক anomaly detector (৬.৫-এর tree/ensemble সম্প্রসারণ): random feature + random split দিয়ে গাছ বানিয়ে path length \(h(x)\) মাপে; anomaly বিরল/বিচ্ছিন্ন বলে কম split-এ আলাদা হয় (ছোট \(h\), score \(s\to1\)); canonical AUC \(1.000\), ৫% precision/recall \(1.00\) 6.9
Isomap manifold learning পদ্ধতি = geodesic দূরত্বের উপর MDS: kNN neighbor graph বানিয়ে graph-shortest-path দিয়ে geodesic \(d_G\) আনুমান, তারপর সেই \(d_G\)-matrix-এ MDS; swiss roll-কে সঠিকভাবে "মেলে ধরে"। canonical \(T=1.000,\ \lvert\text{corr}\rvert=1.000\) (নিখুঁত); বিপদ — বড় \(k\)-তে শর্টকাট-edge geodesic ভাঙে 6.8
iterated integral double integral-কে একবারে এক variable হিসেবে গণনা 0.4
jackknife নির্ধারক (deterministic) resampling: একটা একটা করে বিন্দু বাদ দিয়ে \(n\)টা leave-one-out estimate; SE ও bias আঁচ করে; bootstrap-এর পূর্বসূরি (Figure 3, §৭ Q4) 4.9
jackknife bias bias\(_{\text{jack}}=(n-1)(\bar\theta_{(\cdot)}-\hat\theta)\); গড়ের মতো linear statistic-এ \(0\), nonlinear statistic-এ শূন্য নয় ও সংশোধনযোগ্য (Figure 3, §৭ Q7, Q13) 4.9
jackknife standard error \(\widehat{\mathrm{se}}_{\text{jack}}=\sqrt{\frac{n-1}{n}\sum_i(\hat\theta_{(i)}-\bar\theta_{(\cdot)})^2}\); গড়ের ক্ষেত্রে ঠিক \(s/\sqrt n\) (Figure 3, §৭ Q9) 4.9
Jacobian \(\lvert dx/dy\rvert\) — রূপান্তরে অক্ষ কতটা টানে/চাপে তার পরিমাপ; density-তে গুণফল হিসেবে আসে 2.7
James–Stein estimator \(\hat\theta^{JS}=\big(1-\frac{p-2}{\lVert X\rVert^2}\big)X\) — একটা scalar shrinkage factor দিয়ে পুরো observation-vector \(X\)-কে কেন্দ্র ০-র দিকে টানে; \(p\ge3\)-তে MLE-কে dominate করে (কম total risk); shrinkage estimation-এর জন্মদাতা (James & Stein 1961) 8.3
James–Stein risk identity \(\mathbb E\lVert\hat\theta^{JS}-\theta\rVert^2=p-(p-2)^2\,\mathbb E\frac{1}{\lVert X\rVert^2}\le p\) (SURE থেকে); সমতা কেবল \(\lVert\theta\rVert\to\infty\)-এ; \(\theta=0\)-তে \(\lVert X\rVert^2\sim\chi^2_p\) দিয়ে \(R_{JS}(0)=p-(p-2)=2\) (সব \(p\ge3\)) 8.3
Jensen gap \(\mathbb{E}[g(X)]-g(\mathbb{E}[X])\ge0\); convexity-জনিত ব্যবধান (\(g=x^2\)-এ \(=\mathrm{Var}(X)\)) 3.1
Jensen's inequality \(g\) convex হলে \(g(\mathbb{E}[X])\le\mathbb{E}[g(X)]\); concave হলে দিক উল্টো 3.1
joint density দুটি random variable-এর যৌথ density \(f(x,y)\); probability = double integral 0.4
joint distribution দুই বা ততোধিক random variable-এর একসাথের বণ্টন, \(p_{X,Y}\) বা \(f_{X,Y}\) 2.6
joint PDF continuous variable-দের যৌথ density; probability = density surface-এর নিচের volume (double integral) 2.6
joint PMF discrete variable-দের যৌথ probability mass function, \(p_{X,Y}(x,y)=P(X=x,Y=y)\) 2.6
Jupyter cell-by-cell interactive Python চালানোর notebook পরিবেশ 0.6
K-fold cross-validation data এলোমেলোভাবে \(K\)টা প্রায়-সমান fold-এ ভাগ; পালাক্রমে এক fold held-out, বাকি \(K-1\) fold-এ fit; \(\text{CV}_{(K)}=\frac1K\sum_k\text{MSE}_k\); মোট \(K\)টা fit, প্রতি বিন্দু ঠিক একবার validation; চলমান উদাহরণে 10-fold CV U-আকার, min \(d{=}3\to10.15\) 5.8
k-means cluster-সংখ্যা \(K\) স্থির রেখে inertia (within-cluster SS) সর্বনিম্নকারী partition খোঁজার algorithm; প্রতিটি cluster তার centroid দিয়ে প্রতিনিধিত্ব করে, বিন্দু নিকটতম centroid-এ যায়; Lloyd-এর iteration দিয়ে সমাধান; \(K\) আগে দিতে হয়, multiple restart লাগে; চলমান উদাহরণে \(k{=}3\)-এ ARI \(0.990\) 5.9
k-means as hard EM k-means (৫.৯) = GMM-এর বিশেষ সীমা: সব \(\Sigma_k=\sigma^2 I\) (সমান-গোলকীয়) + hard assignment (\(\gamma_{ik}\in\{0,1\}\)); তখন M-step-এর \(\mu_k\)-update centroid-update-এ পরিণত হয়। তাই k-means hard/spherical, GMM soft/elliptical — canonical ARI: GMM \(0.97\) > k-means \(0.914\) 6.7
k-means++ initialization k-means-এর প্রারম্ভিক centroid বাছার স্মার্ট কৌশল: প্রথম centroid এলোমেলো, পরেরগুলো বিদ্যমান centroid থেকে দূরত্ব-সমানুপাতিক সম্ভাবনায় বাছা — ফলে centroid-গুলো ছড়িয়ে বসে, কম restart-এই ভালো ও স্থিতিশীল ফল; non-convex objective-এর খারাপ local-min এড়াতে সাহায্য করে 5.9
k-nearest neighbors (k-NN) instance-based classifier — নতুন \(x\)-এর নিকটতম \(k\) প্রতিবেশীর সংখ্যাগরিষ্ঠ ভোটে শ্রেণি; \(k\) একটি capacity-knob: ছোট \(k\) low-bias/high-variance (wiggly, \(k{=}1\to0.859\)), বড় \(k\) মসৃণ/বেশি-bias; canonical best \(k{=}15\) (\(0.911\)) 6.3
KDE kernel density estimate; data-বিন্দুতে মসৃণ kernel বসিয়ে পাওয়া density-curve 1.3
kernel KDE-তে প্রতিটি বিন্দুর উপর বসানো মসৃণ ফাংশন (সাধারণত Gaussian) 1.3
kernel function একটা প্রতিসম, \(0\)-কেন্দ্রিক weight-ফাংশন \(K(u)\) যা দূরত্ব-অনুযায়ী weight দেয়; উদাহরণ: Gaussian \(K(u)=e^{-u^2/2}\) (মসৃণ, infinite support), box \(K(u)=\tfrac12\mathbb 1\{\lvert u\rvert\le1\}\) (সমান-weight window); \(K_h(\cdot)=\tfrac1h K(\cdot/h)\) 5.7
kernel PCA ৬.৪-এর kernel trick + ৫.৯-এর PCA: feature-map \(\phi\) সরাসরি না হিসেব করে centered kernel \(\tilde K=HKH\)-এর eigen-decomposition করে অরৈখিক feature-space-এ principal component খোঁজে; linear kernel-এ এটা হুবহু সাধারণ PCA। canonical(rbf): \(T=0.898,\ \lvert\text{corr}\rvert=0.228\) (swiss roll-এ দুর্বল) 6.8
kernel regression প্রতিটা query বিন্দুর চারপাশে kernel-weight দিয়ে স্থানীয় fit করে \(f\) অনুমান; কাছের বিন্দু বেশি, দূরের কম weight পায়; bandwidth \(h\) নিয়ন্ত্রক প্যারামিটার 5.7
kernel trick dual-এ data কেবল inner product হিসেবে আসে বলে যেকোনো \(x_i^\top x_j\)-কে একটি kernel \(K(x_i,x_j)=\phi(x_i)^\top\phi(x_j)\) দিয়ে প্রতিস্থাপন করে — feature map \(\phi\) স্পষ্টভাবে গণনা না করেই উচ্চ-(এমনকি অসীম-)মাত্রিক feature-space-এ linear boundary বসানোর কৌশল; এতেই nonlinear decision boundary সম্ভব 6.4
KL divergence (t-SNE cost) t-SNE-র খরচ \(\mathrm{KL}(P\Vert Q)=\sum_{i\ne j}p_{ij}\log\frac{p_{ij}}{q_{ij}}\ge0\) — high-D ও low-D প্রতিবেশ-বণ্টনের অমিল; অপ্রতিসম বলে \(p_{ij}\) বড়/\(q_{ij}\) ছোট-এ বড় penalty, তাই কাছের জোড়া রক্ষায় পক্ষপাতী (local-strong, global অনির্ভরযোগ্য) 6.8
knot যেখানে spline-এর টুকরো-polynomial-গুলো জোড়া লাগে; knot-সংখ্যা ও অবস্থান নমনীয়তা (effective df) নিয়ন্ত্রণ করে — বেশি knot ⇒ বেশি নমনীয় ও বেশি variance; প্রান্তে cubic spline knot-হীন অংশে বুনো হতে পারে 5.7
Kolmogorov 0–1 law \((X_n)\) স্বাধীন \(\Rightarrow\) প্রতিটি tail event-এর \(\mathbb P(A)\in\{0,1\}\), প্রতিটি tail RV a.s. ধ্রুবক; হৃৎপিণ্ড \(\mathcal T\perp\mathcal T\Rightarrow\mathbb P(A)=\mathbb P(A)^2\) 7.6
Kolmogorov axioms probability-র তিন স্বতঃসিদ্ধ: non-negativity, normalization, countable additivity 2.1
Kolmogorov maximal inequality স্বাধীন, শূন্য-গড়, \(S_k=\sum_{i\le k}X_i\)-এ \(\mathbb P(\max_{1\le k\le n}\lvert S_k\rvert\ge t)\le\operatorname{Var}(S_n)/t^2\); Chebyshev-এর পথ-সংস্করণ (Doob maximal-এর বিশেষ রূপ) 7.6
Kolmogorov three-series theorem স্বাধীন \((X_n)\)-এ \(\sum_n X_n\) a.s. অভিসৃত \(\iff\) তিনটি কর্তিত-ধারা (\(\sum\mathbb P(\lvert X_n\rvert>c)\), \(\sum\mathbb E[X_n^c]\), \(\sum\operatorname{Var}(X_n^c)\)) সবই অভিসৃত; স্বাধীন-যোগফল-অভিসারিতার পূর্ণ মানদণ্ড 7.6
Kullback–Leibler divergence (KL) দুই distribution-এর "দূরত্ব" \(\mathrm{KL}(q\Vert p)=\mathbb E_q[\log\frac{q}{p}]\ge0\) (Jensen/Gibbs, \(0\)\(q=p\)); EM-এ \(\log p(x)=\text{ELBO}+\mathrm{KL}\) — E-step \(q=p(z\mid x)\) নিয়ে \(\mathrm{KL}=0\) করে bound tight করে 6.7
kurtosis লেজ-ভার ও চূড়া-গুরুত্ব; চতুর্থ standardized moment g₂ (normal=3) 1.3
L1 penalty \(\lambda\lVert\beta\rVert_1=\lambda\sum_j\lvert\beta_j\rvert\) — lasso-এর penalty; \(\beta_j=0\)-এ non-differentiable (কোণা), তাই অনেক coefficient ঠিক \(0\)-তে ঠেলে দেয় ⇒ sparsity 6.2
L1 vs L2 geometry (diamond vs ball) constraint-form-এ \(L_1\)-region একটি diamond (অক্ষ-সংলগ্ন তীক্ষ্ণ কোণা) আর \(L_2\)-region মসৃণ ball; RSS-contour \(L_1\)-কোণায় ছুঁয়ে কিছু coefficient ঠিক \(0\) করে (sparsity), \(L_2\)-ball-এ generic বিন্দুতে ছুঁয়ে সব coefficient nonzero রাখে 6.2
L2 penalty \(\lambda\lVert\beta\rVert_2^2=\lambda\sum_j\beta_j^2\) — ridge-এর penalty; মসৃণ (differentiable), সব coefficient proportionally shrink করে (orthonormal-এ factor \(\frac1{1+\lambda}\)), sparsity দেয় না 6.2
\(L^1\) space সব integrable ফাংশনের সংগ্রহ \(L^1(\mu)=\{f:\int\lvert f\rvert\,d\mu<\infty\}\); integral-এর স্বাভাবিক আবাসস্থল 7.4
\(L^1\)-bounded martingale যে martingale-এ \(\sup_n\mathbb E\lvert X_n\rvert<\infty\); convergence theorem-এর একমাত্র অনুমান — a.s.-সীমার অস্তিত্ব নিশ্চিত করে (কিন্তু \(L^1\)-অভিসরণ নয়) 7.9
\(L^2\) projection (conditional expectation as) \(X\in L^2\) হলে \(\mathbb E[X\mid\mathcal G]\) ঠিক \(X\)-এর orthogonal projection \(L^2(\mathcal G)\)-তে; residual \(X-\mathbb E[X\mid\mathcal G]\perp L^2(\mathcal G)\) (7.5-এর projection theorem) 7.7
\(L^2\) space square-integrable ফাংশনের space \(\{f:\int\lvert f\rvert^2\,d\mu<\infty\}\); একমাত্র \(L^p\) যা inner product বহন করে, তাই Hilbert space 7.5
\(L^2\)-bounded martingale \(\sup_n\mathbb E[X_n^2]<\infty\) বিশিষ্ট martingale; increment \(d_k=X_k-X_{k-1}\) পরস্পর-orthogonal, \(\mathbb E[X_n^2]=\mathbb E[X_0^2]+\sum_k\mathbb E[d_k^2]\), আর \(L^2\)-boundedness \(\iff\sum_k\mathbb E[d_k^2]<\infty\) ⇒ a.s. ও \(L^2\)-অভিসরণ 7.9
\(L^\infty\) space / essential supremum \(\lVert f\rVert_\infty=\operatorname{ess\,sup}\lvert f\rvert=\inf\{M\ge0:\lvert f\rvert\le M\ \text{a.e.}\}\); null set উপেক্ষা করে "সর্বোচ্চ মান", essentially bounded ফাংশনের space 7.5
\(L^p\) inclusion (finite measure) probability/finite measure-এ \(p\ge q\Rightarrow L^p\subseteq L^q\) (norm monotone); তাই finite variance (\(L^2\)) থাকলে finite mean (\(L^1\)) আপনিই, উল্টোটা নয় 7.5
\(L^p\) norm \(\lVert f\rVert_p=(\int\lvert f\rvert^p\,d\mu)^{1/p}\) (\(1\le p<\infty\)); একটি ফাংশনের "দৈর্ঘ্য/আকার", probability measure-এ \(p\)-এর সাথে monotone বাড়ে 7.5
\(L^p\) space যে measurable ফাংশনদের \(\lVert f\rVert_p<\infty\) তাদের (a.e.-শ্রেণির) space \(L^p(\mu)=\{f:\int\lvert f\rvert^p\,d\mu<\infty\}\); integrable ফাংশনের জ্যামিতিক মঞ্চ, \(p=1\) ফেরায় \(L^1\) 7.5
\(L^p\)-contraction \(\lVert\mathbb E[X\mid\mathcal G]\rVert_p\le\lVert X\rVert_p\) (\(1\le p\le\infty\)) — conditioning কখনো \(L^p\)-norm বাড়ায় না (averaging মসৃণ করে); conditional Jensen-এর সরাসরি ফল 7.7
label propagation graph-ভিত্তিক semi-supervised: বিন্দু = node, similarity-edge \(w_{ij}\), জানা label edge বরাবর ছড়িয়ে (diffusion) অজানা পূরণ; হার্ড clamping (জানা label স্থির), unnormalized Laplacian; কার্যত \(f^\top L f\) (label-অমসৃণতা) ছোট করে 6.9
label spreading label propagation-এর রূপ: normalized Laplacian \(\mathcal L=D^{-1/2}LD^{-1/2}\) + soft clamping (\(\alpha\) দিয়ে জানা label সামান্য বদলাতে দেয়), তাই label-noise-এ বেশি robust; canonical accuracy \(0.989\) (labeled-only \(0.833\) থেকে লাফ) 6.9
Lagrangian dual primal SVM-কে Lagrange-multiplier (\(\alpha_i\)) দিয়ে রূপান্তরিত দ্বৈত সমস্যা, যেখানে data কেবল inner product \(x_i^\top x_j\) আকারে আসে; KKT complementary slackness থেকে কেবল support vector-এর \(\alpha_i>0\); এই গঠনই kernel-trick সম্ভব করে (০.৩-এর Lagrange/KKT-এর প্রয়োগ) 6.4
\(\lambda\)-system (Dynkin system) \(\Omega\) ধারণকারী, proper-difference-বদ্ধ (\(A\subseteq B\Rightarrow B\setminus A\)) ও বর্ধমান-গণনাযোগ্য-union-বদ্ধ পরিবার; \(\sigma\)-algebra-র চেয়ে দুর্বল, Dynkin উপপাদ্যের সেতু 7.2
lasso Least Absolute Shrinkage and Selection Operator\(\min_\beta\lVert y-X\beta\rVert_2^2+\lambda\lVert\beta\rVert_1\); ছোট coefficient ঠিক \(0\) করে ⇒ sparse feature selection; orthonormal-এ সমাধান soft-threshold; canonical \(\lambda^\*{\approx}0.042\), MSE \(\mathbf{1.843}\), \(17\) nonzero 6.2
latent variable model-এ থাকা কিন্তু data-তে অদৃশ্য (লুকানো) চলক — GMM-এ component-label \(z_i\) (কোন Gaussian থেকে \(x_i\) এল); \(z_i\) অজানা বলেই data incomplete ও MLE কঠিন (component ও parameter পরস্পর-নির্ভর) 6.7
law / distribution of \(X\) \(X\)-এর বণ্টন = তার pushforward measure \(P_X\) on \((\mathbb R,\mathcal B)\); "বণ্টন" বলতে আনুষ্ঠানিকভাবে এই measure-ই বোঝায় (pmf/pdf তার বিশেষ রূপ)। উদাহরণ \(X\sim U(-1,1),Y=X^2\): density \(\dfrac{1}{2\sqrt y}\), \(\mathbb E[Y]=\tfrac13\) 7.3
Law of Large Numbers (LLN) iid নমুনার sample mean \(\bar X_n\) true mean \(\mu\)-তে থিতু হওয়ার উপপাদ্য (\(n\to\infty\)); "averaging কাজ করে কেন"-র ভিত্তি 3.3
law of total expectation \(\mathbb{E}[Y]=\mathbb{E}[\mathbb{E}[Y\mid X]]\); গোষ্ঠী-গড়ের গড় = সামগ্রিক গড় (tower rule) 2.6
law of total probability \(P(A)=\sum_i P(A\mid B_i)P(B_i)\) partition-এর ওপর 2.2
law of total variance \(\operatorname{Var}(Y)=\mathbb{E}[\operatorname{Var}(Y\mid X)]+\operatorname{Var}(\mathbb{E}[Y\mid X])\); within + between 2.6
leaf (terminal node) tree-এর শেষ node যা আর split হয় না; এতে পড়া সব বিন্দু একটাই prediction পায় — majority class (0–1 loss-minimizer) বা response-গড় (squared-loss-minimizer) 6.5
learner weight (alpha) AdaBoost-এ weak learner \(h_t\)-এর final-vote ওজন \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\) (natural log); ভালো learner (\(\varepsilon\) ছোট) ⇒ বড় \(\alpha\); \(\varepsilon=0.5\Rightarrow\alpha=0\) (তথ্যহীন), \(\varepsilon>0.5\Rightarrow\alpha<0\) (ভোট উল্টে)। canonical: \(\varepsilon{=}0.3\to0.4236\), \(\varepsilon{=}0.1\to1.0986\) 6.6
learning curve train ও validation/CV error-কে training-set-আকার \(n\)-এর সাপেক্ষে আঁকা curve; high-bias (দুটো error উঁচুতে মিলে যায়) বনাম high-variance (বড় gap) চিহ্নিত করে, এবং আরও data সাহায্য করবে কিনা বোঝায় — model-পর্যাপ্ততা নির্ণয়ের diagnostic 5.8
learning rate gradient descent-এর প্রতি ধাপের আকার (\(\eta\)) 0.3
learning rate / shrinkage gradient boosting-এর আপডেট \(F_t=F_{t-1}+\nu h_t\)-এ step size \(\nu\in(0,1]\); প্রতিটি গাছের অবদান সংকুচিত করে regularizer-এর মতো কাজ করে (ছোট \(\nu\) + বড় \(T\) ভালো generalize)। canonical sweep (\(n{=}200\)): \(0.01\to0.794\) (underfit), \(0.1\to0.850\), \(1.0\to0.878\)\(\nu\)\(T\) যৌথভাবে tune 6.6
leave-one-out CV (LOOCV) \(K=n\) ক্ষেত্র: \(\text{CV}_{(n)}=\frac1n\sum_i(y_i-\hat f^{(-i)}(x_i))^2\), প্রতিটা বিন্দু একবার করে একা held-out; bias প্রায় শূন্য কিন্তু \(n\)টা fit প্রায় অভিন্ন ⇒ correlated ⇒ গড়ের variance বেশি; চলমান উদাহরণে min \(d{=}3\to10.18\) 5.8
leave-one-out estimate \(\hat\theta_{(i)}\) \(i\)-তম বিন্দু বাদ দিয়ে হিসাব করা statistic; এদের ছড়ানো থেকে variance, গড় থেকে bias (Figure 3, §৭ Q7) 4.9
Lebesgue \(\sigma\)-algebra Lebesgue-নির্মাণে যে Carathéodory-measurable set-রা গড়ে ওঠে — \(\mathcal B(\mathbb R)\)-এর কঠোর superset (\(\supsetneq\)), সব Lebesgue-null set ও তাদের subset ধারণ করে (complete) 7.2
Lebesgue decomposition যেকোনো σ-finite \(\nu\)-কে \(\nu=\nu_{ac}+\nu_{sing}\)-এ ভাঙা যায় (\(\nu_{ac}\ll\mu\) density-অংশ, \(\nu_{sing}\perp\mu\) singular-অংশ); measure-এর "density + singular" বিশ্লেষণ 7.5
Lebesgue integral range-কে (horizontal strip) ভেঙে "প্রতিটি মান কত measure-জুড়ে" তা যোগ করে integral; \(\mathbf 1_{\mathbb Q}\)-এ অনায়াসে \(\int_0^1\mathbf 1_{\mathbb Q}\,d\lambda=0\), পূর্ণ নির্মাণ 7.4-এ 7.1
Lebesgue measurable function \((\mathbb R,\mathcal L)\)-এ (Lebesgue σ-algebra, \(\supseteq\mathcal B\)) measurable function — Borel function-এর চেয়ে উদার শ্রেণি; Borel-measurable হলে Lebesgue-measurable, উল্টোটা সর্বদা নয় 7.3
Lebesgue measure \(\mathbb R\)-এর উপর প্রমিত measure \(\lambda\) যা interval-কে তার দৈর্ঘ্য দেয় (\(\lambda([a,b])=b-a\)), translation-invariant ও countably additive; outer measure থেকে Carathéodory-পদ্ধতিতে গড়া (7.2) 7.1
Lebesgue's criterion (Riemann-integrability) bounded \(f:[a,b]\to\mathbb R\) Riemann-integrable \(\iff\) তার discontinuity-সেটের Lebesgue measure \(=0\); তখন দুই integral সমান 7.4
left-skewed বাঁ দিকে লম্বা লেজ; সাধারণত mean < median 1.3
leptokurtic normal-এর চেয়ে ভারী লেজ ও সূচালো চূড়া (excess kurtosis > 0) 1.3
leverage \(h_{ii}=\) hat matrix \(H=X(X^\top X)^{-1}X^\top\)-এর \(i\)-তম কর্ণ-উপাদান; বিন্দুটি predictor-জায়গায় (\(x\)-অক্ষে) কত প্রান্তিক তা মাপে (\(y\)-নিরপেক্ষ), পরিসর \([0,1]\), গড় \(p/n\), থ্রেশহোল্ড \(2p/n\) 5.2
likelihood hypothesis সত্য হলে data দেখার সম্ভাবনা \(P(A\mid B)\) 2.2
likelihood \(L(\theta)\) নির্দিষ্ট \(\theta\)-তে observed data-র সম্ভাবনা, \(\theta\)-এর ফাংশন হিসেবে; \(L(\theta)=p(\text{data}\mid\theta)\) (4.3 থেকে; Figure 1-এ কমলা) 4.10
likelihood function observed data fixed রেখে \(\theta\)-এর ফাংশন \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) — "এই data বিভিন্ন \(\theta\)-তে কতটা মানানসই"; probability নয়, তাই \(\theta\)-জুড়ে integral ১ হওয়ার দরকার নেই 4.3
likelihood ratio \(P(A\mid H)/P(A\mid H^c)\); odds-রূপে সাক্ষ্যের শক্তি 2.2
likelihood ratio \(\Lambda\) \(\frac{L(\theta_1)}{L(\theta_0)}\) — দুই hypothesis-এর অধীনে data-র আপেক্ষিক সম্ভাব্যতা; normal-এ \(\Lambda>k\iff\bar x>c\) (z-test) 4.7
likelihood ratio test (LRT) \(H_0\) test যা \(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\theta_0)]\) ব্যবহার করে; \(\Lambda\) ছোট (statistic বড়) ⇒ \(H_0\)-র বিপক্ষে; Figure 1-এর উল্লম্ব ড্রপ 4.8
likelihood vs probability একই \(f(x;\theta)\) দুই ভূমিকায়: \(\theta\) স্থির, \(x\) চলক → density (\(\int_x=1\)); \(x\) (data) স্থির, \(\theta\) চলক → likelihood (কোনো normalization-শর্ত নেই, শুধু argmax গুরুত্বপূর্ণ) 4.3
likelihood-ratio martingale iid ডেটা \(Z_k\), density \(f\) (সত্য) বনাম \(g\): \(L_n=\prod_{k\le n}\frac{g(Z_k)}{f(Z_k)}\) হলো \(f\)-এর অধীনে martingale (\(\mathbb E_f[g(Z)/f(Z)]=1\)) — Wald-এর SPRT ও sequential testing-এর কেন্দ্র 7.8
likelihood-ratio test (GLM) global fit-test \(G^2=D_0-D=2(\ell-\ell_0)\sim\chi^2_{\,\#\text{predictors}}\); এখানে \(G^2=129.78\) (\(df=2\)), \(p=6.5\times10^{-29}\) (৪.৭-এর LR framework) 5.4
liminf of events (eventually) \(\liminf_n A_n=\bigcup_{N}\bigcap_{n\ge N}A_n=\{A_n\ \text{eventually}\}\) — "শেষমেশ সব যথেষ্ট-বড় \(n\)-এ ঘটে"; দ্বৈত \((\limsup A_n)^c=\liminf A_n^c\) 7.6
limit কোনো বিন্দুর দিকে এগোলে function যে মানের দিকে যায় 0.3
limits of integration integral-এর নিম্ন ও ঊর্ধ্ব সীমা (\(a\)\(b\)) 0.4
limsup of events (infinitely often, i.o.) \(\limsup_n A_n=\bigcap_{N}\bigcup_{n\ge N}A_n=\{A_n\ \text{i.o.}\}\) — "অসীম-সংখ্যক \(A_n\) ঘটে" (\(\omega\) যত-বড় \(N\)-এর পরেও কোনো \(A_n\)-তে আছে) 7.6
Lindeberg condition (preview) non-identically-distributed স্বাধীন যোগফলের CLT (Lindeberg–Feller)-এর শর্ত: প্রতিটি পদের আপেক্ষিক অবদান অসীম-ছোট (Lindeberg negligibility), যাতে যোগফলে কোনো একক পদ প্রাধান্য না পায় 7.10
LINE assumptions OLS-এর চার অনুমান — Linearity, Independence, Normality, Equal variance 5.1
linear discriminant analysis (LDA) generative classifier — সব শ্রেণিতে শেয়ার-করা একই covariance \(\Sigma\) ধরে; log-posterior-ratio-র quadratic পদ বাতিল হয়ে discriminant \(\delta_c(x)=x^\top\Sigma^{-1}\mu_c-\tfrac12\mu_c^\top\Sigma^{-1}\mu_c+\log\pi_c\) linear ⇒ hyperplane boundary; কম parameter (কম variance) কিন্তু শেয়ার-\(\Sigma\)-জনিত bias; canonical \(0.881\) 6.3
linear predictor systematic component \(\eta_i=x_i^\top\beta\); সব GLM-এ অভিন্ন, link function একে mean-এর সাথে যুক্ত করে 5.4
linear probability model binary \(y\)-তে সরাসরি OLS; ত্রুটিপূর্ণ — পূর্বাভাস \([0,1]\)-বহির্ভূত, heteroscedastic (\(\operatorname{Var}=p(1-p)\)), saturate করে না; তাই logistic ব্যবহৃত 5.4
linear regression response-এর শর্তাধীন গড়কে predictor-দের রৈখিক সমাহার হিসেবে মডেল করা, \(\mathbb E[y\mid X]=X\beta\) 5.1
linear relationship সরলরেখা বরাবর সম্পর্ক, যা Pearson \(r\) ধরে 1.4
linear smoother যেকোনো smoother যেখানে fitted মান \(\hat{\mathbf f}=S\mathbf y\) একটা স্থির matrix \(S\) (smoother/hat matrix, \(\mathbf y\)-নিরপেক্ষ) দিয়ে \(\mathbf y\)-এর রৈখিক রূপান্তর; Nadaraya–Watson, regression/smoothing spline সবই linear smoother; effective df \(=\operatorname{tr}(S)\) 5.7
linear transformation space-কে সরলরেখা-রক্ষাকারী ভাবে রূপান্তরকারী matrix-ফাংশন 0.5
linear-smoother LOOCV shortcut linear smoother (\(\hat{\mathbf y}=S\mathbf y\))-এ মাত্র একবার fit-এই সব leave-one-out residual: \(\text{CV}_{(n)}=\frac1n\sum_i\big(\frac{y_i-\hat y_i}{1-S_{ii}}\big)^2\), \(S_{ii}\) = leverage; \(n\)টা re-fit-এর বদলে একটা fit \(+\) \(n\)টা ভাগ; high-leverage বিন্দুর error যথাযথভাবে বড় দেখায় 5.8
linearity of conditional expectation \(\mathbb E[aX+bY\mid\mathcal G]=a\,\mathbb E[X\mid\mathcal G]+b\,\mathbb E[Y\mid\mathcal G]\) a.s. (\(X,Y\in L^1\)) — integral-এর রৈখিকতা (7.4) থেকে; pull-out/best-predictor প্রমাণে কর্মঘোড়া 7.7
linearity of expectation \(\mathbb{E}[aX+bY+c]=a\mathbb{E}[X]+b\mathbb{E}[Y]+c\); independence লাগে না 2.3
linearity of integral \(\int(af+bg)\,d\mu=a\int f\,d\mu+b\int g\,d\mu\); অঋণাত্মক স্তরে MCT + simple-additivity দিয়ে প্রমাণিত, পরে \(L^1\)-এ প্রসারিত 7.4
linearization nonlinear function \(g\)-কে \(\mu\)-তে তার tangent (\(g(\mu)+g'(\mu)(x-\mu)\)) দিয়ে আনুমান করা; Delta method-এর হৃদয় 3.4
link function GLM-এ mean ও linear predictor-কে যুক্ত করা function \(g(\text{mean})=\eta\); logistic-এ logit, OLS-এ identity, Poisson-এ log (৫.৫) 5.4
linkage hierarchical clustering-এ "দুই cluster-এর দূরত্ব"-র সংজ্ঞা — single (নিকটতম জোড়া), complete (দূরতম), average (গড় জোড়া-দূরত্ব), Ward (merge-এ within-cluster SS-বৃদ্ধি সর্বনিম্ন); ভিন্ন linkage ভিন্ন আকারের cluster দেয়; Ward variance-objective বলে k-means-এর কাছাকাছি (গোলাকার, সমান-আকার cluster) 5.9
Lloyd's algorithm k-means সমাধানের iterative পদ্ধতি: দুই ধাপ পালাক্রমে — assignment (centroid স্থির রেখে বিন্দু নিকটতম centroid-এ) ও update (assignment স্থির রেখে centroid \(=\) cluster-গড়); প্রতিটি ধাপ inertia কমায়-বা-সমান (§৭.১৫: গড়-ই within-SS minimizer) ⇒ অবশ্যই অভিসৃত, কিন্তু objective non-convex বলে শুধু local minimum-এ 5.9
local alternative \(\theta_n=\theta_0+c/\sqrt n\)\(H_0\)-র দিকে আসা ক্রম; তিন test-এর সমতা ও power বিশ্লেষণে ব্যবহৃত (Figure 4) 4.8
local maximum আশেপাশের তুলনায় সর্বোচ্চ মান 0.3
local minimum আশেপাশের তুলনায় সর্বনিম্ন মান 0.3
Local Outlier Factor (LOF) density-ভিত্তিক anomaly detector: একটি বিন্দুর local density-কে তার প্রতিবেশীদের গড় density-র সঙ্গে তুলনা করে — \(\mathrm{LOF}\approx1\) inlier, \(\gg1\) outlier (প্রতিবেশীর তুলনায় বিরল), \(<1\) গুচ্ছ-কেন্দ্র; local বলে varying-density data-তে কাজ করে; canonical AUC \(1.000\) 6.9
local polynomial regression Nadaraya–Watson-এর সম্প্রসারণ: প্রতিটা বিন্দুর চারপাশে স্থানীয়ভাবে (kernel-weighted) একটা polynomial fit করা (গড়/ধ্রুবক নয়); local-linear boundary-bias কমায়, তাই প্রান্তে NW-এর চেয়ে ভালো 5.7
locally linear embedding (LLE) manifold learning পদ্ধতি: প্রতিটি বিন্দুকে প্রতিবেশীদের affine-যোগ (\(\sum_j w_{ij}=1\)) দিয়ে পুনর্গঠনের weight \(w_{ij}\) (translation/rotation-invariant) শিখে, সেই একই weight নিম্ন-মাত্রায় রক্ষা করে; শুধু local geometry আঠা (global geodesic ছাড়া)। canonical \(\lvert\text{corr}\rvert=0.998\) 6.8
location data-র কেন্দ্র কোথায় তা নির্দেশক পরিমাপ (central tendency) 1.2
location-scale family \(Y=aX+b\) আকারের রূপান্তর; \(b\) সরায় (location), \(a\) মাপ বদলায় (scale) 2.7
LOESS locally estimated scatterplot smoothing — local polynomial regression-এর জনপ্রিয় ব্যবহারিক রূপ (সাধারণত local-linear/quadratic, nearest-neighbor span দিয়ে adaptive bandwidth); EDA-তে মসৃণ trend-curve আঁকতে বহুল-ব্যবহৃত 5.7
log link Poisson GLM-এর canonical link \(g(\mu)=\log\mu=x^\top\beta\); দুটো সুবিধা — (i) positivity (\(\mu=e^{(\cdot)}>0\) সর্বদা), (ii) predictor-প্রভাব mean count-এ multiplicative (\(\mu=e^{\beta_0}\prod_j e^{\beta_j x_j}\)) 5.5
log-likelihood data-র likelihood-এর logarithm; MLE-তে maximize করা হয় 0.3
log-likelihood curvature log-likelihood-এর দ্বিতীয় অন্তরকলজ \(\ell''(\theta)\)-এর ঋণ; তীক্ষ্ণ চূড়া = বড় curvature = বেশি Fisher information (Figure 1) 4.5
log-likelihood surface একাধিক প্যারামিটারে \(\ell\)-এর গ্রাফ — Normal\((\mu,\sigma^2)\)-এ একটা single-peak পাহাড়, শীর্ষ ঠিক \((\bar X,\hat\sigma^2)\)-তে; MLE = শীর্ষ (Figure 2) 4.3
log-odds \(g(p)=\log\!\big(p/(1-p)\big)\); sample proportion-এ Delta method-এর ক্লাসিক প্রয়োগ, \(\operatorname{Var}\approx 1/(n\,p(1-p))\) 3.4
log-sum problem mixture log-likelihood \(\sum_i\log\sum_k\pi_k\mathcal N_k\)-এ \(\log\)-এর ভেতরে যোগফল থাকায় \(\log\)\(\exp\) বাতিল হয় না, derivative-সমীকরণ coupled/nonlinear — তাই একক Gaussian-এর মতো closed-form MLE নেই, EM লাগে 6.7
logistic regression binary outcome (\(y\in\{0,1\}\))-এর জন্য GLM: log-odds-কে \(x^\top\beta\)-র রৈখিক ধরে MLE দিয়ে fit; পূর্বাভাস \(p=\sigma(x^\top\beta)\in(0,1)\) 5.4
logit link GLM link \(g(p)=\operatorname{logit}(p)=\log\frac{p}{1-p}=\eta\); probability-কে \((-\infty,\infty)\)-তে টেনে আনে, Bernoulli-র canonical link 5.4
LOOCV bandwidth selection leave-one-out cross-validation দিয়ে tuning parameter বাছা: প্রতিটা \(x_i\)-তে নিজেকে বাদ দিয়ে predict করে held-out error হিসাব, যে \(h\) তা minimize করে সেটিই বাছা; সত্য \(f\) ছাড়াই data-চালিত — চলমান উদাহরণে \(h\approx0.03\); পূর্ণ কাঠামো ৫.৮ 5.7
loss function (\(\ell\)) একটি prediction কত "খারাপ" তা মাপে — \(\ell(h(x),y)\) (যেমন squared-error \((h(x)-y)^2\), 0–1 loss); risk ও empirical risk এর গড় থেকেই গঠিত 6.1
LOTUS law of the unconscious statistician: \(\mathbb{E}[g(X)]=\sum g(x)p(x)\) বা \(\int g(x)f(x)dx\) 2.5
Lévy's 0–1 law \(A\in\mathcal F_\infty\) হলে \(\mathbb P(A\mid\mathcal F_n)=\mathbb E[\mathbf 1_A\mid\mathcal F_n]\to\mathbf 1_A\) a.s. — শর্তাধীন সম্ভাবনা \(0\)/\(1\)-এ থিতু; Kolmogorov's 0–1 law-কেও পুনঃপ্রমাণ করে 7.9
Lévy's continuity theorem \(X_n\Rightarrow X\iff\varphi_{X_n}(t)\to\varphi_X(t)\) প্রতিটি \(t\)-তে (সীমা-\(\varphi\) \(0\)-তে অবিচ্ছিন্ন ⇒ tight); কঠিন weak convergence-কে সহজ pointwise cf-অভিসরণে অনুবাদকারী সেতু, CLT-প্রমাণের মুকুট-যন্ত্র 7.10
Lévy's upward theorem \(Y\in L^1\), \(\mathcal F_\infty=\sigma(\bigcup_n\mathcal F_n)\) হলে \(\mathbb E[Y\mid\mathcal F_n]\to\mathbb E[Y\mid\mathcal F_\infty]\) a.s. ও \(L^1\) — "তথ্য জমলে অনুমান চূড়ান্ত-তথ্যের অনুমানে থিতু"; closed-martingale তত্ত্বের সরাসরি ফল 7.9
MAD median absolute deviation; median থেকে পরম দূরত্বের median (robust) 1.2
Mahalanobis distance covariance-ভারিত দূরত্ব \((x-\mu_c)^\top\Sigma_c^{-1}(x-\mu_c)\); LDA/QDA discriminant-এর কেন্দ্রীয় পদ — শুধু কেন্দ্র থেকে দূরত্ব নয়, শ্রেণির আকার/ছড়ানোও হিসাবে নেয়; QDA-তে \(\log\lvert\Sigma_c\rvert\)-সহ ব্যবহৃত হয়ে বড়-spread শ্রেণিকে "শাস্তি" দেয় 6.3
main effect একটি factor-এর গড় প্রভাব, অন্য factor-এর সব level জুড়ে averaged ("fertilizer পাল্টালে গড়ে ফলন কত বদলায়") 5.3
manifold উচ্চ-মাত্রিক ambient space-এর ভেতরে বসে থাকা একটা মসৃণ, স্থানীয়ভাবে-সমতল নিম্ন-মাত্রিক উপরিতল (যেমন ৩D-তে পেঁচানো ২D চাদর = swiss roll); manifold-এর গায়ে চলতে যত স্বাধীন স্থানাঙ্ক লাগে তা-ই তার intrinsic dimension \(d\) 6.8
manifold assumption semi-supervised অনুমান: data একটা নিম্ন-মাত্রিক বাঁকা manifold-এ বসে, label সেই manifold বরাবর মসৃণভাবে বদলায় (Euclidean-এ কাছে নয়, manifold-এ কাছে যা গুরুত্বপূর্ণ); ৬.৮-এর manifold/neighbor-graph চিন্তার সরাসরি প্রয়োগ 6.9
manifold hypothesis দাবি: বাস্তব উচ্চ-মাত্রিক (\(D\)) data পূর্ণ \(\mathbb R^D\) জুড়ে ছড়ানো নয়, বরং একটা অনেক-কম-মাত্রিক (\(d\ll D\)) মসৃণ manifold-এর কাছাকাছি কেন্দ্রীভূত; এই অনুমানই nonlinear dimensionality reduction-কে অর্থপূর্ণ করে (swiss roll: \(D=3,\ d=2\)) 6.8
manifold learning data একটা বাঁকা নিম্ন-মাত্রিক manifold-এ বসে — এই অনুমানে সেই manifold ও তার নিম্ন-মাত্রিক স্থানাঙ্ক শেখার unsupervised পদ্ধতির পরিবার (Isomap, LLE, t-SNE, Laplacian eigenmap প্রভৃতি); প্রতিবেশ-গঠনকে নিম্ন-মাত্রায় বহন করে 6.8
MAP estimate \(\hat\theta_{\text{MAP}}\) \(\hat\theta_{\text{MAP}}=\arg\max_\theta p(\theta\mid\text{data})\) — posterior-এর শিখর (mode); flat prior-এ \(=\) MLE; informative prior = regularization (Figure 1: \(0.68\), §৭ Q4, Q11) 4.10
mapping notation \(f:A\to B,\ x\mapsto f(x)\) লেখার রীতি 0.1
margin দুই শ্রেণির মধ্যবর্তী "রাস্তার প্রস্থ" — canonical scale-এ geometric margin \(=2/\lVert w\rVert\); SVM এটি সর্বোচ্চ করে, যা \(\tfrac12\lVert w\rVert^2\) সর্বনিম্নকরণের সমতুল্য 6.4
margin of error \(m=z_{\alpha/2}\,\mathrm{SE}\) — interval-এর কেন্দ্র থেকে প্রান্তের দূরত্ব (অনিশ্চয়তার ব্যাসার্ধ); CI \(=\hat\theta\pm m\) 4.6
marginal distribution joint থেকে এক variable-এর ওপর যোগ/integrate করে পাওয়া একক distribution 2.6
marginal likelihood (evidence) \(\int\pi(\theta)L(\theta)\,d\theta\) — Bayes' rule-এর হর (normalizing constant); \(\propto\) লেখায় সাধারণত বাদ দেওয়া হয় 4.10
Markov chain states-এর উপর একটা random process \(X_0,X_1,\dots\) যেখানে পরের state-এর distribution শুধু এখনকার state-এর উপর নির্ভর করে; transition matrix \(P\) ও শুরুর distribution \(\mu_0\) দিয়ে সম্পূর্ণ বর্ণিত (E1 আবহাওয়া-chain) 3.6
Markov inequality nonnegative \(X\), \(a>0\): \(P(X\ge a)\le\mathbb{E}[X]/a\); শুধু গড় থেকে tail-এর সর্বজনীন ছাদ 3.1
Markov property "memorylessness": \(P(X_{n+1}=j\mid X_n=i,X_{n-1},\dots,X_0)=P(X_{n+1}=j\mid X_n=i)\) — ভবিষ্যৎ বর্তমানের উপর শর্তে অতীত থেকে স্বাধীন; অতীতের দরকারি সব তথ্য বর্তমান state-এ ধরা 3.6
martingale integrable, adapted \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\) a.s. — "ন্যায্য খেলা" (আজ পর্যন্ত সব তথ্যে আগামীকালের সেরা পূর্বাভাস = আজকের মান); বায়াসহীন, কিন্তু নিশ্চল নয় 7.8
martingale convergence theorem \(L^1\)-bounded (\(\sup_n\mathbb E\lvert X_n\rvert<\infty\)) submartingale/martingale a.s. একটা \(X_\infty\in L^1\)-এ অভিসারী; Doob's forward convergence theorem 7.9
martingale difference increment \(D_n=X_n-X_{n-1}\) যেখানে \(\mathbb E[D_n\mid\mathcal F_{n-1}]=0\) — martingale-এর "ধাপ"; \(\mathbb E[X_n]=\mathbb E[X_0]\) ও martingale transform-এর মৌলিক উপাদান (SGD-র noise-অংশ) 7.8
martingale transform \((H\cdot X)_n=\sum_{k\le n}H_k(X_k-X_{k-1})\), \(H\) predictable ও bounded — আবার একটা martingale; "predictable কোনো বাজি-কৌশল ন্যায্য খেলা হারাতে পারে না" (pull-out দিয়ে প্রমাণ) 7.8
mathematical induction base case + inductive step দিয়ে সব \(n\)-এর জন্য প্রমাণ 0.1
matplotlib Python-এর মূল plotting/গ্রাফ প্যাকেজ 0.6
matrix সংখ্যার আয়তাকার ছক (\(m\times n\)) 0.5
matrix multiplication দুই matrix-এর গুণ; প্রতি entry = row·column dot product 0.5
maximization step (M-step) EM-এর দ্বিতীয় ধাপ — responsibility স্থির রেখে expected complete-data log-likelihood (\(Q\)) maximize: \(\pi_k=\frac1n\sum_i\gamma_{ik}\), \(\mu_k=\frac{\sum_i\gamma_{ik}x_i}{\sum_i\gamma_{ik}}\), \(\Sigma_k\) = weighted covariance; একটা responsibility-weighted Gaussian-MLE (৪.৩-এর সম্প্রসারণ) 6.7
maximum (order statistic) \(X_{(n)}=\max_i X_i\); CDF \([F(x)]^n\) 2.7
maximum likelihood estimation (MLE) estimation পদ্ধতি: যে প্যারামিটার-মান observed data-কে সবচেয়ে সম্ভাব্য করে, সেটাই বেছে নেওয়া — অর্থাৎ likelihood \(L(\theta)\) (বা log-likelihood) সর্বোচ্চ করা (Figure 1) 4.3
maximum likelihood estimator \(\hat\theta_{\text{MLE}}=\arg\max_\theta L(\theta)=\arg\max_\theta\ell(\theta)\) — likelihood-কে সর্বোচ্চকারী প্যারামিটার-মান; E1: \(\bar X\), E3: \(1/\bar X\), E4: \(\max_i X_i\) 4.3
maximum margin classifier যে hyperplane দুই শ্রেণির নিকটতম বিন্দু থেকে সম্ভাব্য সর্বোচ্চ লম্ব-দূরত্বে (widest "street") থাকে; অসংখ্য শূন্য-ভুল boundary-র মধ্যে সবচেয়ে স্থিতিশীলটা বাছাই ⇒ ভালো generalization; SVM-এর মূল ধারণা 6.4
MCAR Missing Completely At Random; অনুপস্থিতি সম্পূর্ণ এলোমেলো, কোনো variable-এর সাথে যুক্ত নয় 1.5
McFadden pseudo-R² \(R^2_{\text{McF}}=1-\ell/\ell_0\); null-এর তুলনায় log-likelihood-উন্নতির আপেক্ষিক পরিমাপ (variance-ব্যাখ্যা নয়), OLS-\(R^2\)-এর চেয়ে ছোট দেখায় (এখানে \(0.489\)) 5.4
MCMC Markov Chain Monte Carlo — এমন Markov chain বানিয়ে নমুনা তোলা যার stationary distribution ঠিক কাঙ্ক্ষিত (প্রায়ই দুর্নিরূপণযোগ্য) target; chain-এর পথটাই নমুনা 3.6
MCMC (Markov chain Monte Carlo) non-conjugate posterior থেকে নমুনা টানার পদ্ধতি (3.6); নমুনার histogram-ই আনুমানিক posterior, summaries নমুনার গড়/percentile (Figure 4, §৭ Q14) 4.10
mean সব মানের গড় (যোগফল ÷ সংখ্যা); data-র ভারসাম্য বিন্দু 1.2
mean function \(m(t)=\mathbb{E}[X_t]\); প্রতিটি সময়ে process-এর গড় স্তর — process-এর "কেন্দ্ররেখা" 3.5
mean lifetime (1/λ) Exponential-এ গড় আয়ু \(\tau=1/\lambda\); invariance দিয়ে এর MLE \(\hat\tau=1/\hat\lambda=\bar X\) — কোনো নতুন গণনা ছাড়াই 4.3
mean square (MS) \(\mathrm{MS}=\mathrm{SS}/df\) — degrees of freedom দিয়ে scale করা variation; \(\mathrm{MSB}=\mathrm{SSB}/(k-1)\), \(\mathrm{MSW}=\mathrm{SSW}/(n-k)\), প্রতিটি \(\sigma^2\)-এর estimate 5.3
mean squared error (MSE) \(\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]\) — গড় বর্গ-ভুল; estimator-এর মান বিচারের চূড়ান্ত মাপকাঠি 4.4
mean-square convergence \(L^p\) convergence-এর \(p=2\) রূপ; \(\mathbb{E}\lvert X_n-X\rvert^2\to 0\) (MSE \(\to 0\)) 3.2
measurable function (preview) যে function \(f\)-এ প্রতিটি Borel set-এর preimage \(f^{-1}(B)\) measurable — random variable-এর সঠিক সংজ্ঞা, যা Lebesgue integral সম্ভব করে; নির্মাণ 7.3-এ 7.1
measurable map চিত্রণ \(f:(\Omega,\mathcal F)\to(E,\mathcal E)\) যা measurable iff প্রতিটি target-set-এর preimage source-σ-algebra-তে থাকে: \(f^{-1}(B)\in\mathcal F\) সব \(B\in\mathcal E\)-র জন্য; এতেই "\(f\) সম্পর্কে তোলা প্রশ্নের উত্তর measurable" নিশ্চিত হয় 7.3
measurable set যে set একটা প্রদত্ত \(\sigma\)-algebra \(\mathcal F\)-এর সদস্য (তাই measure পায়); Lebesgue-এ ঠিক Carathéodory-criterion-মানা set-রা — Vitali set যেমন non-measurable, তাই বাদ 7.2
measurable space একটা জোড়া \((\Omega,\mathcal F)\) — নমুনাক্ষেত্র \(\Omega\) ও তার উপর একটা \(\sigma\)-algebra \(\mathcal F\); যেখানে measure বসানো যায়, কিন্তু এখনো বসানো হয়নি 7.2
measure একটা set-কে "কত বড়" (দৈর্ঘ্য/ক্ষেত্রফল/probability) তা বরাদ্দ করা function \(\mu\); অশূন্যতা, \(\mu(\varnothing)=0\) ও countable additivity মেনে চলে — দৈর্ঘ্য-ধারণার সাধারণীকরণ 7.1
measure zero / null set এমন set \(A\) যার outer measure \(0\): যেকোনো \(\varepsilon>0\)-এ মোট দৈর্ঘ্য \(\le\varepsilon\)-এ ঢাকা যায়; \(\mathbb Q\cap[0,1]\) ও Cantor set উদাহরণ — dense বা uncountable হয়েও null 7.1
median sorted data-র মাঝের মান (৫০তম percentile); robust location 1.2
median (continuous) \(F(m)=0.5\); দু'পাশে সমান area 2.4
memoryless property স্মৃতিহীন ধর্ম — \(P(X>s+t\mid X>s)=P(X>t)\); Geometric-এর স্বাক্ষর 2.3
memorylessness \(P(X>s+t\mid X>s)=P(X>t)\); অতীত ভবিষ্যৎ বদলায় না (শুধু Exponential) 2.4
Mercer's condition একটি \(K\)-কে valid kernel হতে হলে symmetric এবং যেকোনো বিন্দু-সেটের gram matrix \(K_{ij}=K(x_i,x_j)\) positive semi-definite (PSD) হতে হবে; এটি \(K(x,x')=\phi(x)^\top\phi(x')\) রূপে কোনো feature map \(\phi\)-এর অস্তিত্ব নিশ্চিত করে (প্রয়োজনীয় ও যথেষ্ট শর্ত) 6.4
mesokurtic normal-সদৃশ kurtosis (excess = 0) 2.5
method of moments (MoM) estimation পদ্ধতি: population moment-এর তাত্ত্বিক সূত্রকে নমুনা-moment-এর সমান ধরে প্যারামিটারের জন্য সমাধান করা; \(p\) প্যারামিটারে প্রথম \(p\)টা moment মেলানো হয় (Figure 1) 4.2
method selection (manifold) কোন nonlinear পদ্ধতি — geodesic/সঠিক global unrolling চাইলে Isomap (এই manifold-এ সেরা, \(T\) ও corr \(1.000\)); local-linear যথেষ্ট হলে LLE; কেবল visualization/cluster দেখতে t-SNE/UMAP (global দূরত্ব অবিশ্বাস্য); feature-space-সাধারণীকরণে kernel PCA; মন্ত্র — local ও global দুই-ই যাচাই 6.8
Metropolis algorithm প্রতিসম proposal-সহ MCMC: \(x'\) প্রস্তাব করো, তারপর \(\min(1,f(x')/f(x))\) সম্ভাবনায় accept করো; detailed balance নিশ্চিত করে target-ই stationary 3.6
Metropolis–Hastings Metropolis-এর সাধারণ রূপ (asymmetric proposal \(q\)): accept-probability \(\min\!\big(1,\frac{f(x')q(x\mid x')}{f(x)q(x'\mid x)}\big)\) — proposal-এর পক্ষপাত সংশোধন করে detailed balance রাখে 3.6
MGF uniqueness একই MGF মানে একই distribution; distribution-এর fingerprint 2.5
minimax rate একটা estimation-সমস্যার সর্বোত্তম-সম্ভব অভিসারণ-হার — সবচেয়ে-খারাপ-ক্ষেত্রে (worst-case) ঝুঁকি ন্যূনতমকারী estimator-এর হার, যার চেয়ে ভালো কোনো পদ্ধতি করতে পারে না; প্রায়ই তথ্য-তাত্ত্বিক (Fano/Le Cam) যুক্তিতে প্রমাণিত 8.4
minimum (order statistic) \(X_{(1)}=\min_i X_i\); CDF \(1-[1-F(x)]^n\) 2.7
Minkowski's inequality \(\lVert f+g\rVert_p\le\lVert f\rVert_p+\lVert g\rVert_p\); ত্রিভুজ-অসমতা যা \(\lVert\cdot\rVert_p\)-কে প্রকৃত norm বানায়, Hölder দিয়ে প্রমাণিত 7.5
missing value data-র ফাঁকা/অনুপস্থিত ঘর (NaN) 1.5
mixed-effects model একই model-এ fixed effect (সব গোষ্ঠীতে অভিন্ন population-প্যারামিটার) ও random effect (গোষ্ঠী-ভিত্তিক, একটা distribution থেকে আসা বিচ্যুতি) মেশানো; clustered/nested data-র জন্য \(y_{ij}=\beta_0+\beta_1x_{ij}+u_j+\varepsilon_{ij}\) — "mixed" কারণ দুই ধরনের প্রভাব একসাথে 5.6
mixing chain কত দ্রুত state-space explore করে; ভালো mixing = কম autocorrelation; খুব ছোট বা খুব বড় proposal step-এ poor mixing হয় 3.6
mixing (MCMC) chain কত দ্রুত গোটা posterior চষে বেড়ায়; ভালো mixing = trace দ্রুত ওঠানামা করে, এক জায়গায় আটকে থাকে না (Figure 4) 4.10
mixing weight GMM-এ component \(k\)-এর prior/জনসংখ্যা-অনুপাত \(\pi_k\ge0\), \(\sum_k\pi_k=1\); M-step-এ \(\pi_k=\frac1n\sum_i\gamma_{ik}\) (effective count-এর ভগ্নাংশ)। canonical আনুমানিক \([0.405,0.349,0.246]\) (প্রকৃত \([0.40,0.35,0.25]\)) 6.7
mixture model density-কে কয়েকটা সরল distribution-এর ওজনিত যোগফল হিসেবে লেখা — \(p(x)=\sum_k\pi_k\,p_k(x)\); প্রতিটি component একটা subpopulation, \(\pi_k\) তার অনুপাত। latent component-label সহ একটা generative model 6.7
ML vs REML সাধারণ ML variance-কে biased-low দেয় (df-খরচ উপেক্ষা); REML unbiased। নিয়ম: ভিন্ন fixed-structure তুলনা (likelihood-ratio) করতে ML (REML-likelihood fixed-নির্ভর, তুলনাযোগ্য নয়), ভিন্ন variance/random-structure তুলনায় REML 5.6
MLE variance estimator \(\hat\sigma^2\) \(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2=\frac{n-1}{n}S^2\) — biased low (bias \(=-\sigma^2/n\)) কিন্তু consistent; ছোট \(n\)-এ প্রায়ই কম MSE 4.4
MLE vs MoM দুই estimation-নীতি: MLE data-কে সবচেয়ে সম্ভাব্য করে, MoM moment মেলায়; কখনো একই (Exp: দুটোই \(1/\bar X\)), কখনো ভিন্ন (Uniform: \(\max\) বনাম \(2\bar X\)); MLE প্রায়ই বেশি efficient ও সর্বদা বৈধ (Figure 3, 4) 4.3
MLE-based confidence interval বড় নমুনায় MLE \(\hat\theta\approx\mathcal{N}(\theta,\widehat{\mathrm{se}}^2)\) ব্যবহার করে Wald CI; proportion-CI এর বিশেষ ঘটনা (E4) 4.6
modality distribution-এ স্থানীয় শৃঙ্গের (peak) সংখ্যা 1.3
mode data-য় সবচেয়ে বেশিবার আসা মান 1.2
mode (continuous) density curve-এর সর্বোচ্চ বিন্দু (শৃঙ্গ) 2.4
model card model-এর সৎ সারপত্র — উদ্দেশ্য, ব্যবহৃত data, uncertainty-সহ performance (AUC \(\approx0.99\pm0.008\)), এবং limitation (perfect separation, single-center data, class imbalance, বাইরের population-এ generalization প্রশ্নবিদ্ধ) স্পষ্টভাবে নথিভুক্ত করা 8.1
model selection কয়েকটি প্রতিদ্বন্দ্বী মডেল থেকে "সেরা" বাছার প্রক্রিয়া; মাপকাঠি — adjusted \(R^2\), AIC, BIC, বা cross-validation; কাঁচা \(R^2\) অযোগ্য কারণ তা predictor যোগে কখনো কমে না 5.2
modulus bound \(\lvert\varphi_X(t)\rvert\le\varphi_X(0)=1\) প্রতিটি \(t\)-তে; যেহেতু \(\lvert e^{itX}\rvert=1\), ত্রিভুজ-অসমতার integral-রূপে \(\lvert\mathbb E[e^{itX}]\rvert\le\mathbb E\lvert e^{itX}\rvert=1\)\(\varphi\) unit disk-এ আবদ্ধ 7.10
MoM estimator moment equations সমাধান করে পাওয়া estimator \(\hat\theta_{\text{MoM}}\); E2: \(1/\bar X\), E3: \(2\bar X\), E1 Normal: \((\bar X,\ \frac1n\sum(X_i-\bar X)^2)\) 4.2
moment distribution-আকৃতির পরিমাপক; \(\mathbb{E}[X^k]\)-ভিত্তিক 2.5
moment equations MoM-এর কেন্দ্রীয় সমীকরণ-সেট \(\mu_k'(\theta)=\hat\mu_k'\) (\(k=1,\dots,p\)); এগুলো \(\theta\)-এর জন্য সমাধান করে \(\hat\theta_{\text{MoM}}\) পাওয়া যায় 4.2
moment factory MGF-এর ডাকনাম; \(M^{(k)}(0)=\mathbb{E}[X^k]\) 2.5
moment generating function (MGF) \(M_X(t)=\mathbb E[e^{tX}]\); বিদ্যমান হলে distribution অনন্যভাবে নির্ধারণ করে, CLT-র একটা স্বচ্ছ প্রমাণে ব্যবহৃত 3.4
moment matching sample moment ও population moment-কে সমান করার ক্রিয়া — MoM-এর সারমর্ম; যে moment মেলানো হয় শুধু সেটাই হুবহু মেলে (Figure 1) 4.2
moment-generating function MGF: \(M_X(t)=\mathbb{E}[e^{tX}]\); moment ও sum-এ কাজে লাগে 2.5
moments from derivatives \(\mathbb E\lvert X\rvert^k<\infty\Rightarrow\varphi\in C^k\)\(\varphi^{(k)}(0)=i^k\mathbb E[X^k]\); বিশেষত \(\varphi'(0)=i\mathbb E[X]\) এবং \(\varphi''(0)=-\mathbb E[X^2]\) (চিহ্ন \(i^2=-1\) থেকে) — \(\varphi\)-এর \(0\)-আচরণ moment ধরে 7.10
monotone / dominated convergence (preview) MCT/DCT — শর্তসাপেক্ষে \(\lim\int f_n=\int\lim f_n\) অনুমতি দেয়; moving-spike-এ (C4) integrable dominating function না থাকায় swap ব্যর্থ, পূর্ণ বিবৃতি 7.4-এ 7.1
Monotone Convergence Theorem MCT; \(0\le f_n\uparrow f\Rightarrow\int f_n\uparrow\int f\) — limit ও integral অদলবদল, এই অধ্যায়ের ভিত্তিপ্রস্তর 7.4
monotone function কঠোরভাবে বাড়ন্ত বা হ্রাসমান function (invertible) 2.7
monotonic relationship একমুখী সম্পর্ক (\(x\) বাড়লে \(y\) সবসময় বাড়ে/কমে), বাঁকা হলেও 1.4
monotonicity \(A\subseteq B \Rightarrow P(A)\le P(B)\) 2.1
monotonicity of conditional expectation \(X\le Y\) a.s. \(\Rightarrow\mathbb E[X\mid\mathcal G]\le\mathbb E[Y\mid\mathcal G]\) a.s.; বিশেষে \(X\ge0\Rightarrow\mathbb E[X\mid\mathcal G]\ge0\) — conditional Jensen ও convergence theorem-এর ভিত্তি 7.7
monotonicity of integral \(f\le g\) (প্রায় সর্বত্র) \(\Rightarrow\int f\,d\mu\le\int g\,d\mu\); Fatou ও বহু সীমা-যুক্তির মৌলিক হাতিয়ার 7.4
Monte Carlo random নমুনা টেনে কোনো প্রত্যাশা/integral আনুমান করার পদ্ধতি; নমুনা স্বাধীন হলে সরল Monte Carlo 3.6
Monte Carlo integration \(\int g\,dF\approx\frac1n\sum g(X_i)\); high-dimensional integral-এ প্রধান কৌশল 3.3
Monte Carlo method random নমুনার গড় দিয়ে integral/expectation আনুমান: \(\frac1n\sum g(X_i)\to\mathbb E[g(X)]\); LLN-নির্ভর 3.3
Monte Carlo simulation random নমুনা দিয়ে probability/expectation আনুমানিক করার কৌশল 2.7
Monte-Carlo error সসীম \(B\) (বা \(P\)) ব্যবহারে resampling-আঁচে অবশিষ্ট এলোমেলোতা; \(B\) বাড়ালে কমে, প্রকৃত লক্ষ্য-রাশি বদলায় না (Figure 1) 4.9
Monte-Carlo estimate of measure uniform নমুনার set-এ পড়া ভগ্নাংশ দিয়ে \(\lambda(A)\) আনুমান: \(\lambda([0,0.3]\cup[0.5,0.9])\approx0.7003\) (\(N=10^6\), seed default_rng(20260619), সত্য \(0.7\)) 7.1
Monte-Carlo simulation বহু কৃত্রিম নমুনা তৈরি করে (repeated random draws) কোনো statistic-এর আচরণ বা সীমাকে সংখ্যায় আনুমান করার পদ্ধতি; তত্ত্ব ও কোড—দুটোই একসঙ্গে যাচাইয়ের যন্ত্র, যেখানে জানা তাত্ত্বিক ফল সিমুলেশনে পুনরুৎপাদন করে বিশ্বাসযোগ্যতা প্রতিষ্ঠা করা হয় 8.2
Monte-Carlo standard error সিমুলেশন-আনুমানের নিজস্ব অনিশ্চয়তা, যা তত্ত্ব নয় বরং সীমিত \(R\) থেকে আসে; গড়ের জন্য \(\approx s/\sqrt R\), অনুপাতের জন্য \(\sqrt{p(1-p)/R}\) (E2-তে coverage \(0.9130\), \(R=2000\) \(\Rightarrow\) MC SE \(0.0063\)); ফলের সঙ্গে এটি রিপোর্ট করা আবশ্যক 8.2
mosaic plot contingency table-এর চিত্র, যেখানে টালির ক্ষেত্রফল যৌথ অনুপাতের সমানুপাতিক 1.4
most powerful test প্রদত্ত \(\alpha\)-তে সর্বোচ্চ power-ওয়ালা test; NP lemma অনুসারে LRT (Figure 3-এর সর্বোচ্চ সম্ভাব্য curve) 4.7
moving spike \(f_n=n\,\mathbf 1_{(0,1/n)}\); \(f_n\to0\) পয়েন্টওয়াইজ অথচ \(\int f_n=1\) — DCT-এর dominator প্রকল্প ও Fatou-এর কঠোরতা দেখানোর কেন্দ্রীয় প্রতি-উদাহরণ 7.4
multicollinearity দুটি predictor variable-এর মধ্যে খুব জোরালো correlation (প্রায় একই তথ্য বহন) 1.5
multidimensional scaling (MDS) শুধু জোড়া-দূরত্ব থেকে নিম্ন-মাত্রিক স্থানাঙ্ক পুনরুদ্ধারের পদ্ধতি: squared-distance \(\Delta\)-তে double-centering করে Gram \(B=-\tfrac12 H\Delta H\), তার শীর্ষ-\(d\) eigenvector embedding দেয়; Euclidean দূরত্বে MDS \(=\) PCA, শক্তি — যেকোনো দূরত্ব-matrix নিতে পারা 6.8
multinomial coefficient \(n\)টি জিনিসকে \(r\) দলে ভাগের উপায় \(n!/(k_1!\cdots k_r!)\) 0.2
multiple comparisons problem একসাথে অনেক জোড়া-test চালালে family-wise error জমে বাড়ে — ANOVA একটি global \(F\) দিয়ে তা এড়ায় 5.3
multiple linear regression একাধিক predictor-এর regression, \(\hat y=\beta_0+\beta_1 x_1+\dots+\beta_{p-1}x_{p-1}\) 5.1
multiplication principle পরপর ধাপের ("and") option সংখ্যাকে গুণ করে মোট উপায় গোনা 0.2
multiplication rule joint probability \(P(A\cap B)=P(B)P(A\mid B)\) 2.2
multiplication rule (density) \(f_{X,Y}(x,y)=f_{Y\mid X}(y\mid x)\,f_X(x)\) 2.6
mutual vs pairwise independence পারস্পরিক (mutual): প্রতিটি উপসেটে \(\mathbb P(\bigcap_{i\in I}A_i)=\prod_{i\in I}\mathbb P(A_i)\); জোড়ায় (pairwise): কেবল সব জোড়ায় — pairwise থেকে mutual আসে না (XOR-coin প্রতিউদাহরণ) 7.6
mutually exclusive দুই event একসাথে ঘটতে পারে না; \(A\cap B=\varnothing\) (disjoint) 2.1
mutually singular \(\nu\perp\mu\): \(\Omega\)-কে দুই ভাগে ভাঙা যায় যাতে একটিতে \(\mu\), অন্যটিতে \(\nu\) পুরো ভর রাখে (পরস্পর-বিচ্ছিন্ন support) 7.5
\(n\)-step transition \((P^n)_{ij}\) — ঠিক \(n\) ধাপে \(i\) থেকে \(j\)-তে পৌঁছানোর সম্ভাবনা; \(n\)-ধাপ transition matrix হলো ম্যাট্রিক্স-ঘাত \(P^n\) 3.6
n_estimators ensemble-এ গাছের সংখ্যা \(B\); বাড়ালে gain দ্রুত উঠে floor-এ স্যাচুরেট করে, কখনো overfit করায় না (variance↓ বা স্থির, bias প্রায় অপরিবর্তিত)। canonical RF: \(1\to0.711\), \(5\to0.806\), \(25\to0.844\), \(300\to0.839\) 6.5
Nadaraya–Watson estimator সরলতম kernel regression: \(\hat f(x)=\dfrac{\sum_i K_h(x-x_i)\,y_i}{\sum_i K_h(x-x_i)}=\sum_i w_i(x)y_i\)\(y\)-গুলোর স্থানীয় weighted average (\(\sum_i w_i(x)=1\)); box kernel-এ এটি local mean (window-গড়) 5.7
Naive Bayes generative classifier যা conditional independence ধরে: \(P(x\mid y)=\prod_j P(x_j\mid y)\); উচ্চ-মাত্রায়ও অল্প parameter (low variance); feature correlated হলে biased কিন্তু \(\arg\max\) ঠিক থাকায় তবু কার্যকর; GaussianNB প্রতিটি \(P(x_j\mid y)\)-কে Gaussian ধরে; canonical \(0.904\) 6.3
natural cubic spline cubic regression spline যাতে দুই প্রান্তের বাইরে \(f\) রৈখিক (\(f''=0\) boundary-তে); এই শর্ত প্রান্তের উচ্চ-ঘাত ওঠানামা বন্ধ করে boundary-variance কমায়; একই knot-এ সাধারণ cubic spline-এর চেয়ে কম effective df; smoothing spline-এর সমাধান-শ্রেণি 5.7
natural filtration একটা প্রক্রিয়ার নিজের তৈরি filtration \(\mathcal F_n=\sigma(X_0,\dots,X_n)\) — "এ-পর্যন্ত দেখা সব \(X\)-এর তথ্য"; স্বয়ংক্রিয়ভাবে বর্ধমান, আর এতে \((X_n)\) আপনাআপনি adapted 7.8
negation \(\neg P\): "not \(P\)" 0.1
Negative Binomial distribution \(r\)-তম success পেতে trial-সংখ্যা; mean \(r/p\); overdispersed count 2.3
negative binomial regression overdispersion-প্রতিকার: variance \(\operatorname{Var}=\mu+\alpha\mu^2\) (quadratic), Gamma-mixed Poisson; full likelihood ⇒ AIC তুলনাযোগ্য; \(\alpha\to0\)-তে Poisson-এ ফেরে; উদাহরণে \(\alpha=0.179\), AIC \(1753.3\) (Poisson \(2237.9\), \(\Delta\approx485\)) 5.5
negative part \(f^-=\max(-f,0)\); ফাংশনের ঋণাত্মক অংশের অঋণাত্মক রূপ, \(\lvert f\rvert=f^++f^-\) 7.4
neighbor graph প্রতিটি বিন্দুকে তার \(k\) নিকটতম প্রতিবেশীর সাথে edge দিয়ে জোড়া graph (edge-ওজন = local Euclidean দূরত্ব); Isomap-এ geodesic-আনুমানের ভিত্তি (shortest path), LLE/t-SNE-তে local গঠনের ভিত্তি; ৬.৭-এর kNN/দূরত্বের উপর দাঁড়ায় 6.8
nested models একটি মডেল অন্যটির predictor-সেটের উপসেট; nested হলে SSE-তুলনা (partial \(F\)) বৈধ, এবং বড় মডেলের SSE কখনো ছোটটির চেয়ে বেশি নয় 5.2
Newton–Raphson (logistic) \(\beta^{(t+1)}=\beta^{(t)}+(X^\top WX)^{-1}X^\top(y-p)\); Hessian \(-X^\top WX\) ব্যবহার করে iteratively MLE-তে converge (৪.৩) 5.4
Neyman–Pearson lemma simple-vs-simple-এ most powerful level-\(\alpha\) test হলো likelihood-ratio test: reject if \(\Lambda=L(\theta_1)/L(\theta_0)>k\) (E4, §৭ Q11) 4.7
no pooling প্রতিটা গোষ্ঠীর সম্পূর্ণ আলাদা স্বাধীন regression (\(J\)টা পৃথক intercept, শেয়ার নেই); ছোট গোষ্ঠীতে (\(n_j=10\)) noisy/overfit estimate, চরম মান বেরিয়ে আসে 5.6
no-free-lunch theorem সব সম্ভাব্য problem-এর উপর গড়ে কোনো learner অন্যকে হারাতে পারে না; তাই কোনো universal-শ্রেষ্ঠ algorithm নেই — generalization-এর জন্য problem সম্পর্কে অনুমান (inductive bias) অপরিহার্য 6.1
nominal ক্রমহীন categorical data (রং, শহর); "বড়/ছোট" অর্থহীন 1.1
non-asymptotic bound নির্দিষ্ট সসীম \(n\)-এর জন্য বৈধ bound (limit ছাড়াই); finite-sample গ্যারান্টি 3.1
non-measurable set যে set-কে কোনো সুসংগত translation-invariant, countably-additive measure দেওয়াই যায় না (যেমন Vitali \(V\)); এদের বাদ দিতেই domain-কে \(\sigma\)-algebra-তে সীমিত করা হয় 7.1
non-negativity (Axiom 1) \(P(A)\ge 0\) 2.1
nonlinear dimensionality reduction উচ্চ-মাত্রিক data-কে অল্প-মাত্রায় (\(d\ll D\)) নামানোর অরৈখিক কৌশল, যা বাঁকা manifold-গঠন রক্ষা করে — linear PCA-র (৫.৯) সীমা পেরিয়ে; canonical swiss roll-এ PCA ব্যর্থ (\(\lvert\text{corr}\rvert=0.165\)), Isomap সফল (\(1.000\)) 6.8
nonnegative supermartingale convergence \(X_n\ge0\) supermartingale স্বয়ংক্রিয়ভাবে \(L^1\)-bounded (\(\mathbb E\lvert X_n\rvert=\mathbb E[X_n]\le\mathbb E[X_0]\)), তাই a.s. একটা \(X_\infty\)-এ অভিসারী, \(\mathbb E[X_\infty]\le\mathbb E[X_0]\) (Fatou); branching/density-প্রয়োগের কর্মঘোড়া 7.9
nonparametric regression \(f\)-এর কোনো নির্দিষ্ট সসীম-মাত্রিক রূপ আগে থেকে না বেঁধে data থেকেই \(\mathbb E[y\mid x]=f(x)\)-এর আকার শেখা; কার্যকর parameter-সংখ্যা \(n\)-এর সাথে বাড়তে পারে — নমনীয় কিন্তু বেশি data দরকার ও convergence ধীর; চলমান উদাহরণে \(\sin(2\pi x)\)-কে সরলরেখা (\(R^2=0.510\))-র বদলে kernel/spline দিয়ে ধরা 5.7
Normal distribution ঘণ্টা-আকৃতি \(\mathcal{N}(\mu,\sigma^2)\); \(f=\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2}\) 2.4
normal equations OLS minimization-এর শর্ত \(X^\top X\hat\beta=X^\top y\) 5.1
Normal Fisher information (mean) \(I(\mu)=\frac{1}{\sigma^2}\) (E2); ছোট \(\sigma\) = তীক্ষ্ণ likelihood = বেশি তথ্য; \(\bar X\) এতে efficient 4.5
normalization density-র মোট area \(=1\) করার শর্ত \(\int f = 1\) 0.4
normalization (Axiom 2) \(P(\Omega)=1\) 2.1
normalizing constant \(Z=\int f\) যা \(\pi=f/Z\) বানায়; MCMC accept-অনুপাতে \(Z\) কাটাকাটি হয়ে যায়, তাই un-normalized \(f\) জানলেই sampler চলে (Bayesian computation-এ চাবি) 3.6
Normal–Normal conjugate জোড়া (\(\sigma^2\) জানা): posterior precision \(=\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\) (যোগ হয়), mean = prior-mean ও sample-mean-এর precision-ভারিত গড় (E2; §৭ Q7, Q10) 4.10
novelty detection semi-supervised anomaly: training set ধরা হয় পুরো-স্বাভাবিক/পরিষ্কার, model স্বাভাবিকতার সীমানা শেখে, তারপর নতুন বিন্দু সেই সীমানার বাইরে পড়লে novelty বলে; outlier detection-এর বিপরীত (যেখানে training-এই দূষণ মিশে থাকে) 6.9
null hypothesis \(H_0\) "কিছু বদলায়নি"/status-quo দাবি (যেমন \(\mu=\mu_0\)) যা চ্যালেঞ্জ করা হয়; test-এর সব হিসাব \(H_0\) সত্যি ধরে শুরু হয় (Figure 1) 4.7
null set measure-শূন্য set: \(\mu(N)=0\); Lebesgue-এ \(\mathbb Q\cap[0,1]\) ও Cantor set null (dense বা uncountable হয়েও), আর complete measure-এ এদের সব subset-ও measurable 7.2
number of replications \(B\) কতবার bootstrap resample করা হয় (\(B=1000\)\(10000\)); বড় \(B\) histogram মসৃণ করে, কিন্তু \(\widehat{\mathrm{se}}\)-এর প্রকৃত মান বদলায় না (data ও \(n\)-নির্ভর) (Figure 1) 4.9
numeric integration সংখ্যাগতভাবে integral-এর আনুমানিক মান (যেমন scipy quad) 0.4
numeric variable সংখ্যাগত (quantitative) variable, যার উপর অর্থপূর্ণ গাণিতিক কাজ করা যায় 1.1
NumPy দ্রুত সংখ্যাগত গণনার Python প্যাকেজ (array-ভিত্তিক) 0.6
observation একটি একক পর্যবেক্ষণ; DataFrame-এর একটি row (= একটি unit) 1.1
observed count \(O_i\) \(i\)-তম category-তে data থেকে পাওয়া সত্যিকারের গণনা (Figure 3) 4.8
observed vs expected information observed \(=-\ell''(\hat\theta)\) (data থেকে সরাসরি), expected \(I(\theta)=-\mathbb{E}[\ell'']\) (গড়); দুটোই log-likelihood-এর তীক্ষ্ণতা মাপে 4.5
odds event ঘটা বনাম না-ঘটার অনুপাত \(\frac{p}{1-p}\); logistic-এ \(\text{odds}=e^{\eta}=e^{x^\top\beta}\) (যেমন \(p=0.79\Rightarrow\) odds \(\approx3.76\)) 5.4
odds ratio predictor \(1\) একক বাড়লে odds যত গুণ হয়: \(e^{\hat\beta_j}\) (বাকি স্থির); \(>1\) positive, \(=1\) নিরপেক্ষ, \(<1\) negative প্রভাব (hours: \(e^{0.9224}=2.515\)) 5.4
offset / exposure observation-ভেদে exposure \(t_i\) ভিন্ন হলে rate model করতে \(\log\mu_i=\log t_i+x_i^\top\beta\), যেখানে \(\log t_i\) coefficient \(1\)-এ স্থির (offset) ⇒ \(\log(\mu_i/t_i)=x^\top\beta\); exposure দ্বিগুণ ⇒ count দ্বিগুণ 5.5
OLS estimator normal equation-এর সমাধান \(\hat\beta=(X^\top X)^{-1}X^\top y\) 5.1
One-Class SVM boundary-ভিত্তিক anomaly detector: kernel (RBF) দিয়ে স্বাভাবিক data-র চারপাশে একটা শক্ত সীমানা শেখে, বাইরে পড়া বিন্দুকে anomaly বলে; \(\nu\) outlier-ভগ্নাংশ নিয়ন্ত্রণ করে; canonical AUC \(0.941\) (এই ring-গঠনে boundary-পরিবার সামান্য পিছিয়ে) 6.9
one-sided vs two-sided test \(H_1:\mu>\mu_0\)/\(\mu<\mu_0\) (এক লেজ) বনাম \(H_1:\mu\neq\mu_0\) (দুই লেজ); two-sided p-value দুই লেজের যোগফল (Figure 2) 4.7
one-standard-error rule CV-min-এর বেশি রক্ষণশীল রূপ: threshold \(=\text{CV}_{\min}+\text{SE}_{\min}\) বানিয়ে তার নিচে থাকা সবচেয়ে সরল model বাছা; যুক্তি — এক SE-এর মধ্যের model-গুলো পরিসংখ্যানগতভাবে সমান-ভালো, তাই parsimony (Occam) মেনে সরলতমটি; চলমান উদাহরণে threshold \(\approx11.0\)\(d{=}3\) 5.8
one-way ANOVA একটিমাত্র categorical factor (যেমন fertilizer-এর ধরন) দিয়ে group-গড় তুলনা; \(H_0:\mu_1=\dots=\mu_k\), test \(F=\mathrm{MSB}/\mathrm{MSW}\sim F_{k-1,\,n-k}\) 5.3
online learning data এক-এক করে স্রোতে এলে model incremental আপডেট: \(\theta_{t+1}=\theta_t-\eta_t\nabla\ell_t(\theta_t)\) (online/stochastic GD); সুবিধা — সব data একসাথে মেমরিতে লাগে না, ও concept drift-এ নিজে মানিয়ে নেয়; গুণমান regret দিয়ে মাপা 6.9
open science ফল-প্রকাশের সাথে ডেটা, কোড ও পদ্ধতি উন্মুক্ত করা, যাতে অন্যরা যাচাই ও গড়তে পারে; reproducibility-র সামাজিক রূপ — এই curriculum নিজেই (master seed 20260619, চালানো-যায় কোড, canonical সংখ্যা) এর একটা জীবন্ত উদাহরণ 8.4
optimism of training error একই data-তে fit-করে-error-মাপায় train error test error-কে যতটা কম দেখায় তার পরিমাণ; linear smoother-এ ঠিক \(\text{op}=\frac{2\sigma^2\operatorname{df}}{n}\) (\(\operatorname{df}=\operatorname{tr}(S)\)) — complexity-র সমানুপাতী, এটিই AIC/\(C_p\)-র "\(+2\operatorname{df}\)"-penalty-র উৎস; চলমান উদাহরণে \(d{=}3\)-এ \(\approx0.6\) 5.8
optimism penalty (\(C_p\) / AIC link) train-fit-কে complexity-penalty দিয়ে সংশোধন করে test error আন্দাজ: \(\text{Err}_{\text{in}}\approx\overline{\text{err}}+\frac{2\sigma^2\operatorname{df}}{n}\) (Mallows' \(C_p\), AIC-এর "\(+2\operatorname{df}\)"); CV একই লক্ষ্য সরাসরি (likelihood/\(\operatorname{df}\) ছাড়া) অর্জন করে — ৫.২-এর AIC/BIC-র সাথে যোগসূত্র 5.8
optimization function-এর সর্বোচ্চ/সর্বনিম্ন মান ও অবস্থান খোঁজা 0.3
optional sampling optional stopping-এর সাধারণ রূপ — দুই stopping time \(\sigma\le\tau\)-তে \(\mathbb E[X_\tau\mid\mathcal F_\sigma]=X_\sigma\); "ন্যায্যতা যেকোনো (নিয়মমাফিক) নমুনায়ন-সময়েও টেকে" 7.8
optional stopping theorem (Doob) martingale ও stopping time \(\tau\)-তে \(\mathbb E[X_\tau]=\mathbb E[X_0]\) — যদি (ক) \(\tau\) bounded, (খ) \(X\) bounded, বা (গ) \(\mathbb E[\tau]<\infty\) ও bounded increments; প্রতিটি শর্ত \(n\to\infty\)-সীমা-বিনিময় (DCT/MCT) বৈধ করে 7.8
order statistic / sample maximum \(X_{(n)}=\max_i X_i\) — Uniform\((0,\theta)\)-এ MLE; এর variance \(\sim\theta^2/n^2\), MoM-এর \(2\bar X\)-এর (\(\sim\theta^2/n\)) চেয়ে অনেক ছোট 4.2
order statistics ছোট থেকে বড় সাজানো observation x₍₁₎ ≤ … ≤ x₍ₙ₎ 1.2
ordered pair ক্রমিক জোড়া \((a,b)\); প্রথম-দ্বিতীয় অবস্থান গুরুত্বপূর্ণ 0.1
ordinal ক্রমযুক্ত categorical data যেখানে ব্যবধান অর্থপূর্ণ নয় (Low < Medium < High) 1.1
ordinary least squares (OLS) residual sum of squares \(\lVert y-X\beta\rVert^2\) minimize করে \(\hat\beta\) বাছার পদ্ধতি 5.1
orthogonal পরস্পর লম্ব; dot product শূন্য 0.5
orthogonal increments \(j<k\)-এ \(\mathbb E[d_jd_k]=0\) (\(d_k=X_k-X_{k-1}\), pull-out + martingale-ধর্ম); Pythagoras দিয়ে \(L^2\)-অভিসরণ ও SGD/SLLN-অভিসরণের ভিত্তি 7.9
orthogonality \(f\perp g\iff\langle f,g\rangle=0\); "লম্ব" ফাংশন, statistics-এ কেন্দ্রিত random variable-দের uncorrelatedness 7.5
orthonormal basis পরস্পর-লম্ব ও একক-norm ফাংশনের সম্পূর্ণ সংগ্রহ \(\{e_k\}\) (\(\langle e_i,e_j\rangle=\delta_{ij}\)); \(f=\sum_k\langle f,e_k\rangle e_k\) (Fourier-সম্প্রসারণ) 7.5
out-of-bag (OOB) একটা bootstrap resample-এ যে মূল বিন্দুগুলো একবারও আসেনি; বড় \(n\)-এ প্রায় \(e^{-1}\approx36.8\%\) বিন্দু OOB (§৭ Q10) 4.9
out-of-bag (OOB) error প্রতিটি bootstrap-গাছে বাদ-পড়া (\(\approx37\%\), \((1-\frac1n)^n\to e^{-1}\approx0.368\)) বিন্দুদের উপর prediction থেকে পাওয়া বিনামূল্যের, প্রায়-unbiased generalization-error — আলাদা validation set/CV ছাড়াই। canonical OOB \(0.848\) ≈ test \(0.839\) 6.5
outcome random experiment-এর একটি একক সম্ভাব্য ফলাফল \(\omega\) 2.1
outer measure যেকোনো set \(A\)-কে গণনাযোগ্য open-interval দিয়ে ঢেকে মোট দৈর্ঘ্যের infimum: \(\lambda^*(A)=\inf\big\{\sum_k\ell(I_k):A\subseteq\bigcup_k I_k\big\}\); "ঢেকে মাপা" — null set-এর হাতিয়ার 7.1
outlier বাকি data থেকে অস্বাভাবিকভাবে দূরে থাকা মান 1.2
overdispersion data-তে variance \(>\) mean (Poisson যা ধরে তার চেয়ে বেশি spread); unobserved heterogeneity/clustering থেকে আসে; উদাহরণে count mean \(19.56\), var \(205\) (var/mean \(\approx10.5\)) 5.5
overfitting model training-data-র random noise-কেও signal ভেবে fit করা; লক্ষণ — train error খুব ছোট (এমনকি \(<\sigma^2\)) কিন্তু CV/test error বড়; চলমান উদাহরণে \(d{=}10\) (train \(9.12<9\), CV \(10.90\)); CV/one-SE rule এর বিরুদ্ধে রক্ষাকবচ 5.8
overplotting বহু বিন্দু একে অপরের উপর জমে scatterplot অপাঠ্য হয়ে যাওয়া 1.4
oversmoothing / undersmoothing oversmoothing — অতি-বড় \(h\)/\(\lambda\) (বা অতি-ছোট df): চূড়া-খাঁজ চাপা পড়ে, high bias; undersmoothing — অতি-ছোট \(h\)/\(\lambda\) (বা অতি-বড় df): noise-ও fit হয়, কাঁপা, high variance; চলমান উদাহরণে \(h=0.40\) oversmooth (\(0.2865\)), \(h=0.02\) undersmooth-প্রবণ 5.7
p-value \(P(\text{observed-এর চেয়ে অন্তত ততটা চরম ফল}\mid H_0\text{ সত্যি})\) — null-এর নিচে একটা লেজের ক্ষেত্রফল; ছোট p = data বিস্ময়কর (Figure 2) 4.7
p-value (as tail area) shuffle/permutation-গুলোর কত ভাগ observed-এর মতো বা বেশি চরম; p-value-এর সবচেয়ে স্বচ্ছ, সূত্রহীন রূপ (Figure 4, §৭ Q8) 4.9
p-value uniformity under \(H_0\) continuous statistic-এ \(H_0\) সত্যি হলে p-value \(\sim\text{Uniform}(0,1)\); তাই \(p\le\alpha\) নিয়ম ঠিক \(\alpha\) type I error দেয় (§৭ Q10) 4.7
PAC learning Probably Approximately Correct — শেখার আনুষ্ঠানিক কাঠামো: \(1-\delta\) probability-তে (\(\delta\)=confidence) gap \(\le\epsilon\) (\(\epsilon\)=accuracy); finite-sample, distribution-free গ্যারান্টি, concentration inequality (3.1) থেকে উদ্ভূত 6.1
pairwise affinities \(p_{ij}, q_{ij}\) t-SNE-তে দুই বিন্দু "প্রতিবেশী" হওয়ার সম্ভাবনা: high-D-তে \(p_{ij}\) (Gaussian), low-D-তে \(q_{ij}\) (Student-\(t\), \(q_{ij}\propto(1+\lVert y_i-y_j\rVert^2)^{-1}\)); t-SNE চায় \(q_{ij}\) যেন \(p_{ij}\)-র মতো হয় (high-D প্রতিবেশ-গঠন low-D-তে প্রতিফলিত) 6.8
pandas tabular data বিশ্লেষণের Python প্যাকেজ (Series/DataFrame) 0.6
parallelogram law \(\lVert f+g\rVert^2+\lVert f-g\rVert^2=2\lVert f\rVert^2+2\lVert g\rVert^2\); ঠিক যে norm-শর্ত একটি inner product জন্ম দেয় — কেবল \(p=2\)-তে সত্য 7.5
parameter population-এর fixed কিন্তু সাধারণত unknown সাংখ্যিক বৈশিষ্ট্য (\(\mu, \sigma, p\); Greek অক্ষর) 1.1
parsimony "যত কম predictor-এ যথেষ্ট ব্যাখ্যা, তত ভালো" নীতি (Occam's razor); BIC/adjusted \(R^2\) এই নীতিকে complexity-penalty দিয়ে আনুষ্ঠানিক করে 5.2
partial derivative একটি variable নিয়ে derivative, বাকিগুলো ধ্রুবক 0.3
partial effect অন্য সব predictor স্থির রেখে একটি predictor-এর coefficient-এর অর্থ (multiple regression) 5.1
partial F-test দুটি nested মডেলের তুলনা — অতিরিক্ত predictor-গুচ্ছ যৌথভাবে SSE যথেষ্ট কমায় কিনা; \(F=\dfrac{(\text{SSE}_{\text{small}}-\text{SSE}_{\text{big}})/q}{\text{SSE}_{\text{big}}/(n-p)}\) 5.2
partial pooling mixed model-এর আপস: complete- ও no-pooling-এর মাঝামাঝি; প্রতিটা গোষ্ঠীর estimate-কে \(\lambda_j\) অনুযায়ী গ্র্যান্ড-গড়ের দিকে shrink করে তথ্য গোষ্ঠী-জুড়ে "ধার" করা; no-pooling-এর চেয়ে কম variance, complete-pooling-এর চেয়ে কম bias 5.6
partition \(\Omega\)-কে ঢাকা বিচ্ছিন্ন event-গুচ্ছ \(B_1,\dots,B_n\) 2.2
Pascal's triangle \(\binom{n}{k}\)-এর ত্রিভুজাকার বিন্যাস; প্রতি ঘর উপরের দুই ঘরের যোগফল 0.2
path length (Isolation Forest) একটি বিন্দুকে isolation-গাছে একা পাতায় আলাদা করতে যত random split লাগে, \(h(x)\); anomaly বিরল/বিচ্ছিন্ন বলে ছোট \(h\), inlier ঘন-গুচ্ছে বড় \(h\); normalizer \(c(n)\) সহ score \(s(x)=2^{-\mathbb E[h]/c(n)}\) 6.9
Pearson chi-square goodness-of-fit ও dispersion পরিমাপ \(\chi^2=\sum_i\dfrac{(y_i-\hat\mu_i)^2}{\hat\mu_i}\) (Poisson-এ variance \(=\mu\) বলে হরে \(\hat\mu_i\)); উদাহরণে \(1096.3\), \(df=247\) 5.5
Pearson chi-square statistic \(\chi^2=\sum_i\dfrac{(O_i-E_i)^2}{E_i}\) — observed বনাম expected-এর scaled squared mismatch-এর যোগ; বড় হলে \(H_0\) খারিজ (Figure 3) 4.8
Pearson correlation coefficient covariance-কে standardize করা একক-মুক্ত সংখ্যা \(r=\operatorname{cov}/(s_x s_y)\), পরিসর \([-1,1]\) 1.4
penalized regression regularized regression-এর সাধারণ নাম — OLS objective \(\lVert y-X\beta\rVert_2^2\)-এ একটি penalty পদ যোগ করা মডেল (ridge, lasso, elastic net সবই এর বিশেষ রূপ) 6.2
penalty / roughness penalty smoothing criterion-এর দ্বিতীয় পদ \(\lambda\int(f''(t))^2dt\)\(f\)-এর মোট বক্রতা (roughness) শাস্তি দেয়; \(f''\) বড় = তীক্ষ্ণ বাঁক, \(f''=0\) = সরলরেখা; ০.৩-এর দ্বিতীয় অন্তরকলজের ওপর দাঁড়ানো 5.7
penalty parameter (C) soft-margin SVM-এ slack-শাস্তির ওজন; bias–variance knob — ছোট \(C\) = চওড়া margin, বেশি লঙ্ঘন সহ্য (high bias/under-fit), বড় \(C\) = সরু margin, প্রায় hard-margin (high variance/over-fit)। canonical \(C\)-sweep: \(0.1\to0.833/121\), \(1\to0.900/63\), \(10\to0.944/45\), \(100\to0.933/37\) 6.4
percentile যে মানের নিচে data-র নির্দিষ্ট শতাংশ পড়ে 1.2
percentile interval (CI) bootstrap বণ্টনের \(\alpha/2\)\(1-\alpha/2\) quantile-এ কেটে বানানো \((1-\alpha)\) CI \(=[\hat\theta^*_{(\alpha/2)},\hat\theta^*_{(1-\alpha/2)}]\); normality বা \(\widehat{\mathrm{se}}\)-সূত্র লাগে না; skew সরাসরি ধরে (অসম হতে পারে) (Figure 2, §৭ Q3, Q6) 4.9
perfect separation কোনো hyperplane class দুটোকে নিখুঁত আলাদা করলে logistic-MLE অসীমে চলে যায় (\(\lvert\hat\beta\rvert\to\infty\)); প্রতিকার: penalized/regularized fit 5.4
perfect separation (quasi-complete separation) class-দুটো এত আলাদা যে কোনো feature-সমাবেশ পুরোপুরি পৃথক করে ফেলে, তখন unpenalized logistic MLE \(\to\pm\infty\) এবং valid standard error থাকে না; remedy L2-penalty বা feature-decorrelation। এই অধ্যায়ে full 30-feature MLE diverges 8.1
permutation ক্রম গুরুত্বপূর্ণ এমন বাছাই/সাজানো, \(P(n,k)=n!/(n-k)!\) 0.2
permutation null distribution label-shuffle করে পাওয়া group-difference statistic-এর বণ্টন; \(0\)-কে কেন্দ্র করে; observed তা থেকে কত দূরে তা-ই প্রমাণ (Figure 4) 4.9
permutation test দুই দলের তুলনায় resampling test: \(H_0\) (label অর্থহীন) ধরে label বারবার এলোমেলো করে null distribution বানায়; p-value = লেজের ভগ্নাংশ; কোনো বণ্টন-অনুমান নেই (Figure 4, §৭ Q4, Q8) 4.9
perplexity t-SNE-র hyperparameter — প্রতিটি বিন্দুর Gaussian affinity \(p_{ij}\)-র bandwidth এমনভাবে স্কেল করে যেন "কার্যকর প্রতিবেশী-সংখ্যা" \(\approx\) perplexity; ছোট মান local গঠনে জোর, বড় মান বেশি-global; ফল perplexity-সংবেদী 6.8
\(\pi\)-system intersection-বদ্ধ একটা set-পরিবার: \(A,B\in\mathcal P\Rightarrow A\cap B\in\mathcal P\); যেমন সব \((-\infty,x]\) বা সব interval — uniqueness-যুক্তির ছোট্ট "বীজ"-পরিবার 7.2
pipeline ধাপে-ধাপে নির্ধারক (deterministic) ও reproducible বিশ্লেষণ-প্রবাহ 1.5
pivot এমন quantity (যেমন \(Z=\frac{\bar X-\mu}{\sigma/\sqrt n}\)) যার distribution \(\theta\)-নিরপেক্ষ; CI বানানোর মূল কৌশল (§৭ Q9) 4.6
pivot method pivot-এর \(P(-z_{\alpha/2}\le\cdot\le z_{\alpha/2})=1-\alpha\) থেকে শুরু করে \(\theta\)-কে isolate করে CI derive করা 4.6
pivotal quantity যে রাশির distribution অজানা parameter-নিরপেক্ষ; যেমন \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\)\(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) — confidence interval নির্মাণের ভিত্তি 4.1
platykurtic normal-এর চেয়ে হালকা লেজ ও ভোঁতা চূড়া (excess kurtosis < 0) 1.3
plug-in principle "population-এর অজানা পরিমাণের জায়গায় তার নমুনা-প্রতিরূপ বসিয়ে দাও" — MoM এর একটা উদাহরণ (\(\mu_k'\to\hat\mu_k'\)); LLN-এর কারণে যুক্তিসঙ্গত 4.2
point estimate একটা একক সংখ্যা দিয়ে \(\theta\)-এর অনুমান (interval নয়); যেমন \(\hat\mu=\bar X_n=172.4\) 4.1
point estimation data থেকে কোনো অজানা প্যারামিটার \(\theta\)-এর একটি একক সংখ্যাগত আনুমান \(\hat\theta\) বের করা (interval নয়); estimator হলো নমুনার একটা ফাংশন \(\hat\theta=\hat\theta(X_1,\dots,X_n)\) 4.2
Poisson distribution ব্যবধিতে বিরল ঘটনার সংখ্যা; \(\lambda^k e^{-\lambda}/k!\), mean \(=\) variance \(=\lambda\) 2.3
Poisson Fisher information \(I(\lambda)=\frac{1}{\lambda}\) (E3); \(\bar X\) efficient, asymptotic SE \(=\sqrt{\lambda/n}\) (Figure 3) 4.5
Poisson limit theorem Binomial\((n,p)\to\) Poisson\((\lambda)\) যখন \(n\to\infty,\,np\to\lambda\) 2.3
Poisson process rate \(\lambda\)-র counting process: \(N(t)\sim\text{Poisson}(\lambda t)\), independent increments, interarrival time iid \(\text{Exp}(\lambda)\) (E2) 3.5
Poisson regression count outcome (\(y\in\{0,1,2,\dots\}\))-এর জন্য GLM: log link-এ \(\log\mu_i=x_i^\top\beta\) (অর্থাৎ \(\mu_i=e^{x_i^\top\beta}\)), response Poisson; MLE/IRLS দিয়ে fit, coefficient rate-ratio হিসেবে পঠিত 5.5
polynomial kernel \(K(x,x')=(x^\top x'+c)^d\) — degree-\(d\) পর্যন্ত feature-মিথস্ক্রিয়া ধরে; nonlinearity আনে কিন্তু make_moons-এ RBF-এর চেয়ে কম উপযুক্ত; canonical (deg 3) \(0.833\) 6.4
pooled covariance LDA-তে সব শ্রেণির data একত্র করে অনুমিত একটিই শেয়ার-covariance \(\hat\Sigma\) (শ্রেণি-প্রতি deviation-গুলোর ভারিত গড়); শেয়ার-\(\Sigma\) ধারণার বাস্তব estimate, যা LDA-কে কম-parameter (কম variance) রাখে 6.3
pooled OLS SE problem clustering-এ একই গোষ্ঠীর observation redundant ⇒ effective \(n\) ছোট ⇒ between-cluster coefficient (যেমন intercept)-এর OLS-SE মারাত্মক underestimated; উদাহরণে intercept SE OLS \(0.867\) বনাম সঠিক mixed \(1.416\) 5.6
population আগ্রহের পুরো গোষ্ঠী; যাদের সম্পর্কে সিদ্ধান্ত নিতে চাই (আকার \(N\), প্রায়ই পুরোটা অদৃশ্য) 1.1
population mean পুরো population-এর প্রকৃত গড় \(\mu\) (একটি parameter) 1.1
population moment \(\mu_k'=\mathbb{E}[X^k]\) — distribution-এর \(k\)-তম কাঁচা (raw) moment, প্যারামিটারের ফাংশন (যেমন Exp-এ \(\mu_1'=1/\lambda\)) 4.2
population regression line bivariate normal \(\rho=0.6\)-এ \(\mathbb E[X\mid Y{=}y]=\rho y=0.6y\) — সরলরেখা, ঢাল \(\hat\beta=\operatorname{Cov}(X,Y)/\operatorname{Var}(Y)=\rho\), intercept \(0\); "শর্তাধীন প্রত্যাশা = regression function" এর কংক্রিট মুখ 7.7
portmanteau theorem weak convergence-এর সমতুল্য বহু-শর্ত চরিত্রায়ণ; প্রধান রূপ — \(X_n\Rightarrow X\iff\mathbb E[f(X_n)]\to\mathbb E[f(X)]\) প্রতিটি bounded continuous \(f\)-এ (অন্য রূপ: open/closed set, CDF) 7.10
positive part \(f^+=\max(f,0)\); ফাংশনের অঋণাত্মক অংশ, সাধারণ integral-এর সংজ্ঞায় \(f=f^+-f^-\)-এর প্রথম পদ 7.4
positive-definite সব eigenvalue \(>0\) (বা \(\mathbf{x}^\top A\mathbf{x}>0\)) symmetric matrix 0.5
positive-definite function যেকোনো \(t_1,\dots,t_n\)\(c_1,\dots,c_n\in\mathbb C\)-তে \(\sum_{j,k}c_j\bar c_k\,\varphi(t_j-t_k)\ge0\); প্রতিটি cf positive-definite — Bochner-এর চরিত্রায়ণের অর্ধেক 7.10
positive-part James–Stein \(\hat\theta^{JS+}=\big(1-\frac{p-2}{\lVert X\rVert^2}\big)^{+}X\) (\((a)^+=\max(0,a)\)) — shrinkage factor-কে ঋণাত্মক হতে দেয় না (worst case পুরো ০-তে shrink); সাধারণ JS-কেও dominate করে, তাই বাস্তবে ব্যবহার্য 8.3
positive/negative part \(f^\pm\) যেকোনো measurable \(f\)-কে দুই অঋণাত্মক টুকরোয় ভাঙা: \(f^+=\max(f,0)\)\(f^-=\max(-f,0)\), তাই \(f=f^+-f^-\)\(\lvert f\rvert=f^++f^-\); এতে approximation theorem অঋণাত্মক থেকে সাধারণ \(f\)-এ প্রসারিত হয় 7.3
post-hoc test \(F\) significant হওয়ার পরে কোন জোড়া-গড় আলাদা তা খোঁজার পরীক্ষা; FWER নিয়ন্ত্রিত রাখে (যেমন Tukey HSD) 5.3
posterior data দেখার পর হালনাগাদ বিশ্বাস \(P(B\mid A)\) 2.2
posterior \(p(\theta\mid\text{data})\) data দেখার পরে \(\theta\) নিয়ে আপডেটেড বিশ্বাস; prior ও likelihood-এর মাঝে বসে, দুটোর চেয়ে সরু (Figure 1) 4.10
posterior mean \(\mathbb{E}[\theta\mid\text{data}]=\int\theta\,p(\theta\mid\text{data})\,d\theta\) — posterior-এর ভারকেন্দ্র; squared-error loss-এ optimal point estimate (Figure 1: \(0.67\)) 4.10
posterior odds prior odds \(\times\) likelihood ratio 2.2
posterior predictive ভবিষ্যৎ পর্যবেক্ষণের পূর্বাভাস \(p(\tilde y\mid\text{data})=\int p(\tilde y\mid\theta)\,p(\theta\mid\text{data})\,d\theta\); \(\theta\)-র অনিশ্চয়তার ওপর গড় (E4; §৭ Q8) 4.10
posterior probability data দেখার পর শ্রেণির সম্ভাবনা \(P(y=c\mid x)=\dfrac{\pi_c f_c(x)}{\sum_l\pi_l f_l(x)}\) (Bayes-নিয়ম, ২.২); generative classifier-এর কেন্দ্রীয় পরিমাণ — যার \(\arg\max\)-ই শ্রেণি-সিদ্ধান্ত 6.3
potential outcomes causal inference-এর মৌলিক কাঠামো: প্রতিটি ইউনিটের treatment ও control উভয় অবস্থার একটা কল্পিত ফলাফল \(Y(1),Y(0)\), যার একটাই পর্যবেক্ষিত (\"causal inference-এর মৌলিক সমস্যা\"); causal effect \(=\mathbb E[Y(1)-Y(0)]\) 8.4
power \(=1-\beta\) সত্যিকারের effect ধরতে পারার সম্ভাবনা \(P(\text{reject}\mid H_1)\); effect-size/\(n\) বাড়লে \(\alpha\) থেকে \(1\)-এর দিকে ওঠে (Figure 3) 4.7
power rule \(\frac{d}{dx}x^n=nx^{n-1}\) নিয়ম 0.3
precision \(\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}\); "positive" বলা case-এর কত অংশ সত্যিই positive (এখানে \(0.88\)); FP-খরচ বেশি হলে গুরুত্বপূর্ণ 5.4
predictable process \((H_n)_{n\ge1}\) predictable যদি প্রতিটি \(H_n\) \(\mathcal F_{n-1}\)-measurable — "এক-ধাপ-আগেই জানা", ঘটনা ঘটার আগেই (যেমন বাজির আকার); "ভবিষ্যৎ উঁকি দেওয়া যায় না"-র গণিত 7.8
predictor variable যা দিয়ে ভবিষ্যদ্বাণী করি, ব্যাখ্যাকারী/স্বাধীন চলক (\(x\), feature) 5.1
preimage \(X\) দিয়ে একটা target-set \(B\)-তে পৌঁছানো সব input-এর সংগ্রহ: \(X^{-1}(B)=\{\omega\in\Omega:X(\omega)\in B\}=\{X\in B\}\); union/intersection/complement সংরক্ষণ করে — যা measurability-যুক্তির মেরুদণ্ড 7.3
premeasure একটা algebra \(\mathcal A\)-র উপর সংজ্ঞায়িত আদি "আকার" \(\mu_0\) (\(\mu_0(\varnothing)=0\)\(\mathcal A\)-র ভেতরে থাকা গণনাযোগ্য disjoint union-এ additive); Carathéodory যাকে গোটা \(\sigma(\mathcal A)\)-এ প্রসারিত করে 7.2
preregistration একটা বিশ্লেষণ চালানোর আগে তার hypothesis ও পদ্ধতি (কী, কীভাবে, কোন test) লিখে নথিভুক্ত করা — ফল-দেখে-পরে-গল্প (p-hacking, selective reporting) এড়াতে; reproducibility ও গবেষণা-সততার হাতিয়ার 8.4
primal problem (SVM) SVM-এর মূল optimization \(\min_{w,b,\xi}\tfrac12\lVert w\rVert^2+C\sum_i\xi_i\) s.t. \(y_i(w^\top x_i+b)\ge1-\xi_i,\ \xi_i\ge0\); \(w\)-এর মাত্রায় চলক (feature-সংখ্যা-নির্ভর), যার দ্বৈত (dual) kernel-trick-এর পথ খোলে 6.4
principal component (PC) covariance \(\Sigma\)-এর একটা orthonormal eigenvector \(v_j\) — data-র একটা প্রধান-অক্ষ; PC-গুলো eigenvalue-ক্রমে সাজানো (PC1 সর্বোচ্চ-variance দিক, PC2 তার লম্বে পরবর্তী-সর্বোচ্চ, …); §৭-এ Lagrangian-প্রমাণে দেখানো "variance-সর্বোচ্চকারী একক-দিক" \(=\) শীর্ষ-eigenvector 5.9
principal component analysis (PCA) standardized data-র covariance \(\Sigma\)-এর eigen-decomposition করে ক্রমান্বয়ে variance-সর্বোচ্চকারী লম্ব দিক (principal component) খুঁজে উচ্চ-মাত্রিক, correlated feature-কে কয়েকটা অর্থপূর্ণ অক্ষে নামানোর কৌশল (dimensionality reduction); চলমান উদাহরণে \(4\)-D data-কে \(2\) PC-তে নামিয়ে \(99.4\%\) variance ধরে রাখে 5.9
prior data দেখার আগে hypothesis-এ বিশ্বাস \(P(B)\) 2.2
prior \(\pi(\theta)\) data দেখার আগে প্যারামিটার \(\theta\) নিয়ে বিশ্বাস, একটা distribution হিসেবে (Figure 1-এ নীল বক্ররেখা) 4.10
prior probability data দেখার আগে শ্রেণির সম্ভাবনা \(\pi_c=P(y=c)\); সাধারণত প্রশিক্ষণে প্রতিটি শ্রেণির অনুপাত থেকে অনুমান; posterior-এ likelihood-এর সাথে গুণ হয় 6.3
probability density function continuous random variable-এর সম্ভাব্যতার ঘনত্ব curve \(f(x)\) 0.4
probability inequality random variable-এর probability/tail-এর উপর একটি সীমা (bound) দেয় এমন অসমতা; distribution পুরো না জেনেও 3.1
probability integral transform \(U=F_X(X)\sim\text{Uniform}(0,1)\), \(X\)-এর distribution যাই হোক 2.7
probability mass function PMF, সম্ভাব্যতা ভর-অপেক্ষক \(p_X(k)=P(X=k)\); অঋণাত্মক, যোগফল \(1\) 2.3
probability measure প্রতিটি event-কে \([0,1]\)-এ পাঠানো axiom-মানা function \(P\) 2.1
product measure iid অনুক্রমের যৌথ law = প্রতিটি coordinate-এর law-এর গুণফল \(\bigotimes_i P_X\) (\(\mathbb R^{\mathbb N}\)-তে); iid \(\iff\) যৌথ law = product measure (7.2-এর নির্মাণ) 7.6
product rule \((uv)'=u'v+uv'\) নিয়ম 0.3
projection (onto column space) \(\hat y\) হলো \(y\)-এর \(\text{col}(X)\)-এ orthogonal projection; residual তার লম্ব 5.1
projection (PC score) data-কে PC-অক্ষে উৎক্ষেপ: score \(z=Xv\), বা top-\(k\)-এ \(Z=XV_k\in\mathbb R^{n\times k}\); \(z_{i1}=x_i^\top v_1\) হলো বিন্দু \(x_i\)-এর PC1-অক্ষে নতুন স্থানাঙ্ক (প্রধান দিকে কেন্দ্র থেকে কতদূর); orthonormal \(V\) বলে PC-score পরস্পর uncorrelated 5.9
projection theorem closed subspace \(M\)-এ যেকোনো \(f\)-এর একক নিকটতম বিন্দু \(\hat f\) আছে, residual \(f-\hat f\perp M\); least squares ও conditional expectation-এর জ্যামিতি 7.5
Prokhorov's theorem tight বণ্টন-অনুক্রমের একটি weakly-অভিসারী subsequence থাকে (relative compactness ⇔ tightness); Lévy's continuity theorem-এর "weak limit বিদ্যমান" অংশের ভিত্তি 7.10
proof by contradiction উল্টোটা ধরে অসম্ভব পরিস্থিতি দেখিয়ে মূলটি প্রতিষ্ঠা 0.1
proof by contrapositive \(\neg Q \Rightarrow \neg P\) প্রমাণ করে \(P \Rightarrow Q\) প্রতিষ্ঠা 0.1
proper subset \(A \subsetneq B\): subset কিন্তু সমান নয় 0.1
proportion CI (Wald) \(\hat p\pm z_{\alpha/2}\sqrt{\hat p(1-\hat p)/n}\) (E3); আসলে Bernoulli-র MLE \(\hat p\)-এর large-sample CI; চরম \(p\)/ছোট \(n\)-এ under-cover করে 4.6
proportion test (one-sample) \(T=\frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}\) (E3); null-এর \(\mathrm{SE}\)-তে \(p_0\) (— \(\hat p\) নয়, কারণ \(H_0\) সত্যি ধরে) 4.7
proposal distribution \(q(x'\mid x)\) — বর্তমান state থেকে পরের প্রার্থী \(x'\) প্রস্তাবের নিয়ম (যেমন random-walk \(x'=x+\mathcal N(0,\text{step}^2)\)) 3.6
proposition সত্য বা মিথ্যা — এমন একটি বাক্য 0.1
pruning অতি-নমনীয় (overfit) গাছ ছোট করে variance কমানোর কৌশল — pre-pruning (max_depth/min_samples দিয়ে আগেই থামানো) বা post-pruning (পূর্ণ গাছ গড়ে cost-complexity দিয়ে শাখা কাটা); bias সামান্য বাড়িয়ে variance বড় কমায়। canonical: depth \(10\to3\), test \(0.733\to0.794\) 6.5
pseudo-random seed np.random.default_rng(20260619)-এর মতো একটা নির্দিষ্ট বীজমান যা random stream-কে স্থির করে; একই seed \(\Rightarrow\) একই ধারা \(\Rightarrow\) reproducible ফল, তবে default_rng draw-order-নির্ভর—draw-এর ক্রম বদলালে ফলও বদলায় 8.2
pseudo-residual gradient boosting-এ round \(t\)-এ যে target-এ গাছ fit হয় — \(r_i=-\big[\partial L/\partial F(x_i)\big]_{F=F_{t-1}}\) (loss-এর negative gradient); squared loss-এ এটা ঠিক সাধারণ residual \(y_i-F_{t-1}(x_i)\), অন্য loss-এ গাছ এই negative-gradient-কে সর্বত্র smooth-আনুমানিত করে generalize করে 6.6
pull-out property (taking out what is known) \(Y\) \(\mathcal G\)-measurable, \(XY\in L^1\Rightarrow\mathbb E[YX\mid\mathcal G]=Y\,\mathbb E[X\mid\mathcal G]\) — "জানা \(Y\) ধ্রুবকের মতো বাইরে আসে"; indicator \(Y=\mathbf 1_{G_0}\)-এ \(\int_G\mathbf 1_{G_0}(\cdot)=\int_{G\cap G_0}(\cdot)\) দিয়ে প্রমাণ 7.7
pushforward measure (image measure) \(X\) যেভাবে \(\Omega\)-র ভর \(\mathbb P\)-কে \(\mathbb R\)-এ ঠেলে দেয়: \(P_X=\mathbb P\circ X^{-1}\), অর্থাৎ \(P_X(B)=\mathbb P(X^{-1}(B))=\mathbb P(X\in B)\)\((\mathbb R,\mathcal B)\)-এর উপর একটা probability measure 7.3
Pólya urn কলস থেকে বল তুলে তার রঙের আরেকটা সঙ্গে ফেরত — সময় \(n\)-এ রঙের অনুপাত \(X_n\) একটা martingale (\(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\)); স্ব-শক্তিশালী প্রক্রিয়াতেও অনুপাত গড়ে স্থির 7.8
QQ-plot quantile–quantile plot; data-quantile বনাম তাত্ত্বিক quantile (normality-যাচাই) 1.3
QQ-plot of residuals residual-এর sample quantile বনাম তাত্ত্বিক Normal quantile; বিন্দু \(y=x\) রেখা বরাবর হলে Normality অনুমান যুক্তিসঙ্গত (৩.৪-এর QQ-ধারণা) 5.2
quadratic discriminant analysis (QDA) generative classifier — শ্রেণি-প্রতি আলাদা covariance \(\Sigma_c\); quadratic পদ টিকে থাকে ⇒ boundary quadratic (উপবৃত্ত/অধিবৃত্ত); বেশি parameter (বেশি variance) কিন্তু কম bias; covariance অসমান হলে LDA-কে হারায়; canonical \(0.919\) (best); LDA = QDA-র বিশেষ ক্ষেত্র (\(\Sigma_c\) সব সমান) 6.3
quadratic variation \(L^2\)-martingale \(X\)-এর predictable variation \(\langle X\rangle_n=\sum_{k\le n}\mathbb E\big[(X_k-X_{k-1})^2\mid\mathcal F_{k-1}\big]\) — জমা-হওয়া শর্তাধীন ভেদ; random walk-এ \(\langle S\rangle_n=n\), আর \(X_n^2-\langle X\rangle_n\) martingale 7.8
quantile percentile-এর ভগ্নাংশ-রূপ (0.5 quantile = median) 1.2
quantile function CDF-এর উল্টো \(Q(p)=F^{-1}(p)\); কোন মানের নিচে probability \(p\) জমে 2.4
quartile data-কে চার ভাগে ভাগকারী মান: Q1, Q2(median), Q3 1.2
quasi-Poisson overdispersion-প্রতিকার: \(\operatorname{Var}=\phi\mu\) ধরে SE-কে \(\sqrt{\hat\phi}\) দিয়ে স্ফীত করা (\(\mathrm{SE}_{\text{quasi}}=\sqrt{\hat\phi}\,\mathrm{SE}_{\text{Poisson}}\)); quasi-likelihood (পূর্ণ distribution নয়), তাই AIC তুলনীয় নয়; উদাহরণে \(\sqrt{4.44}\approx2.107\) 5.5
quotient rule \((u/v)'=(u'v-uv')/v^2\) নিয়ম 0.3
R-squared মডেল-ব্যাখ্যাত variation-এর অনুপাত \(R^2=1-\text{SSE}/\text{SST}\), পরিসর \([0,1]\); simple-এ \(=r^2\) 5.1
Rademacher complexity একটা model-শ্রেণি এলোমেলো noise-এর (Rademacher চিহ্ন \(\pm1\)) সাথে কতটা খাপ খায় তার একটা মাপ; generalisation-ত্রুটির শক্ত, data-নির্ভর সীমা দেয় (VC-এর চেয়ে প্রায়ই আঁটোসাঁটো) 8.4
Radon–Nikodym derivative / density সেই \(f=\tfrac{d\nu}{d\mu}\ge0\) যাতে \(\nu(A)=\int_A f\,d\mu\); pdf \(f_X=\tfrac{dP_X}{d\lambda}\) ও likelihood ratio \(\tfrac{dP}{dQ}\) এর বিশেষ রূপ 7.5
Radon–Nikodym existence \(\nu(G)=\int_G X\,d\mathbb P\ll\mathbb P\), তাই density \(\tfrac{d\nu}{d\mathbb P}\big\rvert_{\mathcal G}=\mathbb E[X\mid\mathcal G]\) — সাধারণ \(X\in L^1\)-এ অস্তিত্ব-ইঞ্জিন (7.5) 7.7
Radon–Nikodym theorem \(\nu\ll\mu\) ও σ-finite \(\Rightarrow\) একটি অঋণাত্মক density \(f=\tfrac{d\nu}{d\mu}\) আছে (a.e.-অনন্য) যাতে \(\nu(A)=\int_A f\,d\mu\); "কঠোর pdf"-এর অস্তিত্ব-ইঞ্জিন 7.5
Radon–Nikodym via martingales density \(\frac{d\mathbb Q}{d\mathbb P}\)-র martingale-নির্মাণ: ক্রমশ-সূক্ষ্ম \((\mathcal F_n)\)-এ সীমাবদ্ধ density \(X_n=\frac{d\mathbb Q}{d\mathbb P}\rvert_{\mathcal F_n}\) একটা অঋণাত্মক (UI, \(\mathbb Q\ll\mathbb P\)) martingale, সীমা \(X_\infty=\frac{d\mathbb Q}{d\mathbb P}\rvert_{\mathcal F_\infty}\) 7.9
random effect গোষ্ঠী-ভিত্তিক বিচ্যুতি \(u_j\sim\mathcal N(0,\sigma_u^2)\) — গোষ্ঠীগুলোকে বৃহত্তর জনগোষ্ঠীর নমুনা ধরা হয়; \(J\)টা আলাদা parameter নয়, শুধু একটা variance \(\sigma_u^2\) estimate (বিরাট parsimony) 5.6
random experiment অনিশ্চিত ফলাফলের পরীক্ষা যার সম্ভাব্য outcome জানা কিন্তু ফল আগে বলা যায় না 2.1
random forest bagging-এর উন্নত রূপ — প্রতিটি split-এ এলোমেলো \(m=\sqrt{p}\)টি feature থেকেই সেরা split খুঁজে গাছগুলো decorrelate করে (\(\rho\)↓), তাই variance-floor bagging-এর চেয়ে নিচু। canonical (\(B{=}300\)): test \(0.839\), OOB \(0.848\); \(m=\sqrt{20}\approx4\) 6.5
random intercept শুধু উচ্চতা গোষ্ঠী-ভেদে বদলায় (\(\beta_0+u_j\)), ঢাল \(\beta_1\) অভিন্ন ⇒ সব গোষ্ঠীর regression-রেখা সমান্তরাল, কেবল উলম্বভাবে স্থানান্তরিত; চলমান উদাহরণের model 5.6
random slope predictor-এর প্রভাবও গোষ্ঠী-ভেদে বদলায় (\(\beta_1+u_{1j}\)): \(y_{ij}=\beta_0+\beta_1x_{ij}+u_{0j}+u_{1j}x_{ij}+\varepsilon_{ij}\) ⇒ রেখাগুলো আর সমান্তরাল নয়; intercept-slope random part-এর covariance \(\sigma_{01}\) নতুন parameter 5.6
random variable ফলাফল→সংখ্যা একটি function, \(X:\Omega\to\mathbb{R}\) 0.1
random vector একটা measurable map \(X:(\Omega,\mathcal F)\to(\mathbb R^d,\mathcal B(\mathbb R^d))\) — একসঙ্গে \(d\)টি random variable \((X_1,\dots,X_d)\); \(X\) measurable iff প্রতিটি উপাংশ \(X_i\) measurable 7.3
random walk \(S_n=\sum_{i=1}^{n} X_i\) যেখানে \(X_i\) iid ধাপ (\(\pm1\)); discrete-time process, \(\mathbb{E}[S_n]=0\) কিন্তু \(\operatorname{Var}(S_n)=n\) — তাই \(0\) থেকে দূরত্ব \(\sqrt{n}\)-হারে বাড়ে (E1) 3.5
random walk on a graph graph-এর প্রতি ধাপে কোনো প্রতিবেশী node-এ সমান সম্ভাবনায় যাওয়া (E2); undirected graph-এ সর্বদা reversible, stationary \(\pi_i\propto\deg(i)\) 3.6
random-effects ANOVA ৫.৩-এর random-effects (one-way) ANOVA-ই random-intercept model-এর regression-রূপ — total variance-কে between (\(\sigma_u^2\)) ও within (\(\sigma_\varepsilon^2\)) component-এ ভাঙা; ICC এখান থেকেই আসা ধারণা 5.6
randomization treatment/condition এলোমেলোভাবে unit-এ বণ্টন; পরিচিত-অপরিচিত confounder ভেঙে causal তুলনা সম্ভব করে — design-এর ভিত্তি 5.3
randomization test permutation test-এর সমার্থক; group label-কে random treatment-assignment ধরে p-value হিসাব 4.9
range আসলে যত output পাওয়া যায়, \(f(A)\); codomain-এর subset 0.1
rank মানগুলোকে ছোট-থেকে-বড় ক্রমে দেওয়া অবস্থান-সংখ্যা 1.4
rate (Exponential) প্রতি এককে গড় ঘটনার হার \(\lambda\); mean \(=1/\lambda\) 2.4
rate (intensity) \(\lambda\); Poisson process-এ একক সময়ে গড় event-সংখ্যা; \(\mathbb{E}[N(t)]=\lambda t\) 3.5
rate of change কত দ্রুত function বদলাচ্ছে তার পরিমাপ 0.3
rate ratio \(e^{\hat\beta_j}\) — predictor \(j\) এক একক বাড়লে প্রত্যাশিত count কত গুণ হয় (বাকি স্থির); উদাহরণে temp \(e^{0.0597}=1.0616\) (per \(+1\)°C), per \(+5\)°C \(1.348\), weekend \(e^{0.301}=1.351\); \(>1\) বাড়ায়, \(=1\) নিরপেক্ষ, \(<1\) কমায় 5.5
rate vs count offset-সহ Poisson regression count নয়, rate (\(\mu/t\)) model করে; exposure-proportionality জোর করতে offset লাগে — না দিলে rate-interpretation নষ্ট 5.5
raw (uncentered) moment মূল-বিন্দু \(0\)-সাপেক্ষে moment \(\mathbb{E}[X^k]\); MoM-এ সাধারণত এগুলোই মেলানো হয় (central moment-এর বিপরীত) 4.2
raw moment \(0\)-এর সাপেক্ষে \(k\)-th moment; \(\mu_k'=\mathbb{E}[X^k]\) 2.5
RBF / Gaussian kernel \(K(x,x')=\exp(-\gamma\lVert x-x'\rVert^2)\) — সবচেয়ে বহুল-ব্যবহৃত kernel; অন্তর্নিহিত feature-space অসীম-মাত্রিক তবু গণনাযোগ্য; \(\gamma\) kernel-প্রস্থ/capacity নিয়ন্ত্রণ করে; ছোট \(\gamma\) মসৃণ (under-fit), বড় \(\gamma\) wiggly (over-fit)। canonical সেরা \(C{=}10\)\(0.944\) 6.4
recall \(\frac{TP}{TP+FN}\) — সত্যিকার anomaly-র কত ভাগ ধরলাম (miss-এর বিপরীত); rare-শ্রেণিতে মূল মাপ — "সব inlier" trivial detector accuracy \(0.95\) পেলেও recall \(0\) (canonical IF @5% recall \(1.00\)) 6.9
recall (sensitivity, TPR) \(\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}\); সত্যিকারের positive-দের কত অংশ ধরা পড়ল (এখানে \(0.887\)); ROC-এর \(y\)-অক্ষ 5.4
reconstruction প্রক্ষিপ্ত score থেকে আসল-মাত্রায় আনুমানিক ফেরা: \(\hat X=ZV_k^\top\) (\(p\)-মাত্রায়, কিন্তু \(X\)-এর সমান নয়); হারানো অংশ বাদ-দেওয়া PC-দিকের, reconstruction-error (গড় Frobenius-বর্গ) \(=\sum_{j>k}\lambda_j\) (চলমান উদাহরণে \(0.017+0.008=0.025\), প্রায় lossless); top-\(k\) PC সব rank-\(k\) approx-এর মধ্যে এই error সর্বনিম্ন করে (Eckart–Young) 5.9
reconstruction weights (LLE) LLE-র প্রথম ধাপে শেখা সহগ \(w_{ij}\)\(x_i\)-কে তার প্রতিবেশীদের রৈখিক যোগ হিসেবে লেখার barycentric স্থানাঙ্ক; \(\sum_j w_{ij}=1\) শর্ত weight-কে input-translation/rotation-এ অপরিবর্তিত রাখে, তাই geometry নিম্ন-মাত্রায় হুবহু বহনযোগ্য 6.8
rectangular data structured data-র সমার্থক: টেবিল-আকৃতির data (rows × columns) 1.1
recursive partitioning tree বানানোর প্রক্রিয়া — প্রতিটি node-এ সেরা split বেছে data দুই child-এ ভাগ, তারপর প্রতিটি child-এ একই প্রক্রিয়া পুনরাবৃত্ত (recursion), যতক্ষণ থামার শর্ত (max_depth, min_samples, pure node) পূরণ হয় 6.5
reference (baseline) coding একটি group-কে baseline ধরে বাকিদের indicator রাখা; তখন \(\beta_0=\) reference গড়, প্রতিটি slope \(=\) সেই group ও reference-এর গড়-পার্থক্য 5.3
regression function \(\mathbb E[X\mid Y]=g(Y)\)\(Y\) থেকে \(X\)-এর নিঃশর্ত সেরা পূর্বাভাস (কোনো রৈখিকতা-অনুমান ছাড়া); 5.1-এর linear regression কেবল এর \(g(Y)=a+bY\)-রূপ সীমিত আনুমান 7.7
regression spline টুকরো-টুকরো polynomial (knot-এ মসৃণ-জোড়া) দিয়ে \(f\) মডেল করা; গাণিতিকভাবে একটা B-spline basis বানিয়ে \(\hat f(x)=\sum_k\hat\gamma_k B_k(x)\), যেখানে \(\hat\gamma\) = \(y\)-কে basis-matrix-এর ওপর সাধারণ OLS — অর্থাৎ basis-expansion-এ linear regression 5.7
regret \(R_T\) online learner-এর মান: \(R_T=\sum_t\ell_t(\theta_t)-\min_{\theta^\*}\sum_t\ell_t(\theta^\*)\) — online-ভাবে নেওয়া সিদ্ধান্তের মোট ক্ষতি বনাম পিছন-ফিরে-জানা সেরা স্থির \(\theta^\*\); ভালো algorithm-এ sublinear (\(o(T)\), যেমন \(O(\sqrt T)\)), তাই average regret \(R_T/T\to0\) 6.9
regular conditional distribution \(\mathbb P(X\in\cdot\mid\mathcal G)(\omega)\) — প্রতিটি (প্রায়) \(\omega\)-তে একটি সত্যিকার probability measure হিসেবে সমগ্র শর্তাধীন বণ্টন; শর্তাধীন density ও প্রত্যাশাকে এক ছাতার নিচে আনে (Polish space-এ অস্তিত্ব) 7.7
regular martingale closed/UI martingale-এর সমার্থ: যে martingale একটা \(X_\infty\in L^1\)-এ \(L^1\)-তে অভিসারী ও \(X_n=\mathbb E[X_\infty\mid\mathcal F_n]\) — "সুনিয়মিত" আচরণ 7.9
regularity conditions smoothness ও \(\partial_\theta\!\leftrightarrow\!\int\) বিনিময়ের শর্ত যা score-এর গড় \(0\), CRLB ও MLE-asymptotics-কে বৈধ করে (§৭ Q10–Q11) 4.5
regularization overfit ঠেকাতে loss-এর সাথে একটি penalty (coefficient-size-এর জরিমানা) \(\lambda\cdot(\text{norm})\) যোগ করে effective-capacity একটানা কমানোর কৌশল; \(\lambda=0\) (OLS, পূর্ণ capacity) থেকে \(\lambda\to\infty\) (সব coefficient \(\to0\)) পর্যন্ত knob; সামান্য bias কিনে অনেক variance বেচে ৬.১-এর U-curve-এর তলায় নামা 6.2
regularization path \(\lambda\)-র পুরো পরিসর জুড়ে coefficient-গুলো কীভাবে বদলায় তার বক্ররেখা/তালিকা; \(\lambda\uparrow\) ⇒ lasso-তে nonzero একঘেয়ে কমে; canonical path #nonzero: \(\lambda\,0.05\to16,\,0.10\to9,\,0.20\to5,\,0.30\to4,\,0.50\to4\) (সত্য support \(\{0,1,2,3\}\)) 6.2
rejection region \(R\) \(T\)-এর যে মানে \(H_0\) বাতিল করা হয়; \(P(T\in R\mid H_0)=\alpha\) (Figure 1) 4.7
relation \(A \times B\)-এর একটি subset; কোন জোড়া "সম্পর্কিত" তার তালিকা 0.1
relative efficiency দুই estimator-এর MSE (বা variance)-এর অনুপাত; Figure 4-এ \(\mathrm{MSE}(2\bar X)/\mathrm{MSE}(\max)\approx3.9\) 4.4
relative efficiency (vs CRLB) দুই estimator-এর efficiency-অনুপাত বা একটির floor-এর তুলনায় অবস্থান; অর্ধেক-data estimator \(e=0.5\) (দ্বিগুণ নমুনা দরকার) 4.5
relative frequency frequency ÷ n; ভগ্নাংশ বা proportion (যোগফল 1) 1.3
REML (restricted maximum likelihood) variance component estimate করার পদ্ধতি যা fixed-effect estimate করার df-খরচ ছাড় দিয়ে (residual-space-এ project করে) unbiased \(\hat\sigma^2\) দেয় — sample-variance-এ \(n\)-বনাম-\(n-1\)-এর mixed-model অ্যানালগ; variance/random-structure-এর জন্য পছন্দ (চলমান fit REML) 5.6
replication প্রতিটি condition-এ একাধিক স্বাধীন unit (\(n=20\)/cell); \(\sigma^2\) আনুমান ও within-group variation পরিমাপের জন্য অপরিহার্য 5.3
replications একই পরীক্ষা \(R\) বার স্বাধীনভাবে চালানো (যেমন E1-এ \(R=60000\), E2-এ \(D=2000\) dataset); বড় \(R\) \(\Rightarrow\) ছোট Monte-Carlo error, তাই আনুমানের নির্ভুলতা replication-সংখ্যার সঙ্গে বাড়ে 8.2
representative sample যে sample-এর গঠন population-এর গঠনের কাছাকাছি (SRS গড়ে এটি দেয়) 1.1
reproducibility একই seed দিলে হুবহু একই ফলাফল পাওয়ার বৈশিষ্ট্য (পুনরুৎপাদনযোগ্যতা) 0.6
resampling with replacement মূল \(n\)টা মান থেকে এলোমেলোভাবে টেনে ফেরত রেখে আবার টানা — মোট \(n\)বার; একই মান একাধিকবার আসতে পারে, কিছু বাদ পড়ে — এটাই bootstrap variation-এর উৎস (§৭ Q1, Q10) 4.9
residual প্রকৃত ও fitted মানের পার্থক্য \(\hat\varepsilon_i=y_i-\hat y_i\) 5.1
residual orthogonality residual প্রতিটি predictor column-এর সাথে orthogonal, \(X^\top\hat\varepsilon=\mathbf 0\) 5.1
residual plot fitted মান (বা predictor)-এর বিপরীতে residual \(\hat\varepsilon_i\)-এর scatter; এলোমেলো অনুভূমিক ব্যান্ড = অনুমান ঠিক, funnel = heteroscedasticity, বাঁক = nonlinearity — diagnostics-এর সবচেয়ে সস্তা ও প্রথম পরীক্ষা 5.2
residual sum of squares (RSS/SSE) residual-গুলোর বর্গের যোগফল \(\sum_i\hat\varepsilon_i^2\), যা OLS minimize করে 5.1
residual-vs-fitted plot \(\hat y_i\) বনাম \(\hat\varepsilon_i\); Linearity ও Equal-variance অনুমান একসাথে চোখে যাচাই করার মূল চিত্র 5.2
response variable যা ভবিষ্যদ্বাণী করতে চাই, নির্ভরশীল চলক \(y\) 5.1
responsibility E-step-এ গণনা করা \(\gamma_{ik}=P(z_i{=}k\mid x_i)\) — বিন্দু \(x_i\)-এর "দায়িত্ব" component \(k\) কতটা নেয়, একটা Bayes posterior (prior \(\pi_k\), likelihood \(\mathcal N_k\), evidence \(p(x_i)\)); \(\sum_k\gamma_{ik}=1\)। canonical ambiguous বিন্দু \([0.864,0.002,0.133]\) 6.7
restriction (under \(H_0\)) \(H_0\) যতগুলো স্বাধীন প্যারামিটার-সম্পর্ক আটকায়; Wilks-এর \(k\) (= df) এই সংখ্যা 4.8
reverse martingale অ-ক্রমহ্রাসমান σ-algebra-পরিবার \(\mathcal G_0\supseteq\mathcal G_1\supseteq\cdots\)-এ সংজ্ঞায়িত martingale; সর্বদা UI ও a.s./\(L^1\)-অভিসারী — SLLN-এর martingale-প্রমাণ ও de Finetti-উপপাদ্যের যন্ত্র (Klenke Ch.12) 7.9
reversibility detailed balance-এর সমার্থ ধর্ম: equilibrium-এ chain-কে সময়ে উল্টো চালালেও একই পরিসংখ্যান দেখায় 3.6
ridge closed-form / invertibility \(\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y\); \(\lambda>0\) হলে \(X^\top X+\lambda I\) positive-definite (eigenvalue \(\ge\lambda>0\)), তাই \(X^\top X\) singular (\(p>n\) বা collinear) হলেও সর্বদা invertible — OLS-এর normal equation-এর তুলনায় ridge-এর সংখ্যাগত সুবিধা 6.2
ridge regression \(\min_\beta\lVert y-X\beta\rVert_2^2+\lambda\lVert\beta\rVert_2^2\); closed-form \(\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y\); সব coefficient-কে \(0\)-র দিকে সংকুচিত করে কিন্তু কোনোটাকে ঠিক \(0\) করে না; multicollinearity সারায়; canonical \(\lambda^\*{\approx}0.21\), MSE \(2.075\), \(20\) nonzero 6.2
Riemann integral \(\int_a^b f\)-কে domain-কে vertical strip-এ ভেঙে (upper/lower sum মিলিয়ে) গণনা; সংকীর্ণ — \(\mathbf 1_{\mathbb Q}\)-এর মতো wild function-এ ব্যর্থ (C2) 7.1
Riemann sum অনেকগুলো rectangle-এর area যোগ করে integral-এর আনুমানিক মান \(\sum f(x_i^*)\Delta x\) 0.4
Riemann vs Lebesgue Riemann domain (\(x\)-অক্ষ) কুচি করে, Lebesgue range (\(y\)-মান) কুচি করে; Lebesgue কঠোরভাবে বড় ও limit-সহনশীল 7.4
Riesz representation theorem একটি Hilbert space-এ প্রতিটি bounded linear functional \(\Lambda f=\langle f,g\rangle\) আকারে একক \(g\) দিয়ে লেখা যায়; Radon–Nikodym-এর \(L^2\)-প্রমাণের ভিত্তি 7.5
Riesz–Fischer theorem প্রতিটি \(L^p\) (\(1\le p<\infty\)) complete — তাই Banach space; absolutely-convergent-series criterion দিয়ে প্রমাণিত 7.5
right-skewed ডান দিকে লম্বা লেজ; সাধারণত mean > median 1.3
risk (of an estimator) quadratic loss-এ একটা estimator \(\hat\theta\)-এর মোট প্রত্যাশিত বর্গ-ত্রুটি \(R(\hat\theta,\theta)=\mathbb E\lVert\hat\theta-\theta\rVert^2\); \(\theta\)-এর একটা ফাংশন (estimator-কে তার পুরো risk-বক্ররেখা দিয়ে বিচার করা হয়); MLE-র risk সর্বত্র \(p\) 8.3
risk / expected risk (\(R(h)\)) পুরো (অজানা) distribution \(P(x,y)\)-র উপর প্রত্যাশিত loss \(R(h)=\mathbb E[\ell(h(x),y)]\) — অদেখা data-তে গড় ভুল; modeling-এর আসল লক্ষ্য এটিই minimize করা, কিন্তু \(P\) অজানা 6.1
robust covariance outlier-প্রভাব কমিয়ে \(\mu,\Sigma\) আঁচ করার পদ্ধতি (যেমন Minimum Covariance Determinant), যাতে দূষিত data-তেও Mahalanobis-threshold নির্ভরযোগ্য থাকে; Elliptic Envelope-এর ভিত্তি (নয়তো কয়েকটা outlier-ই \(\Sigma\)-কে ফুলিয়ে নিজেদের লুকিয়ে ফেলত) 6.9
robust statistic outlier থাকলেও সামান্য বদলায় এমন পরিমাপ 1.2
ROC / AUC threshold-মুক্ত পারফরম্যান্স-বক্ররেখা (TPR বনাম FPR) ও তার নিচের ক্ষেত্রফল; AUC = P(random positive-এর score \(>\) random negative-এর score), imbalance-এ accuracy-র চেয়ে নির্ভরযোগ্য। canonical logistic AUC \(0.997\) 8.1
ROC AUC threshold-নিরপেক্ষ র‍্যাঙ্কিং-মাপ: random anomaly-কে random inlier-এর চেয়ে উঁচু score দেওয়ার সম্ভাবনা (\(1.0\) নিখুঁত, \(0.5\) এলোমেলো); class-imbalance-এ accuracy বিভ্রান্তিকর বলে এটাই পছন্দ; canonical IF/LOF/Elliptic \(1.000\), OC-SVM \(0.941\) 6.9
ROC curve threshold \(0\to1\) ঘোরালে TPR (recall) বনাম FPR (\(=1-\)specificity)-এর curve; threshold বাছাই ও discrimination দেখার হাতিয়ার 5.4
running maximum \(X_n^*=\max_{0\le k\le n}\lvert X_k\rvert\) — সময় \(n\) পর্যন্ত পথের চরম-বিচ্যুতি; Doob's maximal ও \(L^p\) inequalities ঠিক একে বাঁধে 7.9
running mean \(n\)-এর সাথে ক্রমে হালনাগাদ হওয়া চলমান গড় \(\bar X_n\); LLN-এ true mean-এ গড়িয়ে যাওয়ার দৃশ্যরূপ 3.3
sample population থেকে নেওয়া পর্যবেক্ষিত উপসেট (আকার \(n\), সাধারণত \(n \ll N\)) 1.1
sample maximum (as MLE) Uniform\((0,\theta)\)-এ \(\hat\theta_{\text{MLE}}=\max_i X_i\) — likelihood \(\max_i X_i\)-এ লাফিয়ে চূড়ায় ওঠে, তারপর \(\theta^{-n}\) ধরে ক্ষয়; কখনো \(\theta\) ছাড়ায় না (সর্বদা বৈধ) 4.3
sample maximum / order statistic \(X_{(n)}=\max_i X_i\) — Uniform\((0,\theta)\)-এর MLE; biased low (\(\mathbb{E}=\frac{n}{n+1}\theta\)) কিন্তু \(\mathrm{Var}\sim\theta^2/n^2\), তাই MSE অতি ছোট (Figure 4) 4.4
sample mean sample-এর গড় \(\bar{x} = \frac{1}{n}\sum_i x_i\); population mean \(\mu\)-এর estimator 1.1
sample mean concentration \(\bar X_n\) data বাড়লে \(\mu\)-র চারপাশে আরও আঁটসাঁটভাবে কেন্দ্রীভূত হওয়া; LLN-এর পরিমাণগত রূপ 3.1
sample median মাঝের order statistic (\(n\) বিজোড় হলে \(X_{((n+1)/2)}\)) 2.7
sample moment \(\hat\mu_k'=\frac1n\sum_{i=1}^n X_i^k\) — data থেকে হিসাব করা \(k\)-তম কাঁচা moment; population moment-এর plug-in estimate 4.2
sample path process-এর একটিমাত্র realization — একটা স্থির outcome \(\omega\) ধরে \(t\mapsto X_t(\omega)\) পুরো ফাংশন; "একটা পরীক্ষার পুরো ইতিহাস" 3.5
sample proportion binary বৈশিষ্ট্যযুক্ত sample-এর অনুপাত \(\hat{p} = k/n\) (= binary গড়) 1.1
sample reweighting AdaBoost-এর প্রতি round-শেষে নমুনা-ওজন আপডেট — ভুল-শ্রেণিবদ্ধ বিন্দু \(w_i\leftarrow w_ie^{\alpha_t}\) (বাড়ে), ঠিক-বিন্দু \(w_ie^{-\alpha_t}\) (কমে), তারপর normalize; পরের learner-কে এখনো-ভুল বিন্দুর দিকে মন দিতে বাধ্য করে। reweight-পরে আগের learner ঠিক \(50\%\) weighted-error-এ নামে 6.6
sample size determination চাহিদা-মাফিক margin of error \(m\) পেতে দরকারি নমুনা-আকার \(n\ge(z_{\alpha/2}\sigma/m)^2\) (proportion-এ worst-case \(\hat p=0.5\)) (§৭ Q8) 4.6
sample space সব সম্ভাব্য ফলাফলের set, \(\Omega\) (probability-তে) 0.1
sample variance \(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\); \(\sigma^2\)-এর unbiased estimator, ভাজক \(n-1\) (এক df খরচ) 4.1
sample variance \(S^2\) \(S^2=\frac1{n-1}\sum(X_i-\bar X)^2\)\(\sigma^2\)-এর unbiased estimator (\(\mathbb{E}[S^2]=\sigma^2\)); \(n-1\) ভাজক বলে "Bessel correction" 4.4
sampling bias বাছাই-পদ্ধতি কিছু unit-কে systematically বেশি/কম নেয়, ফলে statistic-এ পদ্ধতিগত ভুল 1.1
sampling distribution একই population থেকে বারবার (কাল্পনিক) নমুনা তুললে একটা statistic \(T\)-এর যে distribution হয়; inference-এর কেন্দ্রীয় বস্তু — এর কেন্দ্র দেয় bias, ছড়ানো দেয় standard error 4.1
Sauer–Shelah lemma যদি \(d_{\mathrm{VC}}=d\) হয়, তবে growth function \(\Pi_{\mathcal H}(n)\le\sum_{i=0}^{d}\binom{n}{i}=O(n^d)\) — অর্থাৎ \(d_{\mathrm{VC}}\) সসীম হলে labeling-সংখ্যা exponential নয়, polynomial; এটিই অসীম-\(\mathcal H\)-এ generalization-bound সম্ভব করে 6.1
scalar একটি একক সংখ্যা (vector নয়), যা দিয়ে vector scale করা হয় 0.5
scale (Exponential) \(\theta=1/\lambda\); scipy.stats.expon এই scale চায় 2.4
scatterplot \((x,y)\) জোড়াকে সমতলে বিন্দু হিসেবে আঁকা চিত্র; সম্পর্কের প্রথম ছবি 1.4
score equation first-order condition \(\ell'(\theta)=0\) (একাধিক প্যারামিটারে প্রতিটি partial \(=0\)) — মসৃণ অভ্যন্তরীণ সর্বোচ্চে MLE বের করার সমীকরণ (\(\ell''<0\) দিয়ে সর্বোচ্চ যাচাই) 4.3
score equation (Poisson) log canonical link-এ MLE-শর্ত \(X^\top(y-\mu)=\mathbf 0\) (logistic-এর \(X^\top(y-p)=0\)-র জমজ); intercept থাকলে conservation \(\sum_i\hat\mu_i=\sum_i y_i\) (sample mean সংরক্ষিত) 5.5
score function log-likelihood-এর derivative \(\ell'(\theta)=\frac{\partial}{\partial\theta}\sum_i\log f(X_i;\theta)\); মসৃণ অভ্যন্তরীণ চূড়ায় MLE আসে score equation \(\ell'(\theta)=0\) সমাধান করে 4.3
score statistic \(S=\dfrac{U(\theta_0)^2}{I(\theta_0)}\)\(\theta_0\)-তে log-likelihood-এর ঢাল ও information থেকে; MLE বের না করেই চলে; \(\xrightarrow{d}\chi^2_1\) (Figure 1, §৭ Q7) 4.8
score test (Rao) score statistic-ভিত্তিক \(H_0:\theta=\theta_0\) test; শুধু null-এ হিসাব লাগে; multinomial-এ Pearson \(\chi^2\)-এ পরিণত হয় (§৭ Q9) 4.8
scree plot eigenvalue (বা explained-variance-ratio) বনাম PC-নম্বরের লেখচিত্র — কতগুলো PC রাখা উচিত তা দৃশ্যত বাছতে; খাড়া-পতন-থেকে-সমতল বাঁকই "elbow"; চলমান উদাহরণে PC2→PC3-এ তীক্ষ্ণ পতন (\(0.343\to0.0042\)) ⇒ elbow PC2-র পরে ⇒ \(2\) PC রাখা 5.9
secant line curve-এর দুটো বিন্দু যোগকারী সরলরেখা 0.3
second derivative derivative-এর derivative; curvature মাপে 0.3
second derivative test \(f''\)-এর চিহ্ন দিয়ে max/min নির্ণয় 0.3
second-order Delta method \(g'(\mu)=0\) হলে ব্যবহৃত; \(n(g(\bar X_n)-g(\mu))\xrightarrow{d}\tfrac12 g''(\mu)\sigma^2\chi^2_1\) — limit Normal নয়, chi-square 3.4
seed pseudo-random generator-এর শুরুর মান; reproducibility নিশ্চিত করে 0.6
self-independence (\(\mathbb P(A)=\mathbb P(A)^2\)) একটি ঘটনা নিজের থেকে স্বাধীন হলে \(\mathbb P(A)=\mathbb P(A\cap A)=\mathbb P(A)^2\Rightarrow\mathbb P(A)\in\{0,1\}\); 0–1 law-এর এক-লাইন বীজগণিতিক হৃৎপিণ্ড 7.6
self-selection bias উত্তরদাতারা নিজেরা বাছাই হওয়ায় সৃষ্ট bias (যেমন স্বেচ্ছা অনলাইন জরিপ) 1.1
self-training সরলতম semi-supervised কৌশল: labeled data-তে classifier ফিট করে, তার সবচেয়ে-আত্মবিশ্বাসী unlabeled-প্রেডিকশনগুলোকে "pseudo-label" হিসেবে training-এ যোগ করে, বারবার পুনরাবৃত্তি; সরল কিন্তু ভুল-pseudo-label জমলে বিপথগামী হতে পারে 6.9
semi-supervised learning অল্প label-যুক্ত + বহু label-হীন বিন্দু একসাথে ব্যবহার করে শেখা; unlabeled data সাহায্য করে কেবল যদি গঠন label-সম্পর্কিত হয় (cluster/manifold/smoothness অনুমান); canonical-এ labeled-only \(0.833\) → LabelSpreading \(0.989\) 6.9
sensitivity \(P(+\mid D)\); রোগীকে test ধরার হার (true positive rate) 2.2
separating hyperplane feature-space-এ যে সমতল \(w^\top x+b=0\) দুই শ্রেণির অঞ্চল ভাগ করে; \(w\) এর লম্ব-অভিমুখ, \(b\) স্থানান্তর; SVM এদের মধ্যে max-margin-টি বাছে 6.4
sequential (online) updating প্রতিটা নতুন data-তে আগের posterior পরের ধাপের prior হয়ে যায়; conjugacy-তে শুধু parameter আপডেট (Figure 2, §৭ Q12) 4.10
sequential ensemble boosting-এর গঠন — গাছগুলো পরস্পর-নির্ভর, \(h_t\) গড়তে আগের সমষ্টি \(F_{t-1}\)-এর ভুল (reweighted data বা residual) লাগে, তাই \(h_{t-1}\) শেষ না হলে \(h_t\) শুরু করা যায় না (parallel নয়); bagging/RF-এর parallel-স্বাধীন ensemble-এর সরাসরি বিপরীত 6.6
Series pandas-এর index-যুক্ত নামাঙ্কিত 1D array (একটি কলাম) 0.6
set কিছু সুনির্দিষ্ট, পরস্পর-আলাদা বস্তুর সংগ্রহ; ক্রম ও পুনরাবৃত্তি গোনা হয় না 0.1
set-builder notation শর্ত দিয়ে set লেখার রীতি, \(\{x \mid \text{শর্ত}\}\) 0.1
shattering \(\mathcal H\) যদি কিছু বিন্দু-সেটের সব \(2^k\)টি ±labeling আলাদা করতে পারে, তবে সেই সেটকে shatter করে; \(d_{\mathrm{VC}}\) = বৃহত্তম shatter-যোগ্য সেটের আকার; 2D-তে 3 অ-সমরেখ বিন্দু shatter হয়, 4 হয় না 6.1
shrinkage গোষ্ঠী-estimate-কে গ্র্যান্ড-গড়ের দিকে টানা — partial pooling-এর প্রভাব; কতটা তা নির্ভর করে shrinkage factor \(\lambda_j\)-এর ওপর; ছোট/noisy গোষ্ঠী বেশি টানা, বড়/তথ্যবহুল কম; noisy চরম মান নিয়ন্ত্রণ করে 5.6
shrinkage estimator unbiased estimator-কে \(0\)-র দিকে টেনে (factor \(c<1\)) সামান্য bias ঢুকিয়ে variance কমানো; MSE-optimal \(c^\ast=\theta^2/(\theta^2+\sigma_0^2)<1\) (§৭ Q11) 4.4
shrinkage factor (\(\lambda_j\)) গোষ্ঠীর data কতটা "বিশ্বাস" পায়: \(\lambda_j=\dfrac{n_j\sigma_u^2}{n_j\sigma_u^2+\sigma_\varepsilon^2}\); BLUP \(\approx\lambda_j\times\)(গোষ্ঠীর raw-deviation); \(n_j\)-তে একঘেয়ে বাড়ে; উদাহরণে \(\lambda_{10}=0.855\), \(\lambda_{20}=0.922\), \(\lambda_{30}=0.947\) 5.6
shrinkage factor (ridge) orthonormal \(X\)-এ ridge-coefficient OLS-এর সমানুপাতিক সংকোচন \(\hat\beta_j^{\text{ridge}}=\hat\beta_j^{\text{OLS}}/(1+\lambda)\); factor \(\frac1{1+\lambda}\in(0,1)\) for \(\lambda>0\) বলে কোনো coefficient ঠিক \(0\) হয় না — এজন্যই ridge sparse নয় 6.2
\(\sigma\)-algebra \(\Omega\)-এর subset-দের পরিবার \(\mathcal F\) যা \(\Omega\) ধারণ করে এবং complement ও গণনাযোগ্য union-এ বদ্ধ; এ থেকেই \(\varnothing\), গণনাযোগ্য intersection ও set-difference-এর বদ্ধতা আসে — "পরিমাপযোগ্য ঘটনা"-র বৈধ পরিবার 7.2
\(\sigma\)-algebra (preview) একটা set \(\Omega\)-এর কিছু subset-এর পরিবার \(\mathcal F\) যা \(\Omega\) ধারণ করে এবং complement ও গণনাযোগ্য union/intersection-এ বদ্ধ; measure যেখানে সংজ্ঞায়িত হয় (event-দের বৈধ পরিবার), পূর্ণ নির্মাণ 7.2-এ 7.1
\(\sigma\)-finite measure যেখানে \(\Omega=\bigcup_n\Omega_n\) সম্ভব এমন গণনাযোগ্য \(\Omega_n\)-এ যাদের প্রতিটির \(\mu(\Omega_n)<\infty\); Carathéodory uniqueness ও \(\pi\)\(\lambda\)-এর আবশ্যক শর্ত (Lebesgue \(\sigma\)-finite: \(\mathbb R=\bigcup_n[-n,n]\)) 7.2
\(\sigma\)-finite integral যে measure space-এ \(\Omega=\bigcup_n\Omega_n\) (\(\mu(\Omega_n)<\infty\)); integral ও limit-interchange-জাতীয় ফল এই শর্তে মসৃণ চলে 7.4
\(\sigma(X)\) (generated σ-algebra of \(X\)) \(X\)-কে measurable করা সবচেয়ে ছোট σ-algebra: \(\sigma(X)=X^{-1}(\mathcal B)=\{X^{-1}(B):B\in\mathcal B\}\); simple \(X\)-এর \(k\)টি ভিন্ন মান হলে \(\lvert\sigma(X)\rvert=2^k\) (\(k=2,3,4\to 4,8,16\)) 7.3
sigmoid (logistic) function \(\sigma(z)=\frac{1}{1+e^{-z}}\); logit-এর inverse, \(\eta\)-কে \((0,1)\)-তে S-আকৃতিতে চেপে আনে; \(\sigma(0)=0.5\), \(\sigma(\pm\infty)=1/0\) 5.4
sigmoid-derivative identity \(\sigma'(z)=\sigma(z)(1-\sigma(z))\); তাই \(\frac{\partial p}{\partial\eta}=p(1-p)=\) Bernoulli variance, যা score/Hessian/IRLS-weight-এর চাবিকাঠি 5.4
signed area চিহ্নসহ ক্ষেত্রফল; x-অক্ষের নিচের অংশ ঋণাত্মক ধরা হয় 0.4
significance level \(\alpha\) type I error-এর আগে-থেকে-বাছা ঊর্ধ্বসীমা (যেমন \(0.05\)); এটাই critical value ঠিক করে 4.7
silhouette score প্রতিটি বিন্দুর cluster-membership-এর মান: \(s_i=\frac{b_i-a_i}{\max(a_i,b_i)}\in[-1,1]\), \(a_i=\) নিজের cluster-এর গড়-দূরত্ব, \(b_i=\) নিকটতম-অন্য cluster-এর গড়-দূরত্ব; \(\to1\) ভালো-বসানো, \(\approx0\) সীমান্ত, \(<0\) সম্ভবত ভুল cluster; গড়-\(s\) সর্বোচ্চকারী \(K\) বাছা — label-মুক্ত, সংখ্যাগত, তাই elbow-এর চেয়ে নির্ভরযোগ্য; চলমান উদাহরণে \(k{=}3\to0.712\) (সর্বোচ্চ) 5.9
Silverman's rule of thumb bandwidth-এর default আনুমান h ≈ 1.06·σ̂·n^(−1/5) 1.3
simple function সসীম-মানের measurable function \(s=\sum_{i=1}^n a_i\mathbf 1_{A_i}\) (\(a_i\in\mathbb R,\ A_i\in\mathcal F\)); approximation theorem ও Lebesgue integral (7.4)-এর মৌলিক ইট 7.3
simple function integral \(\int\sum_i a_i\mathbf 1_{A_i}\,d\mu=\sum_i a_i\mu(A_i)\); "উচ্চতা × আকার"-এর যোগফল, প্রতিনিধিত্ব-নিরপেক্ষ ও linear 7.4
simple linear regression একটিমাত্র predictor-এর regression, \(\hat y=\beta_0+\beta_1 x\) 5.1
simple random sample SRS: প্রতিটি unit সমান সম্ভাবনায় ও স্বাধীনভাবে বাছাই-করা নমুনা 1.1
singular matrix inverse-হীন matrix (\(\det=0\)) 0.5
singular measure \(\mu\)-এর সাপেক্ষে singular \(\nu\) (\(\nu\perp\mu\)): এমন একটি set আছে যেখানে \(\nu\)-এর সব ভর অথচ \(\mu\)-measure শূন্য; Lebesgue decomposition-এর density-হীন অংশ 7.5
singular value decomposition (SVD) \(X=USV^\top\) — যেকোনো matrix-এর গুণনপচন; PCA-র সংখ্যাগতভাবে স্থিতিশীল পথ: \(V\)-র column \(=\) PC দিক (eigenvector), singular-value-বর্গ \(s_j^2/n=\lambda_j\) (eigenvalue), \(US=\) PC score; covariance সরাসরি না বানিয়েই PCA দেয়, তাই বাস্তবে এটাই ব্যবহৃত 5.9
skewness distribution কোন দিকে হেলানো; তৃতীয় standardized moment g₁ 1.3
slack (of a bound) bound ও প্রকৃত মানের পার্থক্য; ঢিলা bound-এ বড়, আঁটসাঁট bound-এ ছোট 3.1
slack variable soft-margin-এ প্রতিটি বিন্দুর margin-লঙ্ঘনের পরিমাপ \(\xi_i\ge0\) (\(\xi_i=0\) নিরাপদ বাইরে, \(0<\xi_i<1\) margin-এর ভিতরে কিন্তু সঠিক পাশে, \(\xi_i>1\) ভুল পাশে); \(C\sum_i\xi_i\) রূপে শাস্তিপ্রাপ্ত 6.4
SLLN via martingale বৃহৎ সংখ্যার শক্তিশালী সূত্রের martingale-প্রমাণ: গড় \(\bar X_n=\frac1n\sum_{k\le n}\xi_k\)-কে backwards-martingale-কাঠামোয় বসিয়ে convergence theorem দিয়ে \(\bar X_n\to\mu\) a.s. (7.6-এর পুনঃপ্রমাণ) 7.9
slope রেখার ঢাল, প্রতি একক x-এ y-এর পরিবর্তন 0.3
slope coefficient predictor-এর এক-একক পরিবর্তনে \(\hat y\)-এর গড় পরিবর্তন, \(\beta_j\) 5.1
Slutsky's theorem \(X_n\xrightarrow{d}X\)\(Y_n\xrightarrow{P}c\) হলে \(X_n+Y_n\xrightarrow{d}X+c\), \(X_nY_n\xrightarrow{d}cX\); CLT-তে \(\sigma\)-কে \(S_n\) দিয়ে বদলানো ও Delta method প্রমাণের হাতিয়ার 3.4
smoother matrix (\(S\)) linear smoother-এ \(\hat{\mathbf f}=S\mathbf y\)-এর \(n\times n\) matrix; regression spline-এ \(S=B(B^\top B)^{-1}B^\top\) একটা orthogonal projection (\(S^\top=S\), \(S^2=S\), \(\operatorname{tr}(S)=K\)); kernel-এ row \(i\) = \(x_i\)-এর চারপাশের normalized kernel-weight 5.7
smoothing parameter (\(\lambda\)) smoothing spline-এ roughness-শাস্তির ওজন; \(\lambda\to0\) ⇒ interpolation (চরম overfit, high variance), \(\lambda\to\infty\) ⇒ সরলরেখা/linear fit (চরম oversmooth, high bias); মাঝামাঝি মান সর্বোত্তম আপস 5.7
smoothing spline প্রতিটা data-বিন্দুতে knot বসিয়ে penalized criterion \(\sum_i(y_i-f(x_i))^2+\lambda\int f''^2\) minimize করে পাওয়া spline; knot বাছার বদলে \(\lambda\) দিয়ে নমনীয়তা নিয়ন্ত্রণ; সমাধান সর্বদা natural cubic spline; চলমান উদাহরণে \(s=13.5\) → MSE \(0.0197\) 5.7
smoothness assumption semi-supervised-এর মূল অনুমান: কাছাকাছি দুই বিন্দুর label সম্ভবত এক (ছোট পরিবর্তনে label বদলায় না); label propagation এটি graph-diffusion ও \(f^\top L f\)-minimization দিয়ে বাস্তবায়িত করে 6.9
soft assignment প্রতিটি বিন্দুকে সব component-এ ভগ্নাংশে (responsibility \(\gamma_{ik}\in[0,1]\), যোগফল \(1\)) বণ্টন — GMM-এর ধরন; সীমানা-অনিশ্চয়তা ধরে রাখে (যেমন \([0.864,0.002,0.133]\) = প্রধানত comp-\(1\), সামান্য comp-\(3\))। hard assignment-এর বিপরীত 6.7
soft margin hard-margin-এর শিথিল রূপ — প্রতিটি বিন্দুতে slack \(\xi_i\ge0\) অনুমোদন করে কিছু margin-লঙ্ঘন সহ্য করে, উদ্দেশ্যে \(C\sum_i\xi_i\) শাস্তি যোগ; inseparable/noisy data-র (যেমন make_moons) জন্য অপরিহার্য 6.4
soft-thresholding orthonormal-এ lasso-র সমাধান-অপারেটর \(\hat\beta_j=\operatorname{sign}(z_j)\big(\lvert z_j\rvert-\lambda/2\big)_+\)\(\lvert z_j\rvert\le\lambda/2\) হলে \(0\), নাহলে magnitude থেকে \(\lambda/2\) বিয়োগ করে চিহ্ন রাখা; lasso-র "shrink + zero" আচরণের গাণিতিক রূপ ও sparsity-র উৎস 6.2
sparse regression এমন regression যা ইচ্ছাকৃতভাবে অল্প-সংখ্যক nonzero coefficient-যুক্ত মডেল খোঁজে (অর্থাৎ feature selection-সহ fit); lasso/elastic net এর প্রধান হাতিয়ার; সত্য মডেল sparse হলে বিশেষ লাভজনক 6.2
sparsity সমাধান-vector-এ অধিকাংশ coefficient ঠিক \(0\) হওয়ার বৈশিষ্ট্য; lasso/elastic net এটি প্ররোচিত করে; ব্যাখ্যাযোগ্যতা ও কম-variance দেয়; canonical lasso path \(\lambda{=}0.30\)-এ মাত্র \(4\) nonzero 6.2
Spearman rank correlation rank-এর উপর Pearson; যেকোনো monotonic সম্পর্ক ও outlier-robust পরিমাপ, \(\rho\) 1.4
specificity \(P(-\mid D^c)\); সুস্থকে test ছেড়ে দেওয়ার হার (true negative rate) 2.2
spherically symmetric multivariate normal \(N(\theta,I_p)\)-এর গোলীয় প্রতিসাম্য — density কেবল \(\lVert x-\theta\rVert\)-এর উপর নির্ভর; তাই \(\theta=0\)-তে \(\lVert X\rVert^2\sim\chi^2_p\), আর JS-এর \(\lVert X\rVert^2\)-নির্ভর radial shrinkage এই প্রতিসাম্যের সাথে সামঞ্জস্যপূর্ণ 8.3
splitting criterion কোন split "সেরা" তা মাপার function — classification-এ Gini বা entropy (information gain সর্বোচ্চকরণ), regression-এ variance/MSE-হ্রাস; greedy-ভাবে প্রতিটি node-এ স্থানীয়-সেরা split বাছাইয়ের ভিত্তি 6.5
spurious correlation কাকতালীয় বা confounder-চালিত অর্থহীন correlation 1.4
standard deviation variance-এর বর্গমূল; মূল data-র এককে spread 1.2
standard error একটা estimator-এর standard deviation; \(\bar X_n\)-এর \(\sigma/\sqrt{n}\), \(g(\bar X_n)\)-এর Delta method-পূর্বাভাস \(\lvert g'(\mu)\rvert\sigma/\sqrt{n}\) 3.4
standard error (SE) একটি estimator-এর standard deviation; Monte Carlo-তে \(\operatorname{SE}\propto 1/\sqrt n\), error band-এর প্রস্থ ঠিক করে 3.3
standard error from Fisher info \(\mathrm{SE}(\hat\theta)=\sqrt{\frac{1}{nI(\hat\theta)}}\) — MLE-র অনিশ্চয়তা; 4.6-এ confidence interval-এর ভিত্তি 4.5
standard error of coefficient \(\widehat{\mathrm{se}}(\hat\beta_j)=\hat\sigma\sqrt{(X^\top X)^{-1}_{jj}}\); \(\operatorname{Var}(\hat\beta)=\sigma^2(X^\top X)^{-1}\) থেকে — coefficient-এর অনিশ্চয়তার পরিমাপ, \(t\) ও CI-র ভিত্তি 5.2
standard error of CV fold-জুড়ে fold-MSE-গুলোর variability-র মাপ \(\text{SE}=s_{\text{fold}}/\sqrt{K}\); CV-গড়ের অনিশ্চয়তা বোঝায় ও one-SE rule-এ threshold বানাতে লাগে; চলমান উদাহরণে \(d{=}3\)-এ \(\approx0.85\) 5.8
standard Normal \(\mathcal{N}(0,1)\); mean \(0\), sd \(1\); CDF \(\Phi\) 2.4
standardization z-score-এ রূপান্তর (mean 0, std 1 বানানো) 1.2
standardized sample mean \(Z_n=\dfrac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\); CLT-র কেন্দ্রীয় রাশি, mean \(0\) ও variance \(1\) 3.4
stars and bars একরকম জিনিসকে শ্রেণিতে বণ্টনের গণনা-কৌশল \(\binom{n+r-1}{r-1}\) 0.2
state space \(X_t\) যেসব মান নিতে পারে তার set; discrete (গণনা, যেমন \(N(t)\)) বা continuous (যেমন Brownian motion) 3.5
stationarity (strict) যেকোনো শিফট \(h\)-এ \((X_{t_1+h},\dots,X_{t_k+h})\)-এর joint distribution \(h\)-নিরপেক্ষ; "পরিসংখ্যান সময়ের সাথে বদলায় না" (E4) 3.5
stationary distribution \(\pi\) এমন distribution যে \(\pi=\pi P\) (ও \(\sum_i\pi_i=1\)); একবার পৌঁছালে আর বদলায় না — transition-এর ভারসাম্য/fixed point (E3); E1-এ \(\pi=(2/3,1/3)\) 3.6
statistic sample থেকে গণনাযোগ্য সংখ্যা; random (sample বদলালে বদলায়) (\(\bar{x}, s, \hat{p}\); Roman অক্ষর) 1.1
statistical inference একটা population-এর অজানা বৈশিষ্ট্য (estimand) সম্পর্কে নমুনা-data থেকে সিদ্ধান্ত টানার প্রক্রিয়া — estimation, confidence interval, hypothesis testing 4.1
statistical learning data থেকে এমন একটি ফাংশন/মডেল \(h\) শেখার তত্ত্ব যা অদেখা data-তেও কাজ করে; কেন্দ্রীয় প্রশ্ন — সীমিত নমুনায় ভালো করা মডেল পুরো distribution-এ ভালো করবে কি (generalization); Part VI-এর ভিত্তি 6.1
statistical learning theory কেন training-data-য় ভালো model অদেখা data-তেও ভালো করে তার গাণিতিক ভিত্তি (generalisation); মূল যন্ত্র VC dimension, Rademacher complexity, ও deep-learning theory; ML-এর তাত্ত্বিক হৃদয় (← Part VI, III concentration) 8.4
statistical vs practical significance "\(p\) ছোট" (signal আছে) ≠ "effect বড়/গুরুত্বপূর্ণ"; বিশাল \(n\)-এ তুচ্ছ effect-ও significant হতে পারে — effect size/CI দেখা জরুরি (§৭ Q4) 4.7
Stein's lemma \(X\sim N(\theta,1)\), \(g\) মসৃণ ⇒ \(\mathbb E[(X-\theta)g(X)]=\mathbb E[g'(X)]\) (normal-density-র উপর integration by parts, \(f'(x)=-(x-\theta)f(x)\)); \"\((X-\theta)\)-যুক্ত পদ\"-কে \"derivative-প্রত্যাশা\"-য় বদলে \(\theta\) সরায় — SURE-এর একক ইট 8.3
Stein's paradox \(p\ge3\) মাত্রায় normal-means সমস্যায় স্পষ্ট estimator MLE \(\hat\theta=X\) সেরা নয় — একটা shrinkage estimator (James–Stein) তাকে প্রতিটি \(\theta\)-তে হারায়; এমনকি coordinate-গুলো সম্পূর্ণ অসম্পর্কিত হলেও যৌথভাবে সংকুচিত করা পৃথকভাবে estimate করার চেয়ে ভালো — সহজাত-বিরোধী অথচ প্রমাণিত 8.3
Stein's Unbiased Risk Estimate (SURE) estimator \(\hat\theta=X+g(X)\)-এর risk-এর একটা \(\theta\)-মুক্ত unbiased estimate: \(\mathbb E\lVert\hat\theta-\theta\rVert^2=\mathbb E[p+2\,\nabla\!\cdot g(X)+\lVert g(X)\rVert^2]\); সত্যিকারের \(\theta\) না জেনেও risk আন্দাজ করা যায় 8.3
step-function structure of \(\mathbb E[X\mid\mathcal G]\) finite partition-এ \(\mathbb E[X\mid\mathcal G]\) একটি ধাপ-অপেক্ষক — প্রতি atom-এ একটি ধ্রুবক; \(\mathcal G\)-measurability মানকে atom-ভেদে ধ্রুব করে, averaging তা atom-গড়ে বাঁধে 7.7
stepwise selection criterion (AIC/\(p\)-value) ধরে predictor ধাপে ধাপে যোগ (forward) বা বাদ (backward) দেওয়ার লোভী অনুসন্ধান; সুবিধাজনক কিন্তু overfitting ও \(p\)-value বিকৃতির ঝুঁকিপূর্ণ 5.2
stochastic differential equation (SDE) একটা random-চালিকা-সহ অন্তরকল সমীকরণ \(dX_t=\mu(X_t)\,dt+\sigma(X_t)\,dW_t\) (\(W_t\) Brownian motion); সমাধানে Itô calculus লাগে (Brownian path সাধারণ calculus মানে না); finance/physics/diffusion-model-এর ভিত্তি (← Part VII 7.8-7.9 martingale) 8.4
stochastic gradient boosting প্রতি round-এ training-row ও/বা feature-এর একটা এলোমেলো উপসেটে গাছ fit করা — subsampling variance কমায় ও গাছ decorrelate করে overfitting ঠেকায়; gradient boosting-এর তিনটি মূল regularizer-এর একটি (shrinkage ও depth/early-stopping-এর সাথে) 6.6
stochastic matrix অঋণাত্মক ভুক্তি ও সারি-যোগ \(1\) বিশিষ্ট বর্গ ম্যাট্রিক্স; প্রতিটি transition matrix stochastic, আর এর সর্বদা একটি eigenvalue ঠিক \(1\) থাকে (Perron–Frobenius) 3.6
stochastic process একই probability space-এ সংজ্ঞায়িত random variable-এর একটা সংগ্রহ \(\{X_t\}\), \(t\) index (সময়/স্থান) দিয়ে সাজানো; "সময়ের সাথে বিবর্তিত randomness"-এর মডেল 3.5
stopped process \(X_n^\tau=X_{n\wedge\tau}\) ("\(\tau\) পর্যন্ত খেলো, তারপর থামো") — martingale হলে এটিও martingale, কারণ থামা = predictable bounded বাজি \(H_n=\mathbf 1_{\{\tau\ge n\}}\) দিয়ে transform; তাই \(\mathbb E[X_{n\wedge\tau}]=\mathbb E[X_0]\) 7.8
stopping time random variable \(\tau:\Omega\to\{0,1,\dots\}\cup\{\infty\}\) যেখানে \(\{\tau\le n\}\in\mathcal F_n\) সব \(n\)-তে — থামার সিদ্ধান্ত কেবল অতীত-তথ্যে, ভবিষ্যৎ উঁকি দিয়ে নয়; \(\tau\wedge m\)-ও stopping time 7.8
stratification split/fold-এর প্রতিটি অংশে মূল class-অনুপাত ধরে রাখা (benign fraction \(\approx0.627\)); imbalance-এ CV-variance কমায় এবং কোনো fold-এ একটি class অতি-উপস্থাপন/অনুপস্থিত হওয়া ঠেকায় 8.1
streaming data সম্পূর্ণ আগে-থেকে নয়, এক-এক বিন্দু (বা mini-batch) ক্রমাগত আসছে — এই সেটিংয়েই online learning প্রযোজ্য; বিশাল/অসীম data-তে একবারে সব রাখা অসম্ভব বলে incremental প্রক্রিয়াকরণ আবশ্যক 6.9
strong law of large numbers (SLLN) \(\bar X_n\xrightarrow{a.s.}\mu\); প্রায় প্রতিটি গোটা পথ আক্ষরিকভাবে \(\mu\)-তে যায়; শর্ত শুধু \(\mathbb E\lvert X_i\rvert<\infty\) 3.3
strong learner boosting-এ অনেক weak learner-এর ওজনিত সমষ্টি \(F_T(x)=\sum_t\alpha_t h_t(x)\) যা নিম্ন training/test-error অর্জন করে; তত্ত্ব বলে যথেষ্ট weak learner যোগ করলে যেকোনো-নিম্ন training-error সম্ভব 6.6
structured data সারি-কলামবিশিষ্ট আয়তাকার (rectangular) data; প্রতিটি column-এর নির্দিষ্ট type 1.1
Student's t-statistic \(T=\frac{\bar X_n-\mu}{S/\sqrt{n}}\); \(\sigma\)-কে \(S\) দিয়ে বদলানোয় \(t_{n-1}\) distribution অনুসরণ করে, \(z\)-statistic-এর small-sample সংস্করণ 4.1
Student-t tail (t-SNE) t-SNE-র low-D affinity Gaussian নয়, ভারী-লেজ Student-\(t\) (\(1\) df, \(q_{ij}\propto(1+\lVert y_i-y_j\rVert^2)^{-1}\)) — দূরত্ব বাড়লেও \(q\) ধীরে (বহুপদীয়) পড়ে, তাই দূরের বিন্দু low-D-তে মুছে যায় না; crowding কমিয়ে cluster স্পষ্ট ও আলাদা রাখে 6.8
studentized range distribution \(k\)টি group-গড়ের সর্বোচ্চ-সর্বনিম্ন পরিসরের (scaled) distribution; Tukey HSD-এর critical value এখান থেকে — তাই Tukey-CI সাধারণ \(t\)-CI-র চেয়ে চওড়া 5.3
studentized residual residual-কে তার নিজস্ব আনুমানিক std দিয়ে scale করা: \(r_i=\hat\varepsilon_i/\sqrt{\hat\sigma^2(1-h_{ii})}\); বিভিন্ন leverage-এর বিন্দুর residual তুলনাযোগ্য করে, outlier শনাক্তে ব্যবহৃত 5.2
Sturges' formula bin-সংখ্যার থাম্ব-রুল ⌈log₂ n + 1⌉ 1.3
sub-σ-algebra (as information) \(\mathcal G\subseteq\mathcal F\) — "যতটুকু জানা" তথ্যকে ধরা; \(\mathcal G\) যত সূক্ষ্ম তত বেশি তথ্য; \(\mathcal G=\{\varnothing,\Omega\}\) (কিছু জানি না) ⇒ \(\mathbb E[X\mid\mathcal G]=\mathbb E[X]\), \(\mathcal G=\mathcal F\) (সব জানি) ⇒ \(=X\) 7.7
submartingale adapted integrable \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]\ge X_n\) a.s. — পক্ষে-ঝোঁকা, গড়ে বাড়ে; convex \(\varphi\)-তে martingale থেকে \(\varphi(X_n)\) submartingale হয় (conditional Jensen) 7.8
subset \(A \subseteq B\): \(A\)-এর প্রতিটি সদস্য \(B\)-তেও আছে 0.1
substitution chain rule-এর উল্টো integration কৌশল (\(u=g(x)\) ধরা) 0.4
sufficiency (intuition) "\(T\)-ই inference-এর জন্য যথেষ্ট" — দুই ভিন্ন-ক্রম dataset একই \(T\) দিলে একই likelihood, একই MLE (Figure 4) 4.5
sufficient condition for consistency bias\(\to0\) এবং variance\(\to0\) (\(\Rightarrow\) MSE\(\to0\)) হলে Chebyshev দিয়ে \(\hat\theta_n\xrightarrow{P}\theta\) (§৭ Q10) 4.4
sufficient statistic statistic \(T(X)\) যা প্যারামিটার সম্পর্কে data-র সব তথ্য ধরে রাখে; \(T\) দেওয়া থাকলে raw data আর কিছু বলে না (Figure 4) 4.5
sum of random variables \(S=X+Y\); independent হলে density convolution দিয়ে পাওয়া যায় 2.7
sum of squares বিচ্যুতির বর্গের যোগফল; ANOVA-তে variation-কে উৎস-অনুযায়ী (between/within/factor/interaction/residual) ভাগ করার একক 5.3
\(\sum X_i\) as sufficient statistic Bernoulli/Poisson-এ \(T=\sum X_i\) sufficient; ক্রম অপ্রাসঙ্গিক, কেবল যোগফলেই সব তথ্য (Figure 4; §৭ Q12) 4.5
sums and products measurable measurable \(X,Y\)-এর \(X+Y\)\(XY\) আবার measurable; \(\{X+Y<x\}=\bigcup_{q\in\mathbb Q}(\{X<q\}\cap\{Y<x-q\})\) (গণনাযোগ্য union over \(\mathbb Q\)), গুণ \(XY=\tfrac14[(X+Y)^2-(X-Y)^2]\)\(t\mapsto t^2\) Borel 7.3
sup/limsup of measurable functions measurable \(X_n\)-দের \(\sup_n X_n,\inf_n X_n,\limsup_n X_n,\liminf_n X_n,\lim_n X_n\) আবার measurable; key: \(\{\sup_n X_n\le x\}=\bigcap_n\{X_n\le x\}\) (গণনাযোগ্য intersection of events) 7.3
supermartingale adapted integrable \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]\le X_n\) a.s. — বিপক্ষে-ঝোঁকা, গড়ে কমে (যেমন ঘর-সুবিধাযুক্ত ক্যাসিনো); নাম-সাদৃশ্য subharmonic ফাংশনের উল্টো 7.8
support সমর্থন — random variable-এর সব সম্ভাব্য মানের set \(\mathcal{X}\) 2.3
support of a law \(X\)-এর law \(P_X\) যেখানে "ভর রাখে" — ক্ষুদ্রতম closed set \(S\) with \(P_X(S)=1\); যেমন \(Y=X^2,\ X\sim U(-1,1)\)-এ support \([0,1]\), যেখানে density \(\dfrac{1}{2\sqrt y}\) (\(y\to 0\)-এ \(\to\infty\), তবু \(\int_0^1=1\)) 7.3
support vector সেই training-বিন্দু যাদের dual coefficient \(\alpha_i>0\) — জ্যামিতিকভাবে margin-এর উপর বা ভিতরে/ভুল পাশে; decision function \(f(x)=\sum_i\alpha_i y_i K(x_i,x)+b\) কেবল এদের উপর নির্ভর; non-SV মুছলে boundary অপরিবর্তিত; canonical RBF\(C{=}10\)-এ ৪৫টি 6.4
support vector machine (SVM) discriminative classifier যা দুই শ্রেণিকে সর্বোচ্চ margin-এ আলাদা করা hyperplane \(w^\top x+b=0\) খোঁজে; soft-margin-এ slack ও penalty \(C\), এবং kernel-trick দিয়ে nonlinear boundary; সিদ্ধান্ত অল্প কয়েকটি support vector-নির্ভর (sparse)। canonical (make_moons): linear \(0.811\), RBF \(C{=}10\) \(0.944\) 6.4
supporting line convex curve-এর কোনো বিন্দুতে tangent, যা পুরো curve-এর নিচে থাকে; Jensen-প্রমাণের হাতিয়ার 3.1
sure event পুরো \(\Omega\); probability \(1\) 2.1
surjective onto: codomain-এর প্রতিটি element কোনো input থেকে আসে (range=codomain) 0.1
survival function \(S(x)=P(X>x)=1-F(x)\); "\(x\) অতিক্রম করে টিকে থাকার" probability 2.4
symbolic integration closed-form/বীজগাণিতিক রূপে integral (যেমন sympy integrate) 0.4
symmetric difference \(A \triangle B\): একটিতে আছে কিন্তু দুটোতে একসাথে নেই 0.1
symmetric matrix \(A=A^\top\) সমানুবর্তী matrix 0.5
system of linear equations একসাথের রৈখিক সমীকরণ, \(A\mathbf{x}=\mathbf{b}\) 0.5
t-distribution \(t_k=\frac{Z}{\sqrt{V/k}}\) (\(Z\sim\mathcal N(0,1)\), \(V\sim\chi^2_k\) স্বাধীন); \(0\)-কেন্দ্রিক, Normal-এর চেয়ে ভারী লেজ; \(\sigma\) অজানা থাকলে \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\) (E3) 4.1
t-interval \(\sigma\) অজানা হলে \(\bar x\pm t_{n-1,\alpha/2}\,s/\sqrt n\) (E2); z-interval-এর চেয়ে চওড়া, কারণ \(s\) আঁচের বাড়তি অনিশ্চয়তা (Figure 3) 4.6
t-SNE t-distributed Stochastic Neighbor Embedding — visualization-কেন্দ্রিক manifold পদ্ধতি: high-D affinity \(p_{ij}\) (Gaussian, perplexity-স্কেল) ও low-D affinity \(q_{ij}\) (Student-\(t\)) সংজ্ঞায়িত করে \(\mathrm{KL}(P\Vert Q)\) minimize করে embedding শেখে; local-strong, global-weak। canonical \(T=0.999,\ \lvert\text{corr}\rvert=0.857\) 6.8
t-test \(\sigma\) অজানা হলে \(T=\frac{\bar x-\mu_0}{s/\sqrt n}\sim t_{n-1}\) (E2); ছোট \(n\)-এ z ব্যবহার করলে type I error স্ফীত (§৭ Q14) 4.7
t-test (regression) প্রতিটি coefficient-এর জন্য \(H_0:\beta_j=0\) পরীক্ষা: \(t_j=\hat\beta_j/\widehat{\mathrm{se}}(\hat\beta_j)\sim t_{n-p}\) — "অন্য predictor রেখে এই predictor কি দরকার?"; ৪.৭-এর \(t\)-test-এর সরাসরি প্রয়োগ 5.2
tail (of a distribution) distribution-এর প্রান্ত — খুব বড় বা খুব ছোট মানের অঞ্চল 3.1
tail bound একটি distribution-এর প্রান্তে (tail) কত mass থাকতে পারে তার উপরসীমা 3.1
tail event \(A\in\mathcal T\) — কোনো সসীম উপসর্গ (প্রথম \(m-1\)টি \(X_i\)) বদলালেও যার সত্য-মিথ্যা বদলায় না; যেমন \(\{\sum X_n\ \text{converges}\}\), \(\{\limsup\bar X_n>c\}\) 7.6
tail random variable \(\mathcal T\)-measurable random variable (যেমন \(\limsup_n X_n\), \(\liminf_n\bar X_n\)); 0–1 law-এ a.s. ধ্রুবক — CDF একটি \(\{0,1\}\)-মানের ধাপ 7.6
tail σ-algebra \(\mathcal T=\bigcap_{m\ge1}\sigma(X_m,X_{m+1},\dots)\); যে তথ্য সসীম-সংখ্যক \(X_i\) বদলালেও অটুট — "অসীম-দূরের লেজ" 7.6
tangent line curve-কে একটি বিন্দুতে স্পর্শকারী রেখা 0.3
target distribution যে distribution থেকে আমরা নমুনা চাই (\(\pi\) বা un-normalized \(f\)); MCMC-তে এটাই chain-এর stationary distribution বানানো হয় (Figure 4-এর লাল curve) 3.6
Taylor expansion of \(\varphi\) \(\varphi(t)=1+it\mathbb E[X]-\tfrac{t^2}{2}\mathbb E[X^2]+o(t^2)\); গড়-শূন্য একক-ভেদে \(\varphi(t)=1-\tfrac{t^2}{2}+o(t^2)\) — CLT-প্রমাণের একমাত্র analytic input 7.10
test / generalization error (Err) model আগে-না-দেখা স্বাধীন data-তে যে গড়-বর্গ-ভুল করবে; modeling-এর প্রকৃত লক্ষ্য, decomposition \(\text{Err}=\sigma^2+\text{bias}^2+\text{variance}\); train error এটিকে under-estimate করে, CV সৎভাবে আন্দাজ করে (চলমান উদাহরণে deg-\(3\) test MSE \(9.71\approx\sigma^2\)) 5.8
test of independence \(r\times c\) contingency table-এ row ও column স্বাধীন কিনা তার \(\chi^2\) test; \(E_{ij}=\frac{\text{row}_i\,\text{col}_j}{n}\), df \(=(r-1)(c-1)\) (§৭ Q14) 4.8
test statistic \(T\) data-কে একটা সংখ্যায় চাপানো যার null distribution জানা (যেমন \(z=\frac{\bar x-\mu_0}{\sigma/\sqrt n}\)); মাপে data \(H_0\) থেকে কত দূরে 4.7
tidy data "এক row = এক observation, এক column = এক variable" নিয়মে সাজানো data 1.1
tightness একটা বণ্টন-পরিবারের ভর "অসীমে পালায় না": প্রতি \(\epsilon\)-এ একটা compact \([-M,M]\) আছে যাতে \(\mathbb P(\lvert X_n\rvert>M)<\epsilon\) সব \(n\)-এ; Lévy-তে সীমা-\(\varphi\)-এর \(0\)-অবিচ্ছিন্নতা এটি নিশ্চিত করে 7.10
Tonelli (series form) অঋণাত্মক পদের জন্য \(\int\sum_n f_n\,d\mu=\sum_n\int f_n\,d\mu\) (যোগ ও integral অদলবদল); MCT-এর সরাসরি ফল 7.4
total / between-cluster SS spread-পচন \(\text{TSS}=\text{WSS}+\text{BSS}\): total \(\text{TSS}=\sum_i\lVert x_i-\bar x\rVert^2\) (grand-mean থেকে, \(K\)-নিরপেক্ষ ধ্রুবক, \(=k{=}1\) inertia \(=1200\)), within \(\text{WSS}=\) inertia, between \(\text{BSS}=\sum_k\lvert C_k\rvert\lVert\mu_k-\bar x\rVert^2\); WSS কমানো \(\Leftrightarrow\) BSS বাড়ানো; ANOVA-র variance-বিভাজনের clustering-অনুরূপ (৫.১) 5.9
total mean squared error একাধিক প্যারামিটার একসাথে estimate করার risk — সব coordinate-এর MSE-র যোগফল \(\sum_i\mathbb E[(\hat\theta_i-\theta_i)^2]=\mathbb E\lVert\hat\theta-\theta\rVert^2\); JS বনাম MLE-র তুলনার মাপকাঠি 8.3
total sum of squares (SST) \(y\)-এর মোট variation \(\sum_i(y_i-\bar y)^2\) 5.1
tower property / iterated expectation \(\mathcal H\subseteq\mathcal G\Rightarrow\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]=\mathbb E[X\mid\mathcal H]\); বিশেষে \(\mathbb E[\mathbb E[X\mid\mathcal G]]=\mathbb E[X]\) — "ধাপে-ধাপে গড়, মোটাটাই জেতে" (পাশায় \(4\cdot\tfrac12+3\cdot\tfrac12=3.5\)) 7.7
trace plot iteration বনাম chain-state-এর plot (Figure 3); burn-in, mode-হপিং ও mixing চোখে যাচাইয়ের হাতিয়ার 3.6
train/test split data-কে model-fitting ও নিরপেক্ষ-মূল্যায়নে ভাগ করা; এখানে stratified \(70/30\) (seed \(20260619\) → train \(398\) / test \(171\)) — test-set কেবল একবার, চূড়ান্ত রিপোর্টিং-এর সময় ছোঁয়া হয় 8.1
train/validation/test split data-কে তিন ভূমিকায় ভাগ: train (parameter \(\hat\beta\) শেখা), validation (tuning parameter/model বাছা), test (চূড়ান্ত মডেলের honest error, একবার-মাত্র); test বারবার দেখলে leakage ⇒ optimistic, তাই একদম শেষে একবার ব্যবহার 5.8
training error model যে data-তে fit হয়েছে সেই একই data-তে মাপা গড়-বর্গ-ভুল \(\frac1n\sum_i(y_i-\hat f(x_i))^2\); complexity বাড়ালে একঘেয়ে কমে (চলমান উদাহরণে \(d{=}1\to22.08\), \(d{=}10\to9.12\), এমনকি \(\sigma^2=9\)-এর নিচে), তাই model-complexity বাছার অযোগ্য — সবসময় optimistic 5.8
transformation একটি random variable-কে function দিয়ে নতুন random variable-এ রূপান্তর, \(Y=g(X)\) 2.7
transition matrix সব \(P_{ij}\) নিয়ে গঠিত ম্যাট্রিক্স \(P\); প্রতিটি ভুক্তি \(\ge0\) আর প্রতিটি সারি যোগে \(1\) (row-stochastic), কারণ প্রতিটি state থেকে কোথাও-না-কোথাও যেতেই হয় 3.6
transition probability \(P_{ij}=P(X_{n+1}=j\mid X_n=i)\) — এক ধাপে state \(i\) থেকে \(j\)-তে যাওয়ার সম্ভাবনা (Figure 1-এর তীর) 3.6
translation invariance measure সরালে বদলায় না: \(\lambda(A+t)=\lambda(A)\) সব \(t\)-এ; length-এর একটি কাম্য ধর্ম, কিন্তু countable additivity-র সঙ্গে মিলে Vitali-অসম্ভবতা ঘটায় (C3) 7.1
transpose row ও column অদলবদল করা matrix, \(A^\top\) 0.5
triangular distribution দুই independent Uniform(0,1)-এর sum-এর ত্রিভুজাকার density (চূড়া \(s=1\)-এ) 2.7
trimmed mean দুই প্রান্ত থেকে নির্দিষ্ট ভগ্নাংশ বাদ দিয়ে নেওয়া গড় 1.2
truncation চলককে কেটে আবদ্ধ করা \(X_n'=X_n\mathbf 1_{\{\lvert X_n\rvert\le n\}}\) — সব আঘূর্ণ সসীম হয়, maximal inequality প্রয়োগযোগ্য; Etemadi-র SLLN-প্রমাণের কেন্দ্রীয় কৌশল 7.6
trustworthiness embedding-গুণমানের মাপ \(T\in[0,1]\): low-D-তে দেখানো \(k\)-নিকটতম প্রতিবেশীরা high-D-তেও কি কাছের ছিল (মিথ্যা-প্রতিবেশী নেই — local বিশ্বস্ততা); উঁচু \(T\) global গঠন নিশ্চিত করে না (PCA: \(T=0.968\) কিন্তু \(\lvert\text{corr}\rvert=0.165\)), তাই global মাপের সাথে দেখা জরুরি 6.8
Tukey HSD সব জোড়ার গড়-পার্থক্যের জন্য studentized-range-ভিত্তিক simultaneous CI ও adjusted \(p\); FWER-কে \(\alpha\)-তে ধরে রেখে "কোন জোড়া আলাদা" বলে 5.3
tuning / hyperparameter model fit-এর আগে বেছে নেওয়া complexity-নিয়ন্ত্রক মান যা data থেকে সরাসরি estimate হয় না (polynomial degree, bandwidth \(h\), df, penalty \(\lambda\)); CV-grid-search-এর প্রধান লক্ষ্য — প্রতিটা grid-মানে CV-error হিসাব করে সেরাটা বাছা 5.8
tuning parameter / regularization strength (\(\lambda\)) penalty-র ওজন \(\lambda\ge0\) — capacity নিয়ন্ত্রণের knob; \(\lambda\uparrow\) ⇒ বেশি shrink, কম nonzero, কম variance বেশি bias; সাধারণত cross-validation (৫.৮) দিয়ে বাছা হয়; canonical ridge \(\lambda^\*{\approx}0.21\), lasso \(\lambda^\*{\approx}0.042\) 6.2
two-way ANOVA দুটি factor একসাথে (যেমন fertilizer \(\times\) irrigation) — প্রতিটির main effect ও তাদের interaction আলাদা করে মাপে 5.3
type I error \(H_0\) সত্যি তবু বাতিল করা (false positive); এর সম্ভাবনা \(\alpha=P(\text{reject}\mid H_0)\) (Figure 1-লাল region) 4.7
type II error \(H_1\) সত্যি তবু \(H_0\) না-বাতিল করা (false negative); সম্ভাবনা \(\beta=P(\text{fail to reject}\mid H_1)\) (Figure 1-বেগুনি) 4.7
typewriter sequence \([0,1]\)-এ পিছলে-যাওয়া indicator; \(\xrightarrow{P}0\) করে কিন্তু \(\xrightarrow{a.s.}\) করে না — মূল প্রতি-উদাহরণ 3.2
U-curve (test error vs complexity) test/generalization error বনাম model-complexity-র U-আকৃতির বক্ররেখা — বাঁয়ে underfit (bias-প্রধান), ডানে overfit (variance-প্রধান), মাঝে min; train error একঘেয়ে নামে বলে এর সাথে মেলে না; চলমান উদাহরণে min \(d{=}3\) (0.102) 6.1
UI ⇔ \(L^1\)-convergence ⇔ closed martingale-এর তিন-সমতুল্যতা: uniform integrability \(\iff\) \(L^1\)-অভিসরণ (ও a.s.) \(\iff\) closed (\(X_n=\mathbb E[X_\infty\mid\mathcal F_n]\)); Pólya/Radon–Nikodym/Bayes-প্রয়োগের প্রাণ 7.9
UMAP Uniform Manifold Approximation and Projection — t-SNE-র মতো neighbor-গ্রাফ-ভিত্তিক visualization/embedding পদ্ধতি, কিন্তু দ্রুততর ও বড়-scale-এ ভালো; fuzzy-topological প্রতিবেশ-গঠন রক্ষা করে। t-SNE-র মতোই মূলত visualization-হাতিয়ার, downstream-feature নয় 6.8
unbiased estimator যে estimator-এর প্রত্যাশিত মান সত্যিকারের parameter-এর সমান (\(\mathbb{E}[\bar{X}] = \mu\)) 1.1
uncorrelated \(\operatorname{Cov}(X,Y)=0\); রৈখিক সম্পর্ক নেই (তবে dependent হতে পারে) 2.6
undefined mean \(\mathbb E\lvert X\rvert=\infty\) হওয়ায় কোনো \(\mu\) না থাকা; Cauchy-র মতো ক্ষেত্রে LLN প্রযোজ্য নয় 3.3
under-coverage প্রকৃত coverage প্রতিশ্রুত \(1-\alpha\)-এর নিচে; যেমন ছোট \(n\)\(\sigma\) অজানা হলে z-interval ব্যবহার (§৭ Q13) 4.6
underfitting model বাস্তব signal ধরতে অক্ষম (অতি-সরল) ⇒ উচ্চ bias, train ও test দুটোই বড়; চলমান উদাহরণে \(d{=}1\) (cubic \(f\)-কে সরলরেখায় ধরা, MSE \(\approx22\)); complexity বাড়ালে কমে — bias–variance-এর bias-প্রধান প্রান্ত 5.8
uniform continuity of \(\varphi\) \(\varphi_X\) গোটা \(\mathbb R\)-এ সমভাবে অবিচ্ছিন্ন (শুধু অবিচ্ছিন্ন নয়); DCT (7.4) দিয়ে \(\sup_t\lvert\varphi(t+h)-\varphi(t)\rvert\le\mathbb E\lvert e^{ihX}-1\rvert\to0\), dominating function ধ্রুবক \(2\) 7.10
Uniform distribution \([a,b]\)-এ সব মান সমান-সম্ভাব্য; সমতল PDF \(f=\frac{1}{b-a}\) 2.4
uniform integrability \(\sup_n\mathbb E[\lvert X_n\rvert\mathbf 1_{\{\lvert X_n\rvert>K\}}]\to0\) যখন \(K\to\infty\) — "সীমায় ভর হারায় না"; a.s.-অভিসরণকে \(L^1\)-অভিসরণে উন্নীত করে (Vitali), DCT-র dominated-শর্তের শিথিল রূপ 7.9
uniform integrability (preview) একটা family \(\{X_i\}\) uniformly integrable যদি \(\sup_i\mathbb E[\lvert X_i\rvert\,\mathbf 1_{\{\lvert X_i\rvert>K\}}]\to0\) (\(K\to\infty\)) — OST/martingale-convergence-এ সীমা-বিনিময়ের সঠিক শর্ত (7.9-এর পূর্ণ হাতিয়ার) 7.8
unimodal একটিমাত্র চূড়াবিশিষ্ট distribution 1.3
union \(A \cup B\): যা \(A\) বা \(B\)-তে আছে 0.1
union bound \(P(\bigcup_i A_i)\le\sum_i P(A_i)\) (Boole's inequality) 2.1
uniqueness theorem \(\varphi_X(t)=\varphi_Y(t)\ \forall t\iff X\overset{d}{=}Y\) — cf আইনকে অনন্যভাবে নির্ধারণ করে; দুই random variable-এর একই cf মানে একই বণ্টন (Fourier-invertibility থেকে) 7.10
unit population/sample-এর একক উপাদান (যেমন একজন মানুষ, একটি পণ্য, একটি লেনদেন) 1.1
unit vector দৈর্ঘ্য ১-এর vector 0.5
univariate analysis একক variable-এর center, spread ও shape বিশ্লেষণ 1.5
universal quantifier \(\forall\): "for all / প্রত্যেকের জন্য" 0.1
universal set প্রসঙ্গের সব সম্ভাব্য বস্তুর set, \(U\) 0.1
universality (CLT) মূল বণ্টন যাই হোক, মানক যোগফল একই \(N(0,1)\)-এ মেলে; কারণ \(\varphi\)-সীমায় কেবল দ্বিতীয়-ক্রম তথ্য (গড়, ভেদ) বাঁচে, তৃতীয়+ moment \(o(\frac1n)\)-এ মুছে যায় 7.10
unsupervised learning লেবেল (\(y\)) ছাড়া শুধু feature-matrix \(X\in\mathbb R^{n\times p}\) থেকে data-র অন্তর্নিহিত গঠন বের করার শিক্ষা — লক্ষ্য ভবিষ্যদ্বাণী নয়, বরং structure উন্মোচন (কত মাত্রায় data বাস করে, কয় দলে ভাগ হয়); supervised-এর বিপরীত, মানদণ্ড predictive error নয় বরং reconstruction/separation/stability; এ অধ্যায়ের দুই স্তম্ভ PCA ও clustering 5.9
upcrossing একটা ধারা/process \(a\)-র নিচ থেকে উঠে \(b\)-র উপরে পৌঁছানোর একটি সম্পূর্ণ "ঊর্ধ্ব-পারাপার" (\(a<b\)); সময় \(n\) পর্যন্ত এমন পারাপারের সংখ্যা \(U_n([a,b])\) — অভিসরণ-বিশ্লেষণের কেন্দ্রীয় গণক 7.9
upper / lower Darboux integral \(\overline{\int}f=\inf_P U(f,P)\)\(\underline{\int}f=\sup_P L(f,P)\); সমান হলে Riemann integral বিদ্যমান, \(\mathbf 1_{\mathbb Q}\)-এ \(\overline{\int}=1\ne0=\underline{\int}\) 7.1
validation set training-এ দেখা হয়নি এমন data-অংশ, যেখানে tuning parameter / model বাছা হয় (degree, \(h\), \(\lambda\), model-পরিবার); cross-validation এর data-সাশ্রয়ী বিকল্প — আলাদা অংশ স্থায়ীভাবে কেটে না রেখে fold ঘুরিয়ে validation 5.8
variability data কতটা ছড়ানো তা নির্দেশক পরিমাপ (dispersion) 1.2
variable পরিমাপযোগ্য বৈশিষ্ট্য/চলক (DataFrame-এ একটি column) 1.1
variance mean থেকে বর্গ-বিচ্যুতির গড় (spread-এর বর্গ-এককে) 1.2
variance component মোট পরিবর্তনশীলতার পৃথক উৎস-ভিত্তিক টুকরো: between-group \(\sigma_u^2\) ও within-group \(\sigma_\varepsilon^2\); ৫.৩-এর ANOVA sum-of-squares বিভাজনের ধারাবাহিকতা; উদাহরণে \(\hat\sigma_u^2=37.64\), \(\hat\sigma_\varepsilon^2=63.69\) 5.6
variance floor CRLB-র দৃশ্যরূপ — log-log plot-এ ঢাল \(-1\)-এর সরল রেখা \(\frac{1}{nI(\theta)}\); এর নিচের এলাকা unbiased estimator-এর জন্য নিষিদ্ধ (Figure 2) 4.5
variance inflation factor (VIF) \(\text{VIF}_j=1/(1-R_j^2)\) (\(R_j^2\) = predictor \(j\)-কে বাকিদের ওপর regress করার \(R^2\)); collinearity-জনিত coefficient-variance বৃদ্ধির গুণক — se বাড়ে \(\sqrt{\text{VIF}_j}\) গুণ; থাম্ব-রুল VIF \(>5\) (বা \(>10\)) উদ্বেগজনক 5.2
variance of a sum \(\operatorname{Var}(X+Y)=\operatorname{Var}X+\operatorname{Var}Y+2\operatorname{Cov}(X,Y)\) 2.6
variance of estimator \(\mathrm{Var}(\hat\theta)=\mathbb{E}[(\hat\theta-\mathbb{E}\hat\theta)^2]\) — estimate নমুনাভেদে কতটা ওঠানামা করে (precision-এর অভাব) (Figure 1) 4.4
variance reduction ensemble-এর কেন্দ্রীয় লক্ষ্য — \(B\)টি correlated estimator-এর গড়ের variance \(\rho\sigma^2+\frac{1-\rho}{B}\sigma^2\); \(B\) বাড়ালে দ্বিতীয় পদ মরে কিন্তু \(\rho\sigma^2\) floor থাকে, তাই গাছ-গড় ও decorrelation দুই পথে variance কমানো হয় 6.5
variational inference একটা কঠিন posterior-কে একটা সরল, নিয়ন্ত্রণযোগ্য distribution-শ্রেণি দিয়ে approximate করা — sampling-এর বদলে একটা lower-bound (ELBO) সর্বোচ্চকরণ (optimisation); computational statistics-এর মূল, EM-এর সাধারণীকরণ (← Part IV, VI EM) 8.4
VC dimension (\(d_{\mathrm{VC}}\)) অসীম hypothesis class-এর capacity-র মাপ: সবচেয়ে বড় বিন্দু-সংখ্যা যাকে \(\mathcal H\) shatter করতে পারে; \(\ln\lvert\mathcal H\rvert\)-এর জায়গা নেয় generalization-bound-এ; চলমান উদাহরণে 2D linear classifier-এর \(d_{\mathrm{VC}}=3\) (সাধারণভাবে \(\mathbb R^p\)-এ \(p+1\)) 6.1
vector মান ও দিকসম্পন্ন রাশি; সংখ্যার ক্রমিক তালিকা 0.5
vectorization loop ছাড়াই পুরো array-তে একসাথে operation চালানো 0.6
VIF (variance inflation factor) multicollinearity-র মাপ \(\text{VIF}_j=1/(1-R_j^2)\) যেখানে \(R_j^2\) = বাকি predictor দিয়ে \(x_j\)-এর regression; \(>10\) severe। canonical mean perimeter \(934.95\), mean radius \(891.13\), mean area \(52.68\) (radius/perimeter/area প্রায়-অভিন্ন তথ্য বহন করে) 8.1
violin plot boxplot + দুই পাশে আয়না-করা KDE; পূর্ণ density-আকৃতি দেখায় 1.3
Vitali set Axiom of Choice দিয়ে \(x\sim y\iff x-y\in\mathbb Q\)-এর প্রতি class থেকে একটি প্রতিনিধি নিয়ে গড়া \(V\subseteq[0,1]\); non-measurable — translate-গুলো disjoint, \(1\le\sum\lambda(V)\le3\) অসম্ভব 7.1
Wald confidence interval \(\hat\theta\pm z_{\alpha/2}\,\widehat{\mathrm{se}}\) — MLE-র asymptotic normality থেকে; \(\widehat{\mathrm{se}}=1/\sqrt{n\,I(\hat\theta)}\) (E4, §৭ Q11) 4.6
Wald test \(W=\dfrac{(\hat\theta-\theta_0)^2}{\widehat{\mathrm{se}}^{\,2}}\) — MLE \(\hat\theta\)\(\theta_0\)-এর scaled অনুভূমিক দূরত্ব; শুধু MLE-তে হিসাব; \(\xrightarrow{d}\chi^2_1\) (Figure 1, §৭ Q6) 4.8
weak (wide-sense) stationarity \(m(t)\) ধ্রুবক এবং \(C(s,t)\) কেবল lag \(h=t-s\)-এর ফাংশন (\(\operatorname{Var}<\infty\)); Gaussian process-এ strict-এর সমতুল্য 3.5
weak convergence convergence in distribution-এর আরেক নাম (দুর্বলতম mode) 3.2
weak law of large numbers (WLLN) \(\bar X_n\xrightarrow{P}\mu\); প্রতিটি \(\varepsilon>0\)-এ \(P(\lvert\bar X_n-\mu\rvert\ge\varepsilon)\to 0\); finite variance-এ Chebyshev দিয়ে প্রমাণযোগ্য 3.3
weak learner এমন classifier যার error random guessing-এর চেয়ে ধারাবাহিকভাবে একটু কম (\(\varepsilon<0.5\), binary-তে); boosting-এর base unit। canonical decision stump (depth-\(1\)): test \(0.739\), error \(0.261<0.5\) — দুর্বল কিন্তু chance-এর চেয়ে ভালো 6.6
Weak vs Strong LLN weak: \(\bar X_n\xrightarrow{P}\mu\) (in probability, 3.3); strong: \(\bar X_n\to\mu\) a.s. — a.s. ⇒ in probability, উল্টোটা নয়; strong-এ শুধু \(\mathbb E\lvert X\rvert<\infty\) লাগে (variance নয়) 7.6
weighted mean প্রতিটি মানকে আলাদা weight দিয়ে নেওয়া গড় (Σwx / Σw) 1.2
white noise iid (বা uncorrelated) mean-\(0\) ক্রম; \(\gamma(0)=\sigma^2\), \(\gamma(h)=0\) (\(h\ne0\)); সরলতম stationary process, অন্য process-এর নির্মাণ-ব্লক 3.5
Wilks' theorem বড় নমুনায় \(H_0\)-র অধীনে \(-2\log\Lambda\xrightarrow{d}\chi^2_k\), \(k=\) আটকানো প্যারামিটার সংখ্যা (restrictions/df); LRT-কে practical করে (Figure 2, §৭ Q10) 4.8
within-group variation (SSW) প্রতিটি group-এর ভেতরের ছড়ানো (শুধু noise): \(\mathrm{SSW}=\sum_g\sum_i(y_{gi}-\bar y_g)^2\); \(df=n-k\); \(\mathrm{MSW}\) সর্বদা \(\sigma^2\)-এর unbiased estimate 5.3
worst-case (distribution) যে distribution একটি bound-কে প্রায় সমতায় নেয়; সর্বজনীন bound-এর রক্ষণশীলতার কারণ 3.1
XGBoost gradient boosting-এর regularized, scalable বাস্তবায়ন (এবং LightGBM/CatBoost) — shrinkage, গাছ-গভীরতা/সংখ্যা-সীমা, stochastic subsampling, ও অতিরিক্ত L1/L2 (leaf-weight) penalty দিয়ে overfitting নিয়ন্ত্রণ করে; tabular data-তে প্রায়ই সেরা off-the-shelf predictor 6.6
Young's inequality ধনাত্মক \(a,b\) ও conjugate \(\tfrac1p+\tfrac1q=1\)-এ \(ab\le\tfrac{a^p}{p}+\tfrac{b^q}{q}\); Hölder ও Cauchy–Schwarz-এর point-wise বীজ (\(p=q=2\) দেয় AM–GM) 7.5
z-interval \(\sigma\) জানা হলে \(\bar x\pm z_{\alpha/2}\,\sigma/\sqrt n\) (E1); pivot \(\frac{\bar X-\mu}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\) থেকে 4.6
z-score (x − mean)/std; mean থেকে কত std দূরে তা একক-নিরপেক্ষভাবে 1.2
z-test \(\sigma\) জানা হলে \(T=\frac{\bar x-\mu_0}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\) (E1) 4.7
zero-inflated model যখন data-তে প্রত্যাশার তুলনায় অতিরিক্ত শূন্য (structural zeros) — দুটো প্রক্রিয়ার mixture (একটা "সর্বদা শূন্য", একটা Poisson/NB); ZIP/ZINB — count GLM-এর সম্প্রসারণ (এই data-তে দরকার পড়েনি) 5.5
π-system independence criterion π-system \(\mathcal P_i\)-তে factorization \(\mathbb P(\bigcap A_i)=\prod\mathbb P(A_i)\) মিললেই \(\sigma(\mathcal P_1),\dots,\sigma(\mathcal P_n)\) স্বাধীন (π–λ থেকে); তাই random variable-এর স্বাধীনতা CDF-স্তরেই যাচাইযোগ্য 7.6