পরিভাষা (Glossary) — English term → বাংলা ব্যাখ্যা¶
এই শিক্ষাক্রমের নীতি: technical/mathematical term সর্বদা ইংরেজিতে, ব্যাখ্যা বাংলায়। (Parts 0–VIII সম্পূর্ণ — শূন্য থেকে measure-তাত্ত্বিক PhD স্তর ও integrative capstone।)
| English term | বাংলা ব্যাখ্যা | অধ্যায় |
|---|---|---|
| \(-2\log\Lambda\) | LRT statistic; log-likelihood-এর চূড়া থেকে \(\theta_0\)-তে উল্লম্ব ড্রপের দ্বিগুণ; \(H_0\)-র অধীনে \(\xrightarrow{d}\chi^2_k\) (Wilks) | 4.8 |
| 2D density | দুই-চলক ঘনত্বের মসৃণ contour চিত্র (kernel density) | 1.4 |
| a.s. uniqueness (of conditional expectation) | \(\int_G Z\,d\mathbb P=\int_G Z'\,d\mathbb P\ \forall G\in\mathcal G\) ও দুটোই \(\mathcal G\)-measurable ⇒ \(Z=Z'\) a.s. (7.4); তাই \(\mathbb E[X\mid\mathcal G]\) একটি version পর্যন্ত অনন্য | 7.7 |
| absence of evidence ≠ evidence of absence | "significant নয়" মানে "\(H_0\) সত্যি" নয় — হয়তো power কম ছিল (ছোট \(n\)/effect, Figure 3-নিচু curve; §৭ Q4) | 4.7 |
| absolute continuity (\(\nu\ll\mu\)) | \(\mu(A)=0\Rightarrow\nu(A)=0\); \(\mu\) যা অদৃশ্য দেখে \(\nu\)-ও তা অদৃশ্য দেখে — Radon–Nikodym density থাকার আবশ্যিক ও (σ-finite-এ) যথেষ্ট শর্ত | 7.5 |
| acceptance probability | \(\alpha(x,x')=\min(1,\,f(x')/f(x))\) (প্রতিসম proposal) — প্রস্তাবিত move গ্রহণের সম্ভাবনা; কেবল target-অনুপাত লাগে, normalizing constant নয় | 3.6 |
| accuracy | \(\frac{\mathrm{TP}+\mathrm{TN}}{n}\); সঠিক পূর্বাভাসের অনুপাত — threshold- ও imbalance-নির্ভর, তাই একা বিভ্রান্তিকর হতে পারে (এখানে \(0.855\)) | 5.4 |
| AdaBoost | adaptive boosting — প্রতি round-এ weighted-error \(\varepsilon_t\)-এর weak learner বাছে, ওজন দেয় \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\), ভুল-বিন্দুর নমুনা-ওজন বাড়ায়; exponential loss-এর forward stagewise additive modeling। canonical (stump base): n_est \(50\to\mathbf{0.850}\) চূড়া, তারপর পতন | 6.6 |
| adapted process | \((X_n)\) adapted \((\mathcal F_n)\)-এর সাপেক্ষে যদি প্রতিটি \(X_n\) \(\mathcal F_n\)-measurable — "বর্তমান তথ্যেই \(X_n\) জানা" (যেমন আজকের সম্পদ); martingale হতে আবশ্যক | 7.8 |
| adaptive boosting | AdaBoost-এর পূর্ণরূপ — "adaptive" কারণ প্রতিটি round নমুনা-বণ্টন আগের ভুলের দিকে মানিয়ে নেয় (reweighting); এই মানিয়ে-নেওয়াই algorithm-কে কঠিন বিন্দুতে ফোকাস করায়, কিন্তু একই কারণে label-noise/outlier-সংবেদনশীল করে | 6.6 |
| addition principle | বিচ্ছিন্ন ("or") উপায়ের সংখ্যাকে যোগ করে মোট উপায় গোনা | 0.2 |
| addition rule | \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\) | 2.1 |
| additivity of Fisher information | iid নমুনায় মোট information \(I_n(\theta)=nI_1(\theta)\) — প্রতিটি observation \(I_1\) পরিমাণ তথ্য যোগ করে (§৭ Q13) | 4.5 |
| adjusted R-squared | predictor-সংখ্যার জন্য সংশোধিত \(R^2\), \(1-\frac{\text{SSE}/(n-p)}{\text{SST}/(n-1)}\) | 5.1 |
| adjusted Rand index (ARI) | দুটো cluster-বিন্যাস (যেমন প্রাপ্ত বনাম সত্য label) কতটা মেলে তার chance-সংশোধিত মাপ: বিন্দু-জোড়ার সম্মতি গুনে প্রত্যাশিত-আকস্মিক-সম্মতি বিয়োগ; পুরোপুরি মিললে \(1\), এলোমেলো বিন্যাসে \(\approx0\); চলমান উদাহরণে \(k{=}3\to0.990\) (প্রায়-নিখুঁত পুনরুদ্ধার); সীমা — সত্য label জানা লাগে, তাই বাস্তব unsupervised-এ silhouette-এর মতো internal মাপ লাগে | 5.9 |
| admissibility / inadmissibility | একটা estimator admissible যদি কোনো estimator তাকে dominate না করে; নাহলে inadmissible (অগ্রহণযোগ্য — একটা প্রতিদ্বন্দ্বী আছে যা কখনো খারাপ নয়); Stein: MLE \(\hat\theta=X\) inadmissible যখন \(p\ge3\), admissible যখন \(p\le2\) | 8.3 |
| affine/scaling rule | \(\varphi_{aX+b}(t)=e^{itb}\,\varphi_X(at)\); standardization \(\frac{X-\mu}{\sigma}\)-এ \(\varphi_{(X-\mu)/\sigma}(t)=e^{-i\mu t/\sigma}\varphi_X(t/\sigma)\) — CLT-এর centering–scaling সামলায় | 7.10 |
| AIC | Akaike Information Criterion \(=-2\ell+2K\) (\(\ell\) maximized log-likelihood, \(K\) free parameter incl. variance); fit ও complexity-র আপস, ছোটটাই ভালো; prediction-অনুকূল (asymptotically efficient) | 5.2 |
| algebra (field) | \(\Omega\)-এর subset-দের পরিবার যা \(\Omega\) ধারণ করে, complement-বদ্ধ ও সসীম union-বদ্ধ; \(\sigma\)-algebra-র দুর্বলতর রূপ — "finite-or-cofinite on \(\mathbb N\)" algebra কিন্তু \(\sigma\)-algebra নয় | 7.2 |
| almost everywhere | "প্রায় সর্বত্র" (a.e.); একটি measure-শূন্য সেট বাদে সর্বত্র সত্য — measure-শূন্য সেট integral-এ অবদান রাখে না | 7.4 |
| almost everywhere (a.e.) | একটা ধর্ম "প্রায় সর্বত্র" সত্য মানে যে set-এ তা ব্যর্থ তার measure \(0\); যেমন \(\mathbf 1_{\mathbb Q}=0\) a.e. — Lebesgue তত্ত্বে null set উপেক্ষণীয় | 7.1 |
| almost sure convergence | \(P(\lim_n X_n=X)=1\); প্রায় প্রতিটি পথ আক্ষরিকভাবে থিতু হয়, লেখা \(X_n\xrightarrow{a.s.}X\) | 3.2 |
| almost surely (a.s.) | একটি ঘটনা probability-\(1\) set-এ ঘটে (\(\mathbb P=1\)); a.e.-অভিসরণের probability-রূপ — SLLN-এর গন্তব্য, in-probability-র চেয়ে শক্তিশালী | 7.6 |
| almost-sure convergence | \(X_n\to X_\infty\) "প্রায়-নিশ্চিতভাবে" — একটা \(\mathbb P\)-null set বাদে প্রতিটি \(\omega\)-তে \(X_n(\omega)\to X_\infty(\omega)\); convergence theorem-এর প্রাথমিক উপসংহার (পথ থিতু হয়, গন্তব্য random হতে পারে) | 7.9 |
| alternative hypothesis \(H_1\) | \(H_0\) ভুল হলে যা সত্যি — গবেষণা/বিকল্প দাবি; two-sided \(\mu\neq\mu_0\) বা one-sided \(\mu>\mu_0\)/\(\mu<\mu_0\) | 4.7 |
| anomaly detection | data-র মধ্যে এমন বিন্দু চিহ্নিত করা যারা (i) বিরল এবং (ii) স্বাভাবিক গঠন/density থেকে দূরে — সম্ভবত ভিন্ন প্রক্রিয়া থেকে আসা; চারটি স্বজ্ঞাগত পরিবার: statistical (Mahalanobis), density (LOF), isolation (Isolation Forest), boundary (One-Class SVM) | 6.9 |
| anomaly score \(s(x)\) | প্রতিটি বিন্দুর "কতটা anomaly" তার ক্রমিক মান; Isolation Forest-এ \(s(x)=2^{-\mathbb E[h(x)]/c(n)}\) (\(s\to1\) = anomaly), LOF/Elliptic-এ দূরত্ব/density থেকে; threshold বা ROC AUC মূল্যায়নের ভিত্তি | 6.9 |
| ANOVA (analysis of variance) | একাধিক group-এর গড় সমান কিনা পরীক্ষার পদ্ধতি — total variation-কে between- ও within-group অংশে ভেঙে তাদের অনুপাত (\(F\)) নিয়ে; নাম "variance" হলেও আসলে গড় তুলনা করে | 5.3 |
| ANOVA as regression | one-way ANOVA = dummy-encoded linear regression; group-গড় \(\to\) coefficient, \(H_0:\mu\) সব সমান \(\to\) regression-এর overall \(F\)-test (\(\beta=0\) সব slope) — একই OLS-যন্ত্র | 5.3 |
| ANOVA assumptions | (i) group/observation independence, (ii) within-group Normality, (iii) equal variance — ৫.১-এর LINE-এর I, N, E-এর সরাসরি অনুরূপ | 5.3 |
| Anscombe's quartet | একই \(r\)/mean/line কিন্তু সম্পূর্ণ ভিন্ন আকৃতির চারটি dataset; correlation-এর সীমাবদ্ধতার উদাহরণ | 1.4 |
| antiderivative | যে function-এর derivative নিলে আদি function ফেরে (\(F'=f\)) | 0.4 |
| aperiodic | কোনো state-এ ফেরার সম্ভাব্য ধাপ-সংখ্যাগুলোর গসাগু \(1\); periodicity না থাকলে \(\mu_n\) দোলা ছাড়াই \(\pi\)-তে গড়ায় (convergence-এর শর্ত) | 3.6 |
| approximation theorem (simple functions) | প্রতিটি অঋণাত্মক measurable \(f\ge 0\) হলো simple function-দের একটা ক্রমবর্ধমান point-wise limit \(0\le f_n\uparrow f\); সাধারণ \(f\)-এ \(f=f^+-f^-\) — Lebesgue integral (7.4)-এর সরাসরি ভিত্তি | 7.3 |
| AR(1) process | \(X_t=\phi X_{t-1}+\varepsilon_t\) (\(\lvert\phi\rvert<1\)); সরলতম stationary dependent process, \(\gamma(h)=\frac{\sigma^2}{1-\phi^2}\phi^{\lvert h\rvert}\) | 3.5 |
| area under the curve | curve ও x-অক্ষের মধ্যেকার ক্ষেত্রফল, যা integral পরিমাপ করে | 0.4 |
| array | NumPy-র সমজাতীয় সংখ্যার গ্রিড; দ্রুত গণনার মূল object | 0.6 |
| asymptotic equivalence (of tests) | বড় নমুনায় LRT, Wald, score তিনটাই একই \(\chi^2_k\) limit-এ যায় ও অনুপাত \(\to1\); ছোট \(n\)-এ আলাদা (Figure 4, §৭ Q11) | 4.8 |
| asymptotic normality | বড় নমুনায় কোনো estimator/রাশি আনুমানিক Normal হওয়ার ধর্ম; \(\bar X_n\overset{\text{approx}}{\sim}\mathcal N(\mu,\sigma^2/n)\) | 3.4 |
| asymptotic normality of MLE | বড় নমুনায় \(\hat\theta\approx\mathcal{N}\!\big(\theta,\frac{1}{nI(\theta)}\big)\) — MLE একসাথে Normal, asymptotically unbiased ও efficient (Figure 3) | 4.5 |
| asymptotic variance of MLE | MLE-র বড়-নমুনা variance \(=\frac{1}{nI(\theta)}\) — ঠিক CRLB floor; SE \(=\sqrt{1/[nI(\hat\theta)]}\) (Figure 3) | 4.5 |
| asymptotically efficient | বড় নমুনায় যার variance CRLB floor ছোঁয়; MLE-র মূল গুণ — তাই "asymptotically সেরা" estimator | 4.5 |
| asymptotically unbiased | \(n\to\infty\)-এ bias \(\to0\); অনেক MoM estimator (যেমন \(1/\bar X\)) biased কিন্তু asymptotically unbiased | 4.2 |
| atom | একটা (সসীম/গণনাযোগ্য) \(\sigma\)-algebra-র অবিভাজ্য ক্ষুদ্রতম অশূন্য সদস্য; generator-রা \(\Omega\)-কে atom-এ ভাঙে, আর \(k\)টি atom-এ \(\sigma\)-algebra-র আকার \(2^k\) (\(\lvert\sigma(\{A\})\rvert=4\), \(\lvert\sigma(\{A,B\})\rvert=16\)) | 7.2 |
| atom of a finite partition | finite \(\mathcal G=\sigma(\{G_1,\dots,G_k\})\)-এর সবচেয়ে ছোট অশূন্য ঘটনা; \(\mathbb E[X\mid\mathcal G]\) প্রতিটি atom-এ ধ্রুব = atom-এ \(X\)-এর গড় (ধাপ-অপেক্ষক, step function) | 7.7 |
| AUC (area under ROC) | ROC-এর নিচের ক্ষেত্রফল; "random positive > random negative score পাওয়ার সম্ভাবনা"; threshold-নিরপেক্ষ, imbalance-এ নির্ভরযোগ্য (\(0.5\) random, \(1\) perfect; এখানে \(0.924\)) | 5.4 |
| autocorrelation (of a chain) | পরপর MCMC নমুনার নির্ভরশীলতা; বেশি হলে কার্যকর নমুনা-সংখ্যা (effective sample size) কমে, তাই দীর্ঘ chain লাগে | 3.6 |
| autocorrelation function (ACF) | \(\rho(h)=\gamma(h)/\gamma(0)\); lag-\(h\) autocovariance-কে \([-1,1]\)-এ normalize করা; নির্ভরতার দৈর্ঘ্য পরিমাপের সরঞ্জাম | 3.5 |
| autocovariance at lag | \(\gamma(h)=C(t,t+h)\) stationary process-এ; \(h\)-এর সাথে কীভাবে memory ক্ষীণ হয় তা দেখায়; AR(1)-এ \(\gamma(h)\propto\phi^{\lvert h\rvert}\) | 3.5 |
| autocovariance function | \(C(s,t)=\operatorname{Cov}(X_s,X_t)\); দুটি ভিন্ন সময়ের মান কতটা একসাথে ওঠানামা করে তার মাপ; process-এর memory/নির্ভরতার গঠন | 3.5 |
| auxiliary regression | predictor \(j\)-কে বাকি সব predictor-এর ওপর regress করা; তার \(R_j^2\) থেকে VIF গণনা হয় — collinearity-র উৎস চিহ্নিত করে | 5.2 |
| averaging property | \(\int_G\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_G X\,d\mathbb P\ \forall G\in\mathcal G\) — "প্রতিটি \(\mathcal G\)-set-এ গড় \(X\)-এর সাথে মেলে"; শুধু \(G=\Omega\) (মোট গড়) দুর্বল, "সব \(G\)" প্রতিটি atom-এ গড় বাঁধে | 7.7 |
| Axes | matplotlib-এ একক plot আঁকার ক্ষেত্র | 0.6 |
| Axiom of Choice (AC) | অসীম-অনেক অশূন্য সংগ্রহ থেকে একসঙ্গে একটি করে উপাদান বাছার অনুমতি; Vitali-নির্মাণে অপরিহার্য (Solovay: AC ছাড়া non-measurable set প্রমাণই করা যায় না) | 7.1 |
| axis | array operation কোন দিক বরাবর হবে তা নির্দেশক (0=কলাম, 1=সারি) | 0.6 |
| axis-aligned split | "\(x_j\le t\)?" রূপের split যা কেবল একটা feature-অক্ষের সমকোণে data কাটে; ফলে tree-এর decision boundary সিঁড়ির মতো (staircase), মসৃণ তির্যক রেখা নয় — তির্যক সীমা ধরতে অনেক ধাপ লাগে | 6.5 |
| B-spline (basis spline) | regression spline-এর জন্য ব্যবহৃত স্থানীয়, সংখ্যাগতভাবে স্থিতিশীল basis-function-সেট \(\{B_k(x)\}\); প্রতিটি \(B_k\) কয়েকটা সংলগ্ন knot-এর ওপর nonzero (compact support) ⇒ basis-matrix sparse, OLS সুস্থিত | 5.7 |
| backward martingale | reverse martingale-এর সমার্থ: পেছন-দিকে-সরু তথ্য \((\mathcal G_n)\)-এ \(\mathbb E[Y\mid\mathcal G_n]\); Lévy's downward theorem \(\mathbb E[Y\mid\mathcal G_n]\to\mathbb E[Y\mid\mathcal G_\infty]\) (a.s. ও \(L^1\)) এতে চলে | 7.9 |
| bagging | bootstrap aggregating — \(B\)টি bootstrap-নমুনায় গাছ গড়ে গড় করা (\(\hat f_{\text{bag}}=\frac1B\sum_b\hat f_b\)); high-variance base-learner-এর variance কমায়, কিন্তু গাছ correlated বলে floor \(\rho\sigma^2\)-এ আটকায়। canonical (\(B{=}300\)): \(0.822\) | 6.5 |
| balanced design | প্রতিটি cell-এ সমান observation-সংখ্যা (\(n=20\)); variance-অসমতার প্রতি \(F\)-test-কে robust করে এবং Type I/II/III SS-কে এক করে | 5.3 |
| Banach space | পূর্ণ (complete) normed vector space — প্রতিটি Cauchy অনুক্রম space-এর ভেতরেই অভিসারী; প্রতিটি \(L^p\) (\(1\le p<\infty\)) একটি Banach space | 7.5 |
| bandwidth | KDE-র smoothing প্যারামিটার h; histogram-এর bin-প্রস্থের সমতুল্য | 1.3 |
| bandwidth (\(h\)) | kernel-এর প্রস্থ — কত দূরের বিন্দু "কাছের" গণ্য হবে নিয়ন্ত্রণ করে; ছোট \(h\) → কাঁপা fit, উচ্চ variance; বড় \(h\) → মসৃণ/চাপা fit, উচ্চ bias; optimal \(h^\*\propto n^{-1/5}\); চলমান উদাহরণে সেরা \(h\approx0.05\) (LOOCV \(0.03\)) | 5.7 |
| bar chart | categorical data-র জন্য গ্যাপ-সহ বার-চিত্র (count বা proportion) | 1.3 |
| base-rate fallacy | prior/base rate উপেক্ষা করে শর্তাধীন সম্ভাবনা ভুল বিচার | 2.2 |
| basis expansion | মূল predictor \(x\)-কে রূপান্তরিত feature-সেট \(\{B_1(x),\dots,B_K(x)\}\)-এ বিস্তৃত করে \(f(x)=\sum_k\gamma_k B_k(x)\) লেখা — তখন nonlinear \(f\)-ও parameter \(\gamma\)-তে রৈখিক, তাই OLS খাটে; ৫.১-এর polynomial-basis-এর সাধারণীকরণ (এখানে B-spline basis) | 5.7 |
| Bayes classifier | প্রতিটি \(x\)-কে সর্বোচ্চ-posterior শ্রেণিতে দেওয়া নিয়ম \(\hat y(x)=\arg\max_c P(y=c\mid x)\); 0–1 loss-এর অধীনে optimal (সর্বনিম্ন প্রত্যাশিত ভুল); বাস্তব classifier-রা এই posterior-কেই আনুমানিক করার চেষ্টা | 6.3 |
| Bayes error | Bayes classifier-এরও অনিবার্য অবশিষ্ট ভুল \(R^\*=\mathbb E_X[1-\max_c P(c\mid X)]\); শ্রেণি-overlap-জনিত; কোনো classifier (সত্য posterior জানলেও) এর নিচে নামতে পারে না — accuracy-র তাত্ত্বিক উচ্চসীমা | 6.3 |
| Bayes' rule (parameter form) | \(p(\theta\mid\text{data})\propto\pi(\theta)\,L(\theta)\); posterior = prior × likelihood (normalize করে); 2.2-এর Bayes theorem-এর density-রূপ (Figure 1) | 4.10 |
| Bayes' theorem | \(P(B_k\mid A)=P(A\mid B_k)P(B_k)/\sum_i P(A\mid B_i)P(B_i)\) | 2.2 |
| Bayesian consistency | \(n\to\infty\)-এ posterior সত্য প্যারামিটারে গুটিয়ে আসে (frequentist LLN-এর সমান্তরাল, 3.3); prior-এর প্রভাব ম্লান হয় (Figure 2) | 4.10 |
| Bayesian credible interval | যে interval-এ \(\theta\) থাকার posterior probability \(1-\alpha\); frequentist CI থেকে ভিন্ন (এখানে \(\theta\)-কে probability দেওয়া হয়, §৭ Q2-এর বিপরীত ধারণা) | 4.6 |
| Bayesian inference | একটা পরিসংখ্যানিক দৃষ্টিভঙ্গি যেখানে প্যারামিটার \(\theta\)-কে random ধরা হয় ও তার সম্পর্কে অনিশ্চয়তা একটা probability distribution দিয়ে প্রকাশ করা হয়; data দিয়ে prior → posterior আপডেট | 4.10 |
| Bayesian information criterion (BIC) | model-selection criterion \(\mathrm{BIC}=-2\ell(\hat\theta)+p\log n\) (কম = ভালো; \(p\) = parameter-সংখ্যা) — \(-2\ell\) (misfit) ও \(p\log n\) (complexity-penalty)-এর ভারসাম্য, Occam-এর ক্ষুর। canonical by \(K\): \(1{:}5626.7,2{:}5111.7,3{:}\mathbf{4828.8},4{:}4857.5,5{:}4890.9,6{:}4925.9\) — সর্বনিম্ন \(K=3\) | 6.7 |
| Bayesian nonparametrics | অসীম-মাত্রিক বস্তুর (সম্পূর্ণ distribution বা function) উপর prior বসানো, যাতে model-জটিলতা ডেটার সাথে বাড়ে; দুই স্তম্ভ Dirichlet process ও Gaussian process (← Part IV 4.10, VII 7.5) | 8.4 |
| Bayesian updating | posterior-কে পরের prior ধরে ক্রমান্বয়ে বিশ্বাস পরিমার্জন | 2.2 |
| BCa interval | bias-corrected and accelerated bootstrap CI; bias/skew বেশি হলে percentile-এর চেয়ে ভালো coverage (§৮ নোট) | 4.9 |
| Beppo Levi | MCT-এর অপর নাম (Beppo Levi-র উপপাদ্য); অঋণাত্মক বাড়ন্ত sequence-এ limit ও integral অদলবদলের অনুমতি | 7.4 |
| Bernoulli distribution | একটামাত্র হ্যাঁ/না trial; mean \(p\), variance \(p(1-p)\) | 2.3 |
| Bernoulli Fisher information | \(I(p)=\frac{1}{p(1-p)}\) (E1); \(p=0.5\)-এ সর্বনিম্ন, প্রান্তে (\(p\to0,1\)) বিশাল | 4.5 |
| Bernoulli likelihood | \(L(\beta)=\prod_i p_i^{y_i}(1-p_i)^{1-y_i}\), \(p_i=\sigma(x_i^\top\beta)\); log-likelihood \(\ell=\sum_i[y_i\eta_i-\log(1+e^{\eta_i})]\) — logistic-MLE-র ভিত্তি | 5.4 |
| Berry–Esseen bound | CLT-approximation-এর error-এর upper bound \(\propto \rho/(\sigma^3\sqrt{n})\) (\(\rho\) third moment); skewness যত বেশি error তত বড়, হার \(1/\sqrt{n}\) | 3.4 |
| Berry–Esseen theorem | CLT-অভিসারণের হারকে স্পষ্ট আবদ্ধ করে: \(\sup_x\lvert F_n(x)-\Phi(x)\rvert\le \frac{C\rho}{\sigma^3\sqrt n}\), যেখানে \(\rho=\mathbb E\lvert X-\mu\rvert^3\); এতে দূরত্ব \(n^{-1/2}\)-এ কমে, যা E1-এর KS-মান (\(n=5\!:0.0590\to n=320\!:0.0071\)) নিশ্চিত করে | 8.2 |
| Bessel's correction | sample variance-এ n-এর বদলে n−1 দিয়ে ভাগ (unbiased করতে) | 1.2 |
| best \(L^2\) predictor | সব \(\mathcal G\)-measurable \(Z\)-এর মধ্যে \(\mathbb E[(X-Z)^2]\) ন্যূনতম হয় ঠিক \(Z=\mathbb E[X\mid\mathcal G]\)-তে; Pythagoras \(\mathbb E[(X-Z)^2]=\mathbb E[(X-\mathbb E[X\mid\mathcal G])^2]+\mathbb E[(\mathbb E[X\mid\mathcal G]-Z)^2]\) (cross term orthogonality-তে শূন্য) | 7.7 |
| best constant predictor | \(X\in L^2\)-কে \(\operatorname{span}\{1\}\)-এ projection; \(\min_c\mathbb E[(X-c)^2]\)-এর সমাধান \(c=\mathbb E[X]\), residual-error \(=\operatorname{Var}(X)\) — mean = ধ্রুবক-জগতে projection | 7.5 |
| Beta / Uniform limit | Pólya urn-এর রঙ-অনুপাতের a.s.-সীমা \(X_\infty\) একটা random variable — Beta\((r_0,w_0)\)-বণ্টিত (শুরুর লাল/সাদা গণনা = প্যারামিটার); শুরু \(1{,}1\)-এ Uniform\((0,1)\) (mean \(0.5007\), std \(0.2853\), সমতল deciles) | 7.9 |
| Beta distribution | \([0,1]\)-এ একটি অনুপাত; shape \(\alpha,\beta\); নমনীয় আকৃতি | 2.4 |
| beta function | Beta-র normalization ধ্রুবক \(B(\alpha,\beta)=\Gamma(\alpha)\Gamma(\beta)/\Gamma(\alpha+\beta)\) | 2.4 |
| Beta–Binomial | conjugate জোড়া: prior \(\text{Beta}(a,b)\), \(n\) চেষ্টায় \(k\) সাফল্য ⇒ posterior \(\text{Beta}(a+k,\ b+n-k)\) (E1; Figure 1–2, §৭ Q9) | 4.10 |
| between-group variation (SSB) | group-গড়গুলো grand mean থেকে কত ছড়ানো: \(\mathrm{SSB}=\sum_g n_g(\bar y_g-\bar y)^2\); signal + noise বহন করে, \(df=k-1\) | 5.3 |
| bias | estimator-এ \(\mathbb{E}[\hat\theta]-\theta\); expectation-ভিত্তিক (Part IV) | 2.5 |
| bias (of an estimator) | \(\mathbb{E}[\hat\theta]-\theta\) — estimate গড়ে কতটা সত্যি থেকে সরে; MoM-এ nonlinear রূপান্তরে সসীম \(n\)-এ bias থাকতে পারে (যেমন \(1/\bar X\) উপরে হেলে — Jensen) | 4.2 |
| bias of MLE | সসীম \(n\)-এ MLE biased হতে পারে — যেমন Normal-এর \(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2\) (হরে \(n\), \(n-1\) নয়) সামান্য নিচে-biased; bias \(\to0\) যখন \(n\to\infty\) (4.4) | 4.3 |
| bias reduction | boosting-এর কেন্দ্রীয় লক্ষ্য — high-bias weak learner ক্রমিকভাবে যোগ করে ensemble-এর capacity বাড়িয়ে bias কমানো (bagging-এর variance↓-এর বিপরীত); n_estimators ও \(\nu\) এর "complexity-ডায়াল", কিন্তু অতিরিক্ত round-এ variance/overfit ফিরে আসে (চূড়ার পর পতন) | 6.6 |
| biased estimator | যার \(\mathbb{E}[\hat\theta]\ne\theta\) (যেমন \(\hat\sigma^2\) low, \(\max\) low); কখনও কম MSE দেয় বলে কাম্য হতে পারে | 4.4 |
| bias–variance decomposition | \(\mathrm{MSE}(\hat\theta)=[\,b(\hat\theta)\,]^2+\mathrm{Var}(\hat\theta)\) — MSE-কে bias² ও variance-এ ভাঙা, cross-term শূন্য (Figure 2; §৭ Q9) | 4.4 |
| bias–variance of CV (in \(K\)) | CV-estimate-এর গুণমান \(K\)-এর সাথে বদলায়: ছোট \(K\) (training-set ছোট) ⇒ error over-estimate (pessimistic bias) কিন্তু কম-correlated fit ⇒ কম variance; \(K=n\) (LOOCV) ⇒ bias প্রায় শূন্য কিন্তু correlated fit ⇒ বেশি variance; তাই \(K=5/10\) আপস | 5.8 |
| bias–variance trade | shrinkage-এর যুক্তি: MSE=bias²+variance (← 4.4); MLE unbiased (bias \(0\), variance \(1\)), JS সামান্য bias কিনে variance \(c^2\)-গুণ কমায়; \(p\ge3\)-তে variance-সাশ্রয় জেতে, total risk নামে | 8.3 |
| bias–variance trade-off | complexity-র দুই বিপরীত খরচের ভারসাম্য — কমাতে গেলে একটা বাড়ে; সর্বোত্তম মডেল সেই বিন্দুতে যেখানে \(\text{bias}^2+\text{var}\) সর্বনিম্ন (U-curve-এর তলা); regularization (6.2) এটি সরাসরি tune করে | 6.1 |
| bias–variance tradeoff | bias² ও variance বিপরীত দিকে চলে, তাই MSE-র সর্বনিম্ন পেতে দুটোর ভারসাম্য করতে হয়; একটু bias মেনে variance কমালে MSE কমতে পারে (Figure 2) | 4.4 |
| bias–variance tradeoff (regularization) | \(\lambda\) বাড়ালে variance↓ কিন্তু bias↑ — regularization সরাসরি এই ভারসাম্য tune করে; সর্বোত্তম \(\lambda\) সেই বিন্দু যেখানে test-MSE সর্বনিম্ন (৬.১-এর U-curve-এর তলা); canonical: সামান্য bias-এ ridge MSE \(2.077\to2.075\), lasso \(1.843\) | 6.2 |
| BIC | Bayesian Information Criterion \(=-2\ell+(\ln n)K\); AIC-এর চেয়ে কড়া penalty (\(\ln n>2\) যখন \(n>7\)), তাই বেশি parsimonious; consistent (সত্য মডেল \(n\to\infty\)-এ বাছে) | 5.2 |
| biconditional | \(P \Leftrightarrow Q\): "\(P\) iff \(Q\)"; সত্যমান একই হলে সত্য | 0.1 |
| bijective | একই সাথে injective ও surjective; এদেরই inverse থাকে | 0.1 |
| bilinearity (of covariance) | \(\operatorname{Cov}(aX+bY,Z)=a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z)\) | 2.6 |
| bimodal | দুটি চূড়াবিশিষ্ট distribution; প্রায়ই লুকানো উপদলের ইঙ্গিত | 1.3 |
| bin | histogram/frequency table-এ মানের একটি ধারাবাহিক টুকরো (class interval) | 1.3 |
| binary | ঠিক দুটি শ্রেণির categorical data (yes/no), প্রায়ই \(0/1\)-এ কোড করা | 1.1 |
| binning | data-কে bin-এ ভাগ করার প্রক্রিয়া | 1.3 |
| binomial coefficient | \(\binom{n}{k}=n!/(k!(n-k)!)\); \((x+y)^n\) বিস্তারের সহগ | 0.2 |
| Binomial distribution | \(n\) স্বাধীন trial-এ success-সংখ্যা; \(\binom{n}{k}p^k(1-p)^{n-k}\), mean \(np\) | 2.3 |
| binomial theorem | \((x+y)^n=\sum_k\binom{n}{k}x^{n-k}y^k\) | 0.2 |
| bivariate analysis | দুটি variable একসাথে কীভাবে চলে তা বিশ্লেষণ | 1.4 |
| bivariate Normal distribution | দুই variable-এর যৌথ Normal; marginal ও conditional উভয়ই Normal, conditional mean রৈখিক | 2.6 |
| blocking | পরিচিত nuisance-উৎস (যেমন irrigation, জমির উর্বরতা) আলাদা করে model-এ আনা; residual/within variation কমিয়ে \(F\)-এর power বাড়ায় | 5.3 |
| BLUE | Best Linear Unbiased Estimator — সর্বনিম্ন variance-যুক্ত নিরপেক্ষ রৈখিক estimator | 5.1 |
| BLUP (best linear unbiased predictor) | random effect-এর shrink-করা estimate \(\hat u_j=\lambda_j(\bar y_j-\mu)\) — গোষ্ঠীর raw-deviation-কে \(\lambda_j\) দিয়ে গ্র্যান্ড-গড়ের দিকে টানা; উদাহরণে স্কুল \(0\) (\(n_0=20\)): \(\hat u_0=+6.05\) (\(=0.922\times6.56\)) | 5.6 |
| Bochner's theorem | একটা ফাংশন \(\varphi:\mathbb R\to\mathbb C\) ঠিক তখনই কোনো বণ্টনের cf, যখন তা \(\varphi(0)=1\), অবিচ্ছিন্ন এবং positive-definite — cf-জগৎ ও বণ্টন-জগতের পূর্ণ মিল | 7.10 |
| boosting | দুর্বল (high-bias) learner ক্রমিকভাবে যোগ করে শক্তিশালী predictor \(F_T(x)=\sum_t\alpha_t h_t(x)\) বানানোর ensemble-কৌশল; প্রতিটি নতুন learner আগের সমষ্টির ভুল সংশোধন করে, তাই মূলত bias কমায় (bagging-এর variance↓-এর বিপরীত)। নির্ভরশীল/sequential বলে parallel train করা কঠিন | 6.6 |
| bootstrap | একটা resampling পদ্ধতি যা মূল নমুনাকেই population ধরে replacement-সহ বারবার resample করে statistic \(\hat\theta\)-এর sampling distribution আঁচ করে (SE, CI, p-value); তত্ত্বের সূত্র না থাকলেও চলে (Figure 1, §৭ Q1) | 4.9 |
| bootstrap aggregating | bagging-এর পূর্ণরূপ — bootstrap (৪.৯, with-replacement resample) + aggregating (গড়/majority-vote); ৪.৯-এর resample-পদ্ধতিকে inference থেকে prediction-এর variance-হ্রাসে রূপান্তর | 6.5 |
| bootstrap confidence interval | data থেকে replacement-সহ resample করে statistic-এর sampling distribution আনুমান, তারপর সেই resample-বণ্টনের percentile থেকে CI নির্মাণ (← 4.9); E2-তে \(B=1000\) resample-এ mean-এর percentile bootstrap CI-র গড় width \(0.5869\) | 8.2 |
| bootstrap distribution | \(B\)টা \(\hat\theta^*_b\)-এর বণ্টন; \(\hat\theta\)-কে কেন্দ্র করে; sampling distribution-এর সিমুলেশন-ভিত্তিক নকল — শেখা আসে কেন্দ্র থেকে নয়, বিস্তার থেকে (Figure 1, §৭ Q2) | 4.9 |
| bootstrap replicate \(\hat\theta^*_b\) | \(b\)-তম bootstrap resample থেকে পাওয়া statistic-এর মান; \(B\)টা মিলে bootstrap distribution (Figure 1) | 4.9 |
| bootstrap resample \(X^*\) | replacement-সহ \(n\)টা টেনে বানানো একটা নকল নমুনা; এর থেকে একটা bootstrap replicate \(\hat\theta^*_b\) হিসাব হয় | 4.9 |
| bootstrap sample | training-set থেকে size-\(n\) with-replacement resample; bagging/RF-এর প্রতিটি গাছের training-data, এবং OOB-র উৎস (গড়ে \(\approx63\%\) স্বতন্ত্র বিন্দু in-bag, \(\approx37\%\) out-of-bag)। canonical \(n_{\text{train}}=420\): in-bag \(\approx265\), OOB \(\approx155\) | 6.5 |
| bootstrap standard error \(\widehat{\mathrm{se}}_{\text{boot}}\) | bootstrap replicate-গুলোর standard deviation \(\sqrt{\frac{1}{B-1}\sum_b(\hat\theta^*_b-\bar\theta^*)^2}\); \(\hat\theta\)-র sampling-variation-এর আঁচ; গড়ে \(\approx s/\sqrt n\) (Figure 1, §৭ Q2, Q12) | 4.9 |
| Borel \(\sigma\)-algebra \(\mathcal B(\mathbb R)\) | \(\mathbb R\)-এর প্রমিত \(\sigma\)-algebra \(=\sigma(\text{open sets})=\sigma(\text{open intervals})=\sigma\big((-\infty,x]\big)\); ব্যবহারিক প্রায় সব set এতে পড়ে, random variable-এর target \(\sigma\)-algebra | 7.2 |
| Borel function | একটা measurable map \(g:(\mathbb R,\mathcal B)\to(\mathbb R,\mathcal B)\) (বা \(\mathbb R^d\)-তে); RV \(X\)-এর সঙ্গে রচিত হলে \(g\circ X=g(X)\) আবার RV — তাই \(X^2,\lvert X\rvert,e^X\) ইত্যাদি বৈধ নতুন RV | 7.3 |
| Borel set (preview) | open interval থেকে গণনাযোগ্য union/intersection/complement-এ গড়া \(\mathbb R\)-এর প্রমিত \(\sigma\)-algebra \(\mathcal B(\mathbb R)\)-এর সদস্য; ব্যবহারিক প্রায় সব set এতে পড়ে, পূর্ণ আলোচনা 7.2-এ | 7.1 |
| Borel–Cantelli lemma (first) | যেকোনো \((A_n)\)-এ (স্বাধীনতা লাগে না) \(\sum_n\mathbb P(A_n)<\infty\Rightarrow\mathbb P(A_n\ \text{i.o.})=0\); countable subadditivity + অভিসৃত-ধারার-লেজ\(\to0\) দিয়ে | 7.6 |
| Borel–Cantelli lemma (second) | \((A_n)\) স্বাধীন ও \(\sum_n\mathbb P(A_n)=\infty\Rightarrow\mathbb P(A_n\ \text{i.o.})=1\); গুণফল \(\prod(1-\mathbb P(A_n))\le\exp(-\sum)\) দিয়ে (স্বাধীনতা অপরিহার্য) | 7.6 |
| borrowing strength | অসম্পর্কিত প্যারামিটার একসাথে estimate করার সময় তথ্য ভাগ করে নেওয়া — JS সব coordinate-কে একই common factor \(\lVert X\rVert^2\) দিয়ে shrink করে, ফলে একটার estimate অন্যদের সমষ্টিগত তথ্যে উন্নত হয়; multiple group-mean shrinkage-এর মূল ধারণা | 8.3 |
| boundary maximum | likelihood-এর সর্বোচ্চ parameter-space-এর প্রান্তে, অভ্যন্তরে নয় — তখন \(\ell'=0\) খাটে না; Uniform\((0,\theta)\)-এ MLE \(=\max_i X_i\) আকৃতি বিচার করে পাওয়া যায় (Figure 4) | 4.3 |
| branching martingale | স্বাভাবিকীকৃত আকার \(W_n=Z_n/m^n\) — একটা অঋণাত্মক martingale (\(\mathbb E[W_n]=1\) সব \(n\)-এ), তাই a.s. একটা সীমা \(W\ge0\)-এ অভিসারী; \(L\log L\)/UI-শর্ত \(W\)-এর অ-অবক্ষয় ঠিক করে | 7.9 |
| breakdown point | statistic ভাঙতে যত ভগ্নাংশ data নষ্ট করতে হয় তার সর্বনিম্ন মান | 1.2 |
| broadcasting | ভিন্ন আকারের array-কে স্বয়ংক্রিয়ভাবে মিলিয়ে operation করার NumPy নিয়ম | 0.6 |
| Brownian motion (Wiener process) | \(W_0=0\), independent increments, \(W_t-W_s\sim\mathcal N(0,t-s)\); একটি Gaussian process যার \(m(t)=0\), \(C(s,t)=\min(s,t)\); সন্তত কিন্তু কোথাও অন্তরকলনযোগ্য নয় | 3.5 |
| burn-in | MCMC-র শুরুর কিছু নমুনা যা এখনো stationary-তে পৌঁছায়নি, তাই ফেলে দেওয়া হয় (Figure 3-এর ছায়া-অঞ্চল); নাহলে শুরুর-state bias আনে | 3.6 |
| calibration | predicted probability বনাম observed frequency মেলে কিনা তার পরীক্ষা (calibration curve diagonal-এ থাকলে well-calibrated, নাহলে over/under-confident); এই অধ্যায়ে logistic ও RF দুই model-ই প্রায়-diagonal | 8.1 |
| Cantelli's SLLN (4th moment) | iid ও \(\mathbb E[X^4]<\infty\Rightarrow\bar X_n\to\mu\) a.s.; \(\mathbb E[S_n^4]=O(n^2)\) দেখিয়ে \(\sum_n\mathbb E[\bar X_n^4]<\infty\) ⇒ Borel–Cantelli I — সহজ কিন্তু শক্তিশালী-নয় পথ | 7.6 |
| Cantor set | \([0,1]\) থেকে বারবার middle-third ফেলে পাওয়া \(C=\bigcap_k C_k\); অপসারিত দৈর্ঘ্য \(=1\) তাই \(\lambda(C)=0\), অথচ uncountable (\(\lvert C\rvert=2^{\aleph_0}\)) — measure-zero \(\ne\) ছোট | 7.1 |
| capacity / model complexity | hypothesis class কত-বিচিত্র ফাংশন ধরতে পারে তার মাপ (polynomial degree, parameter-সংখ্যা, \(d_{\mathrm{VC}}\)); বেশি capacity = কম bias কিন্তু বেশি variance ও বড় generalization-gap; U-curve-এর মূল অক্ষ | 6.1 |
| Carathéodory criterion | \(E\) measurable iff এটা প্রতিটি test set \(A\)-কে additively কাটে: \(\mu^*(A)=\mu^*(A\cap E)+\mu^*(A\cap E^c)\) সব \(A\)-র জন্য; যা measurable set-দের বেছে নেয় | 7.2 |
| Carathéodory extension theorem | একটা algebra-র premeasure \(\sigma(\mathcal A)\)-এ একটা measure-এ প্রসারিত হয় (\(\sigma\)-finite হলে একমাত্রভাবে), এবং Carathéodory-measurable set-রা একটা complete \(\sigma\)-algebra গড়ে যার উপর \(\mu^*\) একটা measure | 7.2 |
| CART | Classification And Regression Trees — Breiman-এর binary recursive-partitioning algorithm; classification-এ Gini, regression-এ squared-error impurity দিয়ে greedy split বাছে; scikit-learn-এর tree এর বাস্তবায়ন |
6.5 |
| Cartesian product | \(A \times B\): সব ordered pair \((a,b)\)-এর set | 0.1 |
| Categorical (pandas) | pandas-এ categorical data সংরক্ষণের dtype; ordered=True দিলে ক্রম রক্ষা হয় |
1.1 |
| categorical variable | শ্রেণিগত (qualitative) variable; শ্রেণি/লেবেল নির্দেশ করে, সংখ্যা নয় | 1.1 |
| Cauchy distribution | heavy-tailed distribution যার \(\mathbb E\lvert X\rvert=\infty\); mean অসংজ্ঞায়িত, তাই LLN ভাঙে (running mean থিতু হয় না) | 3.3 |
| Cauchy distribution (no mean) | pdf \(f(x)=\tfrac1{\pi(1+x^2)}\); \(\mathbb E\lvert X\rvert=\infty\) (লেজ \(\sim1/(\pi\lvert x\rvert)\)), তাই SLLN ভাঙে — \(\bar X_n\) থামে না, ঘোরে (নিজেও হুবহু Cauchy থাকে) | 7.6 |
| Cauchy–Schwarz inequality | \(\lvert\langle f,g\rangle\rvert\le\lVert f\rVert_2\lVert g\rVert_2\); Hölder-এর \(p=q=2\) রূপ, statistics-এ \(\lvert\rho\rvert\le1\)-এর ভিত্তি, সমতা কেবল linear dependence-এ | 7.5 |
| causal inference | correlation নয়, কারণ-অনুমান: \"\(X\) বদলালে \(Y\) বদলাবে কি?\" — observational data থেকেও বৈধ কার্যকারণ-দাবির শর্ত ও পদ্ধতি; তিন স্তম্ভ potential outcomes, DAG, instrumental variable; epidemiology/econometrics/policy/A-B testing-এর ভিত্তি (← Part IV,V) | 8.4 |
| causation | একটি ঘটনা প্রকৃতপক্ষে অন্যটিকে ঘটায় — correlation যা প্রমাণ করে না | 1.4 |
| CDF | cumulative distribution function \(F_X(x)=P_X((-\infty,x])=\mathbb P(X\le x)\); monotone, right-continuous, \(0\to 1\) — এবং π–λ (7.2) দিয়ে CDF একাই পুরো law \(P_X\)-কে নির্ধারণ করে | 7.3 |
| CDF method | \(F_Y(y)=P(g(X)\le y)\) লিখে, \(X\)-এর ভাষায় অনুবাদ করে \(Y\)-এর distribution বের করা | 2.7 |
| cell mean | factorial design-এ এক নির্দিষ্ট factor-combination-এর (যেমন C-high) গড়; interaction পড়ার মূল একক | 5.3 |
| center of mass | যে বিন্দুতে probability-ভর ভারসাম্যে; \(\mathbb{E}[X]\)-এর ভৌত রূপ | 2.5 |
| centered kernel matrix | kernel PCA-তে double-centered \(\tilde K=HKH\) (\(H=I-\tfrac1n\mathbf 1\mathbf 1^\top\)) — feature-space-এ data মূলবিন্দু-কেন্দ্রিক করতে (\(\sum_i\phi(x_i)=0\)), যেহেতু \(\phi\) সরাসরি জানা নেই; PCA-র covariance-গঠনের kernel-সংস্করণ | 6.8 |
| Central Limit Theorem (CLT) | iid \(X_i\) (\(\sigma^2<\infty\))-এর জন্য \(Z_n=\sqrt{n}(\bar X_n-\mu)/\sigma\xrightarrow{d}\mathcal N(0,1)\); উৎসের আকৃতি যাই হোক standardize-করা গড় Normal-এ যায় | 3.4 |
| Central Limit Theorem (rigorous) | iid \(X_i\), \(\mathbb E[X]=\mu\), \(\operatorname{Var}(X)=\sigma^2\in(0,\infty)\) ⇒ \(Z_n=\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\Rightarrow N(0,1)\); cf-প্রমাণ \(\varphi_{Z_n}(t)=(\varphi_W(t/\sqrt n))^n\to e^{-t^2/2}\) + Lévy — 3.4-এর স্বজ্ঞাগত CLT এখানে প্রমাণিত | 7.10 |
| central moment | গড়ের সাপেক্ষে \(k\)-th moment; \(\mu_k=\mathbb{E}[(X-\mu)^k]\) | 2.5 |
| centroid | একটা cluster-এর প্রতিনিধি-বিন্দু — তার সদস্যদের গড় \(\mu_k=\frac1{\lvert C_k\rvert}\sum_{i\in C_k}x_i\); k-means update-ধাপে এটাই বসানো হয় কারণ গড় \(\sum_{i\in C_k}\lVert x_i-c\rVert^2\)-এর একমাত্র (global) minimizer (convex quadratic, Hessian \(2\lvert C_k\rvert I\succ0\)) | 5.9 |
| chain rule | composite function-এর derivative: \(f'(g)\cdot g'\) | 0.3 |
| change of variables | monotone \(g\)-র জন্য density সরাসরি রূপান্তরের সূত্র (Jacobian সহ) | 2.7 |
| Chapman–Kolmogorov | \((P^{m+n})_{ij}=\sum_k (P^m)_{ik}(P^n)_{kj}\) — দীর্ঘ যাত্রাকে মাঝপথের state \(k\)-তে ভেঙে যোগ; total probability + Markov property-র matrix-রূপ (\(P^{m+n}=P^mP^n\)) | 3.6 |
| characteristic equation | \(\det(A-\lambda I)=0\), যার মূল eigenvalue | 0.5 |
| characteristic function | \(\varphi_X(t)=\mathbb{E}[e^{itX}]\); MGF না থাকলেও সবসময় থাকে | 2.5 |
| characteristic function of Bernoulli | \(\varphi_{\text{Bern}(p)}(t)=1-p+pe^{it}\) (সরাসরি যোগফল); \(\varphi_{\text{Bern}(0.3)}(1)=0.8621+0.2524i\) (\(\lvert\cdot\rvert\approx0.8983\)); iid-যোগে \((1-p+pe^{it})^n\) = Binomial-এর cf | 7.10 |
| characteristic function of exponential | \(\varphi_{\text{Exp}(\lambda)}(t)=\frac{\lambda}{\lambda-it}\); \(\int_0^\infty e^{itx}\lambda e^{-\lambda x}\,dx\) থেকে; \(\varphi_{\text{Exp}(1)}(1)=\frac{1}{1-i}=0.5+0.5i\) (\(\lvert\cdot\rvert=0.7071\)) | 7.10 |
| characteristic function of normal | \(\varphi_{N(\mu,\sigma^2)}(t)=e^{i\mu t-\sigma^2 t^2/2}\); বিশেষত \(\varphi_{N(0,1)}(t)=e^{-t^2/2}\) (ODE \(\varphi'=-t\varphi\) থেকে), যা CLT-এর target; \(\varphi_{N(0,1)}(1)=0.6065\) | 7.10 |
| characteristic function of Poisson | \(\varphi_{\text{Poisson}(\lambda)}(t)=e^{\lambda(e^{it}-1)}\); গুণফল-ধর্মে \(e^{\lambda_1(e^{it}-1)}e^{\lambda_2(e^{it}-1)}=e^{(\lambda_1+\lambda_2)(e^{it}-1)}\) ⇒ স্বাধীন Poisson-এর যোগ আবার Poisson | 7.10 |
| characteristic function vs MGF | \(\varphi_X(t)=\mathbb E[e^{itX}]\) সর্বদা বিদ্যমান (\(\lvert e^{itX}\rvert=1\), ঘোরে কিন্তু বাড়ে না); MGF \(M_X(t)=\mathbb E[e^{tX}]\) heavy-tail বণ্টনে (Cauchy, log-normal) অস্তিত্বহীন; যেখানে \(M\) আছে \(\varphi(t)=M(it)\) | 7.10 |
| Chebyshev inequality | \(P(\lvert X-\mu\rvert\ge k\sigma)\le 1/k^2\); mean ও variance থেকে; অন্তত \(1-1/k^2\) mass \(\mu\pm k\sigma\)-এ | 3.1 |
| Chebyshev's inequality | \(P(\lvert\hat\theta_n-\theta\rvert\ge\varepsilon)\le\mathrm{MSE}/\varepsilon^2\) — MSE→0 থেকে consistency প্রমাণের মূল হাতিয়ার (§৭ Q10) | 4.4 |
| check-on-generator | good-sets-এর ব্যবহারিক ফল: পুরো \(\mathcal B\) নয়, শুধু generator-এ preimage যাচাই করলেই হয় — \(X\) RV iff \(\{X\le x\}\in\mathcal F\ \forall x\) (কারণ \(\mathcal B=\sigma((-\infty,x])\)) | 7.3 |
| Chernoff method | \(P(X\ge a)\le e^{-sa}\mathbb{E}[e^{sX}]\) (MGF-এ Markov) তারপর \(s\)-minimize; exponential tail bound-এর কৌশল | 3.1 |
| chi-square critical value | \(\chi^2_{k,1-\alpha}\) — যার ডানে \(\alpha\) ভর; statistic এটি ছাড়ালে \(H_0\) প্রত্যাখ্যান (\(\chi^2_{1,0.95}=3.84\), \(\chi^2_{5,0.95}=11.07\)) | 4.8 |
| chi-square distribution | \(\chi^2_k\) — \(k\)টি স্বাধীন \(\mathcal N(0,1)\)-এর বর্গের যোগফলের distribution; \(0\)-এর ডানে, ডানে-skewed; \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) (E2) | 4.1 |
| chi-square test | দুই categorical variable স্বাধীন কিনা যাচাইকারী পরীক্ষা | 1.4 |
| choosing k (k-NN) | k-NN-এর \(k\) = bias–variance knob; accuracy-বনাম-\(k\) U-আকার: ছোট \(k\)-তে variance-প্রধান, বড় \(k\)-তে দূরের প্রতিবেশী টেনে bias-প্রধান; canonical \(k\): \(1{\to}0.859,\,3{\to}0.889,\,5{\to}0.896,\,15{\to}0.911,\,25{\to}0.911\) (সেরা \(15\)) | 6.3 |
| chord | একটি curve-এর দুই বিন্দু জুড়ে সরলরেখা; convexity-তে curve-এর উপরে থাকে | 3.1 |
| CI width / half-width | width \(=2m=2z_{\alpha/2}\mathrm{SE}\); half-width \(m\propto1/\sqrt n\) — interval অর্ধেক সরু করতে \(n\) চারগুণ (Figure 4) | 4.6 |
| CI-test duality (regression) | \(\hat\beta_j\pm t_{\alpha/2,n-p}\widehat{\mathrm{se}}\)-এ \(\beta_0\) থাকা ⇔ \(H_0:\beta_j=\beta_0\) \(\alpha\)-তে বাতিল না-হওয়া; ৪.৬–৪.৭-এর duality coefficient-পর্যায়ে | 5.2 |
| CI–test duality | \((1-\alpha)\) CI = সেই সব \(\mu_0\) যাদের level-\(\alpha\) test বাতিল করে না; reject \(H_0:\mu=\mu_0\) iff \(\mu_0\) CI-এর বাইরে (Figure 4, §৭ Q9) | 4.7 |
| class imbalance | এক শ্রেণি অন্যটির চেয়ে বহুগুণ বেশি (anomaly: \(285\) inlier বনাম \(15\) anomaly); তখন accuracy গরিষ্ঠ-শ্রেণিতে ডুবে যায় ("সব inlier" = \(0.95\) অথচ recall \(0\)), তাই precision/recall/ROC AUC দেখতে হয় | 6.9 |
| class-conditional density | শ্রেণি \(c\) দেওয়া থাকলে feature-এর বিতরণ \(f_c(x)=P(x\mid y=c)\) (likelihood); generative classifier এটিই model করে — LDA/QDA Gaussian ধরে, Naive Bayes প্রান্তিকগুলোর গুণফল ধরে | 6.3 |
| classical probability | favorable outcome / total outcome হিসেবে সম্ভাবনা | 0.2 |
| classification | discrete শ্রেণি-লেবেল predict করার supervised কাজ (regression-এর continuous \(y\)-র বিপরীতে); লক্ষ্য প্রতিটি \(x\)-কে সঠিক শ্রেণিতে ফেলা; এই অধ্যায়ের চার পদ্ধতি LDA/QDA/Naive Bayes/k-NN | 6.3 |
| closed martingale | যে martingale একটা single \(Z\in L^1\) দিয়ে "আবদ্ধ": \(X_n=\mathbb E[Z\mid\mathcal F_n]\) সব \(n\)-এ (একটা Doob martingale); UI martingale-এর সমতুল্য রূপ, \(Z=X_\infty\) নেওয়া যায় | 7.9 |
| closed-form estimator | iteration/optimization ছাড়াই সরাসরি সূত্রে পাওয়া estimator; MoM-এর বড় সুবিধা (E2–E4 সবই closed-form) — প্রায়ই MLE-র starting point | 4.2 |
| cluster assumption | semi-supervised অনুমান: একই গুচ্ছের বিন্দু সম্ভবত একই শ্রেণি, অর্থাৎ decision boundary কম-ঘনত্বের অঞ্চল দিয়ে যায় (low-density separation), ঘন গুচ্ছের মাঝখান দিয়ে নয়; make_moons-এ দুই চাঁদের মাঝের ফাঁকে boundary |
6.9 |
| clustered / nested data | observation যখন গোষ্ঠীতে বাঁধা (শিক্ষার্থী একই স্কুলে, রোগী একই হাসপাতালে, একই ব্যক্তির বারবার-মাপা) ⇒ গোষ্ঠী-অভ্যন্তরীণ correlation, observation স্বাধীন নয়; এই dependence উপেক্ষা করলে OLS-SE ভুল | 5.6 |
| clustering | লেবেল ছাড়া বিন্দুদের স্বাভাবিক দলে (cluster) ভাগ করার unsupervised কৌশল — একই দলের বিন্দু কাছাকাছি, ভিন্ন দলেরগুলো দূরে; প্রধান রূপ k-means (centroid-ভিত্তিক) ও hierarchical (গাছ-ভিত্তিক); মানদণ্ড within/between-spread, silhouette | 5.9 |
| codomain | function-এর output যেখানে থাকতে পারে (\(B\)) | 0.1 |
| coefficient of determination \(R^2\) (as variance ratio) | \(R^2=\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)\) — law of total variance-এর ব্যাখ্যাকৃত ভগ্নাংশ; bivariate normal-এ \(=\rho^2=0.36\), 5.1-এর \(R^2\)-এর measure-তাত্ত্বিক পরিচয় | 7.7 |
| combination | ক্রম গুরুত্বপূর্ণ নয় এমন বাছাই, \(\binom{n}{k}\) | 0.2 |
| common CI misinterpretation | ভুল: "\(\theta\) এই নির্দিষ্ট interval-এ থাকার সম্ভাবনা ৯৫%"; \(\theta\) random নয়, একবার বসলে interval হয় ধরেছে নয় ধরেনি (Figure 2-ডান) | 4.6 |
| compensator / predictable increasing process | Doob decomposition-এর \(A_n=\sum_{k\le n}\big(\mathbb E[X_k\mid\mathcal F_{k-1}]-X_{k-1}\big)\) — predictable, অ-হ্রাসমান (\(A_0=0\)); submartingale-এর "প্রত্যাশিত drift", যা বাদ দিলে martingale ফেরে | 7.8 |
| complement | \(A^c = U \setminus A\): universal set-এর মধ্যে যা \(A\)-তে নেই | 0.1 |
| complement rule | \(P(A^c)=1-P(A)\) | 2.1 |
| complete measure | measure space যেখানে যেকোনো null set (\(\mu(N)=0\))-এর প্রতিটি subset measurable (এবং null); Carathéodory-নির্মাণ সর্বদা complete দেয়, তাই Lebesgue measure complete | 7.2 |
| complete pooling | সব গোষ্ঠী মিলিয়ে একটাই regression (গোষ্ঠী উপেক্ষা) = pooled OLS; between-group বৈচিত্র্য ও clustering-SE-সংশোধন হারায় ⇒ over-confident inference | 5.6 |
| complete-data likelihood | latent \(z_i\) যদি জানা থাকত তখনকার likelihood — \(\ell_c=\sum_i[\log\pi_{z_i}+\log\mathcal N(x_i;\mu_{z_i},\Sigma_{z_i})]\); এতে \(\log\)-এর ভেতরে যোগফল (log-sum) নেই বলে MLE সহজ (প্রতি component আলাদা Gaussian-MLE)। M-step এর expected রূপ (\(Q\)) maximize করে | 6.7 |
| completeness | একটি metric/normed space-এর ধর্ম যেখানে প্রতিটি Cauchy অনুক্রম একটি limit-এ পৌঁছায় (space-এর ভেতরে); limit-যুক্তিকে নিরাপদ করে | 7.5 |
| complex exponential \(e^{itX}\) | Euler-সূত্রে \(e^{itX}=\cos tX+i\sin tX\); cf-এর integrand, \(\lvert e^{itX}\rvert=1\) (unit circle-এ) — এই একটিমাত্র তথ্যই cf-এর সর্বত্র-অস্তিত্ব ও \(\lvert\varphi\rvert\le1\) দেয় | 7.10 |
| component | vector-এর একেকটি সংখ্যাগত উপাংশ | 0.5 |
| composition of measurable maps | দুই measurable map-এর রচনা measurable: \(g\circ f\) measurable যদি \(f,g\) measurable, কারণ \((g\circ f)^{-1}(B)=f^{-1}(g^{-1}(B))\); বিশেষত Borel \(g\)-তে \(g(X)\) RV | 7.3 |
| compound symmetry | random-intercept-এর চাপানো covariance-গঠন: একই গোষ্ঠীর যেকোনো জোড়ার \(\operatorname{Cov}=\sigma_u^2\), প্রতিটির \(\operatorname{Var}=\sigma_u^2+\sigma_\varepsilon^2\), ভিন্ন গোষ্ঠীর \(0\) ⇒ \(\Sigma_j=\sigma_\varepsilon^2 I+\sigma_u^2\mathbf 1\mathbf 1^\top\) (অভিন্ন off-diagonal); এ থেকেই within-group corr \(=\rho\) | 5.6 |
| computational formula (variance) | \(\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\) | 2.5 |
| concave | উপরের দিকে বাঁকা (\(\frown\)); \(f''\le0\) | 0.3 |
| concave function | \(-g\) convex; chord curve-এর নিচে; \(g''\le0\) (যেমন \(\log,\sqrt{\cdot}\)) | 3.1 |
| concavity / IRLS (Poisson) | Poisson log-likelihood concave (Hessian \(-X^\top WX\preceq0\), \(W=\operatorname{diag}(\mu_i)>0\)), তাই full-rank \(X\)-এ একক MLE; Newton–Raphson প্রতিধাপে weighted least squares (IRLS), weight \(w_i=\mu_i\) | 5.5 |
| concavity of log-likelihood | অনেক মডেলে (Bernoulli, Exponential, Normal) \(\ell\) অবতল (\(\ell''<0\)), তাই critical point অনন্য সর্বোচ্চ ও hill-climbing সেখানেই পৌঁছায় (Figure 1, 2) | 4.3 |
| concentration inequality | random variable (বিশেষত sample mean) তার expectation-এর চারপাশে কতটা ঘনীভূত তা দেখানো অসমতা | 3.1 |
| concentration of measure | বহু independent পরিমাণের যোগফল/গড় তার গড়ের কাছে প্রবলভাবে কেন্দ্রীভূত হওয়ার ঘটনা | 3.1 |
| concept drift | streaming-এ data-জনিত বণ্টন সময়ের সঙ্গে সরে যাওয়া (যা শেখা হয়েছিল তা পুরোনো হয়ে যায়); online learning-এর সুবিধা হলো \(\theta\) ক্রমাগত আপডেট হওয়ায় model স্বয়ংক্রিয়ভাবে নতুন বণ্টনে মানিয়ে নেয় (batch model পিছিয়ে পড়ত) | 6.9 |
| conditional density | \(f_{X\mid Y}(x\mid y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}\) (\(f_Y(y)>0\)) — regular conditional distribution-এর density-রূপ; \(\mathbb E[X\mid Y{=}y]=\int x\,f_{X\mid Y}(x\mid y)\,dx\) (2.6-এর সূত্র) | 7.7 |
| conditional distribution | এক variable জানার পরে অন্যটির বণ্টন, \(f_{Y\mid X}(y\mid x)=f_{X,Y}/f_X\) | 2.6 |
| conditional expectation | \(\mathbb{E}[Y\mid X=x]=\int y\,f_{Y\mid X}(y\mid x)\,dy\); \(X\) জানলে \(Y\)-এর গড় (regression function) | 2.6 |
| conditional expectation given a random variable | \(\mathbb E[X\mid Y]:=\mathbb E[X\mid\sigma(Y)]\) — \(Y\)-এর বহন-করা তথ্যের নিচে \(X\)-এর সেরা অনুমান; Doob–Dynkin-এ একটি measurable \(g\)-তে \(=g(Y)\) | 7.7 |
| conditional expectation given a σ-algebra | \(\mathbb E[X\mid\mathcal G]\) — আংশিক তথ্য \(\mathcal G\subseteq\mathcal F\)-এর নিচে \(X\)-এর সেরা অনুমান; a.s.-অনন্য \(\mathcal G\)-measurable random variable, একটি সংখ্যা নয় (2.2-এর \(\mathbb E[X\mid Y{=}y]\)-এর কঠোর সাধারণীকরণ, continuous শর্তেও খাটে) | 7.7 |
| conditional independence | \(P(A\cap B\mid C)=P(A\mid C)P(B\mid C)\); \(C\) জানার পর স্বাধীন | 2.2 |
| conditional Jensen inequality | \(\varphi\) convex ⇒ \(\varphi(\mathbb E[X\mid\mathcal G])\le\mathbb E[\varphi(X)\mid\mathcal G]\) a.s. — 7.5-এর Jensen-এর শর্তাধীন রূপ; supporting line দিয়ে প্রমাণ, \(L^p\)-contraction-এর উৎস | 7.7 |
| conditional MCT / Fatou / DCT | 7.4-এর তিন convergence theorem-এর শর্তাধীন রূপ — \(X_n\uparrow X\Rightarrow\mathbb E[X_n\mid\mathcal G]\uparrow\mathbb E[X\mid\mathcal G]\) ইত্যাদি; conditional expectation-এর limit-আচরণ নিরাপদ করে | 7.7 |
| conditional probability | \(B\) ঘটেছে ধরে \(A\) ঘটার সম্ভাবনা \(P(A\mid B)=P(A\cap B)/P(B)\) | 2.2 |
| conditional probability \(\mathbb P(A\mid\mathcal G)\) | \(\mathbb P(A\mid\mathcal G):=\mathbb E[\mathbf 1_A\mid\mathcal G]\) — একটি \([0,1]\)-মানের \(\mathcal G\)-measurable random variable; Bayesian updating-এর কঠোর রূপ (\(\mathbb P(A\mid Y{=}y)\) পুনরুদ্ধার করে) | 7.7 |
| conditional variance | \(\operatorname{Var}(X\mid\mathcal G)=\mathbb E[X^2\mid\mathcal G]-(\mathbb E[X\mid\mathcal G])^2\) — শর্ত-পরবর্তী অবশিষ্ট অনিশ্চয়তা; bivariate normal-এ \(\operatorname{Var}(X\mid Y)=1-\rho^2=0.64\) (\(y\)-নিরপেক্ষ) | 7.7 |
| confidence interval (CI) | প্যারামিটারের একটা পরিসর-অনুমান \([\,L(X),\,U(X)\,]\) যা estimate-এর সাথে অনিশ্চয়তাও বহন করে; সাধারণত গঠন estimate \(\pm\) margin of error (Figure 1) | 4.6 |
| confidence level \(1-\alpha\) | পদ্ধতির long-run coverage — বহুবার নমুনা নিলে যত ভাগ interval সত্যি \(\theta\)-কে ধরে; \(95\%\Rightarrow\alpha=0.05\) | 4.6 |
| confidence–precision tradeoff | একই \(n\)-এ confidence ↑ ⇒ width ↑ (precision ↓); দুটোই উন্নত করতে \(n\) বাড়াতে হয় (§৭ Q4) | 4.6 |
| confirmatory analysis | নিশ্চিতকরণমূলক বিশ্লেষণ; পূর্বনির্ধারিত hypothesis স্বাধীন data-তে যাচাই করা | 1.5 |
| confounder | গুপ্ত তৃতীয় চলক যা দুই variable-কেই প্রভাবিত করে, ভুয়া সম্পর্ক তৈরি করে | 1.4 |
| confounding | তৃতীয় variable-এর কারণে দুটি variable-এর সম্পর্ক বিভ্রান্তিকর দেখানো | 1.5 |
| confusion matrix | প্রকৃত vs পূর্বাভাসিত class-এর \(2\times2\) গণনা \(\begin{bmatrix}\text{TN}&\text{FP}\\\text{FN}&\text{TP}\end{bmatrix}\); threshold-নির্ভর সব classification-metric-এর ভিত্তি (এখানে \([[61,15],[14,110]]\)) | 5.4 |
| conjugate exponents | \(p,q\) যেখানে \(\tfrac1p+\tfrac1q=1\) (\(1\le p,q\le\infty\)); Hölder-এর জোড়া ঘাত, \(p=2\Rightarrow q=2\), \(p=1\Rightarrow q=\infty\) | 7.5 |
| conjugate index | conjugate exponent-এর অপর নাম; \(p\)-এর সঙ্গী \(q=\tfrac{p}{p-1}\) যাতে \(\tfrac1p+\tfrac1q=1\) | 7.5 |
| conjugate prior | এমন prior পরিবার যার সাথে নির্দিষ্ট likelihood মিললে posterior একই পরিবারে থাকে; আপডেট = শুধু parameter বদল (Figure 2, §৭ Q9–Q10) | 4.10 |
| conjunction | \(P \wedge Q\): "\(P\) and \(Q\)" | 0.1 |
| consequences of overdispersion | Poisson \(\hat\beta\) ঠিক থাকে কিন্তু SE underestimated (\(\sqrt\phi\) গুণ ছোট) ⇒ Wald \(z\) স্ফীত, \(p\)-value কৃত্রিমভাবে ছোট, CI অতি-সংকীর্ণ ⇒ over-confident, anti-conservative (বেশি false positive) | 5.5 |
| consistency | \(n\to\infty\)-এ \(\hat\theta\xrightarrow{P}\theta\) — estimate সত্যিকারের প্যারামিটারে গড়ায়; MoM estimator (মৃদু শর্তে) consistent, LLN + continuous mapping-এর ফল (Figure 2) | 4.2 |
| consistency (estimator) | \(\hat\theta_n\xrightarrow{P}\theta\); estimator বড় নমুনায় সঠিক মানে থিতু হওয়া (এই mode-এর প্রয়োগ) | 3.2 |
| consistent estimator | যে estimator consistency শর্ত মেনে চলে; LLN দিয়ে sample mean ও sample variance উভয়ই consistent | 3.3 |
| constant of integration | indefinite integral-এ যুক্ত অজানা ধ্রুবক \(C\) | 0.4 |
| contamination (\(\nu\)) | training data-তে anomaly/দূষণের আনুমানিক ভগ্নাংশ (এই অধ্যায়ে \(\nu=15/300=0.05\)); আগে-জানা \(\nu\) detector-কে threshold দেয় — anomaly-score-এর উপরের \(\nu\) ভগ্নাংশ বিন্দুকে anomaly হিসেবে ছাঁটা হয় (sklearn contamination) |
6.9 |
| contingency table | দুই categorical variable-এর যৌথ গণনার ছক (cross-tabulation) | 1.4 |
| continuity | graph-এ লাফ/ফাঁক নেই; কলম না তুলে আঁকা যায় | 0.3 |
| continuity from above | নিম্নমুখী set-এ measure-এর limit: \(A_n\downarrow A\Rightarrow\mu(A_n)\to\mu(A)\), তবে কোনো-একটা \(\mu(A_{n_0})<\infty\) লাগে; নয়তো \(\lambda([n,\infty))=\infty\not\to 0=\lambda(\varnothing)\) ভাঙন (\(\infty-\infty\) অর্থহীন) | 7.2 |
| continuity from below | বর্ধমান set-এ measure-এর limit: \(A_n\uparrow A\Rightarrow\mu(A_n)\to\mu(A)\) — শর্তহীন; উদাহরণ \(\lambda([0,1-\tfrac1n])=1-\tfrac1n\to 1\) (\(n=1,2,5,100\to 0.0,0.5,0.8,0.99\)) | 7.2 |
| continuity of measure | measure-এর limit-ধর্ম: \(A_k\uparrow A\Rightarrow\mu(A_k)\to\mu(A)\) (এবং \(A_k\downarrow A\), সসীম-measure শর্তে); countable additivity-রই সমতুল্য রূপ, Cantor-এ \(\lambda(C_k)\downarrow\lambda(C)\) | 7.1 |
| continuity point | যেখানে CDF \(F\) ধাপহীন; in-distribution-এর সংজ্ঞা শুধু এসব বিন্দুতে \(F_n\to F\) চায় | 3.2 |
| continuous | যে function-এ ছিদ্র/লাফ নেই, limit ও মান মেলে | 0.3 |
| continuous \(\Rightarrow\) Borel | প্রতিটি continuous \(g:\mathbb R\to\mathbb R\) Borel-measurable, কারণ open set-এর preimage open (তাই Borel) আর open interval-রা \(\mathcal B\) generate করে; ফলে continuous রূপান্তর RV-কে RV-তে নেয় | 7.3 |
| continuous mapping theorem | \(X_n\xrightarrow{d/P}X\) ও \(h\) continuous হলে \(h(X_n)\xrightarrow{d/P}h(X)\); Delta/Slutsky যুক্তিতে \(g'(\xi_n)\xrightarrow{P}g'(\mu)\)-এ ব্যবহৃত | 3.4 |
| continuous random variable | অবিচ্ছিন্ন দৈব চলক; মান একটি interval জুড়ে অবিচ্ছিন্নভাবে ছড়ানো (মাপা যায়, গোনা যায় না) | 2.4 |
| contrapositive | \(\neg Q \Rightarrow \neg P\); মূল implication-এর সমতুল্য | 0.1 |
| converge (integral) | improper integral একটি সসীম মানে পৌঁছালে | 0.4 |
| convergence almost everywhere | \(f_n\to f\) \(\mu\)-a.e. (null set বাদে point-wise অভিসরণ, 7.4); "a.s." এর probability-রূপ, SLLN-এর অভিসরণ-ধরন | 7.6 |
| convergence in \(L^p\) | \(\mathbb{E}\lvert X_n-X\rvert^p\to 0\); "গড় ভুল (\(p\)-ঘাতে)" শূন্যে নামে, লেখা \(X_n\xrightarrow{L^p}X\) | 3.2 |
| convergence in distribution | \(F_n(x)\to F(x)\) \(F\)-এর প্রতিটি continuity point-এ; কেবল CDF/আকৃতি মেলে, লেখা \(X_n\xrightarrow{d}X\) | 3.2 |
| convergence in probability | প্রতিটি \(\varepsilon>0\)-এ \(P(\lvert X_n-X\rvert>\varepsilon)\to 0\); "বড় ভুলের সম্ভাবনা মুছে যায়", লেখা \(X_n\xrightarrow{P}X\) | 3.2 |
| convergence of random variables | দৈব চলকের sequence \(X_n\) "limit \(X\)-এর দিকে যাওয়া"-র ধারণা; একাধিক ভিন্ন অর্থ (mode) আছে | 3.2 |
| convergence rate | কোনো অনুক্রম তার সীমার দিকে যত দ্রুত এগোয় তার পরিমাপ; CLT-তে \(\sup_x\lvert F_n(x)-\Phi(x)\rvert\sim n^{-1/2}\), তাই log-log প্লটে slope \(\approx-0.5\) (E1-এ ফিট slope \(-0.4998\), \(C=0.1326\)) | 8.2 |
| convergence to stationarity | সদাচারী chain-এ যেকোনো শুরু থেকে \(\mu_n=\mu_0 P^n\to\pi\); chain তার শুরু "ভুলে যায়" (Figure 2) — MCMC-র ভিত্তি | 3.6 |
| converse | \(Q \Rightarrow P\); মূল implication-এর সমতুল্য নয় | 0.1 |
| convex | নিচের দিকে বাঁকা (\(\smile\)); \(f''\ge0\) | 0.3 |
| convex function | যে function-এ chord সবসময় curve-এর উপরে; \(g''\ge0\); বাটির মতো | 3.1 |
| convolution | দুই independent random variable-এর sum-এর density: \((f_X*f_Y)(s)=\int f_X(x)f_Y(s-x)\,dx\) | 2.7 |
| Cook's distance | \(D_i=\dfrac{r_i^2}{p}\cdot\dfrac{h_{ii}}{1-h_{ii}}\) (studentized \(r_i\)); বিন্দু \(i\) বাদ দিলে \(\hat\beta\) কতটা সরে তার সম্মিলিত পরিমাপ (leverage × residual); \(D_i>1\) ⇒ influential | 5.2 |
| correct interpretation of a CI | "৯৫%" = পদ্ধতির coverage (random জিনিস = interval, \(\theta\) স্থির); বহু interval-এর ~৯৫% \(\theta\)-কে ধরে (Figure 2-বাঁ; §৭ Q2) | 4.6 |
| correct interpretation of p-value | p \(=\) \(H_0\) সত্যি ধরে চরম-ফলের সম্ভাবনা; এটা \(P(H_0\text{ true})\) নয় (frequentist-এ \(H_0\) random নয়, §৭ Q2) | 4.7 |
| correlation | \(\rho=\operatorname{Cov}(X,Y)/(\sigma_X\sigma_Y)\in[-1,1]\); একক-মুক্ত covariance | 2.6 |
| correlation coefficient (\(r\)) | দুই variable-এর linear সম্পর্কের শক্তি ও দিক মাপা সংখ্যা | 1.4 |
| correlation heatmap | correlation matrix-কে রঙিন গ্রিডে দেখানো (এক নজরে সব জোড়ার সম্পর্ক) | 1.5 |
| correlation matrix | সব variable-জোড়ার Pearson \(r\)-এর symmetric matrix \(R\), কর্ণে \(1\) | 1.4 |
| count data | \(\{0,1,2,\dots\}\)-এ থাকা গণনা-আউটকাম ("দিনে কয়টা ভাড়া") — ঋণাত্মক নয়, discrete, ছোট মানে right-skewed; তাই OLS/Normal নয়, Poisson-ভিত্তিক GLM দরকার | 5.5 |
| countable additivity (\(\sigma\)-additivity) | গণনাযোগ্য-অনেক disjoint set-এর union-এর measure প্রতিটির measure-এর যোগফল: \(\mu\big(\bigsqcup_k A_k\big)=\sum_k\mu(A_k)\); C1-এ \(\mathbb N\)-এ uniform probability নিষিদ্ধ করে এই শর্তই | 7.1 |
| countable additivity (Axiom 3) | disjoint \(A_i\)-এর জন্য \(P(\bigcup_i A_i)=\sum_i P(A_i)\) | 2.1 |
| countable subadditivity | যেকোনো (disjoint না-হলেও) গণনাযোগ্য union-এর measure যোগফলের \(\le\): \(\mu\big(\bigcup_k A_k\big)\le\sum_k\mu(A_k)\); outer measure-এরও সংজ্ঞাগত ধর্ম | 7.2 |
| countable vs uncountable | countable: \(\mathbb N\)-এর সঙ্গে bijection-যোগ্য (যেমন \(\mathbb Q\)); uncountable: তা নয় (যেমন \(\mathbb R\), Cantor set); countable \(\Rightarrow\) measure \(0\), কিন্তু উল্টোটা নয় | 7.1 |
| counting measure | \(\mu(E)=\lvert E\rvert\) — set-এর উপাদান-সংখ্যা (অসীম হলে \(\infty\)); সর্বদা measure, কিন্তু \(\mu(\Omega)\ne 1\) হলে probability নয় (যেমন \(\mu(\{1,2,3\})=3\)) | 7.2 |
| counting process | \(N(t)=\) সময় \([0,t]\)-এ ঘটে যাওয়া event-সংখ্যা; ডানদিক-সন্তত (right-continuous) সিঁড়ি-ফাংশন, \(+1\) লাফে বাড়ে | 3.5 |
| counting-measure integral = sum | counting measure \(\mu(\{k\})=1\)-এ \(\int f\,d\mu=\sum_k f(k)\); integral-তত্ত্ব সিরিজ-তত্ত্বকে বিশেষ ক্ষেত্রে ঢেকে নেয় | 7.4 |
| covariance | দুই variable-এর একসাথে চলার পরিমাপ, \(\frac{1}{n-1}\sum(x_i-\bar x)(y_i-\bar y)\) | 1.4 |
| covariance matrix | variable-দের variance/covariance ধারণকারী symmetric matrix \(\Sigma\) | 0.5 |
| covariance matrix \(\Sigma\) | feature-জোড়ার যুগ্ম-পরিবর্তনশীলতার \(p\times p\) matrix, \(\Sigma=\frac1n X^\top X\) (center-করা \(X\)); symmetric ও PSD (eigenvalue \(\ge0\)); PCA এর eigen-গঠনেই দাঁড়ায়, off-diagonal correlation-ই PCA-কে অর্থপূর্ণ করে; standardize করলে \(\Sigma\) হয় correlation matrix (২.৬) | 5.9 |
| coverage probability | \(P_\theta\big(L(X)\le\theta\le U(X)\big)\) — random interval-টা স্থির \(\theta\)-কে ধরার সম্ভাবনা; \(\ge1-\alpha\) হলে \(C_n\) একটা \((1-\alpha)\) CI (§৭ Q10) | 4.6 |
| Cramér–Rao inequality | CRLB-র আনুষ্ঠানিক রূপ; Cauchy–Schwarz দিয়ে প্রমাণিত: \(1=\mathrm{Cov}(\hat\theta,U)^2\le\mathrm{Var}(\hat\theta)I(\theta)\) (§৭ Q11) | 4.5 |
| Cramér–Rao lower bound (CRLB) | যেকোনো unbiased estimator-এর জন্য \(\mathrm{Var}(\hat\theta)\ge\frac{1}{nI(\theta)}\) — variance-এর শক্ত মেঝে, যার নিচে যাওয়া অসম্ভব (Figure 2; §৭ Q11) | 4.5 |
| Cramér–Wold device | \(\mathbb R^d\)-এ random vector-এর weak convergence সব এক-মাত্রিক রৈখিক projection \(\langle\theta,X_n\rangle\)-এর weak convergence দিয়ে চরিত্রায়িত; cf-পদ্ধতিকে বহু-মাত্রায় তোলার যন্ত্র (multivariate CLT-এর পথ) | 7.10 |
| credible interval | posterior-এর \((1-\alpha)\) ভর ধরা ব্যবধান; \(P(\theta\in[L,U]\mid\text{data})=1-\alpha\) — \(\theta\) random, interval fixed (Figure 3, §৭ Q6) | 4.10 |
| credible vs confidence interval | credible: \(\theta\) random, interval fixed (posterior সম্ভাবনা); confidence (4.6): \(\theta\) fixed, interval random (long-run coverage); সংখ্যা প্রায়ই কাছাকাছি, অর্থ আলাদা (Figure 3, §৭ Q2) | 4.10 |
| critical point | যেখানে \(f'(x)=0\) বা অসংজ্ঞায়িত | 0.3 |
| critical value \(c\) | rejection region-এর সীমা-মান (যেমন \(z_{\alpha/2}\), \(t_{n-1,\alpha/2}\)); \(T\) এর বাইরে গেলে reject (Figure 1) | 4.7 |
| critical value \(t_{n-1,\alpha/2}\) | Student-t (\(n-1\) df)-এর critical value; \(\sigma\) অজানা হলে multiplier; সবসময় \(z_{\alpha/2}\)-এর চেয়ে বড়, \(n\to\infty\)-এ মেলে (Figure 3) | 4.6 |
| critical value \(z_{\alpha/2}\) | standard normal-এর বিন্দু যার ডানে \(\alpha/2\) ভর; \([-z_{\alpha/2},z_{\alpha/2}]\)-এ \(1-\alpha\) ভর (\(z_{0.025}\approx1.96\), \(z_{0.005}\approx2.576\)) | 4.6 |
| critical-value method vs p-value method | \(T\) vs \(c\) তুলনা (reject if \(T\in R\)) বনাম \(p\) vs \(\alpha\) তুলনা (reject if \(p\le\alpha\)) — একই সিদ্ধান্তের দুই রূপ | 4.7 |
| cross-tabulation | contingency table তৈরির প্রক্রিয়া (pandas crosstab) |
1.4 |
| cross-validation (CV) | data ঘুরিয়ে-ফিরিয়ে এক অংশে fit করে অন্য (held-out) অংশে predict করে generalization error-এর নিরপেক্ষ অনুমান ও tuning parameter বাছার নীতিনিষ্ঠ, data-চালিত পদ্ধতি; সত্য \(f\) জানার দরকার নেই, model-কে black-box ধরেই চলে — তাই AIC/BIC-র চেয়ে general; চলমান উদাহরণে polynomial degree বাছে \(d{=}3\) | 5.8 |
| cross-validation (stratified K-fold) | data-কে K ভাগে ভেঙে ঘুরিয়ে-ফিরিয়ে train/validate করে generalization-error-এর প্রায়-unbiased আন্দাজ ও তার variance পাওয়া। canonical logistic AUC \(0.993\pm0.008\), RF \(0.989\pm0.007\) | 8.1 |
| crowding problem | উচ্চ-মাত্রায় একটা বিন্দুর মাঝারি-দূরত্বের প্রতিবেশী অনেক, কিন্তু \(2\)D-র সীমিত জায়গায় সেগুলো সব রাখা যায় না — তারা কেন্দ্রে চেপে cluster গুলিয়ে যায়; t-SNE ভারী-লেজ Student-\(t\) \(q_{ij}\) দিয়ে এটি উপশম করে (মাঝারি-দূরত্বের জন্য বেশি জায়গা) | 6.8 |
| cumulative distribution function | CDF, ক্রমযোজিত বণ্টন-অপেক্ষক \(F_X(x)=P(X\le x)\); অ-হ্রাসমান step function | 2.3 |
| curse of dimensionality | মাত্রা \(p\) বাড়লে আয়তন ঘাতীয়ভাবে বাড়ে ⇒ data বিরল, "নিকটতম" প্রতিবেশীও দূরে (\(1\%\) আয়তন ধরতে \(p{=}10\)-এ প্রতি বাহুর \(\approx63\%\) লাগে), দূরত্ব-পার্থক্য মুছে যায়; k-NN ও দূরত্ব-নির্ভর পদ্ধতিকে উচ্চ-মাত্রায় দুর্বল করে | 6.3 |
| curse of dimensionality (rate) | nonparametric estimate-এর ধীর convergence: optimal kernel-MSE \(\propto n^{-4/5}\) (parametric \(n^{-1}\)-এর চেয়ে ধীর), \(h^\*\propto n^{-1/5}\); কারণ অজানা \(f\)-এর প্রতিটা স্থানীয় অংশ আলাদা শিখতে হয়; উচ্চ মাত্রায় আরও তীব্র | 5.7 |
| CV-min rule | যে tuning-মান \(K\)-fold CV-error সর্বনিম্ন করে সেটাই বাছার নিয়ম; সরল কিন্তু CV-গড় noisy বলে সামান্য overfit-প্রবণ — তাই প্রায়ই one-SE rule-এর সাথে তুলনা করা হয়; চলমান উদাহরণে \(d{=}3\) বাছে | 5.8 |
| DAG (directed acyclic graph) | কার্যকারণ-সম্পর্কের একটা দিকযুক্ত, চক্র-হীন গ্রাফ যা confounding, mediation ও collider চেনায়; কোন চলকে সমন্বয় (adjust) করলে বৈধ causal effect পাওয়া যায় তা নির্ধারণ করে (Pearl-এর do-calculus) | 8.4 |
| Darboux sum | একটা partition-এ subinterval-প্রতি \(\sup\) (upper) বা \(\inf\) (lower) গুণ দৈর্ঘ্য যোগ করে পাওয়া আনুমান; upper = lower হলেই Riemann-integrable — \(\mathbf 1_{\mathbb Q}\)-এ \(U=1\ne0=L\) | 7.1 |
| data cleaning | missing value ও outlier সংশোধন/হ্যান্ডল করে data ব্যবহারযোগ্য করা | 1.5 |
| data inspection | data-র গঠন পরিদর্শন (shape, dtype, head, describe) | 1.5 |
| data leakage | test/future data-র তথ্য অজান্তে training/বিশ্লেষণে ঢুকে পড়া | 1.5 |
| data pipeline | একটি সম্পূর্ণ বিশ্লেষণ-শৃঙ্খল framing→EDA→preprocessing→modeling→inference→validation→interpretation; এই অধ্যায় breast_cancer-এ (\(569\times30\)) সাত ধাপ একসাথে জোড়ে — কোনো ধাপ বাদ দিলে পরের ধাপের সিদ্ধান্ত বিভ্রান্ত হয় |
8.1 |
| DataFrame | pandas-এর সারি-কলামবিশিষ্ট টেবিল-আকৃতির data object | 0.6 |
| De Morgan's laws | \((A\cup B)^c=A^c\cap B^c\) ও \((A\cap B)^c=A^c\cup B^c\) | 0.1 |
| decision boundary | feature-space-এ যে পৃষ্ঠ দুই শ্রেণির অঞ্চল আলাদা করে (\(\delta_0(x)=\delta_1(x)\)); LDA-তে hyperplane (linear), QDA/GaussianNB-তে quadratic, k-NN-তে \(k\)-নির্ভর piecewise (ছোট \(k\) wiggly, বড় \(k\) মসৃণ) | 6.3 |
| decision function (SVM) | নতুন বিন্দুর স্কোর \(f(x)=\sum_{i:\alpha_i>0}\alpha_i y_i K(x_i,x)+b\); চিহ্ন \(\operatorname{sign}(f(x))\) শ্রেণি দেয়; কেবল support vector-নির্ভর; \(\lvert f(x)\rvert\) margin থেকে দূরত্ব নির্দেশ করে | 6.4 |
| decision rule (reject vs fail to reject) | \(T\in R\) (বা \(p\le\alpha\)) হলে reject \(H_0\); নইলে fail to reject — "\(H_0\) প্রমাণিত" বোঝায় না (§৭ Q4) | 4.7 |
| decision threshold | \(\hat p\)-কে \(0/1\)-এ রূপান্তরের cutoff (সাধারণত \(0.5\)); বাড়ালে precision↑ recall↓, কমালে উল্টো — FP বনাম FN-খরচের ভারসাম্যে বাছাই | 5.4 |
| decision tree | feature-space-কে বারবার axis-aligned split দিয়ে আয়তাকার অঞ্চলে ভাগ করে এমন predictive model; প্রতিটি leaf majority class (classification) বা response-গড় (regression) দেয়; interpretable (root→leaf = if-then নিয়ম) কিন্তু গভীর হলে high variance। canonical full tree (depth \(10\), \(51\) leaf): test \(0.733\) | 6.5 |
| decorrelation | random forest-এর মূল কৌশল — feature-subsampling দিয়ে গাছগুলোর pairwise correlation \(\rho\) কমানো; variance-সূত্র \(\rho\sigma^2+\frac{1-\rho}{B}\sigma^2\)-এর floor \(\rho\sigma^2\) নামায় বলে bagging-এর চেয়ে কম variance (\(\rho{=}0.5\to0.05\) হলে \(V(100)\): \(0.505\to0.0595\)) | 6.5 |
| defining property of conditional expectation | দুই শর্ত: (i) \(\mathbb E[X\mid\mathcal G]\) \(\mathcal G\)-measurable; (ii) averaging \(\int_G\mathbb E[X\mid\mathcal G]\,d\mathbb P=\int_G X\,d\mathbb P\) সব \(G\in\mathcal G\)-তে — একসঙ্গে \(Z\)-কে atom-গড়ে অনন্যভাবে বাঁধে | 7.7 |
| definite integral | নির্দিষ্ট সীমার মাঝে integral \(\int_a^b f\,dx\); ফল একটি সংখ্যা | 0.4 |
| degrees of freedom | অনুমান-পরবর্তী স্বাধীন তথ্যের সংখ্যা (sample variance-এ n−1) | 1.2 |
| degrees of freedom (ANOVA) | between \(=k-1\), within \(=n-k\); two-way: factor \(=k_i-1\), interaction \(=(k_1-1)(k_2-1)\), residual \(=n-k_1k_2\); যোগফল \(=n-1\) | 5.3 |
| degrees of freedom (df) | একটা distribution-এর আকৃতি-নিয়ন্ত্রক parameter; স্বাধীন তথ্যের সংখ্যা — \(S^2\)-এ \(\bar X\) অনুমানে এক df খরচ বলে df \(=n-1\) | 4.1 |
| degrees of freedom (effective) | linear smoother-এর নমনীয়তা/জটিলতার একক-সংখ্যা পরিমাপ \(=\operatorname{tr}(S)\) (\(S\) = smoother matrix); regression spline-এ \(\operatorname{tr}(S)=K\) = basis-সংখ্যা = estimate-করা coefficient; ভিন্ন পদ্ধতিকে (\(h\)/df/\(\lambda\)) এক স্কেলে তুলনাযোগ্য করে — ৫.২-এর model-complexity-র সাধারণীকরণ | 5.7 |
| Delta method | \(g\) differentiable ও \(g'(\mu)\ne 0\) হলে \(\sqrt{n}(g(\bar X_n)-g(\mu))\xrightarrow{d}\mathcal N(0,(g'(\mu))^2\sigma^2)\); nonlinear function-কে tangent দিয়ে linearize করে asymptotic distribution বের করা | 3.4 |
| delta method (CI-তে) | মসৃণ \(g\)-এর জন্য \(g(\hat\theta)\pm z_{\alpha/2}\,\lvert g'(\hat\theta)\rvert\,\widehat{\mathrm{se}}\) — রূপান্তরিত প্যারামিটার \(\psi=g(\theta)\)-এর approximate CI (§৭ Q11) | 4.6 |
| dendrogram | hierarchical clustering-এর merge-ইতিহাসের গাছ-চিত্র; প্রতিটি merge একটা উল্লম্ব জোড়, merge-উচ্চতা \(=\) যে দূরত্বে দুই cluster মিশেছে (বড় উচ্চতা \(=\) বেশি ভিন্ন); কোনো উচ্চতায় আনুভূমিক রেখা টেনে কাটলে যত শাখা ছেদ করে তত cluster — বড় উল্লম্ব লাফের নিচে কাটা ভালো | 5.9 |
| density | probability নয়, বরং probability জমার হার; \(f(x)\) ১-এর বেশি হতে পারে | 2.4 |
| density (histogram) | relative frequency ÷ bin-প্রস্থ; density-অক্ষে মোট ক্ষেত্রফল 1 | 1.3 |
| density estimation | label ছাড়া (unsupervised) data থেকে অজানা probability density \(p(x)\) অনুমান করার কাজ; দুই দর্শন — KDE (nonparametric, প্রতি বিন্দুতে kernel) ও mixture model (parametric, অল্প \(K\) component)। data সত্যিই অল্প subpopulation থেকে এলে mixture compact ও ব্যাখ্যামূলক | 6.7 |
| density-ratio anomaly | Sugiyama-ঘরানার পদ্ধতি: test ও reference বণ্টনের density-ratio (বা একটি বিন্দুর local density-অনুপাত) আঁচ করে কম-ratio বিন্দুকে anomaly বলা; LOF-ও মূলত একটি local density-ratio (নিজের বনাম প্রতিবেশীর density) | 6.9 |
| derivative | তাৎক্ষণিক পরিবর্তনের হার / tangent-এর slope | 0.3 |
| design effect (Deff) | clustering-জনিত কার্যকর-নমুনা-হ্রাসের পরিমাপ \(\text{Deff}=1+(\bar n-1)\rho\); সঠিক SE \(\approx\sqrt{\text{Deff}}\times\)(naive OLS SE); উদাহরণে \(1+(21.3-1)\cdot0.371\approx8.5\), \(\sqrt{8.5}\approx2.9\) — তাই OLS intercept SE এত ভুল | 5.6 |
| design matrix | প্রতিটি row এক observation, column-গুলো predictor (প্রথম column intercept-এর সব \(1\)), চিহ্ন \(X\) | 5.1 |
| detailed balance | \(\pi_i P_{ij}=\pi_j P_{ji}\) সব \(i,j\)-এর জন্য — প্রতি জোড়া state-এর মধ্যে দুদিকের probability-প্রবাহ সমান (reversibility); এটা সত্য হলে \(\pi\) স্বয়ংক্রিয়ভাবে stationary | 3.6 |
| determinant | matrix-এর area/volume scaling factor, \(\det(A)\) | 0.5 |
| deviance | \(D=-2\ell\) (residual deviance); fit-এর badness-পরিমাপ, null deviance \(D_0=-2\ell_0\)-এর সাথে তুলনায় likelihood-ratio test দেয় (এখানে \(D=135.83\)) | 5.4 |
| deviation | একটি মান তার mean থেকে কতটা সরে, \(x_i-\bar x\) | 1.4 |
| difference | \(A \setminus B\): \(A\)-তে আছে কিন্তু \(B\)-তে নেই | 0.1 |
| difference quotient | \((f(x+h)-f(x))/h\); secant-এর slope | 0.3 |
| differentiation | derivative বের করার ক্রিয়া | 0.3 |
| dimensionality reduction | উচ্চ-মাত্রিক (\(p\)) data-কে কম মাত্রায় (\(k\ll p\)) প্রকাশ করা, যতটা সম্ভব তথ্য (variance/গঠন) রেখে; PCA এর সবচেয়ে প্রচলিত রৈখিক রূপ — top-\(k\) PC-তে প্রক্ষেপ; উপকার: কম্প্রেশন, visualization, noise-হ্রাস, ML-pipeline-এ feature-নির্মাণ | 5.9 |
| Dirac measure | বিন্দু \(x\)-এ সব ভর: \(\delta_x(E)=\mathbf 1\{x\in E\}\) (\(x\in E\) হলে \(1\), নয়তো \(0\)); \(\delta_x(\Omega)=1\) তাই probability measure — degenerate ("নিশ্চিত") distribution, যেমন \(\delta_0\) | 7.2 |
| direct proof | hypothesis ধরে সরাসরি conclusion-এ পৌঁছানো | 0.1 |
| Dirichlet function | \(D=\mathbf 1_{\mathbb Q}\): rational-এ \(1\), irrational-এ \(0\); সংজ্ঞায়িত হয়েও Riemann-integrable নয় (প্রতিটি partition-এ \(U=1,L=0\)) — crack C2-এর কেন্দ্রীয় উদাহরণ | 7.1 |
| Dirichlet process | একটা \"distribution-এর উপর distribution\" — অজানা distribution-কে nonparametric-ভাবে estimate করা; clustering-এ component-সংখ্যা আগে না বেঁধে ডেটাকে তা বেছে নিতে দেয় (infinite mixture) | 8.4 |
| discrete | গণনাযোগ্য numeric data, সাধারণত পূর্ণসংখ্যা ("কতগুলো"; সন্তান-সংখ্যা) | 1.1 |
| discrete random variable | বিচ্ছিন্ন দৈব চলক — যার সম্ভাব্য মান গণনাযোগ্য (countable) | 2.3 |
| discrete stochastic integral | martingale transform \((H\cdot X)_n\)-এর আরেক নাম — \(H\) predictable integrand-এর সাপেক্ষে \(X\)-এর "যোগফল-সমাকল"; continuous-time-এ Itô-ইন্টিগ্রালের বিচ্ছিন্ন পূর্বসূরি | 7.8 |
| discriminant function | প্রতি শ্রেণির স্কোর-ফাংশন \(\delta_c(x)\) (\(=\log\pi_c f_c(x)\)-এর \(c\)-নির্ভর অংশ) যার \(\arg\max_c\) শ্রেণি দেয়; LDA-তে \(x\)-এ linear, QDA-তে quadratic; দুই \(\delta\) সমান হওয়ার সেট-ই decision boundary | 6.3 |
| discriminative model | \(P(x)\) উপেক্ষা করে সরাসরি \(P(y\mid x)\) বা decision boundary শেখে; logistic regression (৫.৪) ও SVM (৬.৪) এর উদাহরণ; generative-এর তুলনায় কম ধারণা, প্রায়ই কম data-তে ভালো | 6.3 |
| disjoint | \(A \cap B = \varnothing\): কোনো সাধারণ সদস্য নেই (mutually exclusive) | 0.1 |
| disjunction | \(P \vee Q\): "\(P\) or \(Q\)" | 0.1 |
| dispersion parameter \(\alpha\) (NB) | negative binomial-এর extra-variance parameter; \(\operatorname{Var}=\mu+\alpha\mu^2\); \(\alpha=0\) ⇒ Poisson, \(\alpha>0\) ⇒ overdispersion; উদাহরণে \(\hat\alpha=0.179\) (mu\(=28.6\)-এ NB var \(\approx175\) vs Poisson \(28.6\)) | 5.5 |
| dispersion parameter (\(\hat\phi\)) | overdispersion-এর পরিমাপ \(\hat\phi=\text{Pearson }\chi^2/df\) (বা deviance\(/df\)); \(\approx1\) হলে equidispersion, \(\gg1\) হলে overdispersion; উদাহরণে \(1096.3/247=4.44\) | 5.5 |
| distribution | একটি variable-এর সম্পূর্ণ ছবি — কোন মান কত ঘন ঘন আসে | 1.3 |
| diverge (integral) | improper integral সসীম মানে না পৌঁছালে | 0.4 |
| domain | function-এর input-set (\(A\)) | 0.1 |
| dominance | একটা estimator \(\hat\theta_1\) dominate করে \(\hat\theta_2\)-কে যদি \(R(\hat\theta_1,\theta)\le R(\hat\theta_2,\theta)\) প্রতিটি \(\theta\)-তে ও অন্তত একটিতে কঠোরভাবে কম; \(p\ge3\)-তে James–Stein dominate করে MLE-কে | 8.3 |
| Dominated Convergence Theorem | DCT; \(f_n\to f\) ও \(\lvert f_n\rvert\le g\in L^1\Rightarrow\int f_n\to\int f\); Fatou থেকে উৎপাদিত, সবচেয়ে ব্যবহৃত সীমা-উপপাদ্য | 7.4 |
| dominating function | DCT-এর সেই \(g\in L^1\) যা সব \(f_n\)-কে ঢাকে (\(\lvert f_n\rvert\le g\)); integrable ছাদ না থাকলে DCT খাটে না (moving-spike) | 7.4 |
| Doob decomposition | যেকোনো submartingale \(X_n=M_n+A_n\) অনন্যভাবে (a.s.) — \(M\) martingale (বিশুদ্ধ গোলমাল), \(A\) predictable অ-হ্রাসমান compensator; ঝোঁক ও গোলমাল আলাদা করে | 7.8 |
| Doob martingale | যেকোনো \(Y\in L^1\)-এ \(X_n=\mathbb E[Y\mid\mathcal F_n]\) — tower থেকে স্বয়ংক্রিয় martingale ("\(Y\)-এর ক্রমে-পরিশীলিত অনুমান", Bayesian updating-এর গতিশীল রূপ); 7.9-এ \(X_n\to Y\) | 7.8 |
| Doob's \(L^p\) inequality | \(p>1\)-এ \(\lVert X_n^*\rVert_p\le\frac{p}{p-1}\lVert X_n\rVert_p\) — running maximum-এর \(L^p\)-নর্মকে শেষ-মানের নর্ম দিয়ে বাঁধে (maximal inequality + Hölder); \(L^2\)-bounded martingale-নিয়ন্ত্রণে মুখ্য | 7.9 |
| Doob's maximal inequality | অঋণাত্মক submartingale-এ \(\lambda\,\mathbb P(\max_{k\le n}X_k\ge\lambda)\le\mathbb E[X_n\,\mathbf 1_{\{\max\ge\lambda\}}]\le\mathbb E[X_n]\); Markov inequality-র "পুরো-পথ-সর্বোচ্চ" সংস্করণ, hitting-time-এ optional stopping দিয়ে প্রমাণিত | 7.9 |
| Doob's upcrossing lemma | submartingale-এ \(\mathbb E[U_n([a,b])]\le\frac{\mathbb E[(X_n-a)^+]}{b-a}\) — "\(a\)-তে কিনে \(b\)-তে বেচা" predictable কৌশলে অসীম মুনাফা অসম্ভব বলে upcrossing-সংখ্যাকে বাঁধে; পুরো convergence-তত্ত্বের ইঞ্জিন | 7.9 |
| Doob–Dynkin lemma | যদি \(Z\) \(\sigma(Y)\)-measurable হয় তবে একটি measurable \(g\) আছে যাতে \(Z=g(Y)\); এ থেকেই \(\mathbb E[X\mid Y]=g(Y)\), আর \(g(y)=\mathbb E[X\mid Y{=}y]\) (2.2/2.6-এর সূত্র পুনরুদ্ধার) | 7.7 |
| dot product | দুই vector থেকে একটি সংখ্যা: \(\sum u_i v_i\) | 0.5 |
| double integral | দুই variable-এর function-এর surface-এর নিচের volume \(\iint f\,dA\) | 0.4 |
| double-centering | squared-distance matrix \(\Delta\) থেকে inner-product (Gram) matrix বের করার অপারেশন \(B=-\tfrac12 H\Delta H\), উপাদান-সূত্রে \(B_{ij}=-\tfrac12(\Delta_{ij}-\bar\Delta_{i\cdot}-\bar\Delta_{\cdot j}+\bar\Delta_{\cdot\cdot})\); প্রমাণে দেখানো এটি ঠিক \(z_i^\top z_j\) ফেরায় (centered data-তে), classical MDS-এর প্রথম ধাপ | 6.8 |
| dtype | array-র উপাদানের data type (যেমন int64, float64) | 0.6 |
| dummy (indicator) variable | categorical group-কে \(0/1\) column-এ রূপান্তর; এর মাধ্যমে ANOVA হুবহু একটি linear regression হয়ে ওঠে | 5.3 |
| dyadic approximation | approximation theorem-এর সুনির্দিষ্ট নির্মাণ: \(f_n=\min\!\big(n,\ \lfloor 2^n f\rfloor/2^n\big)\) — \(2^{-n}\) ধাপ-উচ্চতার "সিঁড়ি"; monotone increasing ও সর্বোচ্চ error \(2^{-n}\) (\(n=1,2,3,4\to 0.5,0.25,0.125,0.0625\)) | 7.3 |
| Dynkin \(\pi\)–\(\lambda\) theorem | যদি একটা \(\pi\)-system \(\mathcal P\) একটা \(\lambda\)-system \(\mathcal L\)-এ থাকে, তবে \(\sigma(\mathcal P)\subseteq\mathcal L\); ফল — uniqueness: \(\pi\)-system-এ মেলা দুই measure \(\sigma(\mathcal P)\)-এ মেলে, তাই CDF একটা law সম্পূর্ণ pin করে | 7.2 |
| ECDF | empirical CDF; F̂_n(t) = #{xᵢ ≤ t}/n, bin-মুক্ত step-function | 1.3 |
| EDA (Exploratory Data Analysis) | অন্বেষণমূলক উপাত্ত বিশ্লেষণ; ছবি ও summary দিয়ে data থেকে প্যাটার্ন ও সূত্র খোঁজার ধাপ | 1.5 |
| effect size \(d\) | \(H_0\) থেকে সত্য কত দূরে, standardized: \(d=(\mu_1-\mu_0)/\sigma\); power curve-এর অনুভূমিক অক্ষ (Figure 3) | 4.7 |
| effect size (eta-squared) | \(\eta^2=\mathrm{SSB}/\mathrm{SST}\) — factor কত শতাংশ total variation ব্যাখ্যা করে; regression-এর \(R^2\)-এর ANOVA-সমতুল্য | 5.3 |
| efficiency | দুই unbiased estimator-এর মধ্যে যেটির sampling distribution-এর variance (SE) ছোট সেটি বেশি efficient; Normal data-তে mean median-এর চেয়ে efficient | 4.1 |
| efficiency (of MLE) | কম variance-বিশিষ্ট estimator বেশি efficient; যেখানে MLE ও MoM ভিন্ন, MLE সাধারণত কম variance দেয় (Uniform-এ SD প্রায় ৩ গুণ ছোট — Figure 3); MLE asymptotically efficient (4.4) | 4.3 |
| efficient estimator | যে unbiased estimator ঠিক CRLB অর্জন করে (\(\mathrm{Var}=\frac{1}{nI}\), \(e=1\)); যেমন Normal-mean ও Poisson-এ \(\bar X\) (Figure 2) | 4.5 |
| eigen-decomposition | matrix-কে eigenvalue ও eigenvector-এ ভাঙা; PCA-র ভিত্তি | 0.5 |
| eigenvalue | যে scalar \(\lambda\)-এ matrix কেবল vector-কে প্রসারিত করে | 0.5 |
| eigenvalue / eigenvector | \(\Sigma v=\lambda v\): eigenvector \(v\) যে দিকে \(\Sigma\) শুধু লম্বায়/সংকোচন করে (ঘোরায় না), eigenvalue \(\lambda\) সেই স্কেল-গুণক; PCA-তে eigenvector \(=\) PC-দিক, eigenvalue \(\lambda_j=\) সেই PC-বরাবর data-র variance (\(v_j^\top\Sigma v_j=\lambda_j\)); symmetric \(\Sigma\)-এ eigenvalue বাস্তব (\(\ge0\), PSD) ও eigenvector orthogonal (০.৫) | 5.9 |
| eigenvector | transformation-এ যে দিক অপরিবর্তিত থাকে, \(A\mathbf{v}=\lambda\mathbf{v}\) | 0.5 |
| elastic net | \(\min\lVert y-X\beta\rVert_2^2+\lambda_1\lVert\beta\rVert_1+\lambda_2\lVert\beta\rVert_2^2\) — lasso (\(L_1\), sparsity) ও ridge (\(L_2\), grouping/স্থিতিশীলতা)-র মিশ্রণ; correlated feature-গোষ্ঠীকে একসাথে নির্বাচন/shrink করে, pure lasso-র অস্থির একক-নির্বাচন এড়ায় | 6.2 |
| elbow method | \(K\) বাছার পদ্ধতি: inertia বনাম \(K\) আঁকা, যেখানে পতন হঠাৎ ছোট হয়ে "কনুই" তৈরি করে সেই \(K\) বাছা (এর পর আরও cluster দিলে সামান্যই লাভ); চলমান উদাহরণে inertia \([1200,527,135,111,91,72]\), পতন \(392\to24\) ⇒ elbow \(k{=}3\); চোখে-দেখা/বিষয়ভিত্তিক বলে silhouette-এর তুলনায় কম নির্ভরযোগ্য | 5.9 |
| element / member | set-এর একটি সদস্য; \(x \in A\) মানে \(x\), \(A\)-এর সদস্য | 0.1 |
| elementary event | একটিমাত্র outcome নিয়ে গঠিত event | 2.1 |
| Elliptic Envelope | statistical anomaly detector: inlier-রা একটা Gaussian/উপবৃত্তীয় গুচ্ছে বসে ধরে নিয়ে (robust) \(\mu,\Sigma\) আঁচ করে, বড় Mahalanobis \(D_M^2\) (\(\chi^2_p\)-cutoff ছাড়িয়ে) বিন্দুকে anomaly বলে; canonical ROC AUC \(1.000\) (inlier-গুচ্ছ Gaussian বলে নিখুঁত) | 6.9 |
| EM algorithm | Expectation–Maximization — incomplete/latent-variable data-তে MLE-র পুনরাবৃত্ত পদ্ধতি: E-step (latent-এর posterior/responsibility) ও M-step (weighted MLE) পালা করে; প্রতি iteration-এ log-likelihood একঘেয়ে (monotone) বাড়ায় বা স্থির রাখে (কখনো কমায় না)। non-convex — local optimum-এ আটকাতে পারে, তাই একাধিক restart | 6.7 |
| embedding | উচ্চ-মাত্রিক বিন্দু \(x_i\in\mathbb R^D\)-এর নিম্ন-মাত্রিক প্রতিরূপ \(y_i\in\mathbb R^d\) (\(d\ll D\)) — dimensionality reduction-এর আউটপুট; ভালো embedding manifold-এর প্রতিবেশ/দূরত্ব রক্ষা করে (local: trustworthiness, global: প্রকৃত স্থানাঙ্কের সাথে corr দিয়ে যাচাই) | 6.8 |
| empirical Bayes | prior-এর প্যারামিটার আগে থেকে না জেনে ডেটা থেকে estimate করে Bayesian shrinkage প্রয়োগ; JS = empirical-Bayes: prior \(\theta_i\sim N(0,\tau^2)\)-এর shrinkage \(\frac{\tau^2}{\tau^2+1}\)-এ \(\tau^2\)-কে \(\lVert X\rVert^2\) থেকে estimate করলে ঠিক \(1-\frac{p-2}{\lVert X\rVert^2}\) (Efron–Morris) | 8.3 |
| empirical CDF | নমুনা থেকে গড়া step-function CDF \(F_n\); \(\xrightarrow{d}\)-তে limit CDF \(F\)-এর দিকে গড়ায় | 3.2 |
| empirical distribution | প্রতিটি observed মানে 1/n ভর বসানো distribution (ECDF-এর ভিত্তি) | 1.3 |
| empirical distribution \(\hat F_n\) | মূল নমুনার বণ্টন যেখানে প্রতিটা পর্যবেক্ষণে সমান ভর \(1/n\); bootstrap এটিকেই "population" হিসেবে ব্যবহার করে (plug-in principle) | 4.9 |
| empirical risk | training data-তে গড় loss \(\frac1n\sum\ell\); LLN দিয়ে true risk \(\mathbb E[\ell]\)-তে যায় (ML generalization-এর শুরু) | 3.3 |
| empirical risk (\(\hat R_n(h)\)) | হাতে-থাকা \(n\) নমুনার উপর গড় loss \(\hat R_n(h)=\frac1n\sum_i\ell(h(x_i),y_i)\); \(R\) অজানা বলে এটিই বাস্তবে minimize করি; train error-ও এটাই | 6.1 |
| empirical risk minimization (ERM) | \(\hat h=\arg\min_{h\in\mathcal H}\hat R_n(h)\) — empirical risk সর্বনিম্ন করা \(h\) বাছার নীতি; \(\mathcal H\) বড় করলে \(\hat R_n(\hat h)\) একঘেয়ে নামে (কখনো বাড়ে না), তাই একা train error model বাছতে পারে না | 6.1 |
| empirical rule (68-95-99.7) | Normal-এ \(\mu\pm1\sigma,\pm2\sigma,\pm3\sigma\)-এ ≈৬৮/৯৫/৯৯.৭% area | 2.4 |
| empty set | কোনো সদস্যবিহীন set, \(\varnothing\); প্রতিটি set-এর subset | 0.1 |
| ensemble | অনেকগুলো base-learner (এখানে tree) একত্রে মিলিয়ে একটি শক্তিশালী predictor — সমান্তরালে গড় (bagging, random forest, variance↓) বা ক্রমিকভাবে যোগ (boosting, bias↓); একক learner-এর দুর্বলতা সমষ্টিতে কাটানো | 6.5 |
| entropy | তথ্য-তত্ত্বের অশুদ্ধতা-মাপ \(H_m=-\sum_c\hat p_{mc}\log_2\hat p_{mc}\) (bit-এ); pure node-এ \(0\), binary \(50\)–\(50\)-তে সর্বোচ্চ \(1\); Gini-র বিকল্প criterion, প্রায় একই split বাছে। canonical \(6\)A–\(4\)B node: \(H=0.971\) | 6.5 |
| epsilon band | limit-এর চারপাশে \([X-\varepsilon,\,X+\varepsilon]\) ফালি; বাইরে-থাকা ভগ্নাংশ \(\xrightarrow{P}\)-এর দৃশ্যরূপ | 3.2 |
| equal-tailed credible interval | credible interval যার দুই প্রান্ত posterior-এর \(\frac{\alpha}{2}\) ও \(1-\frac{\alpha}{2}\) quantile (Figure 3-বাঁ; §৭ Q6) | 4.10 |
| equally likely | সব outcome সমসম্ভাব্য, প্রত্যেকের probability \(1/\lvert\Omega\rvert\) | 2.1 |
| equidispersion | Poisson-এর মৌলিক ধর্ম \(\operatorname{Var}(y\mid x)=\mathbb E[y\mid x]=\mu\) — একটিমাত্র parameter \(\mu\) একসাথে center ও spread ঠিক করে; §৭-এ \(\mathbb E[Y]=\operatorname{Var}(Y)=\mu\) প্রমাণিত | 5.5 |
| equidispersion test | dispersion \(\hat\phi\) বা NB-র \(\alpha\)-র LR test দিয়ে Poisson-অনুমান (\(\operatorname{Var}=\mu\)) যাচাই; \(\hat\phi\gg1\) বা \(\alpha>0\) significant হলে Poisson বাতিল, quasi-Poisson/NB দরকার | 5.5 |
| equilibrium / steady state | stationary distribution-এর বিকল্প নাম; long-run-এ chain যে distribution-এ থিতু হয় | 3.6 |
| equivalence relation / class | reflexive, symmetric, transitive সম্পর্ক (\(x\sim y\iff x-y\in\mathbb Q\)) যা set-কে disjoint class-এ ভাগ করে; Vitali-নির্মাণের ভিত্তি — প্রতি class থেকে এক প্রতিনিধি | 7.1 |
| ergodic chain | irreducible + aperiodic (+ positive recurrent) chain; এতে \(\mu_n\to\pi\) এবং সময়-গড় \(=\) \(\pi\)-সাপেক্ষে space-গড় (ergodic theorem — MCMC-তে নমুনা-গড় কাজ করার কারণ) | 3.6 |
| ERM hypothesis (\(\hat h\)) | ERM-এর ফলাফল — empirical risk minimize করা নির্দিষ্ট মডেল; এর generalization gap \(R(\hat h)-\hat R_n(\hat h)\) নিয়ন্ত্রণই learning theory-র লক্ষ্য | 6.1 |
| error outlier | data-entry ভুল বা অসম্ভব মান (যেমন ঋণাত্মক দাম) — সংশোধন/বাদ দেওয়া উচিত | 1.5 |
| estimand | যে অজানা কিন্তু স্থির population-রাশি অনুমান করতে চাই — \(\theta\) (যেমন \(\mu\), \(\sigma^2\), \(p\)); random নয় | 4.1 |
| estimate | কোনো নির্দিষ্ট sample-এ estimator-এর প্রকৃত মান (একটি সংখ্যা) | 1.1 |
| estimator | অজানা parameter আন্দাজ করতে ব্যবহৃত statistic (যেমন \(\hat{\mu} = \bar{x}\)) | 1.1 |
| event | sample space-এর একটি subset | 0.1 |
| evidence (marginal) | data-র মোট সম্ভাবনা \(P(A)\); normalizing constant | 2.2 |
| evidence lower bound (ELBO) | \(\mathcal L(q,\theta)=\mathbb E_q[\log p(x,z\mid\theta)]-\mathbb E_q[\log q(z)]\) — log-evidence \(\log p(x\mid\theta)\)-এর নিচের একটি bound, কারণ \(\log p(x)=\mathcal L+\mathrm{KL}\) এবং \(\mathrm{KL}\ge0\) (Jensen)। E-step একে tight করে, M-step একে বাড়ায় — EM-এর monotonicity-র ভিত্তি | 6.7 |
| excess kurtosis | kurtosis − 3; normal-এ 0, ভারী লেজে ধনাত্মক | 1.3 |
| exchangeability | \(H_0\)-র অধীনে যেকোনো permutation-এ যৌথ বণ্টন অপরিবর্তিত; permutation test-এর একমাত্র (ও যথেষ্ট) শর্ত (§৭ Q11) | 4.9 |
| existential quantifier | \(\exists\): "there exists / এমন কিছু আছে" | 0.1 |
| expectation | random variable-এর গড় মান, density-তে \(\int x\,f(x)\,dx\) | 0.4 |
| expectation (as integral) | \(\mathbb E[X]=\int_\Omega X\,d\mathbb P\); probability-র গড় আসলে probability measure-এর সাপেক্ষে integral | 7.4 |
| expectation step (E-step) | EM-এর প্রথম ধাপ — parameter \(\theta\) স্থির রেখে প্রতিটি বিন্দুর responsibility \(\gamma_{ik}=\frac{\pi_k\mathcal N(x_i;\mu_k,\Sigma_k)}{\sum_l\pi_l\mathcal N(x_i;\mu_l,\Sigma_l)}\) গণনা (= latent-এর posterior); ELBO-এর lower bound-কে current likelihood-এ tight করে (\(\mathrm{KL}=0\)) | 6.7 |
| expected count \(E_i\) | \(H_0\) সত্য হলে প্রত্যাশিত গণনা \(E_i=np_i^{(0)}\) (GOF) বা \(\frac{\text{row}_i\,\text{col}_j}{n}\) (independence) (Figure 3) | 4.8 |
| expected value | expectation-এর প্রতিশব্দ; \(\mathbb{E}[X]\) | 2.5 |
| experimental design | ডেটা-সংগ্রহের পরিকল্পনা (randomization, replication, blocking, factorial structure) যাতে প্রশ্নের উত্তর সর্বনিম্ন bias ও noise-এ পাওয়া যায় | 5.3 |
| explained sum of squares (SSR) | মডেল-ব্যাখ্যাত variation \(\sum_i(\hat y_i-\bar y)^2\); \(\text{SST}=\text{SSR}+\text{SSE}\) | 5.1 |
| explained variance ratio | \(j\)-তম PC মোট variance-এর কত অংশ ধরে: \(\lambda_j/\sum_l\lambda_l\); চলমান উদাহরণে eigenvalue \([2.614,1.375,0.017,0.008]\) (যোগফল \(\approx4=\operatorname{tr}\Sigma\)) ⇒ ratio \([0.651,0.343,0.0042,0.0019]\) ⇒ PC1+PC2 \(=99.4\%\); কোন PC কতটা তথ্যবহ তা পরিমাপ করে | 5.9 |
| explained vs unexplained variance | ব্যাখ্যাকৃত (explained/between) \(=\operatorname{Var}(\mathbb E[X\mid\mathcal G])\); অব্যাখ্যাত (unexplained/within) \(=\mathbb E[\operatorname{Var}(X\mid\mathcal G)]\); ব্যাখ্যাকৃত ভগ্নাংশ \(\operatorname{Var}(\mathbb E[X\mid Y])/\operatorname{Var}(X)=\rho^2=R^2=0.36\) | 7.7 |
| exponential decay | bound \(n\)-এর সাথে \(e^{-cn}\) হারে নামে (Hoeffding); polynomial \(1/n\)-এর চেয়ে বহু দ্রুত | 3.1 |
| Exponential distribution | ধ্রুব rate \(\lambda\)-এ ঘটনার অপেক্ষার সময়; \(f=\lambda e^{-\lambda x}\) | 2.4 |
| exponential family | distribution-গোষ্ঠী (Bernoulli, Normal, Poisson, …) যাদের জন্য GLM/canonical-link তত্ত্ব প্রযোজ্য; logistic-এর Bernoulli এর সদস্য | 5.4 |
| exponential loss | \(L(y,F)=\exp(-yF(x))\), \(y\in\{-1,+1\}\); AdaBoost এই loss-এর forward stagewise additive minimization — এর উপর minimize করলেই \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\) ও reweighting-নিয়ম দুটোই বেরিয়ে আসে (প্রমাণ — সমাধান ১২) | 6.6 |
| extinction probability | শাখা-প্রক্রিয়া কখনো বিলুপ্ত হওয়ার সম্ভাবনা \(\mathbb P(\exists n: Z_n=0)\); subcritical/critical \(m\le1\)-এ \(=1\) (প্রায়-নিশ্চিত বিলুপ্তি, কারণ \(\mathbb E[Z_n]=m^n\to0\)), supercritical \(m>1\)-এ \(<1\) | 7.9 |
| extrapolation | data-র পরিসরের বাইরে মডেল প্রয়োগ করে ভবিষ্যদ্বাণী (ঝুঁকিপূর্ণ) | 5.1 |
| extreme value | একটি নমুনার চরম (min/max) মান; reliability ও বন্যা-জাতীয় বিশ্লেষণে গুরুত্বপূর্ণ | 2.7 |
| F-distribution | \(F_{d_1,d_2}=\frac{U/d_1}{V/d_2}\) (\(U\sim\chi^2_{d_1}\), \(V\sim\chi^2_{d_2}\) স্বাধীন); দুই variance-এর অনুপাত তুলনায় ব্যবহৃত, ডানে-skewed (E4) | 4.1 |
| F-test (ANOVA) | \(F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}=\dfrac{\mathrm{MSB}}{\mathrm{MSW}}\sim F_{k-1,\,n-k}\) under \(H_0\); signal-to-noise অনুপাত — \(H_0\)-তে \(\approx1\), গড় আলাদা হলে \(\gg1\) | 5.3 |
| F-test (overall) | \(H_0:\beta_1=\cdots=\beta_{p-1}=0\) (সব slope একসাথে শূন্য) বনাম অন্তত একটি \(\ne0\): \(F=\dfrac{\text{SSR}/(p-1)}{\text{SSE}/(n-p)}\sim F_{p-1,\,n-p}\) — মডেল আদৌ কিছু ব্যাখ্যা করে কিনা | 5.2 |
| factorial | \(1\) থেকে \(n\) পর্যন্ত সব পূর্ণসংখ্যার গুণফল \(n!\); \(0!=1\) | 0.2 |
| factorial design | একই পরীক্ষায় একাধিক factor-এর সব combination অন্তর্ভুক্ত করা (\(3\times2\) এখানে), যাতে main effect ও interaction দুটোই দক্ষভাবে মাপা যায় | 5.3 |
| factorial experiment design | এক বা একাধিক factor (যেমন sample size \(n\), polynomial degree \(d\)) পদ্ধতিগতভাবে বদলে প্রতিটির প্রভাব মাপার নকশা; নির্ভরযোগ্য উপসংহারের জন্য একবারে এক factor বদলানো (isolation), যেমন E3-তে degree-জুড়ে noise স্থির রেখে কেবল \(d\) বদলানো | 8.2 |
| factorization (Doob–Dynkin) | একটা RV \(Y\) \(\sigma(X)\)-measurable হয় iff \(Y=g(X)\) কোনো Borel \(g\)-র জন্য; অর্থাৎ "\(Y\) কেবল \(X\)-এর তথ্যে দাঁড়ালে" \(Y\) আসলে \(X\)-এরই একটা Borel-ফাংশন — conditioning (7.7)-এর মূল লেমা | 7.3 |
| factorization theorem (Fisher–Neyman) | \(T\) sufficient \(\iff\) \(f(x;\theta)=g(T(x),\theta)\,h(x)\); likelihood data-র উপর নির্ভর করে কেবল \(T\)-র মাধ্যমে (§৭ Q12) | 4.5 |
| fair game | "ন্যায্য খেলা" — martingale-এর স্বজ্ঞাগত রূপ (\(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\), গড়ে লাভ-ক্ষতি নেই); পক্ষে-ঝোঁকা = submartingale (favorable), বিপক্ষে = supermartingale (unfavorable) | 7.8 |
| false-positive paradox | বিরল রোগে নির্ভুল test-এও positive-দের অধিকাংশ সুস্থ | 2.2 |
| family-wise error rate (FWER) | একগুচ্ছ test মিলিয়ে অন্তত একটি false positive পাওয়ার সম্ভাবনা; \(m\) স্বাধীন test-এ \(1-(1-\alpha)^m\) (\(k=3\) জোড়ায় \(\approx0.14\), \(k=5\)-এ \(\approx0.40\)) | 5.3 |
| Fatou's lemma | \(f_n\ge0\Rightarrow\int\liminf_n f_n\,d\mu\le\liminf_n\int f_n\,d\mu\); কেবল অসমতা ("ভর পালাতে পারে, ফিরে আসে না"), MCT থেকে উৎপাদিত | 7.4 |
| feature | একটি measured বৈশিষ্ট্য; DataFrame-এর একটি column (variable-এর সমার্থক) | 1.1 |
| feature importance | প্রতিটি feature-এর সব split-এ মোট impurity-হ্রাস (normalize করে যোগফল \(1\)) — সিদ্ধান্তে আপেক্ষিক অবদানের মাপ; high-cardinality feature-কে পক্ষপাত করে (তখন permutation importance ভালো)। canonical: idx4 \(0.164\), idx6 \(0.132\), idx15 \(0.087\) | 6.5 |
| feature importance / permutation importance | কোন feature সিদ্ধান্তে কত অবদান রাখে — impurity-based (RF-এর split-gain যোগফল) বনাম permutation (একটি feature এলোমেলো করে accuracy-পতন মাপা, model-agnostic ও কম পক্ষপাতী)। canonical permutation worst area \(0.0126\) | 8.1 |
| feature map | রূপান্তর \(\phi:x\mapsto\phi(x)\) যা মূল feature-কে উচ্চমাত্রিক space-এ পাঠায় যেখানে শ্রেণিগুলো linearly separable হতে পারে; kernel \(K(x,x')=\phi(x)^\top\phi(x')\) এর inner product দেয়, তাই \(\phi\) স্পষ্টভাবে গণনা না করেই kernel-এর মাধ্যমে কাজ চলে (RBF-এ \(\phi\) অসীম-মাত্রিক) | 6.4 |
| feature selection | প্রাসঙ্গিক feature-গুলো বেছে অপ্রাসঙ্গিকগুলো বাদ দেওয়া; lasso coefficient ঠিক \(0\) করে এটি স্বয়ংক্রিয়ভাবে করে (embedded selection); ridge পারে না (সব nonzero রাখে); canonical lasso \(20\to17\) feature | 6.2 |
| Figure | matplotlib-এ পুরো ছবির ধারক (একাধিক Axes রাখে) | 0.6 |
| filtration | বর্ধমান sub-σ-algebra-অনুক্রম \((\mathcal F_n)_{n\ge0}\), \(\mathcal F_0\subseteq\mathcal F_1\subseteq\cdots\subseteq\mathcal F\) — সময়ে জমে-ওঠা তথ্যের গাণিতিক রূপ ("তথ্য জমে, কখনো হারায় না"); \((\Omega,\mathcal F,(\mathcal F_n),\mathbb P)\) = filtered probability space | 7.8 |
| finite additivity | কেবল সসীম-সংখ্যক disjoint set-এর জন্য measure যোগ হওয়ার দুর্বলতর শর্ত; এতে \(\mathbb N\)-এ "uniform" বস্তু বানানো যায় কিন্তু limit-যুক্তিতে ভরসা করা যায় না | 7.1 |
| finite difference | ছোট \(h\) দিয়ে derivative-এর সংখ্যাগত আনুমান | 0.3 |
| finite variance | \(\operatorname{Var}(X)=\sigma^2<\infty\); Chebyshev-ভিত্তিক WLLN-প্রমাণের যথেষ্ট শর্ত | 3.3 |
| finite-dimensional distributions | process-এর যেকোনো সসীম সময়-সংগ্রহের joint distribution; এদের পুরো পরিবার দিয়েই process নির্ধারিত হয় (Gaussian হলে শুধু \(m,C\) যথেষ্ট) | 3.5 |
| first derivative test | \(f'\)-এর চিহ্ন দিয়ে max/min নির্ণয় | 0.3 |
| first passage time | \(\tau_c=\min\{n:X_n=c\}\) — একটা স্তর \(c\)-তে প্রথম পৌঁছানোর stopping time; নিরপেক্ষ walk-এ \(+1\)-উত্তরণে \(\tau<\infty\) a.s. কিন্তু \(\mathbb E[\tau]=\infty\) (OST-ভঙ্গের উৎস, \(\mathbb E[S_\tau]=1\ne0\)) | 7.8 |
| Fisher information | \(I(\theta)=\mathbb{E}[U(\theta)^2]=-\mathbb{E}[\ell''(\theta)]\) — log-likelihood তার চূড়ায় কতটা তীক্ষ্ণ (curvature); data প্যারামিটার সম্পর্কে কত তথ্য বহন করে (Figure 1) | 4.5 |
| fitted value | মডেলের ভবিষ্যদ্বাণী \(\hat y_i=x_i^\top\hat\beta\) | 5.1 |
| five-number summary | min, Q1, median, Q3, max — boxplot-এর ভিত্তি | 1.3 |
| fixed effect | সব গোষ্ঠীতে অভিন্ন, population-জোড়া স্থির সহগ (\(\beta_0,\beta_1\)) — আমরা সরাসরি এই মানগুলোতেই আগ্রহী; উদাহরণে hours-এর প্রভাব \(\hat\beta_1=1.878\) সব স্কুলে এক বলে ধরা |
5.6 |
| flat (uniform) prior | ধ্রুবক prior \(\pi(\theta)=c\) — "কোনো পূর্ব-ঝোঁক নেই"; তখন MAP \(=\) MLE, posterior \(\propto\) likelihood (§৭ Q11; Figure 2-এ \(\text{Beta}(1,1)\)) | 4.10 |
| forward stagewise additive modeling | additive model \(F_T=\sum_t\alpha_t h_t\) ক্রমিকভাবে গড়ার সাধারণ কাঠামো — প্রতি round-এ আগের পদ স্থির রেখে কেবল নতুন \((\alpha_t,h_t)\) loss-minimize করে যোগ (আগেরগুলো পুনরায় adjust না করে); AdaBoost = exponential loss-এ এর প্রয়োগ | 6.6 |
| Fourier transform of a law | \(\varphi_X\)-কে বণ্টন \(P_X\)-এর Fourier transform হিসেবে দেখা; এই বিপরীত-যোগ্য (invertible) রূপান্তরই uniqueness ও inversion-এর ভিত্তি (\(\varphi\) পুরো বণ্টন এনকোড করে, তথ্য হারায় না) | 7.10 |
| Freedman–Diaconis rule | bin-প্রস্থের robust থাম্ব-রুল 2·IQR / n^(1/3) | 1.3 |
| frequency | একটি bin বা category-তে observation-এর সংখ্যা (count) | 1.3 |
| frequency table | মানের পরিসরকে bin-এ ভাগ করে প্রতি bin-এর count-এর সারণি | 1.3 |
| frequentist interpretation | probability \(=\) relative frequency \(n_A/n\)-এর সীমা (\(n\to\infty\)) | 2.1 |
| frequentist probability | "probability = দীর্ঘকালীন আপেক্ষিক ফ্রিকোয়েন্সি"; LLN এই ব্যাখ্যার আনুষ্ঠানিক ভিত্তি | 3.3 |
| function | \(f:A\to B\): প্রতিটি input-এর ঠিক একটিমাত্র output | 0.1 |
| function of a random variable | random variable-এর ওপর প্রয়োগ করা function \(g(X)\), নিজেও random | 2.7 |
| functional gradient descent | gradient boosting-এর তাত্ত্বিক রূপ — সাধারণ gradient descent parameter-space-এ পা ফেলে, এটা function-space-এ: \(F_t=F_{t-1}+\nu h_t\approx F_{t-1}-\nu g\), যেখানে negative gradient \(-g\) প্রতি round-এ একটা গাছ দিয়ে আনুমানিত; পুরো function \(F\)-ই variable | 6.6 |
| Fundamental Theorem of Calculus | উপপাদ্য যা differentiation ও integration-কে পরস্পরের বিপরীত প্রমাণ করে | 0.4 |
| Galton–Watson branching process | শাখা-প্রক্রিয়া: প্রতিটি ব্যক্তি স্বাধীনভাবে একই বণ্টন থেকে সন্তান নেয় (গড় \(m\)); \(n\)-তম প্রজন্মের আকার \(Z_n\), \(\mathbb E[Z_{n+1}\mid\mathcal F_n]=mZ_n\), \(\mathbb E[Z_n]=m^n\) | 7.9 |
| gambler's fallacy | "পরপর tail-এর পর head আসবেই"-জাতীয় ভুল ধারণা; LLN পুরোনো বিচ্যুতি শোধরায় না, শুধু dilute করে | 3.3 |
| gambler's ruin | নিরপেক্ষ random walk দুই বাধা \(-a,+b\)-এ থামা; OST-এ \(\mathbb P(\text{hit }+b)=\frac{a}{a+b}\), আর \(S_n^2-n\) martingale-এ \(\mathbb E[\tau]=ab\) — বাধা \(-8,+4\)-এ \(\mathbb P(+b)=\frac23\approx0.6667\), \(\mathbb E[\tau]=32\) | 7.8 |
| gamma | RBF kernel-এর প্রস্থ-পরামিতি \(\gamma\) — প্রতিটি বিন্দুর প্রভাব-ব্যাসার্ধ নিয়ন্ত্রণ; ছোট \(\gamma\) = প্রশস্ত kernel = প্রায়-linear/মসৃণ boundary, বড় \(\gamma\) = সংকীর্ণ kernel = স্থানীয়/wiggly; \(C\)-এর সঙ্গে একত্রে tune করতে হয়। canonical \(\gamma\)-sweep (\(C\) স্থির): \(0.1\to0.800\), \(5\to0.956\), \(20\to0.956/132\) | 6.4 |
| Gamma distribution | shape \(k\) ও scale \(\theta\); \(k\)টি স্বাধীন Exponential-এর যোগফল | 2.4 |
| gamma function | factorial-এর continuous সম্প্রসারণ \(\Gamma(k)=\int_0^\infty t^{k-1}e^{-t}dt\); \(\Gamma(n)=(n-1)!\) | 2.4 |
| Gamma-Poisson mixture | negative binomial-এর উৎপত্তি: Poisson rate নিজেই Gamma-distributed (random heterogeneity) হলে marginal distribution NB হয় — তাই NB স্বাভাবিকভাবে overdispersion ধরে; উদাহরণের data ঠিক এই process | 5.5 |
| Gaussian | Normal distribution-এর বিকল্প নাম | 2.4 |
| Gaussian mixture model (GMM) | যে mixture-এ প্রতিটি component একটা Gaussian — \(p(x)=\sum_{k=1}^K\pi_k\,\mathcal N(x;\mu_k,\Sigma_k)\); দুই-ধাপ generative: \(z_i\sim\text{Categorical}(\pi)\), তারপর \(x_i\sim\mathcal N(\mu_{z_i},\Sigma_{z_i})\)। canonical (3-component 2D): BIC \(4828.8\), per-sample LL \(-3.933\), ARI \(0.97\) | 6.7 |
| Gaussian Naive Bayes (GaussianNB) | Naive Bayes-এর সেই রূপ যেখানে প্রতিটি শ্রেণি-শর্তাধীন প্রান্তিক \(P(x_j\mid y)\) একটি univariate Gaussian; কার্যত শ্রেণি-প্রতি diagonal covariance-যুক্ত QDA (off-diagonal correlation \(=0\) ধরা), boundary axis-aligned quadratic; canonical \(0.904\) | 6.3 |
| Gaussian process | যে process-এর যেকোনো সসীম সংগ্রহ \((X_{t_1},\dots,X_{t_k})\) multivariate Normal; সম্পূর্ণরূপে \(m(t)\) ও \(C(s,t)\) দিয়ে নির্ধারিত (E3) | 3.5 |
| Gauss–Markov theorem | linearity + zero-mean + homoscedastic + uncorrelated error হলে OLS হলো BLUE | 5.1 |
| generalization | training-এ দেখা না-যাওয়া নতুন data-তে মডেলের ভালো পারফরম্যান্স; পুরো learning theory-র কেন্দ্রীয় লক্ষ্য — train-performance নয়, test-performance | 6.1 |
| generalization bound | \(R(h)\le\hat R_n(h)+(\text{capacity-পদ})\) আকারের গ্যারান্টি যা true risk-কে empirical risk + complexity-জরিমানা দিয়ে আবদ্ধ করে; পদটি মোটামুটি \(\sqrt{(\text{capacity})/n}\), তাই data বাড়ালে gap কমে | 6.1 |
| generalization gap | true risk ও empirical risk-এর পার্থক্য \(R(\hat h)-\hat R_n(\hat h)\); ছোট হলে ERM নিরাপদ, বড় হলে overfit; capacity-bound (finite-\(\mathcal H\)/VC) এই gap-কেই upper-bound করে | 6.1 |
| generalized cross-validation (GCV) | LOOCV-shortcut-এ প্রতিটা leverage \(S_{ii}\)-কে গড় \(\operatorname{tr}(S)/n\) দিয়ে বদলানো রূপ: \(\text{GCV}=\frac{\frac1n\sum_i(y_i-\hat y_i)^2}{(1-\operatorname{tr}(S)/n)^2}\); leverage-অসমতার প্রতি কম সংবেদনশীল, rotation-invariant; smoothing-spline \(\lambda\) tuning-এ বহুল-ব্যবহৃত (৫.৭-এর \(\operatorname{tr}(S)\) ঢোকে) | 5.8 |
| generalized likelihood ratio test | composite \(H_0\) (\(\Theta_0\) একাধিক মান) ক্ষেত্রে LRT; sup নেওয়া হয় \(\Theta_0\) ও \(\Theta\) উভয়ে; \(\xrightarrow{d}\chi^2_k\) | 4.8 |
| generalized linear model (GLM) | linear-predictor কাঠামোর (\(\eta=x^\top\beta\)) সাধারণীকরণ — random component (distribution), systematic component (\(\eta\)), ও link function দিয়ে বিভিন্ন outcome-এ বিস্তৃত; OLS = Normal + identity link | 5.4 |
| generated \(\sigma\)-algebra \(\sigma(\mathcal G)\) | সংগ্রহ \(\mathcal G\)-কে ধারণকারী smallest \(\sigma\)-algebra, সংজ্ঞায়িত \(\sigma(\mathcal G)=\bigcap\{\mathcal H:\mathcal H\ \sigma\text{-algebra},\ \mathcal G\subseteq\mathcal H\}\) — সব এমন \(\sigma\)-algebra-র intersection (যা আবার \(\sigma\)-algebra) | 7.2 |
| generative model | শ্রেণি-শর্তাধীন density \(f_c(x)\) ও prior \(\pi_c\) model করে Bayes-নিয়মে posterior পায় (কার্যত \(P(x,y)\)-র যৌথ গঠন শেখে); LDA, QDA, Naive Bayes সবই generative; canonical QDA \(0.919\), NB \(0.904\), LDA \(0.881\) | 6.3 |
| generative vs discriminative | দুই দর্শন: generative \(P(x\mid y),\pi_c\) model করে Bayes-নিয়মে \(P(y\mid x)\) পায় (LDA/QDA/NB); discriminative সরাসরি \(P(y\mid x)\)/boundary শেখে (logistic, SVM); generative-এ বেশি ধারণা (ভুল হলে bias) কিন্তু কম data-তে কাজ চলে | 6.3 |
| generator of a σ-algebra | একটা সংগ্রহ \(\mathcal G\) যার থেকে \(\sigma(\mathcal G)\) গড়ে; এখানে Borel-এর সুবিধাজনক generator \(\{(-\infty,x]:x\in\mathbb R\}\) — যাতে measurability শুধু \(\{X\le x\}\)-এ পরীক্ষাযোগ্য (7.2-এর \(\mathcal B=\sigma((-\infty,x])\) ব্যবহার করে) | 7.3 |
| geodesic distance | manifold-বরাবর (গায়ে হেঁটে) দুই বিন্দুর সংক্ষিপ্ততম দূরত্ব \(d_G\) — সোজা Euclidean দূরত্বের বিপরীত; swiss roll-এ প্রতিবেশী দুই পাক Euclidean-এ কাছে কিন্তু geodesic-এ বহু দূর; Isomap kNN-graph-এ shortest path দিয়ে এটি আনুমান করে | 6.8 |
| Geometric distribution | প্রথম success পেতে trial-সংখ্যা; \((1-p)^{k-1}p\), mean \(1/p\) | 2.3 |
| Gini impurity | node-এর অশুদ্ধতার মাপ \(G_m=\sum_c\hat p_{mc}(1-\hat p_{mc})\); pure node-এ \(0\), binary \(50\)–\(50\)-তে সর্বোচ্চ \(0.5\); CART-এর default splitting-criterion (log লাগে না বলে entropy-র চেয়ে সস্তা)। canonical \(6\)A–\(4\)B node: \(G=0.48\) | 6.5 |
| Glivenko–Cantelli theorem | n বাড়লে ECDF প্রকৃত CDF-এ সুষমভাবে ছোটে | 1.3 |
| GLM trilogy | একই কাঠামো (random component + linear predictor + link + MLE/IRLS) তিন outcome-এ: Normal+identity (৫.১ linear), Bernoulli+logit (৫.৪ logistic), Poisson+log (৫.৫); শুধু distribution ও link বদলায় | 5.5 |
| global balance | stationarity-র অপর নাম: প্রতিটি state \(j\)-তে মোট-ঢোকা \(=\) মোট-বেরোনো (\(\sum_i\pi_iP_{ij}=\pi_j\)); detailed balance এর চেয়ে কঠোরতর শর্ত | 3.6 |
| global minimum | সমগ্র domain-এ সর্বনিম্ন মান | 0.3 |
| good-sets principle | measurability-প্রমাণের কৌশল: \(\mathcal D=\{B:X^{-1}(B)\in\mathcal F\}\) ("সুসেট"-পরিবার) নিজেই একটা σ-algebra (preimage union/complement-সংরক্ষণ থেকে); তাই generator \(\mathcal D\)-তে থাকলেই \(\sigma(\text{generator})\subseteq\mathcal D\) | 7.3 |
| goodness-of-fit (GOF) test | categorical data কোনো নির্দিষ্ট বণ্টন \(p_i^{(0)}\) মানে কিনা তার Pearson \(\chi^2\) test; df \(=k-1-\#\text{আঁচ-করা প্যারামিটার}\) (§৭ Q8) | 4.8 |
| gradient | সব partial derivative-এর vector; দ্রুততম বৃদ্ধির দিক | 0.3 |
| gradient boosting | প্রতি round-এ loss-এর negative gradient (pseudo-residual) \(r_i\)-এ একটা regression tree \(h_t\) fit করে \(F_t=F_{t-1}+\nu h_t\) আপডেট; squared loss-এ \(r_i=y_i-F_{t-1}(x_i)\) (সাধারণ residual), তাই "fit the residual" = "fit the negative gradient"। canonical (\(n{=}200\)): train \(1.000\)/test \(0.850\) | 6.6 |
| gradient descent | \(-\nabla f\) দিকে ধাপে ধাপে নেমে minimum খোঁজা | 0.3 |
| grand mean | সব observation মিলিয়ে সামগ্রিক গড় \(\bar y\); balanced design-এ group-গড়ের সরল গড়; \(\mathrm{SSB},\mathrm{SST}\)-এর reference বিন্দু | 5.3 |
| graph Laplacian \(L=D-W\) | similarity-graph থেকে গড়া matrix (\(W\) symmetric similarity, \(D\) diagonal degree \(D_{ii}=\sum_j w_{ij}\)); quadratic form \(f^\top L f=\tfrac12\sum_{ij}w_{ij}(f_i-f_j)^2\ge0\) label-অমসৃণতা মাপে, label propagation এটি minimize করে; ৬.৮-এর Laplacian-eigenmap-এর সঙ্গে একই ভাষা | 6.9 |
| group comparison | categorical শ্রেণি অনুযায়ী numeric variable-এর distribution তুলনা | 1.5 |
| group mean | একটি group-এর observation-গুলোর গড় \(\bar y_g\); group-গড়ের পারস্পরিক পার্থক্যই ANOVA-র signal | 5.3 |
| groupby | কলামের মান অনুযায়ী সারি দলে ভাগ করে দলভিত্তিক সারাংশ (split→apply→combine) | 0.6 |
| grouping effect | elastic net (ও ridge)-এর প্রবণতা: highly correlated feature-দের coefficient পরস্পরের কাছাকাছি রাখা, তাই গোষ্ঠীকে একসাথে রাখা/shrink করা; pure lasso যেখানে গোষ্ঠী থেকে একটিকে এলোমেলোভাবে বাছে, সেখানে এটি স্থিতিশীলতা আনে | 6.2 |
| growth function (\(\Pi_{\mathcal H}(n)\)) | \(n\)টি বিন্দুর উপর \(\mathcal H\) সর্বোচ্চ কতগুলো ভিন্ন labeling তৈরি করতে পারে (≤ \(2^n\)); \(n\le d_{\mathrm{VC}}\)-এ ঠিক \(2^n\), তারপর polynomial হয়ে যায় — capacity-র সূক্ষ্ম মাপ | 6.1 |
| Hamiltonian Monte Carlo (HMC) | physics-অনুপ্রাণিত একটা চতুর MCMC যা target-এর gradient ব্যবহার করে উচ্চ-মাত্রায় দ্রুত mixing করে (random-walk এড়িয়ে); আধুনিক probabilistic-programming (Stan)-এর ইঞ্জিন | 8.4 |
| hard assignment | প্রতিটি বিন্দুকে ঠিক একটা cluster-এ (\(0/1\), সর্বোচ্চ-\(\gamma\)/নিকটতম centroid) দেওয়া — k-means-এর ধরন; soft assignment-এর অনিশ্চয়তা মুছে দেয় (সীমানা-সংলগ্ন বিন্দুতে বিভ্রান্তিকর)। GMM-এ \(\sigma\to0\) সীমায় responsibility hard হয় | 6.7 |
| hard margin | যে SVM কোনো margin-লঙ্ঘন সহ্য করে না (সব \(y_i(w^\top x_i+b)\ge1\)); কেবল linearly separable data-তে সম্ভব; primal \(\min\tfrac12\lVert w\rVert^2\) s.t. margin-শর্ত | 6.4 |
| harmonic vs Basel series | \(\sum 1/n=\infty\) (harmonic, \(\sim\ln N\) — BC-II দেয় i.o.\(=1\)) বনাম \(\sum 1/n^2=\pi^2/6\approx1.6449<\infty\) (Basel — BC-I দেয় i.o.\(=0\)); দুই প্রতিবেশী, বিপরীত ভাগ্য | 7.6 |
| hat matrix | \(\hat y=Hy\)-এ projection matrix \(H=X(X^\top X)^{-1}X^\top\), \(y\)-কে column space-এ প্রক্ষেপ করে | 5.1 |
| heatmap | matrix-এর মানকে রঙের মাধ্যমে দেখানো চিত্র | 1.4 |
| heavy tail | এমন distribution যার tail ধীরে কমে (যেমন Cauchy), mean অসংজ্ঞায়িত হতে পারে | 2.7 |
| Hermitian symmetry | \(\overline{\varphi_X(t)}=\varphi_X(-t)\) (কারণ \(\overline{e^{itX}}=e^{-itX}\)); ফলে \(X\) প্রতিসম (\(X\overset{d}{=}-X\)) হলে \(\varphi_X\) বাস্তব-মানের, \(\operatorname{Re}\varphi\) even ও \(\operatorname{Im}\varphi\) odd | 7.10 |
| heteroscedasticity | error-variance \(x\)-ভেদে পরিবর্তনশীল; SE/CI ভুল করে দেয় | 5.1 |
| hexbin plot | সমতলকে hexagon ঘরে ভেঙে প্রতিটিতে বিন্দু-সংখ্যা রঙে দেখানো; বড় data-র জন্য | 1.4 |
| hierarchical / multilevel model | mixed-effects model-এর সমার্থক নাম, যখন data-র স্তর-কাঠামোয় (শিক্ষার্থী ⊂ স্কুল, রোগী ⊂ হাসপাতাল) নিচের স্তরের observation উপরের স্তরের গোষ্ঠীতে বাসা-বাঁধা; প্রতিটা স্তরে আলাদা variance component | 5.6 |
| hierarchical clustering | বিন্দু-দলগুলোর nested শ্রেণিবিন্যাস গড়ার কৌশল; agglomerative রূপ প্রতিটি বিন্দুকে আলাদা cluster ধরে শুরু করে বারবার নিকটতম দুই cluster merge করে; সুবিধা: \(K\) আগে দিতে হয় না (পরে গাছ কেটে যেকোনো \(K\)), nested গঠন দেখায়, deterministic; k-means-এর পরিপূরক | 5.9 |
| hierarchy of convergence | mode-গুলোর এক-মুখী imply-চেইন: \(a.s.\Rightarrow P\), \(L^p\Rightarrow P\), \(P\Rightarrow d\) | 3.2 |
| high-dimensional statistics | \(p\gtrsim n\) বা \(p\gg n\) শাসনে (parameter-সংখ্যা \(\ge\) নমুনা) estimation ও inference-এর তত্ত্ব; মূল ধারণা sparsity, lasso-তত্ত্ব, minimax rate; genomics/imaging/text-এর ভিত্তি (← Part V,VI 6.2, III inequality) | 8.4 |
| higher-order derivative | derivative-এর derivative (২য়, ৩য়…) | 0.3 |
| Hilbert space | inner product-যুক্ত complete space; অসীম-মাত্রিক ইউক্লিডীয় জ্যামিতি, \(L^2\) তার প্রধান উদাহরণ (projection theorem সহ) | 7.5 |
| hinge loss | margin-লঙ্ঘনের উত্তল শাস্তি \(\max(0,\,1-y_i f(x_i))\); \(y_i f(x_i)\ge1\) হলে শূন্য, নইলে রৈখিকভাবে বাড়ে; 0–1 loss-এর convex surrogate (উপরের সীমা), যা margin-কে পুরস্কৃত করে ও দক্ষ optimization দেয় | 6.4 |
| histogram | data কোন পরিসরে কতবার পড়ল তা দেখানো bar-চিত্র | 0.6 |
| hitting time | একটা সেট \(B\)-তে প্রথম প্রবেশের সময় \(\tau_B=\min\{n:X_n\in B\}\) — একটা stopping time (\(\{\tau_B\le n\}=\bigcup_{k\le n}\{X_k\in B\}\in\mathcal F_n\)); gambler's-ruin-এর "\(-a\) বা \(+b\)-এ পৌঁছানো" এর বিশেষ রূপ | 7.8 |
| Hoeffding bound (finite-\(\mathcal H\)) | finite hypothesis class-এ uniform bound \(R(h)\le\hat R_n(h)+\sqrt{\frac{\ln\lvert\mathcal H\rvert+\ln(2/\delta)}{2n}}\), Hoeffding (3.1) + union bound থেকে; চলমান উদাহরণে (\(\delta{=}0.05\)) \(\lvert\mathcal H\rvert{=}1000,n{=}100\to0.230\); \(n{=}1000\to0.073\); \(\lvert\mathcal H\rvert{=}10^6,n{=}1000\to0.094\) | 6.1 |
| Hoeffding inequality | independent bounded \(X_i\in[a_i,b_i]\): \(P(\lvert\bar X_n-\mathbb{E}\bar X_n\rvert\ge t)\le 2\exp(-2n^2t^2/\sum(b_i-a_i)^2)\) | 3.1 |
| Hoeffding's lemma | \(X\in[a,b],\mathbb{E}[X]=0\Rightarrow \mathbb{E}[e^{sX}]\le e^{s^2(b-a)^2/8}\); Hoeffding-প্রমাণের মূল ধাপ | 3.1 |
| holdout (held-out set) | data-র যে অংশ fit-এ ব্যবহার না করে আলাদা রেখে দেওয়া হয় শুধু error মাপতে; সরলতম validation-কৌশল (single holdout); CV হলো বহু-বার holdout ঘুরিয়ে গড় করা — single-split-এর ভাগ্য-নির্ভরতা কমায় | 5.8 |
| holdout test MSE | একটা স্বাধীন test-set-এ (একই process থেকে নতুন data) চূড়ান্ত মডেলের গড়-বর্গ-ভুল — generalization-এর সবচেয়ে সরাসরি, নিরপেক্ষ মাপ; চলমান উদাহরণে deg-\(3\) মডেলের \(9.71\approx\sigma^2=9\), যা CV (\(10.15\))-কে সৎ অনুমান হিসেবে যাচাই করে | 5.8 |
| homogeneity of variance | সব group-এ error-variance সমান (\(\sigma^2\) স্থির) — ANOVA-র মূল অনুমান (LINE-এর 'E'); ভাঙলে \(F\)-এর \(p\)-value বিকৃত (প্রতিকার: Welch ANOVA, transform) | 5.3 |
| homoscedastic conditional variance | \(\operatorname{Var}(X\mid Y{=}y)\) সব \(y\)-তে একই (সমভেদ) — normal-এ noise-পদ \(\sqrt{1-\rho^2}Z\) পুরোপুরি \(Y\)-স্বাধীন বলে; \(0.64\) ধ্রুব, \(y\)-নির্ভর নয় | 7.7 |
| homoscedasticity | সব \(x\)-এ error-variance সমান (LINE-এর 'E'); বিপরীত = heteroscedasticity | 5.1 |
| Hypergeometric distribution | without-replacement sampling-এ success-সংখ্যা; \(\binom{K}{k}\binom{N-K}{n-k}/\binom{N}{n}\) | 2.3 |
| hypothesis class (\(\mathcal H\)) | যে candidate ফাংশনগুলোর মধ্য থেকে learner একটি \(h\) বাছে তাদের সমষ্টি (যেমন সব degree-\(d\) polynomial, সব 2D-রেখা); \(\mathcal H\) বড় করা = capacity বাড়ানো; \(\mathcal H\) বাছা নিজেই একটি inductive bias | 6.1 |
| Hölder's inequality | \(\int\lvert fg\rvert\,d\mu\le\lVert f\rVert_p\lVert g\rVert_q\) (\(\tfrac1p+\tfrac1q=1\)); গুণফলকে দুই আলাদা norm-এ আবদ্ধ করে, Young থেকে উৎপাদিত | 7.5 |
| i.i.d. | independent and identically distributed — স্বাধীন ও অভিন্নভাবে বণ্টিত নমুনা | 2.7 |
| i.i.d. (independent and identically distributed) | একই distribution থেকে স্বাধীনভাবে আসা চলক \(X_1,\dots,X_n\); LLN/CLT-র মানক অনুমান | 3.3 |
| identically distributed | দুই RV \(X,Y\) "একই বণ্টনের" (\(X\stackrel{d}{=}Y\)) যদি \(P_X=P_Y\), সমতুল্যভাবে \(F_X=F_Y\); এতে একই \(\Omega\)-তে থাকা বা সমান হওয়া লাগে না — কেবল pushforward law মিলতে হয় | 7.3 |
| identity matrix | কর্ণে ১, বাকি ০; গুণের নিরপেক্ষ উপাদান \(I\) | 0.5 |
| iid (independent and identically distributed) | অনুক্রম \(X_1,X_2,\dots\) পরস্পর-স্বাধীন এবং সবার একই বণ্টন \(P_X\); SLLN ও CLT-র মূল কাঠামো | 7.6 |
| implication | \(P \Rightarrow Q\): "\(P\) হলে \(Q\)"; শুধু \(P\) সত্য–\(Q\) মিথ্যা হলে মিথ্যা | 0.1 |
| impossible event | empty set \(\varnothing\); probability \(0\) | 2.1 |
| improper integral | অসীম সীমার (বা অসীম মানের) integral, limit দিয়ে সংজ্ঞায়িত | 0.4 |
| imputation | missing ঘরে যুক্তিসঙ্গত মান (যেমন group-median) বসিয়ে পূরণ করা | 1.5 |
| inadmissibility of the MLE | Stein (1956)-এর মূল ফল: multivariate normal-এর মানে-estimate-এ usual MLE \(\hat\theta=X\) quadratic loss-এ inadmissible যখন \(p\ge3\) — পরিসংখ্যানের সবচেয়ে স্বাভাবিক estimator-টাও উচ্চ মাত্রায় সেরা নয় | 8.3 |
| inclusion–exclusion | বহু event-এর union-এর probability পর্যায়ক্রমে যোগ-বিয়োগ করে | 2.1 |
| increment | process-এর দুই সময়ের পার্থক্য \(X_t-X_s\); random walk ও Poisson/Brownian-এ এরা স্বাধীন (independent increments) | 3.5 |
| indefinite integral | সীমাহীন integral \(\int f\,dx = F+C\); ফল একটি function (antiderivative) | 0.4 |
| independence | \(P(A\cap B)=P(A)P(B)\); একটা অন্যটার সম্ভাবনা বদলায় না | 2.2 |
| independence & conditional expectation | \(X\perp\!\!\!\perp\mathcal G\Rightarrow\mathbb E[X\mid\mathcal G]=\mathbb E[X]\) a.s. — "যে তথ্য কিছু বলে না, শর্ত ধরা অর্থহীন"; প্রমাণে \(\mathbb E[X\mathbf 1_G]=\mathbb E[X]\mathbb P(G)\) (2.2-এর স্বাধীনতা) | 7.7 |
| independence (of events) | ঘটনা \(A,B\) স্বাধীন যদি \(\mathbb P(A\cap B)=\mathbb P(A)\,\mathbb P(B)\) — একটির ঘটা অন্যটির সম্ভাবনা বদলায় না; পরিসংখ্যানের সব iid-ভিত্তির নীরব অনুমান | 7.6 |
| independence (of random variables) | \(f_{X,Y}=f_X f_Y\); একটির মান জানলে অন্যটির distribution বদলায় না | 2.6 |
| independence of mean and variance | Normal population-এর বিশেষ ধর্ম: \(\bar X_n\perp S^2\); এই স্বাধীনতাই \(t_{n-1}\)-এর নির্মাণ সম্ভব করে | 4.1 |
| independence-product rule | \(X\perp Y\Rightarrow\varphi_{X+Y}(t)=\varphi_X(t)\,\varphi_Y(t)\) (7.6-এর factorization \(\mathbb E[e^{itX}e^{itY}]=\mathbb E[e^{itX}]\mathbb E[e^{itY}]\)); iid-তে \(\varphi_{S_n}=\varphi_{X_1}^{\,n}\) — convolution-কে গুণফলে রৈখিক করে, CLT-এর বীজ | 7.10 |
| independent increments | অ-overlapping সময়-ব্যবধানের increment-গুলো পরস্পর স্বাধীন; Poisson process ও Brownian motion-এর সংজ্ঞায়ক ধর্ম | 3.5 |
| independent random variables | \(X_1,\dots,X_n\) স্বাধীন যদি \(\sigma(X_i)\)-গুলো স্বাধীন \(\iff\) সব Borel \(B_i\)-তে \(\mathbb P(\bigcap_i\{X_i\in B_i\})=\prod_i\mathbb P(X_i\in B_i)\); স্বাধীন চলকের measurable ফাংশনও স্বাধীন | 7.6 |
| independent σ-algebras | sub-σ-algebra \(\mathcal F_1,\dots,\mathcal F_n\) স্বাধীন যদি যেকোনো \(A_i\in\mathcal F_i\) নির্বাচনে \(\mathbb P(\bigcap_i A_i)=\prod_i\mathbb P(A_i)\); স্বাধীনতার পূর্ণ-সাধারণ রূপ (তথ্যের অসংলগ্নতা) | 7.6 |
| index set | যে set থেকে \(t\) আসে; discrete-time হলে \(\{0,1,2,\dots\}\), continuous-time হলে \([0,\infty)\) — process discrete না continuous তা এটাই ঠিক করে | 3.5 |
| indicator function | \(\mathbf 1_A(x)\): \(x\in A\) হলে \(1\), নয়তো \(0\); set ও function-এর সেতু, এর Lebesgue integral \(\int\mathbf 1_A\,d\lambda=\lambda(A)\) | 7.1 |
| inductive bias | learner-এর পূর্ব-অনুমান যা অদেখা বিন্দুতে extrapolation সম্ভব করে (যেমন সরলতা/মসৃণতার prior, hypothesis class \(\mathcal H\) বাছা); no-free-lunch অনুযায়ী এটি ছাড়া শেখা অসম্ভব; ভালো শেখা = মানানসই bias বাছা | 6.1 |
| inductive hypothesis | induction-এ \(P(k)\) সত্য ধরে নেওয়ার ধাপ | 0.1 |
| inequality \(1-x\le e^{-x}\) | যেকোনো বাস্তব \(x\)-এ সত্য মৌলিক অসমতা; BC-II-তে গুণফল \(\prod(1-\mathbb P(A_n))\)-কে \(\exp(-\sum\mathbb P(A_n))\)-এ নামিয়ে অপসারী-যোগফলকে \(0\)-তে ফেলার চাবি | 7.6 |
| inertia / within-cluster SS | k-means-এর objective: \(W=\sum_{k}\sum_{i\in C_k}\lVert x_i-\mu_k\rVert^2\) — প্রতিটি বিন্দু তার cluster-centroid থেকে বর্গ-দূরত্বের যোগফল; ছোট \(W\) \(=\) আঁটসাঁট cluster; \(K\) বাড়ালে একঘেয়ে কমে (চরমে \(K=n\) হলে \(0\)), তাই সরাসরি minimize করে \(K\) বাছা যায় না — elbow লাগে; চলমান উদাহরণে \(k{=}3\to135.3\) | 5.9 |
| inference | sample থেকে population সম্পর্কে সিদ্ধান্ত/অনুমান টানার প্রক্রিয়া | 1.1 |
| inference problem | মূল ধাঁধা: হাতে শুধু একটা নমুনা, তা থেকে population-এর অজানা \(\theta\) অনুমান ও সেই অনুমানের অনিশ্চয়তা পরিমাপ | 4.1 |
| infinitely often | একটা ঘটনা \(n\) বাড়লেও বারবার (অসীমবার) ঘটে; typewriter-এ পথ থিতু না-হওয়ার কারণ | 3.2 |
| inflated type I error | ভুল null distribution ব্যবহারে প্রকৃত \(\alpha\) প্রতিশ্রুতের চেয়ে বড় হওয়া; যেমন ছোট \(n\) ও \(\sigma\) অজানা হলে z ব্যবহার (§৭ Q14) | 4.7 |
| inflection point | যেখানে curvature-এর চিহ্ন বদলায় | 0.3 |
| influence (of a point) | একটা পর্যবেক্ষণ estimate-কে কতটা টানে; jackknife-এ outlier বাদ দিলে \(\hat\theta_{(i)}\) সবচেয়ে লাফায় বলে চোখে দেখা যায় (Figure 3) | 4.9 |
| influential observation | যে বিন্দু বাদ দিলে fitted মডেল (\(\hat\beta\)) স্পষ্টভাবে বদলায়; high leverage ও বড় residual একত্রে — Cook's \(D\) দিয়ে ধরা হয় | 5.2 |
| information (σ-algebra as) | \(\sigma(X)\)-এর ব্যাখ্যা: "\(X\) পর্যবেক্ষণ করলে যেসব ঘটনার সত্য-মিথ্যা জানা যায়" তাদের পরিবার; \(X\equiv c\) দিলে \(\{\varnothing,\Omega\}\) (তথ্য শূন্য), injective \(X\) দিলে পুরো \(\mathcal F\) (সর্বোচ্চ তথ্য) — conditioning (7.7) ও filtration (7.8)-এর বীজ | 7.3 |
| information gain | একটা split-এর গুণমান \(\Delta=I_{\text{parent}}-\sum_{\text{child}}\frac{N_{\text{child}}}{N}I_{\text{child}}\) (impurity-হ্রাস, \(I\) = Gini বা entropy); tree সেই split বাছে যা \(\Delta\) সর্বোচ্চ করে। canonical (parent \(6\)A–\(4\)B): সেরা split-এ Gini-gain \(0.213\), IG \(0.42\) | 6.5 |
| informative prior | যথেষ্ট পূর্ব-জ্ঞান বহনকারী (non-flat) prior; posterior ও MAP-কে prior-mode-এর দিকে টানে (regularization-এর সমতুল্য) | 4.10 |
| initial distribution | \(\mu_0\) — chain শুরুর সময় states-এর উপর probability distribution (যেমন \([1,0]\) মানে নিশ্চিত Sunny থেকে শুরু); \(\mu_n=\mu_0 P^n\) | 3.6 |
| injective | one-to-one: ভিন্ন input → ভিন্ন output | 0.1 |
| inner product | \(\langle f,g\rangle=\int fg\,d\mu\); bilinear form যা \(\lVert f\rVert_2^2=\langle f,f\rangle\) দেয় এবং কোণ ও orthogonality সংজ্ঞায়িত করে | 7.5 |
| instance-based learning | কোনো global parameter "fit" না করে training-বিন্দু মনে রেখে নতুন \(x\)-এ স্থানীয় প্রতিবেশী দিয়ে সিদ্ধান্ত (memory-based, lazy, non-parametric); k-NN-ই প্রধান উদাহরণ; canonical \(0.896\) (\(k{=}5\)), \(0.911\) (\(k{=}15\)) | 6.3 |
| instrumental variable (IV) | treatment ও outcome-এর মধ্যে লুকানো confounder থাকলেও causal effect বের করার কৌশল: একটা \"instrument\" চলক যা কেবল treatment-এর মাধ্যমে outcome-কে প্রভাবিত করে; econometrics-এর কেন্দ্রীয় হাতিয়ার | 8.4 |
| integrable function | যে measurable \(f\)-এ \(\int\lvert f\rvert\,d\mu<\infty\); তখন \(\int f=\int f^+-\int f^-\) সুসংজ্ঞায়িত | 7.4 |
| integral | বক্ররেখার নিচের signed area / সঞ্চয় (accumulation) | 0.4 |
| integral of nonnegative measurable function | \(\int f\,d\mu=\sup\{\int s\,d\mu:\,0\le s\le f,\ s\ \text{simple}\}\); \(f\)-এর নিচে-আঁটা সব simple-এর integral-এর supremum | 7.4 |
| integrand | যে function-এর integral নেওয়া হচ্ছে | 0.4 |
| integration by parts | product rule-এর উল্টো কৌশল: \(\int u\,dv = uv - \int v\,du\) | 0.4 |
| interaction effect | এক factor-এর প্রভাব অন্য factor-এর level-ভেদে বদলায় কিনা; শূন্য হলে প্রভাব additive, নয়তো synergy/antagonism — interaction plot বা cell-mean পার্থক্যে ধরা | 5.3 |
| interarrival time | পরপর দুই event-এর মধ্যকার সময় \(\tau_k\); Poisson process-এ iid \(\text{Exp}(\lambda)\), mean \(1/\lambda\) (memoryless) | 3.5 |
| intercept | \(x=0\)-এ রেখার মান, \(\beta_0\) | 5.1 |
| interchange of limit and integral | \(\lim_n\int f_n=\int\lim_n f_n\) কখন বৈধ — সেই কেন্দ্রীয় প্রশ্ন; MCT, Fatou (অসমতা), DCT উত্তর দেয় | 7.4 |
| intersection | \(A \cap B\): যা দুটোতেই আছে | 0.1 |
| intraclass correlation (ICC) | মোট variance-এর কত অংশ গোষ্ঠী-ভেদ থেকে: \(\rho=\dfrac{\sigma_u^2}{\sigma_u^2+\sigma_\varepsilon^2}\); সমার্থকভাবে একই গোষ্ঠীর দুই সদস্যের outcome-correlation; উদাহরণে \(37.64/(37.64+63.69)=0.371\) (\(\sim37\%\) স্কুল-ভেদ) | 5.6 |
| intrinsic vs ambient dimension | ambient dimension \(D\) = data যে space-এ প্রকাশিত (swiss roll-এ \(3\)); intrinsic dimension \(d\) = manifold-এর প্রকৃত স্বাধীনতা/মাত্রা (\(2\), চাদরের দৈর্ঘ্য+প্রস্থ)। dimensionality reduction-এর লক্ষ্য \(D\) থেকে \(d\)-তে নামা গঠন রেখে | 6.8 |
| invariance property (equivariance) | যেকোনো ফাংশন \(g\)-এর জন্য \(\widehat{g(\theta)}_{\text{MLE}}=g(\hat\theta_{\text{MLE}})\) — রূপান্তরিত প্যারামিটারের MLE পেতে শুধু MLE-টা \(g\)-তে বসানো (যেমন \(\hat\tau=1/\hat\lambda=\bar X\)); নতুন optimization লাগে না | 4.3 |
| inverse | \(AA^{-1}=I\) মানানসই matrix; matrix-এর "ভাগ" | 0.5 |
| inverse function | \(f^{-1}\): output থেকে ফিরে input; কেবল bijective-এর জন্য | 0.1 |
| inverse transform sampling | \(X=F_X^{-1}(U)\), \(U\sim\text{Uniform}(0,1)\) দিয়ে যেকোনো distribution থেকে নমুনা তৈরি | 2.7 |
| inverse-CDF method | Uniform(0,1)-কে \(F^{-1}\)-এ পাঠিয়ে যেকোনো distribution simulate করা | 2.4 |
| inversion formula | ঘনত্ব integrable হলে \(f_X(x)=\frac{1}{2\pi}\int_{-\infty}^\infty e^{-itx}\varphi_X(t)\,dt\) — \(\varphi\) থেকে density পুনরুদ্ধার; uniqueness-কে গঠনমূলক (constructive) করে | 7.10 |
| IQR | interquartile range = Q3 − Q1; মাঝের ৫০%-এর spread (robust) | 1.2 |
| IQR fence | outlier শনাক্তের robust নিয়ম: \([Q_1-1.5\,\mathrm{IQR},\ Q_3+1.5\,\mathrm{IQR}]\) | 1.5 |
| IRLS (iteratively reweighted least squares) | logistic-MLE-র Newton–Raphson সমাধান, প্রতিধাপে weight \(w_i=p_i(1-p_i)\)-সহ WLS-solve; closed form না-থাকায় ব্যবহৃত | 5.4 |
| irreducible | যে chain-এ যেকোনো state থেকে (কয়েক ধাপে) অন্য যেকোনো state-এ পৌঁছানো যায়; অনন্য stationary distribution থাকার শর্ত | 3.6 |
| irreducible error | model যত ভালোই হোক যে ভুল কখনো সরে না—noise-এর নিজস্ব ভেদ \(\sigma^2\); bias–variance ভাঙনের তৃতীয় পদ, total error-এর একটা মেঝে (E3-তে \(\sigma=0.7\), তাই \(\sigma^2=0.4900\)) | 8.2 |
| irreducible error (\(\sigma^2\)) | noise-variance \(\operatorname{Var}(\varepsilon)\); যেকোনো model যত ভালোই হোক test error-এর এই অংশ কমানো যায় না (best-case floor); চলমান উদাহরণে \(\sigma^2=9\), আর সঠিক-specified deg-\(3\) মডেলের test MSE \(9.71\approx\sigma^2\) এই floor-কে স্পর্শ করে | 5.8 |
| Isolation Forest | isolation-ভিত্তিক anomaly detector (৬.৫-এর tree/ensemble সম্প্রসারণ): random feature + random split দিয়ে গাছ বানিয়ে path length \(h(x)\) মাপে; anomaly বিরল/বিচ্ছিন্ন বলে কম split-এ আলাদা হয় (ছোট \(h\), score \(s\to1\)); canonical AUC \(1.000\), ৫% precision/recall \(1.00\) | 6.9 |
| Isomap | manifold learning পদ্ধতি = geodesic দূরত্বের উপর MDS: kNN neighbor graph বানিয়ে graph-shortest-path দিয়ে geodesic \(d_G\) আনুমান, তারপর সেই \(d_G\)-matrix-এ MDS; swiss roll-কে সঠিকভাবে "মেলে ধরে"। canonical \(T=1.000,\ \lvert\text{corr}\rvert=1.000\) (নিখুঁত); বিপদ — বড় \(k\)-তে শর্টকাট-edge geodesic ভাঙে | 6.8 |
| iterated integral | double integral-কে একবারে এক variable হিসেবে গণনা | 0.4 |
| jackknife | নির্ধারক (deterministic) resampling: একটা একটা করে বিন্দু বাদ দিয়ে \(n\)টা leave-one-out estimate; SE ও bias আঁচ করে; bootstrap-এর পূর্বসূরি (Figure 3, §৭ Q4) | 4.9 |
| jackknife bias | bias\(_{\text{jack}}=(n-1)(\bar\theta_{(\cdot)}-\hat\theta)\); গড়ের মতো linear statistic-এ \(0\), nonlinear statistic-এ শূন্য নয় ও সংশোধনযোগ্য (Figure 3, §৭ Q7, Q13) | 4.9 |
| jackknife standard error | \(\widehat{\mathrm{se}}_{\text{jack}}=\sqrt{\frac{n-1}{n}\sum_i(\hat\theta_{(i)}-\bar\theta_{(\cdot)})^2}\); গড়ের ক্ষেত্রে ঠিক \(s/\sqrt n\) (Figure 3, §৭ Q9) | 4.9 |
| Jacobian | \(\lvert dx/dy\rvert\) — রূপান্তরে অক্ষ কতটা টানে/চাপে তার পরিমাপ; density-তে গুণফল হিসেবে আসে | 2.7 |
| James–Stein estimator | \(\hat\theta^{JS}=\big(1-\frac{p-2}{\lVert X\rVert^2}\big)X\) — একটা scalar shrinkage factor দিয়ে পুরো observation-vector \(X\)-কে কেন্দ্র ০-র দিকে টানে; \(p\ge3\)-তে MLE-কে dominate করে (কম total risk); shrinkage estimation-এর জন্মদাতা (James & Stein 1961) | 8.3 |
| James–Stein risk identity | \(\mathbb E\lVert\hat\theta^{JS}-\theta\rVert^2=p-(p-2)^2\,\mathbb E\frac{1}{\lVert X\rVert^2}\le p\) (SURE থেকে); সমতা কেবল \(\lVert\theta\rVert\to\infty\)-এ; \(\theta=0\)-তে \(\lVert X\rVert^2\sim\chi^2_p\) দিয়ে \(R_{JS}(0)=p-(p-2)=2\) (সব \(p\ge3\)) | 8.3 |
| Jensen gap | \(\mathbb{E}[g(X)]-g(\mathbb{E}[X])\ge0\); convexity-জনিত ব্যবধান (\(g=x^2\)-এ \(=\mathrm{Var}(X)\)) | 3.1 |
| Jensen's inequality | \(g\) convex হলে \(g(\mathbb{E}[X])\le\mathbb{E}[g(X)]\); concave হলে দিক উল্টো | 3.1 |
| joint density | দুটি random variable-এর যৌথ density \(f(x,y)\); probability = double integral | 0.4 |
| joint distribution | দুই বা ততোধিক random variable-এর একসাথের বণ্টন, \(p_{X,Y}\) বা \(f_{X,Y}\) | 2.6 |
| joint PDF | continuous variable-দের যৌথ density; probability = density surface-এর নিচের volume (double integral) | 2.6 |
| joint PMF | discrete variable-দের যৌথ probability mass function, \(p_{X,Y}(x,y)=P(X=x,Y=y)\) | 2.6 |
| Jupyter | cell-by-cell interactive Python চালানোর notebook পরিবেশ | 0.6 |
| K-fold cross-validation | data এলোমেলোভাবে \(K\)টা প্রায়-সমান fold-এ ভাগ; পালাক্রমে এক fold held-out, বাকি \(K-1\) fold-এ fit; \(\text{CV}_{(K)}=\frac1K\sum_k\text{MSE}_k\); মোট \(K\)টা fit, প্রতি বিন্দু ঠিক একবার validation; চলমান উদাহরণে 10-fold CV U-আকার, min \(d{=}3\to10.15\) | 5.8 |
| k-means | cluster-সংখ্যা \(K\) স্থির রেখে inertia (within-cluster SS) সর্বনিম্নকারী partition খোঁজার algorithm; প্রতিটি cluster তার centroid দিয়ে প্রতিনিধিত্ব করে, বিন্দু নিকটতম centroid-এ যায়; Lloyd-এর iteration দিয়ে সমাধান; \(K\) আগে দিতে হয়, multiple restart লাগে; চলমান উদাহরণে \(k{=}3\)-এ ARI \(0.990\) | 5.9 |
| k-means as hard EM | k-means (৫.৯) = GMM-এর বিশেষ সীমা: সব \(\Sigma_k=\sigma^2 I\) (সমান-গোলকীয়) + hard assignment (\(\gamma_{ik}\in\{0,1\}\)); তখন M-step-এর \(\mu_k\)-update centroid-update-এ পরিণত হয়। তাই k-means hard/spherical, GMM soft/elliptical — canonical ARI: GMM \(0.97\) > k-means \(0.914\) | 6.7 |
| k-means++ initialization | k-means-এর প্রারম্ভিক centroid বাছার স্মার্ট কৌশল: প্রথম centroid এলোমেলো, পরেরগুলো বিদ্যমান centroid থেকে দূরত্ব-সমানুপাতিক সম্ভাবনায় বাছা — ফলে centroid-গুলো ছড়িয়ে বসে, কম restart-এই ভালো ও স্থিতিশীল ফল; non-convex objective-এর খারাপ local-min এড়াতে সাহায্য করে | 5.9 |
| k-nearest neighbors (k-NN) | instance-based classifier — নতুন \(x\)-এর নিকটতম \(k\) প্রতিবেশীর সংখ্যাগরিষ্ঠ ভোটে শ্রেণি; \(k\) একটি capacity-knob: ছোট \(k\) low-bias/high-variance (wiggly, \(k{=}1\to0.859\)), বড় \(k\) মসৃণ/বেশি-bias; canonical best \(k{=}15\) (\(0.911\)) | 6.3 |
| KDE | kernel density estimate; data-বিন্দুতে মসৃণ kernel বসিয়ে পাওয়া density-curve | 1.3 |
| kernel | KDE-তে প্রতিটি বিন্দুর উপর বসানো মসৃণ ফাংশন (সাধারণত Gaussian) | 1.3 |
| kernel function | একটা প্রতিসম, \(0\)-কেন্দ্রিক weight-ফাংশন \(K(u)\) যা দূরত্ব-অনুযায়ী weight দেয়; উদাহরণ: Gaussian \(K(u)=e^{-u^2/2}\) (মসৃণ, infinite support), box \(K(u)=\tfrac12\mathbb 1\{\lvert u\rvert\le1\}\) (সমান-weight window); \(K_h(\cdot)=\tfrac1h K(\cdot/h)\) | 5.7 |
| kernel PCA | ৬.৪-এর kernel trick + ৫.৯-এর PCA: feature-map \(\phi\) সরাসরি না হিসেব করে centered kernel \(\tilde K=HKH\)-এর eigen-decomposition করে অরৈখিক feature-space-এ principal component খোঁজে; linear kernel-এ এটা হুবহু সাধারণ PCA। canonical(rbf): \(T=0.898,\ \lvert\text{corr}\rvert=0.228\) (swiss roll-এ দুর্বল) | 6.8 |
| kernel regression | প্রতিটা query বিন্দুর চারপাশে kernel-weight দিয়ে স্থানীয় fit করে \(f\) অনুমান; কাছের বিন্দু বেশি, দূরের কম weight পায়; bandwidth \(h\) নিয়ন্ত্রক প্যারামিটার | 5.7 |
| kernel trick | dual-এ data কেবল inner product হিসেবে আসে বলে যেকোনো \(x_i^\top x_j\)-কে একটি kernel \(K(x_i,x_j)=\phi(x_i)^\top\phi(x_j)\) দিয়ে প্রতিস্থাপন করে — feature map \(\phi\) স্পষ্টভাবে গণনা না করেই উচ্চ-(এমনকি অসীম-)মাত্রিক feature-space-এ linear boundary বসানোর কৌশল; এতেই nonlinear decision boundary সম্ভব | 6.4 |
| KL divergence (t-SNE cost) | t-SNE-র খরচ \(\mathrm{KL}(P\Vert Q)=\sum_{i\ne j}p_{ij}\log\frac{p_{ij}}{q_{ij}}\ge0\) — high-D ও low-D প্রতিবেশ-বণ্টনের অমিল; অপ্রতিসম বলে \(p_{ij}\) বড়/\(q_{ij}\) ছোট-এ বড় penalty, তাই কাছের জোড়া রক্ষায় পক্ষপাতী (local-strong, global অনির্ভরযোগ্য) | 6.8 |
| knot | যেখানে spline-এর টুকরো-polynomial-গুলো জোড়া লাগে; knot-সংখ্যা ও অবস্থান নমনীয়তা (effective df) নিয়ন্ত্রণ করে — বেশি knot ⇒ বেশি নমনীয় ও বেশি variance; প্রান্তে cubic spline knot-হীন অংশে বুনো হতে পারে | 5.7 |
| Kolmogorov 0–1 law | \((X_n)\) স্বাধীন \(\Rightarrow\) প্রতিটি tail event-এর \(\mathbb P(A)\in\{0,1\}\), প্রতিটি tail RV a.s. ধ্রুবক; হৃৎপিণ্ড \(\mathcal T\perp\mathcal T\Rightarrow\mathbb P(A)=\mathbb P(A)^2\) | 7.6 |
| Kolmogorov axioms | probability-র তিন স্বতঃসিদ্ধ: non-negativity, normalization, countable additivity | 2.1 |
| Kolmogorov maximal inequality | স্বাধীন, শূন্য-গড়, \(S_k=\sum_{i\le k}X_i\)-এ \(\mathbb P(\max_{1\le k\le n}\lvert S_k\rvert\ge t)\le\operatorname{Var}(S_n)/t^2\); Chebyshev-এর পথ-সংস্করণ (Doob maximal-এর বিশেষ রূপ) | 7.6 |
| Kolmogorov three-series theorem | স্বাধীন \((X_n)\)-এ \(\sum_n X_n\) a.s. অভিসৃত \(\iff\) তিনটি কর্তিত-ধারা (\(\sum\mathbb P(\lvert X_n\rvert>c)\), \(\sum\mathbb E[X_n^c]\), \(\sum\operatorname{Var}(X_n^c)\)) সবই অভিসৃত; স্বাধীন-যোগফল-অভিসারিতার পূর্ণ মানদণ্ড | 7.6 |
| Kullback–Leibler divergence (KL) | দুই distribution-এর "দূরত্ব" \(\mathrm{KL}(q\Vert p)=\mathbb E_q[\log\frac{q}{p}]\ge0\) (Jensen/Gibbs, \(0\) ⟺ \(q=p\)); EM-এ \(\log p(x)=\text{ELBO}+\mathrm{KL}\) — E-step \(q=p(z\mid x)\) নিয়ে \(\mathrm{KL}=0\) করে bound tight করে | 6.7 |
| kurtosis | লেজ-ভার ও চূড়া-গুরুত্ব; চতুর্থ standardized moment g₂ (normal=3) | 1.3 |
| L1 penalty | \(\lambda\lVert\beta\rVert_1=\lambda\sum_j\lvert\beta_j\rvert\) — lasso-এর penalty; \(\beta_j=0\)-এ non-differentiable (কোণা), তাই অনেক coefficient ঠিক \(0\)-তে ঠেলে দেয় ⇒ sparsity | 6.2 |
| L1 vs L2 geometry (diamond vs ball) | constraint-form-এ \(L_1\)-region একটি diamond (অক্ষ-সংলগ্ন তীক্ষ্ণ কোণা) আর \(L_2\)-region মসৃণ ball; RSS-contour \(L_1\)-কোণায় ছুঁয়ে কিছু coefficient ঠিক \(0\) করে (sparsity), \(L_2\)-ball-এ generic বিন্দুতে ছুঁয়ে সব coefficient nonzero রাখে | 6.2 |
| L2 penalty | \(\lambda\lVert\beta\rVert_2^2=\lambda\sum_j\beta_j^2\) — ridge-এর penalty; মসৃণ (differentiable), সব coefficient proportionally shrink করে (orthonormal-এ factor \(\frac1{1+\lambda}\)), sparsity দেয় না | 6.2 |
| \(L^1\) space | সব integrable ফাংশনের সংগ্রহ \(L^1(\mu)=\{f:\int\lvert f\rvert\,d\mu<\infty\}\); integral-এর স্বাভাবিক আবাসস্থল | 7.4 |
| \(L^1\)-bounded martingale | যে martingale-এ \(\sup_n\mathbb E\lvert X_n\rvert<\infty\); convergence theorem-এর একমাত্র অনুমান — a.s.-সীমার অস্তিত্ব নিশ্চিত করে (কিন্তু \(L^1\)-অভিসরণ নয়) | 7.9 |
| \(L^2\) projection (conditional expectation as) | \(X\in L^2\) হলে \(\mathbb E[X\mid\mathcal G]\) ঠিক \(X\)-এর orthogonal projection \(L^2(\mathcal G)\)-তে; residual \(X-\mathbb E[X\mid\mathcal G]\perp L^2(\mathcal G)\) (7.5-এর projection theorem) | 7.7 |
| \(L^2\) space | square-integrable ফাংশনের space \(\{f:\int\lvert f\rvert^2\,d\mu<\infty\}\); একমাত্র \(L^p\) যা inner product বহন করে, তাই Hilbert space | 7.5 |
| \(L^2\)-bounded martingale | \(\sup_n\mathbb E[X_n^2]<\infty\) বিশিষ্ট martingale; increment \(d_k=X_k-X_{k-1}\) পরস্পর-orthogonal, \(\mathbb E[X_n^2]=\mathbb E[X_0^2]+\sum_k\mathbb E[d_k^2]\), আর \(L^2\)-boundedness \(\iff\sum_k\mathbb E[d_k^2]<\infty\) ⇒ a.s. ও \(L^2\)-অভিসরণ | 7.9 |
| \(L^\infty\) space / essential supremum | \(\lVert f\rVert_\infty=\operatorname{ess\,sup}\lvert f\rvert=\inf\{M\ge0:\lvert f\rvert\le M\ \text{a.e.}\}\); null set উপেক্ষা করে "সর্বোচ্চ মান", essentially bounded ফাংশনের space | 7.5 |
| \(L^p\) inclusion (finite measure) | probability/finite measure-এ \(p\ge q\Rightarrow L^p\subseteq L^q\) (norm monotone); তাই finite variance (\(L^2\)) থাকলে finite mean (\(L^1\)) আপনিই, উল্টোটা নয় | 7.5 |
| \(L^p\) norm | \(\lVert f\rVert_p=(\int\lvert f\rvert^p\,d\mu)^{1/p}\) (\(1\le p<\infty\)); একটি ফাংশনের "দৈর্ঘ্য/আকার", probability measure-এ \(p\)-এর সাথে monotone বাড়ে | 7.5 |
| \(L^p\) space | যে measurable ফাংশনদের \(\lVert f\rVert_p<\infty\) তাদের (a.e.-শ্রেণির) space \(L^p(\mu)=\{f:\int\lvert f\rvert^p\,d\mu<\infty\}\); integrable ফাংশনের জ্যামিতিক মঞ্চ, \(p=1\) ফেরায় \(L^1\) | 7.5 |
| \(L^p\)-contraction | \(\lVert\mathbb E[X\mid\mathcal G]\rVert_p\le\lVert X\rVert_p\) (\(1\le p\le\infty\)) — conditioning কখনো \(L^p\)-norm বাড়ায় না (averaging মসৃণ করে); conditional Jensen-এর সরাসরি ফল | 7.7 |
| label propagation | graph-ভিত্তিক semi-supervised: বিন্দু = node, similarity-edge \(w_{ij}\), জানা label edge বরাবর ছড়িয়ে (diffusion) অজানা পূরণ; হার্ড clamping (জানা label স্থির), unnormalized Laplacian; কার্যত \(f^\top L f\) (label-অমসৃণতা) ছোট করে | 6.9 |
| label spreading | label propagation-এর রূপ: normalized Laplacian \(\mathcal L=D^{-1/2}LD^{-1/2}\) + soft clamping (\(\alpha\) দিয়ে জানা label সামান্য বদলাতে দেয়), তাই label-noise-এ বেশি robust; canonical accuracy \(0.989\) (labeled-only \(0.833\) থেকে লাফ) | 6.9 |
| Lagrangian dual | primal SVM-কে Lagrange-multiplier (\(\alpha_i\)) দিয়ে রূপান্তরিত দ্বৈত সমস্যা, যেখানে data কেবল inner product \(x_i^\top x_j\) আকারে আসে; KKT complementary slackness থেকে কেবল support vector-এর \(\alpha_i>0\); এই গঠনই kernel-trick সম্ভব করে (০.৩-এর Lagrange/KKT-এর প্রয়োগ) | 6.4 |
| \(\lambda\)-system (Dynkin system) | \(\Omega\) ধারণকারী, proper-difference-বদ্ধ (\(A\subseteq B\Rightarrow B\setminus A\)) ও বর্ধমান-গণনাযোগ্য-union-বদ্ধ পরিবার; \(\sigma\)-algebra-র চেয়ে দুর্বল, Dynkin উপপাদ্যের সেতু | 7.2 |
| lasso | Least Absolute Shrinkage and Selection Operator — \(\min_\beta\lVert y-X\beta\rVert_2^2+\lambda\lVert\beta\rVert_1\); ছোট coefficient ঠিক \(0\) করে ⇒ sparse feature selection; orthonormal-এ সমাধান soft-threshold; canonical \(\lambda^\*{\approx}0.042\), MSE \(\mathbf{1.843}\), \(17\) nonzero | 6.2 |
| latent variable | model-এ থাকা কিন্তু data-তে অদৃশ্য (লুকানো) চলক — GMM-এ component-label \(z_i\) (কোন Gaussian থেকে \(x_i\) এল); \(z_i\) অজানা বলেই data incomplete ও MLE কঠিন (component ও parameter পরস্পর-নির্ভর) | 6.7 |
| law / distribution of \(X\) | \(X\)-এর বণ্টন = তার pushforward measure \(P_X\) on \((\mathbb R,\mathcal B)\); "বণ্টন" বলতে আনুষ্ঠানিকভাবে এই measure-ই বোঝায় (pmf/pdf তার বিশেষ রূপ)। উদাহরণ \(X\sim U(-1,1),Y=X^2\): density \(\dfrac{1}{2\sqrt y}\), \(\mathbb E[Y]=\tfrac13\) | 7.3 |
| Law of Large Numbers (LLN) | iid নমুনার sample mean \(\bar X_n\) true mean \(\mu\)-তে থিতু হওয়ার উপপাদ্য (\(n\to\infty\)); "averaging কাজ করে কেন"-র ভিত্তি | 3.3 |
| law of total expectation | \(\mathbb{E}[Y]=\mathbb{E}[\mathbb{E}[Y\mid X]]\); গোষ্ঠী-গড়ের গড় = সামগ্রিক গড় (tower rule) | 2.6 |
| law of total probability | \(P(A)=\sum_i P(A\mid B_i)P(B_i)\) partition-এর ওপর | 2.2 |
| law of total variance | \(\operatorname{Var}(Y)=\mathbb{E}[\operatorname{Var}(Y\mid X)]+\operatorname{Var}(\mathbb{E}[Y\mid X])\); within + between | 2.6 |
| leaf (terminal node) | tree-এর শেষ node যা আর split হয় না; এতে পড়া সব বিন্দু একটাই prediction পায় — majority class (0–1 loss-minimizer) বা response-গড় (squared-loss-minimizer) | 6.5 |
| learner weight (alpha) | AdaBoost-এ weak learner \(h_t\)-এর final-vote ওজন \(\alpha_t=\tfrac12\log\frac{1-\varepsilon_t}{\varepsilon_t}\) (natural log); ভালো learner (\(\varepsilon\) ছোট) ⇒ বড় \(\alpha\); \(\varepsilon=0.5\Rightarrow\alpha=0\) (তথ্যহীন), \(\varepsilon>0.5\Rightarrow\alpha<0\) (ভোট উল্টে)। canonical: \(\varepsilon{=}0.3\to0.4236\), \(\varepsilon{=}0.1\to1.0986\) | 6.6 |
| learning curve | train ও validation/CV error-কে training-set-আকার \(n\)-এর সাপেক্ষে আঁকা curve; high-bias (দুটো error উঁচুতে মিলে যায়) বনাম high-variance (বড় gap) চিহ্নিত করে, এবং আরও data সাহায্য করবে কিনা বোঝায় — model-পর্যাপ্ততা নির্ণয়ের diagnostic | 5.8 |
| learning rate | gradient descent-এর প্রতি ধাপের আকার (\(\eta\)) | 0.3 |
| learning rate / shrinkage | gradient boosting-এর আপডেট \(F_t=F_{t-1}+\nu h_t\)-এ step size \(\nu\in(0,1]\); প্রতিটি গাছের অবদান সংকুচিত করে regularizer-এর মতো কাজ করে (ছোট \(\nu\) + বড় \(T\) ভালো generalize)। canonical sweep (\(n{=}200\)): \(0.01\to0.794\) (underfit), \(0.1\to0.850\), \(1.0\to0.878\) — \(\nu\) ও \(T\) যৌথভাবে tune | 6.6 |
| leave-one-out CV (LOOCV) | \(K=n\) ক্ষেত্র: \(\text{CV}_{(n)}=\frac1n\sum_i(y_i-\hat f^{(-i)}(x_i))^2\), প্রতিটা বিন্দু একবার করে একা held-out; bias প্রায় শূন্য কিন্তু \(n\)টা fit প্রায় অভিন্ন ⇒ correlated ⇒ গড়ের variance বেশি; চলমান উদাহরণে min \(d{=}3\to10.18\) | 5.8 |
| leave-one-out estimate \(\hat\theta_{(i)}\) | \(i\)-তম বিন্দু বাদ দিয়ে হিসাব করা statistic; এদের ছড়ানো থেকে variance, গড় থেকে bias (Figure 3, §৭ Q7) | 4.9 |
| Lebesgue \(\sigma\)-algebra | Lebesgue-নির্মাণে যে Carathéodory-measurable set-রা গড়ে ওঠে — \(\mathcal B(\mathbb R)\)-এর কঠোর superset (\(\supsetneq\)), সব Lebesgue-null set ও তাদের subset ধারণ করে (complete) | 7.2 |
| Lebesgue decomposition | যেকোনো σ-finite \(\nu\)-কে \(\nu=\nu_{ac}+\nu_{sing}\)-এ ভাঙা যায় (\(\nu_{ac}\ll\mu\) density-অংশ, \(\nu_{sing}\perp\mu\) singular-অংশ); measure-এর "density + singular" বিশ্লেষণ | 7.5 |
| Lebesgue integral | range-কে (horizontal strip) ভেঙে "প্রতিটি মান কত measure-জুড়ে" তা যোগ করে integral; \(\mathbf 1_{\mathbb Q}\)-এ অনায়াসে \(\int_0^1\mathbf 1_{\mathbb Q}\,d\lambda=0\), পূর্ণ নির্মাণ 7.4-এ | 7.1 |
| Lebesgue measurable function | \((\mathbb R,\mathcal L)\)-এ (Lebesgue σ-algebra, \(\supseteq\mathcal B\)) measurable function — Borel function-এর চেয়ে উদার শ্রেণি; Borel-measurable হলে Lebesgue-measurable, উল্টোটা সর্বদা নয় | 7.3 |
| Lebesgue measure | \(\mathbb R\)-এর উপর প্রমিত measure \(\lambda\) যা interval-কে তার দৈর্ঘ্য দেয় (\(\lambda([a,b])=b-a\)), translation-invariant ও countably additive; outer measure থেকে Carathéodory-পদ্ধতিতে গড়া (7.2) | 7.1 |
| Lebesgue's criterion (Riemann-integrability) | bounded \(f:[a,b]\to\mathbb R\) Riemann-integrable \(\iff\) তার discontinuity-সেটের Lebesgue measure \(=0\); তখন দুই integral সমান | 7.4 |
| left-skewed | বাঁ দিকে লম্বা লেজ; সাধারণত mean < median | 1.3 |
| leptokurtic | normal-এর চেয়ে ভারী লেজ ও সূচালো চূড়া (excess kurtosis > 0) | 1.3 |
| leverage | \(h_{ii}=\) hat matrix \(H=X(X^\top X)^{-1}X^\top\)-এর \(i\)-তম কর্ণ-উপাদান; বিন্দুটি predictor-জায়গায় (\(x\)-অক্ষে) কত প্রান্তিক তা মাপে (\(y\)-নিরপেক্ষ), পরিসর \([0,1]\), গড় \(p/n\), থ্রেশহোল্ড \(2p/n\) | 5.2 |
| likelihood | hypothesis সত্য হলে data দেখার সম্ভাবনা \(P(A\mid B)\) | 2.2 |
| likelihood \(L(\theta)\) | নির্দিষ্ট \(\theta\)-তে observed data-র সম্ভাবনা, \(\theta\)-এর ফাংশন হিসেবে; \(L(\theta)=p(\text{data}\mid\theta)\) (4.3 থেকে; Figure 1-এ কমলা) | 4.10 |
| likelihood function | observed data fixed রেখে \(\theta\)-এর ফাংশন \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) — "এই data বিভিন্ন \(\theta\)-তে কতটা মানানসই"; probability নয়, তাই \(\theta\)-জুড়ে integral ১ হওয়ার দরকার নেই | 4.3 |
| likelihood ratio | \(P(A\mid H)/P(A\mid H^c)\); odds-রূপে সাক্ষ্যের শক্তি | 2.2 |
| likelihood ratio \(\Lambda\) | \(\frac{L(\theta_1)}{L(\theta_0)}\) — দুই hypothesis-এর অধীনে data-র আপেক্ষিক সম্ভাব্যতা; normal-এ \(\Lambda>k\iff\bar x>c\) (z-test) | 4.7 |
| likelihood ratio test (LRT) | \(H_0\) test যা \(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\theta_0)]\) ব্যবহার করে; \(\Lambda\) ছোট (statistic বড়) ⇒ \(H_0\)-র বিপক্ষে; Figure 1-এর উল্লম্ব ড্রপ | 4.8 |
| likelihood vs probability | একই \(f(x;\theta)\) দুই ভূমিকায়: \(\theta\) স্থির, \(x\) চলক → density (\(\int_x=1\)); \(x\) (data) স্থির, \(\theta\) চলক → likelihood (কোনো normalization-শর্ত নেই, শুধু argmax গুরুত্বপূর্ণ) | 4.3 |
| likelihood-ratio martingale | iid ডেটা \(Z_k\), density \(f\) (সত্য) বনাম \(g\): \(L_n=\prod_{k\le n}\frac{g(Z_k)}{f(Z_k)}\) হলো \(f\)-এর অধীনে martingale (\(\mathbb E_f[g(Z)/f(Z)]=1\)) — Wald-এর SPRT ও sequential testing-এর কেন্দ্র | 7.8 |
| likelihood-ratio test (GLM) | global fit-test \(G^2=D_0-D=2(\ell-\ell_0)\sim\chi^2_{\,\#\text{predictors}}\); এখানে \(G^2=129.78\) (\(df=2\)), \(p=6.5\times10^{-29}\) (৪.৭-এর LR framework) | 5.4 |
| liminf of events (eventually) | \(\liminf_n A_n=\bigcup_{N}\bigcap_{n\ge N}A_n=\{A_n\ \text{eventually}\}\) — "শেষমেশ সব যথেষ্ট-বড় \(n\)-এ ঘটে"; দ্বৈত \((\limsup A_n)^c=\liminf A_n^c\) | 7.6 |
| limit | কোনো বিন্দুর দিকে এগোলে function যে মানের দিকে যায় | 0.3 |
| limits of integration | integral-এর নিম্ন ও ঊর্ধ্ব সীমা (\(a\) ও \(b\)) | 0.4 |
| limsup of events (infinitely often, i.o.) | \(\limsup_n A_n=\bigcap_{N}\bigcup_{n\ge N}A_n=\{A_n\ \text{i.o.}\}\) — "অসীম-সংখ্যক \(A_n\) ঘটে" (\(\omega\) যত-বড় \(N\)-এর পরেও কোনো \(A_n\)-তে আছে) | 7.6 |
| Lindeberg condition (preview) | non-identically-distributed স্বাধীন যোগফলের CLT (Lindeberg–Feller)-এর শর্ত: প্রতিটি পদের আপেক্ষিক অবদান অসীম-ছোট (Lindeberg negligibility), যাতে যোগফলে কোনো একক পদ প্রাধান্য না পায় | 7.10 |
| LINE assumptions | OLS-এর চার অনুমান — Linearity, Independence, Normality, Equal variance | 5.1 |
| linear discriminant analysis (LDA) | generative classifier — সব শ্রেণিতে শেয়ার-করা একই covariance \(\Sigma\) ধরে; log-posterior-ratio-র quadratic পদ বাতিল হয়ে discriminant \(\delta_c(x)=x^\top\Sigma^{-1}\mu_c-\tfrac12\mu_c^\top\Sigma^{-1}\mu_c+\log\pi_c\) linear ⇒ hyperplane boundary; কম parameter (কম variance) কিন্তু শেয়ার-\(\Sigma\)-জনিত bias; canonical \(0.881\) | 6.3 |
| linear predictor | systematic component \(\eta_i=x_i^\top\beta\); সব GLM-এ অভিন্ন, link function একে mean-এর সাথে যুক্ত করে | 5.4 |
| linear probability model | binary \(y\)-তে সরাসরি OLS; ত্রুটিপূর্ণ — পূর্বাভাস \([0,1]\)-বহির্ভূত, heteroscedastic (\(\operatorname{Var}=p(1-p)\)), saturate করে না; তাই logistic ব্যবহৃত | 5.4 |
| linear regression | response-এর শর্তাধীন গড়কে predictor-দের রৈখিক সমাহার হিসেবে মডেল করা, \(\mathbb E[y\mid X]=X\beta\) | 5.1 |
| linear relationship | সরলরেখা বরাবর সম্পর্ক, যা Pearson \(r\) ধরে | 1.4 |
| linear smoother | যেকোনো smoother যেখানে fitted মান \(\hat{\mathbf f}=S\mathbf y\) একটা স্থির matrix \(S\) (smoother/hat matrix, \(\mathbf y\)-নিরপেক্ষ) দিয়ে \(\mathbf y\)-এর রৈখিক রূপান্তর; Nadaraya–Watson, regression/smoothing spline সবই linear smoother; effective df \(=\operatorname{tr}(S)\) | 5.7 |
| linear transformation | space-কে সরলরেখা-রক্ষাকারী ভাবে রূপান্তরকারী matrix-ফাংশন | 0.5 |
| linear-smoother LOOCV shortcut | linear smoother (\(\hat{\mathbf y}=S\mathbf y\))-এ মাত্র একবার fit-এই সব leave-one-out residual: \(\text{CV}_{(n)}=\frac1n\sum_i\big(\frac{y_i-\hat y_i}{1-S_{ii}}\big)^2\), \(S_{ii}\) = leverage; \(n\)টা re-fit-এর বদলে একটা fit \(+\) \(n\)টা ভাগ; high-leverage বিন্দুর error যথাযথভাবে বড় দেখায় | 5.8 |
| linearity of conditional expectation | \(\mathbb E[aX+bY\mid\mathcal G]=a\,\mathbb E[X\mid\mathcal G]+b\,\mathbb E[Y\mid\mathcal G]\) a.s. (\(X,Y\in L^1\)) — integral-এর রৈখিকতা (7.4) থেকে; pull-out/best-predictor প্রমাণে কর্মঘোড়া | 7.7 |
| linearity of expectation | \(\mathbb{E}[aX+bY+c]=a\mathbb{E}[X]+b\mathbb{E}[Y]+c\); independence লাগে না | 2.3 |
| linearity of integral | \(\int(af+bg)\,d\mu=a\int f\,d\mu+b\int g\,d\mu\); অঋণাত্মক স্তরে MCT + simple-additivity দিয়ে প্রমাণিত, পরে \(L^1\)-এ প্রসারিত | 7.4 |
| linearization | nonlinear function \(g\)-কে \(\mu\)-তে তার tangent (\(g(\mu)+g'(\mu)(x-\mu)\)) দিয়ে আনুমান করা; Delta method-এর হৃদয় | 3.4 |
| link function | GLM-এ mean ও linear predictor-কে যুক্ত করা function \(g(\text{mean})=\eta\); logistic-এ logit, OLS-এ identity, Poisson-এ log (৫.৫) | 5.4 |
| linkage | hierarchical clustering-এ "দুই cluster-এর দূরত্ব"-র সংজ্ঞা — single (নিকটতম জোড়া), complete (দূরতম), average (গড় জোড়া-দূরত্ব), Ward (merge-এ within-cluster SS-বৃদ্ধি সর্বনিম্ন); ভিন্ন linkage ভিন্ন আকারের cluster দেয়; Ward variance-objective বলে k-means-এর কাছাকাছি (গোলাকার, সমান-আকার cluster) | 5.9 |
| Lloyd's algorithm | k-means সমাধানের iterative পদ্ধতি: দুই ধাপ পালাক্রমে — assignment (centroid স্থির রেখে বিন্দু নিকটতম centroid-এ) ও update (assignment স্থির রেখে centroid \(=\) cluster-গড়); প্রতিটি ধাপ inertia কমায়-বা-সমান (§৭.১৫: গড়-ই within-SS minimizer) ⇒ অবশ্যই অভিসৃত, কিন্তু objective non-convex বলে শুধু local minimum-এ | 5.9 |
| local alternative | \(\theta_n=\theta_0+c/\sqrt n\) — \(H_0\)-র দিকে আসা ক্রম; তিন test-এর সমতা ও power বিশ্লেষণে ব্যবহৃত (Figure 4) | 4.8 |
| local maximum | আশেপাশের তুলনায় সর্বোচ্চ মান | 0.3 |
| local minimum | আশেপাশের তুলনায় সর্বনিম্ন মান | 0.3 |
| Local Outlier Factor (LOF) | density-ভিত্তিক anomaly detector: একটি বিন্দুর local density-কে তার প্রতিবেশীদের গড় density-র সঙ্গে তুলনা করে — \(\mathrm{LOF}\approx1\) inlier, \(\gg1\) outlier (প্রতিবেশীর তুলনায় বিরল), \(<1\) গুচ্ছ-কেন্দ্র; local বলে varying-density data-তে কাজ করে; canonical AUC \(1.000\) | 6.9 |
| local polynomial regression | Nadaraya–Watson-এর সম্প্রসারণ: প্রতিটা বিন্দুর চারপাশে স্থানীয়ভাবে (kernel-weighted) একটা polynomial fit করা (গড়/ধ্রুবক নয়); local-linear boundary-bias কমায়, তাই প্রান্তে NW-এর চেয়ে ভালো | 5.7 |
| locally linear embedding (LLE) | manifold learning পদ্ধতি: প্রতিটি বিন্দুকে প্রতিবেশীদের affine-যোগ (\(\sum_j w_{ij}=1\)) দিয়ে পুনর্গঠনের weight \(w_{ij}\) (translation/rotation-invariant) শিখে, সেই একই weight নিম্ন-মাত্রায় রক্ষা করে; শুধু local geometry আঠা (global geodesic ছাড়া)। canonical \(\lvert\text{corr}\rvert=0.998\) | 6.8 |
| location | data-র কেন্দ্র কোথায় তা নির্দেশক পরিমাপ (central tendency) | 1.2 |
| location-scale family | \(Y=aX+b\) আকারের রূপান্তর; \(b\) সরায় (location), \(a\) মাপ বদলায় (scale) | 2.7 |
| LOESS | locally estimated scatterplot smoothing — local polynomial regression-এর জনপ্রিয় ব্যবহারিক রূপ (সাধারণত local-linear/quadratic, nearest-neighbor span দিয়ে adaptive bandwidth); EDA-তে মসৃণ trend-curve আঁকতে বহুল-ব্যবহৃত | 5.7 |
| log link | Poisson GLM-এর canonical link \(g(\mu)=\log\mu=x^\top\beta\); দুটো সুবিধা — (i) positivity (\(\mu=e^{(\cdot)}>0\) সর্বদা), (ii) predictor-প্রভাব mean count-এ multiplicative (\(\mu=e^{\beta_0}\prod_j e^{\beta_j x_j}\)) | 5.5 |
| log-likelihood | data-র likelihood-এর logarithm; MLE-তে maximize করা হয় | 0.3 |
| log-likelihood curvature | log-likelihood-এর দ্বিতীয় অন্তরকলজ \(\ell''(\theta)\)-এর ঋণ; তীক্ষ্ণ চূড়া = বড় curvature = বেশি Fisher information (Figure 1) | 4.5 |
| log-likelihood surface | একাধিক প্যারামিটারে \(\ell\)-এর গ্রাফ — Normal\((\mu,\sigma^2)\)-এ একটা single-peak পাহাড়, শীর্ষ ঠিক \((\bar X,\hat\sigma^2)\)-তে; MLE = শীর্ষ (Figure 2) | 4.3 |
| log-odds | \(g(p)=\log\!\big(p/(1-p)\big)\); sample proportion-এ Delta method-এর ক্লাসিক প্রয়োগ, \(\operatorname{Var}\approx 1/(n\,p(1-p))\) | 3.4 |
| log-sum problem | mixture log-likelihood \(\sum_i\log\sum_k\pi_k\mathcal N_k\)-এ \(\log\)-এর ভেতরে যোগফল থাকায় \(\log\)–\(\exp\) বাতিল হয় না, derivative-সমীকরণ coupled/nonlinear — তাই একক Gaussian-এর মতো closed-form MLE নেই, EM লাগে | 6.7 |
| logistic regression | binary outcome (\(y\in\{0,1\}\))-এর জন্য GLM: log-odds-কে \(x^\top\beta\)-র রৈখিক ধরে MLE দিয়ে fit; পূর্বাভাস \(p=\sigma(x^\top\beta)\in(0,1)\) | 5.4 |
| logit link | GLM link \(g(p)=\operatorname{logit}(p)=\log\frac{p}{1-p}=\eta\); probability-কে \((-\infty,\infty)\)-তে টেনে আনে, Bernoulli-র canonical link | 5.4 |
| LOOCV bandwidth selection | leave-one-out cross-validation দিয়ে tuning parameter বাছা: প্রতিটা \(x_i\)-তে নিজেকে বাদ দিয়ে predict করে held-out error হিসাব, যে \(h\) তা minimize করে সেটিই বাছা; সত্য \(f\) ছাড়াই data-চালিত — চলমান উদাহরণে \(h\approx0.03\); পূর্ণ কাঠামো ৫.৮ | 5.7 |
| loss function (\(\ell\)) | একটি prediction কত "খারাপ" তা মাপে — \(\ell(h(x),y)\) (যেমন squared-error \((h(x)-y)^2\), 0–1 loss); risk ও empirical risk এর গড় থেকেই গঠিত | 6.1 |
| LOTUS | law of the unconscious statistician: \(\mathbb{E}[g(X)]=\sum g(x)p(x)\) বা \(\int g(x)f(x)dx\) | 2.5 |
| Lévy's 0–1 law | \(A\in\mathcal F_\infty\) হলে \(\mathbb P(A\mid\mathcal F_n)=\mathbb E[\mathbf 1_A\mid\mathcal F_n]\to\mathbf 1_A\) a.s. — শর্তাধীন সম্ভাবনা \(0\)/\(1\)-এ থিতু; Kolmogorov's 0–1 law-কেও পুনঃপ্রমাণ করে | 7.9 |
| Lévy's continuity theorem | \(X_n\Rightarrow X\iff\varphi_{X_n}(t)\to\varphi_X(t)\) প্রতিটি \(t\)-তে (সীমা-\(\varphi\) \(0\)-তে অবিচ্ছিন্ন ⇒ tight); কঠিন weak convergence-কে সহজ pointwise cf-অভিসরণে অনুবাদকারী সেতু, CLT-প্রমাণের মুকুট-যন্ত্র | 7.10 |
| Lévy's upward theorem | \(Y\in L^1\), \(\mathcal F_\infty=\sigma(\bigcup_n\mathcal F_n)\) হলে \(\mathbb E[Y\mid\mathcal F_n]\to\mathbb E[Y\mid\mathcal F_\infty]\) a.s. ও \(L^1\) — "তথ্য জমলে অনুমান চূড়ান্ত-তথ্যের অনুমানে থিতু"; closed-martingale তত্ত্বের সরাসরি ফল | 7.9 |
| MAD | median absolute deviation; median থেকে পরম দূরত্বের median (robust) | 1.2 |
| Mahalanobis distance | covariance-ভারিত দূরত্ব \((x-\mu_c)^\top\Sigma_c^{-1}(x-\mu_c)\); LDA/QDA discriminant-এর কেন্দ্রীয় পদ — শুধু কেন্দ্র থেকে দূরত্ব নয়, শ্রেণির আকার/ছড়ানোও হিসাবে নেয়; QDA-তে \(\log\lvert\Sigma_c\rvert\)-সহ ব্যবহৃত হয়ে বড়-spread শ্রেণিকে "শাস্তি" দেয় | 6.3 |
| main effect | একটি factor-এর গড় প্রভাব, অন্য factor-এর সব level জুড়ে averaged ("fertilizer পাল্টালে গড়ে ফলন কত বদলায়") | 5.3 |
| manifold | উচ্চ-মাত্রিক ambient space-এর ভেতরে বসে থাকা একটা মসৃণ, স্থানীয়ভাবে-সমতল নিম্ন-মাত্রিক উপরিতল (যেমন ৩D-তে পেঁচানো ২D চাদর = swiss roll); manifold-এর গায়ে চলতে যত স্বাধীন স্থানাঙ্ক লাগে তা-ই তার intrinsic dimension \(d\) | 6.8 |
| manifold assumption | semi-supervised অনুমান: data একটা নিম্ন-মাত্রিক বাঁকা manifold-এ বসে, label সেই manifold বরাবর মসৃণভাবে বদলায় (Euclidean-এ কাছে নয়, manifold-এ কাছে যা গুরুত্বপূর্ণ); ৬.৮-এর manifold/neighbor-graph চিন্তার সরাসরি প্রয়োগ | 6.9 |
| manifold hypothesis | দাবি: বাস্তব উচ্চ-মাত্রিক (\(D\)) data পূর্ণ \(\mathbb R^D\) জুড়ে ছড়ানো নয়, বরং একটা অনেক-কম-মাত্রিক (\(d\ll D\)) মসৃণ manifold-এর কাছাকাছি কেন্দ্রীভূত; এই অনুমানই nonlinear dimensionality reduction-কে অর্থপূর্ণ করে (swiss roll: \(D=3,\ d=2\)) | 6.8 |
| manifold learning | data একটা বাঁকা নিম্ন-মাত্রিক manifold-এ বসে — এই অনুমানে সেই manifold ও তার নিম্ন-মাত্রিক স্থানাঙ্ক শেখার unsupervised পদ্ধতির পরিবার (Isomap, LLE, t-SNE, Laplacian eigenmap প্রভৃতি); প্রতিবেশ-গঠনকে নিম্ন-মাত্রায় বহন করে | 6.8 |
| MAP estimate \(\hat\theta_{\text{MAP}}\) | \(\hat\theta_{\text{MAP}}=\arg\max_\theta p(\theta\mid\text{data})\) — posterior-এর শিখর (mode); flat prior-এ \(=\) MLE; informative prior = regularization (Figure 1: \(0.68\), §৭ Q4, Q11) | 4.10 |
| mapping notation | \(f:A\to B,\ x\mapsto f(x)\) লেখার রীতি | 0.1 |
| margin | দুই শ্রেণির মধ্যবর্তী "রাস্তার প্রস্থ" — canonical scale-এ geometric margin \(=2/\lVert w\rVert\); SVM এটি সর্বোচ্চ করে, যা \(\tfrac12\lVert w\rVert^2\) সর্বনিম্নকরণের সমতুল্য | 6.4 |
| margin of error | \(m=z_{\alpha/2}\,\mathrm{SE}\) — interval-এর কেন্দ্র থেকে প্রান্তের দূরত্ব (অনিশ্চয়তার ব্যাসার্ধ); CI \(=\hat\theta\pm m\) | 4.6 |
| marginal distribution | joint থেকে এক variable-এর ওপর যোগ/integrate করে পাওয়া একক distribution | 2.6 |
| marginal likelihood (evidence) | \(\int\pi(\theta)L(\theta)\,d\theta\) — Bayes' rule-এর হর (normalizing constant); \(\propto\) লেখায় সাধারণত বাদ দেওয়া হয় | 4.10 |
| Markov chain | states-এর উপর একটা random process \(X_0,X_1,\dots\) যেখানে পরের state-এর distribution শুধু এখনকার state-এর উপর নির্ভর করে; transition matrix \(P\) ও শুরুর distribution \(\mu_0\) দিয়ে সম্পূর্ণ বর্ণিত (E1 আবহাওয়া-chain) | 3.6 |
| Markov inequality | nonnegative \(X\), \(a>0\): \(P(X\ge a)\le\mathbb{E}[X]/a\); শুধু গড় থেকে tail-এর সর্বজনীন ছাদ | 3.1 |
| Markov property | "memorylessness": \(P(X_{n+1}=j\mid X_n=i,X_{n-1},\dots,X_0)=P(X_{n+1}=j\mid X_n=i)\) — ভবিষ্যৎ বর্তমানের উপর শর্তে অতীত থেকে স্বাধীন; অতীতের দরকারি সব তথ্য বর্তমান state-এ ধরা | 3.6 |
| martingale | integrable, adapted \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\) a.s. — "ন্যায্য খেলা" (আজ পর্যন্ত সব তথ্যে আগামীকালের সেরা পূর্বাভাস = আজকের মান); বায়াসহীন, কিন্তু নিশ্চল নয় | 7.8 |
| martingale convergence theorem | \(L^1\)-bounded (\(\sup_n\mathbb E\lvert X_n\rvert<\infty\)) submartingale/martingale a.s. একটা \(X_\infty\in L^1\)-এ অভিসারী; Doob's forward convergence theorem | 7.9 |
| martingale difference | increment \(D_n=X_n-X_{n-1}\) যেখানে \(\mathbb E[D_n\mid\mathcal F_{n-1}]=0\) — martingale-এর "ধাপ"; \(\mathbb E[X_n]=\mathbb E[X_0]\) ও martingale transform-এর মৌলিক উপাদান (SGD-র noise-অংশ) | 7.8 |
| martingale transform | \((H\cdot X)_n=\sum_{k\le n}H_k(X_k-X_{k-1})\), \(H\) predictable ও bounded — আবার একটা martingale; "predictable কোনো বাজি-কৌশল ন্যায্য খেলা হারাতে পারে না" (pull-out দিয়ে প্রমাণ) | 7.8 |
| mathematical induction | base case + inductive step দিয়ে সব \(n\)-এর জন্য প্রমাণ | 0.1 |
| matplotlib | Python-এর মূল plotting/গ্রাফ প্যাকেজ | 0.6 |
| matrix | সংখ্যার আয়তাকার ছক (\(m\times n\)) | 0.5 |
| matrix multiplication | দুই matrix-এর গুণ; প্রতি entry = row·column dot product | 0.5 |
| maximization step (M-step) | EM-এর দ্বিতীয় ধাপ — responsibility স্থির রেখে expected complete-data log-likelihood (\(Q\)) maximize: \(\pi_k=\frac1n\sum_i\gamma_{ik}\), \(\mu_k=\frac{\sum_i\gamma_{ik}x_i}{\sum_i\gamma_{ik}}\), \(\Sigma_k\) = weighted covariance; একটা responsibility-weighted Gaussian-MLE (৪.৩-এর সম্প্রসারণ) | 6.7 |
| maximum (order statistic) | \(X_{(n)}=\max_i X_i\); CDF \([F(x)]^n\) | 2.7 |
| maximum likelihood estimation (MLE) | estimation পদ্ধতি: যে প্যারামিটার-মান observed data-কে সবচেয়ে সম্ভাব্য করে, সেটাই বেছে নেওয়া — অর্থাৎ likelihood \(L(\theta)\) (বা log-likelihood) সর্বোচ্চ করা (Figure 1) | 4.3 |
| maximum likelihood estimator | \(\hat\theta_{\text{MLE}}=\arg\max_\theta L(\theta)=\arg\max_\theta\ell(\theta)\) — likelihood-কে সর্বোচ্চকারী প্যারামিটার-মান; E1: \(\bar X\), E3: \(1/\bar X\), E4: \(\max_i X_i\) | 4.3 |
| maximum margin classifier | যে hyperplane দুই শ্রেণির নিকটতম বিন্দু থেকে সম্ভাব্য সর্বোচ্চ লম্ব-দূরত্বে (widest "street") থাকে; অসংখ্য শূন্য-ভুল boundary-র মধ্যে সবচেয়ে স্থিতিশীলটা বাছাই ⇒ ভালো generalization; SVM-এর মূল ধারণা | 6.4 |
| MCAR | Missing Completely At Random; অনুপস্থিতি সম্পূর্ণ এলোমেলো, কোনো variable-এর সাথে যুক্ত নয় | 1.5 |
| McFadden pseudo-R² | \(R^2_{\text{McF}}=1-\ell/\ell_0\); null-এর তুলনায় log-likelihood-উন্নতির আপেক্ষিক পরিমাপ (variance-ব্যাখ্যা নয়), OLS-\(R^2\)-এর চেয়ে ছোট দেখায় (এখানে \(0.489\)) | 5.4 |
| MCMC | Markov Chain Monte Carlo — এমন Markov chain বানিয়ে নমুনা তোলা যার stationary distribution ঠিক কাঙ্ক্ষিত (প্রায়ই দুর্নিরূপণযোগ্য) target; chain-এর পথটাই নমুনা | 3.6 |
| MCMC (Markov chain Monte Carlo) | non-conjugate posterior থেকে নমুনা টানার পদ্ধতি (3.6); নমুনার histogram-ই আনুমানিক posterior, summaries নমুনার গড়/percentile (Figure 4, §৭ Q14) | 4.10 |
| mean | সব মানের গড় (যোগফল ÷ সংখ্যা); data-র ভারসাম্য বিন্দু | 1.2 |
| mean function | \(m(t)=\mathbb{E}[X_t]\); প্রতিটি সময়ে process-এর গড় স্তর — process-এর "কেন্দ্ররেখা" | 3.5 |
| mean lifetime (1/λ) | Exponential-এ গড় আয়ু \(\tau=1/\lambda\); invariance দিয়ে এর MLE \(\hat\tau=1/\hat\lambda=\bar X\) — কোনো নতুন গণনা ছাড়াই | 4.3 |
| mean square (MS) | \(\mathrm{MS}=\mathrm{SS}/df\) — degrees of freedom দিয়ে scale করা variation; \(\mathrm{MSB}=\mathrm{SSB}/(k-1)\), \(\mathrm{MSW}=\mathrm{SSW}/(n-k)\), প্রতিটি \(\sigma^2\)-এর estimate | 5.3 |
| mean squared error (MSE) | \(\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]\) — গড় বর্গ-ভুল; estimator-এর মান বিচারের চূড়ান্ত মাপকাঠি | 4.4 |
| mean-square convergence | \(L^p\) convergence-এর \(p=2\) রূপ; \(\mathbb{E}\lvert X_n-X\rvert^2\to 0\) (MSE \(\to 0\)) | 3.2 |
| measurable function (preview) | যে function \(f\)-এ প্রতিটি Borel set-এর preimage \(f^{-1}(B)\) measurable — random variable-এর সঠিক সংজ্ঞা, যা Lebesgue integral সম্ভব করে; নির্মাণ 7.3-এ | 7.1 |
| measurable map | চিত্রণ \(f:(\Omega,\mathcal F)\to(E,\mathcal E)\) যা measurable iff প্রতিটি target-set-এর preimage source-σ-algebra-তে থাকে: \(f^{-1}(B)\in\mathcal F\) সব \(B\in\mathcal E\)-র জন্য; এতেই "\(f\) সম্পর্কে তোলা প্রশ্নের উত্তর measurable" নিশ্চিত হয় | 7.3 |
| measurable set | যে set একটা প্রদত্ত \(\sigma\)-algebra \(\mathcal F\)-এর সদস্য (তাই measure পায়); Lebesgue-এ ঠিক Carathéodory-criterion-মানা set-রা — Vitali set যেমন non-measurable, তাই বাদ | 7.2 |
| measurable space | একটা জোড়া \((\Omega,\mathcal F)\) — নমুনাক্ষেত্র \(\Omega\) ও তার উপর একটা \(\sigma\)-algebra \(\mathcal F\); যেখানে measure বসানো যায়, কিন্তু এখনো বসানো হয়নি | 7.2 |
| measure | একটা set-কে "কত বড়" (দৈর্ঘ্য/ক্ষেত্রফল/probability) তা বরাদ্দ করা function \(\mu\); অশূন্যতা, \(\mu(\varnothing)=0\) ও countable additivity মেনে চলে — দৈর্ঘ্য-ধারণার সাধারণীকরণ | 7.1 |
| measure zero / null set | এমন set \(A\) যার outer measure \(0\): যেকোনো \(\varepsilon>0\)-এ মোট দৈর্ঘ্য \(\le\varepsilon\)-এ ঢাকা যায়; \(\mathbb Q\cap[0,1]\) ও Cantor set উদাহরণ — dense বা uncountable হয়েও null | 7.1 |
| median | sorted data-র মাঝের মান (৫০তম percentile); robust location | 1.2 |
| median (continuous) | \(F(m)=0.5\); দু'পাশে সমান area | 2.4 |
| memoryless property | স্মৃতিহীন ধর্ম — \(P(X>s+t\mid X>s)=P(X>t)\); Geometric-এর স্বাক্ষর | 2.3 |
| memorylessness | \(P(X>s+t\mid X>s)=P(X>t)\); অতীত ভবিষ্যৎ বদলায় না (শুধু Exponential) | 2.4 |
| Mercer's condition | একটি \(K\)-কে valid kernel হতে হলে symmetric এবং যেকোনো বিন্দু-সেটের gram matrix \(K_{ij}=K(x_i,x_j)\) positive semi-definite (PSD) হতে হবে; এটি \(K(x,x')=\phi(x)^\top\phi(x')\) রূপে কোনো feature map \(\phi\)-এর অস্তিত্ব নিশ্চিত করে (প্রয়োজনীয় ও যথেষ্ট শর্ত) | 6.4 |
| mesokurtic | normal-সদৃশ kurtosis (excess = 0) | 2.5 |
| method of moments (MoM) | estimation পদ্ধতি: population moment-এর তাত্ত্বিক সূত্রকে নমুনা-moment-এর সমান ধরে প্যারামিটারের জন্য সমাধান করা; \(p\) প্যারামিটারে প্রথম \(p\)টা moment মেলানো হয় (Figure 1) | 4.2 |
| method selection (manifold) | কোন nonlinear পদ্ধতি — geodesic/সঠিক global unrolling চাইলে Isomap (এই manifold-এ সেরা, \(T\) ও corr \(1.000\)); local-linear যথেষ্ট হলে LLE; কেবল visualization/cluster দেখতে t-SNE/UMAP (global দূরত্ব অবিশ্বাস্য); feature-space-সাধারণীকরণে kernel PCA; মন্ত্র — local ও global দুই-ই যাচাই | 6.8 |
| Metropolis algorithm | প্রতিসম proposal-সহ MCMC: \(x'\) প্রস্তাব করো, তারপর \(\min(1,f(x')/f(x))\) সম্ভাবনায় accept করো; detailed balance নিশ্চিত করে target-ই stationary | 3.6 |
| Metropolis–Hastings | Metropolis-এর সাধারণ রূপ (asymmetric proposal \(q\)): accept-probability \(\min\!\big(1,\frac{f(x')q(x\mid x')}{f(x)q(x'\mid x)}\big)\) — proposal-এর পক্ষপাত সংশোধন করে detailed balance রাখে | 3.6 |
| MGF uniqueness | একই MGF মানে একই distribution; distribution-এর fingerprint | 2.5 |
| minimax rate | একটা estimation-সমস্যার সর্বোত্তম-সম্ভব অভিসারণ-হার — সবচেয়ে-খারাপ-ক্ষেত্রে (worst-case) ঝুঁকি ন্যূনতমকারী estimator-এর হার, যার চেয়ে ভালো কোনো পদ্ধতি করতে পারে না; প্রায়ই তথ্য-তাত্ত্বিক (Fano/Le Cam) যুক্তিতে প্রমাণিত | 8.4 |
| minimum (order statistic) | \(X_{(1)}=\min_i X_i\); CDF \(1-[1-F(x)]^n\) | 2.7 |
| Minkowski's inequality | \(\lVert f+g\rVert_p\le\lVert f\rVert_p+\lVert g\rVert_p\); ত্রিভুজ-অসমতা যা \(\lVert\cdot\rVert_p\)-কে প্রকৃত norm বানায়, Hölder দিয়ে প্রমাণিত | 7.5 |
| missing value | data-র ফাঁকা/অনুপস্থিত ঘর (NaN) | 1.5 |
| mixed-effects model | একই model-এ fixed effect (সব গোষ্ঠীতে অভিন্ন population-প্যারামিটার) ও random effect (গোষ্ঠী-ভিত্তিক, একটা distribution থেকে আসা বিচ্যুতি) মেশানো; clustered/nested data-র জন্য \(y_{ij}=\beta_0+\beta_1x_{ij}+u_j+\varepsilon_{ij}\) — "mixed" কারণ দুই ধরনের প্রভাব একসাথে | 5.6 |
| mixing | chain কত দ্রুত state-space explore করে; ভালো mixing = কম autocorrelation; খুব ছোট বা খুব বড় proposal step-এ poor mixing হয় | 3.6 |
| mixing (MCMC) | chain কত দ্রুত গোটা posterior চষে বেড়ায়; ভালো mixing = trace দ্রুত ওঠানামা করে, এক জায়গায় আটকে থাকে না (Figure 4) | 4.10 |
| mixing weight | GMM-এ component \(k\)-এর prior/জনসংখ্যা-অনুপাত \(\pi_k\ge0\), \(\sum_k\pi_k=1\); M-step-এ \(\pi_k=\frac1n\sum_i\gamma_{ik}\) (effective count-এর ভগ্নাংশ)। canonical আনুমানিক \([0.405,0.349,0.246]\) (প্রকৃত \([0.40,0.35,0.25]\)) | 6.7 |
| mixture model | density-কে কয়েকটা সরল distribution-এর ওজনিত যোগফল হিসেবে লেখা — \(p(x)=\sum_k\pi_k\,p_k(x)\); প্রতিটি component একটা subpopulation, \(\pi_k\) তার অনুপাত। latent component-label সহ একটা generative model | 6.7 |
| ML vs REML | সাধারণ ML variance-কে biased-low দেয় (df-খরচ উপেক্ষা); REML unbiased। নিয়ম: ভিন্ন fixed-structure তুলনা (likelihood-ratio) করতে ML (REML-likelihood fixed-নির্ভর, তুলনাযোগ্য নয়), ভিন্ন variance/random-structure তুলনায় REML | 5.6 |
| MLE variance estimator \(\hat\sigma^2\) | \(\hat\sigma^2=\frac1n\sum(X_i-\bar X)^2=\frac{n-1}{n}S^2\) — biased low (bias \(=-\sigma^2/n\)) কিন্তু consistent; ছোট \(n\)-এ প্রায়ই কম MSE | 4.4 |
| MLE vs MoM | দুই estimation-নীতি: MLE data-কে সবচেয়ে সম্ভাব্য করে, MoM moment মেলায়; কখনো একই (Exp: দুটোই \(1/\bar X\)), কখনো ভিন্ন (Uniform: \(\max\) বনাম \(2\bar X\)); MLE প্রায়ই বেশি efficient ও সর্বদা বৈধ (Figure 3, 4) | 4.3 |
| MLE-based confidence interval | বড় নমুনায় MLE \(\hat\theta\approx\mathcal{N}(\theta,\widehat{\mathrm{se}}^2)\) ব্যবহার করে Wald CI; proportion-CI এর বিশেষ ঘটনা (E4) | 4.6 |
| modality | distribution-এ স্থানীয় শৃঙ্গের (peak) সংখ্যা | 1.3 |
| mode | data-য় সবচেয়ে বেশিবার আসা মান | 1.2 |
| mode (continuous) | density curve-এর সর্বোচ্চ বিন্দু (শৃঙ্গ) | 2.4 |
| model card | model-এর সৎ সারপত্র — উদ্দেশ্য, ব্যবহৃত data, uncertainty-সহ performance (AUC \(\approx0.99\pm0.008\)), এবং limitation (perfect separation, single-center data, class imbalance, বাইরের population-এ generalization প্রশ্নবিদ্ধ) স্পষ্টভাবে নথিভুক্ত করা | 8.1 |
| model selection | কয়েকটি প্রতিদ্বন্দ্বী মডেল থেকে "সেরা" বাছার প্রক্রিয়া; মাপকাঠি — adjusted \(R^2\), AIC, BIC, বা cross-validation; কাঁচা \(R^2\) অযোগ্য কারণ তা predictor যোগে কখনো কমে না | 5.2 |
| modulus bound | \(\lvert\varphi_X(t)\rvert\le\varphi_X(0)=1\) প্রতিটি \(t\)-তে; যেহেতু \(\lvert e^{itX}\rvert=1\), ত্রিভুজ-অসমতার integral-রূপে \(\lvert\mathbb E[e^{itX}]\rvert\le\mathbb E\lvert e^{itX}\rvert=1\) — \(\varphi\) unit disk-এ আবদ্ধ | 7.10 |
| MoM estimator | moment equations সমাধান করে পাওয়া estimator \(\hat\theta_{\text{MoM}}\); E2: \(1/\bar X\), E3: \(2\bar X\), E1 Normal: \((\bar X,\ \frac1n\sum(X_i-\bar X)^2)\) | 4.2 |
| moment | distribution-আকৃতির পরিমাপক; \(\mathbb{E}[X^k]\)-ভিত্তিক | 2.5 |
| moment equations | MoM-এর কেন্দ্রীয় সমীকরণ-সেট \(\mu_k'(\theta)=\hat\mu_k'\) (\(k=1,\dots,p\)); এগুলো \(\theta\)-এর জন্য সমাধান করে \(\hat\theta_{\text{MoM}}\) পাওয়া যায় | 4.2 |
| moment factory | MGF-এর ডাকনাম; \(M^{(k)}(0)=\mathbb{E}[X^k]\) | 2.5 |
| moment generating function (MGF) | \(M_X(t)=\mathbb E[e^{tX}]\); বিদ্যমান হলে distribution অনন্যভাবে নির্ধারণ করে, CLT-র একটা স্বচ্ছ প্রমাণে ব্যবহৃত | 3.4 |
| moment matching | sample moment ও population moment-কে সমান করার ক্রিয়া — MoM-এর সারমর্ম; যে moment মেলানো হয় শুধু সেটাই হুবহু মেলে (Figure 1) | 4.2 |
| moment-generating function | MGF: \(M_X(t)=\mathbb{E}[e^{tX}]\); moment ও sum-এ কাজে লাগে | 2.5 |
| moments from derivatives | \(\mathbb E\lvert X\rvert^k<\infty\Rightarrow\varphi\in C^k\) ও \(\varphi^{(k)}(0)=i^k\mathbb E[X^k]\); বিশেষত \(\varphi'(0)=i\mathbb E[X]\) এবং \(\varphi''(0)=-\mathbb E[X^2]\) (চিহ্ন \(i^2=-1\) থেকে) — \(\varphi\)-এর \(0\)-আচরণ moment ধরে | 7.10 |
| monotone / dominated convergence (preview) | MCT/DCT — শর্তসাপেক্ষে \(\lim\int f_n=\int\lim f_n\) অনুমতি দেয়; moving-spike-এ (C4) integrable dominating function না থাকায় swap ব্যর্থ, পূর্ণ বিবৃতি 7.4-এ | 7.1 |
| Monotone Convergence Theorem | MCT; \(0\le f_n\uparrow f\Rightarrow\int f_n\uparrow\int f\) — limit ও integral অদলবদল, এই অধ্যায়ের ভিত্তিপ্রস্তর | 7.4 |
| monotone function | কঠোরভাবে বাড়ন্ত বা হ্রাসমান function (invertible) | 2.7 |
| monotonic relationship | একমুখী সম্পর্ক (\(x\) বাড়লে \(y\) সবসময় বাড়ে/কমে), বাঁকা হলেও | 1.4 |
| monotonicity | \(A\subseteq B \Rightarrow P(A)\le P(B)\) | 2.1 |
| monotonicity of conditional expectation | \(X\le Y\) a.s. \(\Rightarrow\mathbb E[X\mid\mathcal G]\le\mathbb E[Y\mid\mathcal G]\) a.s.; বিশেষে \(X\ge0\Rightarrow\mathbb E[X\mid\mathcal G]\ge0\) — conditional Jensen ও convergence theorem-এর ভিত্তি | 7.7 |
| monotonicity of integral | \(f\le g\) (প্রায় সর্বত্র) \(\Rightarrow\int f\,d\mu\le\int g\,d\mu\); Fatou ও বহু সীমা-যুক্তির মৌলিক হাতিয়ার | 7.4 |
| Monte Carlo | random নমুনা টেনে কোনো প্রত্যাশা/integral আনুমান করার পদ্ধতি; নমুনা স্বাধীন হলে সরল Monte Carlo | 3.6 |
| Monte Carlo integration | \(\int g\,dF\approx\frac1n\sum g(X_i)\); high-dimensional integral-এ প্রধান কৌশল | 3.3 |
| Monte Carlo method | random নমুনার গড় দিয়ে integral/expectation আনুমান: \(\frac1n\sum g(X_i)\to\mathbb E[g(X)]\); LLN-নির্ভর | 3.3 |
| Monte Carlo simulation | random নমুনা দিয়ে probability/expectation আনুমানিক করার কৌশল | 2.7 |
| Monte-Carlo error | সসীম \(B\) (বা \(P\)) ব্যবহারে resampling-আঁচে অবশিষ্ট এলোমেলোতা; \(B\) বাড়ালে কমে, প্রকৃত লক্ষ্য-রাশি বদলায় না (Figure 1) | 4.9 |
| Monte-Carlo estimate of measure | uniform নমুনার set-এ পড়া ভগ্নাংশ দিয়ে \(\lambda(A)\) আনুমান: \(\lambda([0,0.3]\cup[0.5,0.9])\approx0.7003\) (\(N=10^6\), seed default_rng(20260619), সত্য \(0.7\)) |
7.1 |
| Monte-Carlo simulation | বহু কৃত্রিম নমুনা তৈরি করে (repeated random draws) কোনো statistic-এর আচরণ বা সীমাকে সংখ্যায় আনুমান করার পদ্ধতি; তত্ত্ব ও কোড—দুটোই একসঙ্গে যাচাইয়ের যন্ত্র, যেখানে জানা তাত্ত্বিক ফল সিমুলেশনে পুনরুৎপাদন করে বিশ্বাসযোগ্যতা প্রতিষ্ঠা করা হয় | 8.2 |
| Monte-Carlo standard error | সিমুলেশন-আনুমানের নিজস্ব অনিশ্চয়তা, যা তত্ত্ব নয় বরং সীমিত \(R\) থেকে আসে; গড়ের জন্য \(\approx s/\sqrt R\), অনুপাতের জন্য \(\sqrt{p(1-p)/R}\) (E2-তে coverage \(0.9130\), \(R=2000\) \(\Rightarrow\) MC SE \(0.0063\)); ফলের সঙ্গে এটি রিপোর্ট করা আবশ্যক | 8.2 |
| mosaic plot | contingency table-এর চিত্র, যেখানে টালির ক্ষেত্রফল যৌথ অনুপাতের সমানুপাতিক | 1.4 |
| most powerful test | প্রদত্ত \(\alpha\)-তে সর্বোচ্চ power-ওয়ালা test; NP lemma অনুসারে LRT (Figure 3-এর সর্বোচ্চ সম্ভাব্য curve) | 4.7 |
| moving spike | \(f_n=n\,\mathbf 1_{(0,1/n)}\); \(f_n\to0\) পয়েন্টওয়াইজ অথচ \(\int f_n=1\) — DCT-এর dominator প্রকল্প ও Fatou-এর কঠোরতা দেখানোর কেন্দ্রীয় প্রতি-উদাহরণ | 7.4 |
| multicollinearity | দুটি predictor variable-এর মধ্যে খুব জোরালো correlation (প্রায় একই তথ্য বহন) | 1.5 |
| multidimensional scaling (MDS) | শুধু জোড়া-দূরত্ব থেকে নিম্ন-মাত্রিক স্থানাঙ্ক পুনরুদ্ধারের পদ্ধতি: squared-distance \(\Delta\)-তে double-centering করে Gram \(B=-\tfrac12 H\Delta H\), তার শীর্ষ-\(d\) eigenvector embedding দেয়; Euclidean দূরত্বে MDS \(=\) PCA, শক্তি — যেকোনো দূরত্ব-matrix নিতে পারা | 6.8 |
| multinomial coefficient | \(n\)টি জিনিসকে \(r\) দলে ভাগের উপায় \(n!/(k_1!\cdots k_r!)\) | 0.2 |
| multiple comparisons problem | একসাথে অনেক জোড়া-test চালালে family-wise error জমে বাড়ে — ANOVA একটি global \(F\) দিয়ে তা এড়ায় | 5.3 |
| multiple linear regression | একাধিক predictor-এর regression, \(\hat y=\beta_0+\beta_1 x_1+\dots+\beta_{p-1}x_{p-1}\) | 5.1 |
| multiplication principle | পরপর ধাপের ("and") option সংখ্যাকে গুণ করে মোট উপায় গোনা | 0.2 |
| multiplication rule | joint probability \(P(A\cap B)=P(B)P(A\mid B)\) | 2.2 |
| multiplication rule (density) | \(f_{X,Y}(x,y)=f_{Y\mid X}(y\mid x)\,f_X(x)\) | 2.6 |
| mutual vs pairwise independence | পারস্পরিক (mutual): প্রতিটি উপসেটে \(\mathbb P(\bigcap_{i\in I}A_i)=\prod_{i\in I}\mathbb P(A_i)\); জোড়ায় (pairwise): কেবল সব জোড়ায় — pairwise থেকে mutual আসে না (XOR-coin প্রতিউদাহরণ) | 7.6 |
| mutually exclusive | দুই event একসাথে ঘটতে পারে না; \(A\cap B=\varnothing\) (disjoint) | 2.1 |
| mutually singular | \(\nu\perp\mu\): \(\Omega\)-কে দুই ভাগে ভাঙা যায় যাতে একটিতে \(\mu\), অন্যটিতে \(\nu\) পুরো ভর রাখে (পরস্পর-বিচ্ছিন্ন support) | 7.5 |
| \(n\)-step transition | \((P^n)_{ij}\) — ঠিক \(n\) ধাপে \(i\) থেকে \(j\)-তে পৌঁছানোর সম্ভাবনা; \(n\)-ধাপ transition matrix হলো ম্যাট্রিক্স-ঘাত \(P^n\) | 3.6 |
| n_estimators | ensemble-এ গাছের সংখ্যা \(B\); বাড়ালে gain দ্রুত উঠে floor-এ স্যাচুরেট করে, কখনো overfit করায় না (variance↓ বা স্থির, bias প্রায় অপরিবর্তিত)। canonical RF: \(1\to0.711\), \(5\to0.806\), \(25\to0.844\), \(300\to0.839\) | 6.5 |
| Nadaraya–Watson estimator | সরলতম kernel regression: \(\hat f(x)=\dfrac{\sum_i K_h(x-x_i)\,y_i}{\sum_i K_h(x-x_i)}=\sum_i w_i(x)y_i\) — \(y\)-গুলোর স্থানীয় weighted average (\(\sum_i w_i(x)=1\)); box kernel-এ এটি local mean (window-গড়) | 5.7 |
| Naive Bayes | generative classifier যা conditional independence ধরে: \(P(x\mid y)=\prod_j P(x_j\mid y)\); উচ্চ-মাত্রায়ও অল্প parameter (low variance); feature correlated হলে biased কিন্তু \(\arg\max\) ঠিক থাকায় তবু কার্যকর; GaussianNB প্রতিটি \(P(x_j\mid y)\)-কে Gaussian ধরে; canonical \(0.904\) | 6.3 |
| natural cubic spline | cubic regression spline যাতে দুই প্রান্তের বাইরে \(f\) রৈখিক (\(f''=0\) boundary-তে); এই শর্ত প্রান্তের উচ্চ-ঘাত ওঠানামা বন্ধ করে boundary-variance কমায়; একই knot-এ সাধারণ cubic spline-এর চেয়ে কম effective df; smoothing spline-এর সমাধান-শ্রেণি | 5.7 |
| natural filtration | একটা প্রক্রিয়ার নিজের তৈরি filtration \(\mathcal F_n=\sigma(X_0,\dots,X_n)\) — "এ-পর্যন্ত দেখা সব \(X\)-এর তথ্য"; স্বয়ংক্রিয়ভাবে বর্ধমান, আর এতে \((X_n)\) আপনাআপনি adapted | 7.8 |
| negation | \(\neg P\): "not \(P\)" | 0.1 |
| Negative Binomial distribution | \(r\)-তম success পেতে trial-সংখ্যা; mean \(r/p\); overdispersed count | 2.3 |
| negative binomial regression | overdispersion-প্রতিকার: variance \(\operatorname{Var}=\mu+\alpha\mu^2\) (quadratic), Gamma-mixed Poisson; full likelihood ⇒ AIC তুলনাযোগ্য; \(\alpha\to0\)-তে Poisson-এ ফেরে; উদাহরণে \(\alpha=0.179\), AIC \(1753.3\) (Poisson \(2237.9\), \(\Delta\approx485\)) | 5.5 |
| negative part | \(f^-=\max(-f,0)\); ফাংশনের ঋণাত্মক অংশের অঋণাত্মক রূপ, \(\lvert f\rvert=f^++f^-\) | 7.4 |
| neighbor graph | প্রতিটি বিন্দুকে তার \(k\) নিকটতম প্রতিবেশীর সাথে edge দিয়ে জোড়া graph (edge-ওজন = local Euclidean দূরত্ব); Isomap-এ geodesic-আনুমানের ভিত্তি (shortest path), LLE/t-SNE-তে local গঠনের ভিত্তি; ৬.৭-এর kNN/দূরত্বের উপর দাঁড়ায় | 6.8 |
| nested models | একটি মডেল অন্যটির predictor-সেটের উপসেট; nested হলে SSE-তুলনা (partial \(F\)) বৈধ, এবং বড় মডেলের SSE কখনো ছোটটির চেয়ে বেশি নয় | 5.2 |
| Newton–Raphson (logistic) | \(\beta^{(t+1)}=\beta^{(t)}+(X^\top WX)^{-1}X^\top(y-p)\); Hessian \(-X^\top WX\) ব্যবহার করে iteratively MLE-তে converge (৪.৩) | 5.4 |
| Neyman–Pearson lemma | simple-vs-simple-এ most powerful level-\(\alpha\) test হলো likelihood-ratio test: reject if \(\Lambda=L(\theta_1)/L(\theta_0)>k\) (E4, §৭ Q11) | 4.7 |
| no pooling | প্রতিটা গোষ্ঠীর সম্পূর্ণ আলাদা স্বাধীন regression (\(J\)টা পৃথক intercept, শেয়ার নেই); ছোট গোষ্ঠীতে (\(n_j=10\)) noisy/overfit estimate, চরম মান বেরিয়ে আসে | 5.6 |
| no-free-lunch theorem | সব সম্ভাব্য problem-এর উপর গড়ে কোনো learner অন্যকে হারাতে পারে না; তাই কোনো universal-শ্রেষ্ঠ algorithm নেই — generalization-এর জন্য problem সম্পর্কে অনুমান (inductive bias) অপরিহার্য | 6.1 |
| nominal | ক্রমহীন categorical data (রং, শহর); "বড়/ছোট" অর্থহীন | 1.1 |
| non-asymptotic bound | নির্দিষ্ট সসীম \(n\)-এর জন্য বৈধ bound (limit ছাড়াই); finite-sample গ্যারান্টি | 3.1 |
| non-measurable set | যে set-কে কোনো সুসংগত translation-invariant, countably-additive measure দেওয়াই যায় না (যেমন Vitali \(V\)); এদের বাদ দিতেই domain-কে \(\sigma\)-algebra-তে সীমিত করা হয় | 7.1 |
| non-negativity (Axiom 1) | \(P(A)\ge 0\) | 2.1 |
| nonlinear dimensionality reduction | উচ্চ-মাত্রিক data-কে অল্প-মাত্রায় (\(d\ll D\)) নামানোর অরৈখিক কৌশল, যা বাঁকা manifold-গঠন রক্ষা করে — linear PCA-র (৫.৯) সীমা পেরিয়ে; canonical swiss roll-এ PCA ব্যর্থ (\(\lvert\text{corr}\rvert=0.165\)), Isomap সফল (\(1.000\)) | 6.8 |
| nonnegative supermartingale convergence | \(X_n\ge0\) supermartingale স্বয়ংক্রিয়ভাবে \(L^1\)-bounded (\(\mathbb E\lvert X_n\rvert=\mathbb E[X_n]\le\mathbb E[X_0]\)), তাই a.s. একটা \(X_\infty\)-এ অভিসারী, \(\mathbb E[X_\infty]\le\mathbb E[X_0]\) (Fatou); branching/density-প্রয়োগের কর্মঘোড়া | 7.9 |
| nonparametric regression | \(f\)-এর কোনো নির্দিষ্ট সসীম-মাত্রিক রূপ আগে থেকে না বেঁধে data থেকেই \(\mathbb E[y\mid x]=f(x)\)-এর আকার শেখা; কার্যকর parameter-সংখ্যা \(n\)-এর সাথে বাড়তে পারে — নমনীয় কিন্তু বেশি data দরকার ও convergence ধীর; চলমান উদাহরণে \(\sin(2\pi x)\)-কে সরলরেখা (\(R^2=0.510\))-র বদলে kernel/spline দিয়ে ধরা | 5.7 |
| Normal distribution | ঘণ্টা-আকৃতি \(\mathcal{N}(\mu,\sigma^2)\); \(f=\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2}\) | 2.4 |
| normal equations | OLS minimization-এর শর্ত \(X^\top X\hat\beta=X^\top y\) | 5.1 |
| Normal Fisher information (mean) | \(I(\mu)=\frac{1}{\sigma^2}\) (E2); ছোট \(\sigma\) = তীক্ষ্ণ likelihood = বেশি তথ্য; \(\bar X\) এতে efficient | 4.5 |
| normalization | density-র মোট area \(=1\) করার শর্ত \(\int f = 1\) | 0.4 |
| normalization (Axiom 2) | \(P(\Omega)=1\) | 2.1 |
| normalizing constant | \(Z=\int f\) যা \(\pi=f/Z\) বানায়; MCMC accept-অনুপাতে \(Z\) কাটাকাটি হয়ে যায়, তাই un-normalized \(f\) জানলেই sampler চলে (Bayesian computation-এ চাবি) | 3.6 |
| Normal–Normal | conjugate জোড়া (\(\sigma^2\) জানা): posterior precision \(=\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\) (যোগ হয়), mean = prior-mean ও sample-mean-এর precision-ভারিত গড় (E2; §৭ Q7, Q10) | 4.10 |
| novelty detection | semi-supervised anomaly: training set ধরা হয় পুরো-স্বাভাবিক/পরিষ্কার, model স্বাভাবিকতার সীমানা শেখে, তারপর নতুন বিন্দু সেই সীমানার বাইরে পড়লে novelty বলে; outlier detection-এর বিপরীত (যেখানে training-এই দূষণ মিশে থাকে) | 6.9 |
| null hypothesis \(H_0\) | "কিছু বদলায়নি"/status-quo দাবি (যেমন \(\mu=\mu_0\)) যা চ্যালেঞ্জ করা হয়; test-এর সব হিসাব \(H_0\) সত্যি ধরে শুরু হয় (Figure 1) | 4.7 |
| null set | measure-শূন্য set: \(\mu(N)=0\); Lebesgue-এ \(\mathbb Q\cap[0,1]\) ও Cantor set null (dense বা uncountable হয়েও), আর complete measure-এ এদের সব subset-ও measurable | 7.2 |
| number of replications \(B\) | কতবার bootstrap resample করা হয় (\(B=1000\)–\(10000\)); বড় \(B\) histogram মসৃণ করে, কিন্তু \(\widehat{\mathrm{se}}\)-এর প্রকৃত মান বদলায় না (data ও \(n\)-নির্ভর) (Figure 1) | 4.9 |
| numeric integration | সংখ্যাগতভাবে integral-এর আনুমানিক মান (যেমন scipy quad) | 0.4 |
| numeric variable | সংখ্যাগত (quantitative) variable, যার উপর অর্থপূর্ণ গাণিতিক কাজ করা যায় | 1.1 |
| NumPy | দ্রুত সংখ্যাগত গণনার Python প্যাকেজ (array-ভিত্তিক) | 0.6 |
| observation | একটি একক পর্যবেক্ষণ; DataFrame-এর একটি row (= একটি unit) | 1.1 |
| observed count \(O_i\) | \(i\)-তম category-তে data থেকে পাওয়া সত্যিকারের গণনা (Figure 3) | 4.8 |
| observed vs expected information | observed \(=-\ell''(\hat\theta)\) (data থেকে সরাসরি), expected \(I(\theta)=-\mathbb{E}[\ell'']\) (গড়); দুটোই log-likelihood-এর তীক্ষ্ণতা মাপে | 4.5 |
| odds | event ঘটা বনাম না-ঘটার অনুপাত \(\frac{p}{1-p}\); logistic-এ \(\text{odds}=e^{\eta}=e^{x^\top\beta}\) (যেমন \(p=0.79\Rightarrow\) odds \(\approx3.76\)) | 5.4 |
| odds ratio | predictor \(1\) একক বাড়লে odds যত গুণ হয়: \(e^{\hat\beta_j}\) (বাকি স্থির); \(>1\) positive, \(=1\) নিরপেক্ষ, \(<1\) negative প্রভাব (hours: \(e^{0.9224}=2.515\)) | 5.4 |
| offset / exposure | observation-ভেদে exposure \(t_i\) ভিন্ন হলে rate model করতে \(\log\mu_i=\log t_i+x_i^\top\beta\), যেখানে \(\log t_i\) coefficient \(1\)-এ স্থির (offset) ⇒ \(\log(\mu_i/t_i)=x^\top\beta\); exposure দ্বিগুণ ⇒ count দ্বিগুণ | 5.5 |
| OLS estimator | normal equation-এর সমাধান \(\hat\beta=(X^\top X)^{-1}X^\top y\) | 5.1 |
| One-Class SVM | boundary-ভিত্তিক anomaly detector: kernel (RBF) দিয়ে স্বাভাবিক data-র চারপাশে একটা শক্ত সীমানা শেখে, বাইরে পড়া বিন্দুকে anomaly বলে; \(\nu\) outlier-ভগ্নাংশ নিয়ন্ত্রণ করে; canonical AUC \(0.941\) (এই ring-গঠনে boundary-পরিবার সামান্য পিছিয়ে) | 6.9 |
| one-sided vs two-sided test | \(H_1:\mu>\mu_0\)/\(\mu<\mu_0\) (এক লেজ) বনাম \(H_1:\mu\neq\mu_0\) (দুই লেজ); two-sided p-value দুই লেজের যোগফল (Figure 2) | 4.7 |
| one-standard-error rule | CV-min-এর বেশি রক্ষণশীল রূপ: threshold \(=\text{CV}_{\min}+\text{SE}_{\min}\) বানিয়ে তার নিচে থাকা সবচেয়ে সরল model বাছা; যুক্তি — এক SE-এর মধ্যের model-গুলো পরিসংখ্যানগতভাবে সমান-ভালো, তাই parsimony (Occam) মেনে সরলতমটি; চলমান উদাহরণে threshold \(\approx11.0\) → \(d{=}3\) | 5.8 |
| one-way ANOVA | একটিমাত্র categorical factor (যেমন fertilizer-এর ধরন) দিয়ে group-গড় তুলনা; \(H_0:\mu_1=\dots=\mu_k\), test \(F=\mathrm{MSB}/\mathrm{MSW}\sim F_{k-1,\,n-k}\) | 5.3 |
| online learning | data এক-এক করে স্রোতে এলে model incremental আপডেট: \(\theta_{t+1}=\theta_t-\eta_t\nabla\ell_t(\theta_t)\) (online/stochastic GD); সুবিধা — সব data একসাথে মেমরিতে লাগে না, ও concept drift-এ নিজে মানিয়ে নেয়; গুণমান regret দিয়ে মাপা | 6.9 |
| open science | ফল-প্রকাশের সাথে ডেটা, কোড ও পদ্ধতি উন্মুক্ত করা, যাতে অন্যরা যাচাই ও গড়তে পারে; reproducibility-র সামাজিক রূপ — এই curriculum নিজেই (master seed 20260619, চালানো-যায় কোড, canonical সংখ্যা) এর একটা জীবন্ত উদাহরণ | 8.4 |
| optimism of training error | একই data-তে fit-করে-error-মাপায় train error test error-কে যতটা কম দেখায় তার পরিমাণ; linear smoother-এ ঠিক \(\text{op}=\frac{2\sigma^2\operatorname{df}}{n}\) (\(\operatorname{df}=\operatorname{tr}(S)\)) — complexity-র সমানুপাতী, এটিই AIC/\(C_p\)-র "\(+2\operatorname{df}\)"-penalty-র উৎস; চলমান উদাহরণে \(d{=}3\)-এ \(\approx0.6\) | 5.8 |
| optimism penalty (\(C_p\) / AIC link) | train-fit-কে complexity-penalty দিয়ে সংশোধন করে test error আন্দাজ: \(\text{Err}_{\text{in}}\approx\overline{\text{err}}+\frac{2\sigma^2\operatorname{df}}{n}\) (Mallows' \(C_p\), AIC-এর "\(+2\operatorname{df}\)"); CV একই লক্ষ্য সরাসরি (likelihood/\(\operatorname{df}\) ছাড়া) অর্জন করে — ৫.২-এর AIC/BIC-র সাথে যোগসূত্র | 5.8 |
| optimization | function-এর সর্বোচ্চ/সর্বনিম্ন মান ও অবস্থান খোঁজা | 0.3 |
| optional sampling | optional stopping-এর সাধারণ রূপ — দুই stopping time \(\sigma\le\tau\)-তে \(\mathbb E[X_\tau\mid\mathcal F_\sigma]=X_\sigma\); "ন্যায্যতা যেকোনো (নিয়মমাফিক) নমুনায়ন-সময়েও টেকে" | 7.8 |
| optional stopping theorem (Doob) | martingale ও stopping time \(\tau\)-তে \(\mathbb E[X_\tau]=\mathbb E[X_0]\) — যদি (ক) \(\tau\) bounded, (খ) \(X\) bounded, বা (গ) \(\mathbb E[\tau]<\infty\) ও bounded increments; প্রতিটি শর্ত \(n\to\infty\)-সীমা-বিনিময় (DCT/MCT) বৈধ করে | 7.8 |
| order statistic / sample maximum | \(X_{(n)}=\max_i X_i\) — Uniform\((0,\theta)\)-এ MLE; এর variance \(\sim\theta^2/n^2\), MoM-এর \(2\bar X\)-এর (\(\sim\theta^2/n\)) চেয়ে অনেক ছোট | 4.2 |
| order statistics | ছোট থেকে বড় সাজানো observation x₍₁₎ ≤ … ≤ x₍ₙ₎ | 1.2 |
| ordered pair | ক্রমিক জোড়া \((a,b)\); প্রথম-দ্বিতীয় অবস্থান গুরুত্বপূর্ণ | 0.1 |
| ordinal | ক্রমযুক্ত categorical data যেখানে ব্যবধান অর্থপূর্ণ নয় (Low < Medium < High) | 1.1 |
| ordinary least squares (OLS) | residual sum of squares \(\lVert y-X\beta\rVert^2\) minimize করে \(\hat\beta\) বাছার পদ্ধতি | 5.1 |
| orthogonal | পরস্পর লম্ব; dot product শূন্য | 0.5 |
| orthogonal increments | \(j<k\)-এ \(\mathbb E[d_jd_k]=0\) (\(d_k=X_k-X_{k-1}\), pull-out + martingale-ধর্ম); Pythagoras দিয়ে \(L^2\)-অভিসরণ ও SGD/SLLN-অভিসরণের ভিত্তি | 7.9 |
| orthogonality | \(f\perp g\iff\langle f,g\rangle=0\); "লম্ব" ফাংশন, statistics-এ কেন্দ্রিত random variable-দের uncorrelatedness | 7.5 |
| orthonormal basis | পরস্পর-লম্ব ও একক-norm ফাংশনের সম্পূর্ণ সংগ্রহ \(\{e_k\}\) (\(\langle e_i,e_j\rangle=\delta_{ij}\)); \(f=\sum_k\langle f,e_k\rangle e_k\) (Fourier-সম্প্রসারণ) | 7.5 |
| out-of-bag (OOB) | একটা bootstrap resample-এ যে মূল বিন্দুগুলো একবারও আসেনি; বড় \(n\)-এ প্রায় \(e^{-1}\approx36.8\%\) বিন্দু OOB (§৭ Q10) | 4.9 |
| out-of-bag (OOB) error | প্রতিটি bootstrap-গাছে বাদ-পড়া (\(\approx37\%\), \((1-\frac1n)^n\to e^{-1}\approx0.368\)) বিন্দুদের উপর prediction থেকে পাওয়া বিনামূল্যের, প্রায়-unbiased generalization-error — আলাদা validation set/CV ছাড়াই। canonical OOB \(0.848\) ≈ test \(0.839\) | 6.5 |
| outcome | random experiment-এর একটি একক সম্ভাব্য ফলাফল \(\omega\) | 2.1 |
| outer measure | যেকোনো set \(A\)-কে গণনাযোগ্য open-interval দিয়ে ঢেকে মোট দৈর্ঘ্যের infimum: \(\lambda^*(A)=\inf\big\{\sum_k\ell(I_k):A\subseteq\bigcup_k I_k\big\}\); "ঢেকে মাপা" — null set-এর হাতিয়ার | 7.1 |
| outlier | বাকি data থেকে অস্বাভাবিকভাবে দূরে থাকা মান | 1.2 |
| overdispersion | data-তে variance \(>\) mean (Poisson যা ধরে তার চেয়ে বেশি spread); unobserved heterogeneity/clustering থেকে আসে; উদাহরণে count mean \(19.56\), var \(205\) (var/mean \(\approx10.5\)) | 5.5 |
| overfitting | model training-data-র random noise-কেও signal ভেবে fit করা; লক্ষণ — train error খুব ছোট (এমনকি \(<\sigma^2\)) কিন্তু CV/test error বড়; চলমান উদাহরণে \(d{=}10\) (train \(9.12<9\), CV \(10.90\)); CV/one-SE rule এর বিরুদ্ধে রক্ষাকবচ | 5.8 |
| overplotting | বহু বিন্দু একে অপরের উপর জমে scatterplot অপাঠ্য হয়ে যাওয়া | 1.4 |
| oversmoothing / undersmoothing | oversmoothing — অতি-বড় \(h\)/\(\lambda\) (বা অতি-ছোট df): চূড়া-খাঁজ চাপা পড়ে, high bias; undersmoothing — অতি-ছোট \(h\)/\(\lambda\) (বা অতি-বড় df): noise-ও fit হয়, কাঁপা, high variance; চলমান উদাহরণে \(h=0.40\) oversmooth (\(0.2865\)), \(h=0.02\) undersmooth-প্রবণ | 5.7 |
| p-value | \(P(\text{observed-এর চেয়ে অন্তত ততটা চরম ফল}\mid H_0\text{ সত্যি})\) — null-এর নিচে একটা লেজের ক্ষেত্রফল; ছোট p = data বিস্ময়কর (Figure 2) | 4.7 |
| p-value (as tail area) | shuffle/permutation-গুলোর কত ভাগ observed-এর মতো বা বেশি চরম; p-value-এর সবচেয়ে স্বচ্ছ, সূত্রহীন রূপ (Figure 4, §৭ Q8) | 4.9 |
| p-value uniformity under \(H_0\) | continuous statistic-এ \(H_0\) সত্যি হলে p-value \(\sim\text{Uniform}(0,1)\); তাই \(p\le\alpha\) নিয়ম ঠিক \(\alpha\) type I error দেয় (§৭ Q10) | 4.7 |
| PAC learning | Probably Approximately Correct — শেখার আনুষ্ঠানিক কাঠামো: \(1-\delta\) probability-তে (\(\delta\)=confidence) gap \(\le\epsilon\) (\(\epsilon\)=accuracy); finite-sample, distribution-free গ্যারান্টি, concentration inequality (3.1) থেকে উদ্ভূত | 6.1 |
| pairwise affinities \(p_{ij}, q_{ij}\) | t-SNE-তে দুই বিন্দু "প্রতিবেশী" হওয়ার সম্ভাবনা: high-D-তে \(p_{ij}\) (Gaussian), low-D-তে \(q_{ij}\) (Student-\(t\), \(q_{ij}\propto(1+\lVert y_i-y_j\rVert^2)^{-1}\)); t-SNE চায় \(q_{ij}\) যেন \(p_{ij}\)-র মতো হয় (high-D প্রতিবেশ-গঠন low-D-তে প্রতিফলিত) | 6.8 |
| pandas | tabular data বিশ্লেষণের Python প্যাকেজ (Series/DataFrame) | 0.6 |
| parallelogram law | \(\lVert f+g\rVert^2+\lVert f-g\rVert^2=2\lVert f\rVert^2+2\lVert g\rVert^2\); ঠিক যে norm-শর্ত একটি inner product জন্ম দেয় — কেবল \(p=2\)-তে সত্য | 7.5 |
| parameter | population-এর fixed কিন্তু সাধারণত unknown সাংখ্যিক বৈশিষ্ট্য (\(\mu, \sigma, p\); Greek অক্ষর) | 1.1 |
| parsimony | "যত কম predictor-এ যথেষ্ট ব্যাখ্যা, তত ভালো" নীতি (Occam's razor); BIC/adjusted \(R^2\) এই নীতিকে complexity-penalty দিয়ে আনুষ্ঠানিক করে | 5.2 |
| partial derivative | একটি variable নিয়ে derivative, বাকিগুলো ধ্রুবক | 0.3 |
| partial effect | অন্য সব predictor স্থির রেখে একটি predictor-এর coefficient-এর অর্থ (multiple regression) | 5.1 |
| partial F-test | দুটি nested মডেলের তুলনা — অতিরিক্ত predictor-গুচ্ছ যৌথভাবে SSE যথেষ্ট কমায় কিনা; \(F=\dfrac{(\text{SSE}_{\text{small}}-\text{SSE}_{\text{big}})/q}{\text{SSE}_{\text{big}}/(n-p)}\) | 5.2 |
| partial pooling | mixed model-এর আপস: complete- ও no-pooling-এর মাঝামাঝি; প্রতিটা গোষ্ঠীর estimate-কে \(\lambda_j\) অনুযায়ী গ্র্যান্ড-গড়ের দিকে shrink করে তথ্য গোষ্ঠী-জুড়ে "ধার" করা; no-pooling-এর চেয়ে কম variance, complete-pooling-এর চেয়ে কম bias | 5.6 |
| partition | \(\Omega\)-কে ঢাকা বিচ্ছিন্ন event-গুচ্ছ \(B_1,\dots,B_n\) | 2.2 |
| Pascal's triangle | \(\binom{n}{k}\)-এর ত্রিভুজাকার বিন্যাস; প্রতি ঘর উপরের দুই ঘরের যোগফল | 0.2 |
| path length (Isolation Forest) | একটি বিন্দুকে isolation-গাছে একা পাতায় আলাদা করতে যত random split লাগে, \(h(x)\); anomaly বিরল/বিচ্ছিন্ন বলে ছোট \(h\), inlier ঘন-গুচ্ছে বড় \(h\); normalizer \(c(n)\) সহ score \(s(x)=2^{-\mathbb E[h]/c(n)}\) | 6.9 |
| Pearson chi-square | goodness-of-fit ও dispersion পরিমাপ \(\chi^2=\sum_i\dfrac{(y_i-\hat\mu_i)^2}{\hat\mu_i}\) (Poisson-এ variance \(=\mu\) বলে হরে \(\hat\mu_i\)); উদাহরণে \(1096.3\), \(df=247\) | 5.5 |
| Pearson chi-square statistic | \(\chi^2=\sum_i\dfrac{(O_i-E_i)^2}{E_i}\) — observed বনাম expected-এর scaled squared mismatch-এর যোগ; বড় হলে \(H_0\) খারিজ (Figure 3) | 4.8 |
| Pearson correlation coefficient | covariance-কে standardize করা একক-মুক্ত সংখ্যা \(r=\operatorname{cov}/(s_x s_y)\), পরিসর \([-1,1]\) | 1.4 |
| penalized regression | regularized regression-এর সাধারণ নাম — OLS objective \(\lVert y-X\beta\rVert_2^2\)-এ একটি penalty পদ যোগ করা মডেল (ridge, lasso, elastic net সবই এর বিশেষ রূপ) | 6.2 |
| penalty / roughness penalty | smoothing criterion-এর দ্বিতীয় পদ \(\lambda\int(f''(t))^2dt\) — \(f\)-এর মোট বক্রতা (roughness) শাস্তি দেয়; \(f''\) বড় = তীক্ষ্ণ বাঁক, \(f''=0\) = সরলরেখা; ০.৩-এর দ্বিতীয় অন্তরকলজের ওপর দাঁড়ানো | 5.7 |
| penalty parameter (C) | soft-margin SVM-এ slack-শাস্তির ওজন; bias–variance knob — ছোট \(C\) = চওড়া margin, বেশি লঙ্ঘন সহ্য (high bias/under-fit), বড় \(C\) = সরু margin, প্রায় hard-margin (high variance/over-fit)। canonical \(C\)-sweep: \(0.1\to0.833/121\), \(1\to0.900/63\), \(10\to0.944/45\), \(100\to0.933/37\) | 6.4 |
| percentile | যে মানের নিচে data-র নির্দিষ্ট শতাংশ পড়ে | 1.2 |
| percentile interval (CI) | bootstrap বণ্টনের \(\alpha/2\) ও \(1-\alpha/2\) quantile-এ কেটে বানানো \((1-\alpha)\) CI \(=[\hat\theta^*_{(\alpha/2)},\hat\theta^*_{(1-\alpha/2)}]\); normality বা \(\widehat{\mathrm{se}}\)-সূত্র লাগে না; skew সরাসরি ধরে (অসম হতে পারে) (Figure 2, §৭ Q3, Q6) | 4.9 |
| perfect separation | কোনো hyperplane class দুটোকে নিখুঁত আলাদা করলে logistic-MLE অসীমে চলে যায় (\(\lvert\hat\beta\rvert\to\infty\)); প্রতিকার: penalized/regularized fit | 5.4 |
| perfect separation (quasi-complete separation) | class-দুটো এত আলাদা যে কোনো feature-সমাবেশ পুরোপুরি পৃথক করে ফেলে, তখন unpenalized logistic MLE \(\to\pm\infty\) এবং valid standard error থাকে না; remedy L2-penalty বা feature-decorrelation। এই অধ্যায়ে full 30-feature MLE diverges | 8.1 |
| permutation | ক্রম গুরুত্বপূর্ণ এমন বাছাই/সাজানো, \(P(n,k)=n!/(n-k)!\) | 0.2 |
| permutation null distribution | label-shuffle করে পাওয়া group-difference statistic-এর বণ্টন; \(0\)-কে কেন্দ্র করে; observed তা থেকে কত দূরে তা-ই প্রমাণ (Figure 4) | 4.9 |
| permutation test | দুই দলের তুলনায় resampling test: \(H_0\) (label অর্থহীন) ধরে label বারবার এলোমেলো করে null distribution বানায়; p-value = লেজের ভগ্নাংশ; কোনো বণ্টন-অনুমান নেই (Figure 4, §৭ Q4, Q8) | 4.9 |
| perplexity | t-SNE-র hyperparameter — প্রতিটি বিন্দুর Gaussian affinity \(p_{ij}\)-র bandwidth এমনভাবে স্কেল করে যেন "কার্যকর প্রতিবেশী-সংখ্যা" \(\approx\) perplexity; ছোট মান local গঠনে জোর, বড় মান বেশি-global; ফল perplexity-সংবেদী | 6.8 |
| \(\pi\)-system | intersection-বদ্ধ একটা set-পরিবার: \(A,B\in\mathcal P\Rightarrow A\cap B\in\mathcal P\); যেমন সব \((-\infty,x]\) বা সব interval — uniqueness-যুক্তির ছোট্ট "বীজ"-পরিবার | 7.2 |
| pipeline | ধাপে-ধাপে নির্ধারক (deterministic) ও reproducible বিশ্লেষণ-প্রবাহ | 1.5 |
| pivot | এমন quantity (যেমন \(Z=\frac{\bar X-\mu}{\sigma/\sqrt n}\)) যার distribution \(\theta\)-নিরপেক্ষ; CI বানানোর মূল কৌশল (§৭ Q9) | 4.6 |
| pivot method | pivot-এর \(P(-z_{\alpha/2}\le\cdot\le z_{\alpha/2})=1-\alpha\) থেকে শুরু করে \(\theta\)-কে isolate করে CI derive করা | 4.6 |
| pivotal quantity | যে রাশির distribution অজানা parameter-নিরপেক্ষ; যেমন \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\) ও \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}\) — confidence interval নির্মাণের ভিত্তি | 4.1 |
| platykurtic | normal-এর চেয়ে হালকা লেজ ও ভোঁতা চূড়া (excess kurtosis < 0) | 1.3 |
| plug-in principle | "population-এর অজানা পরিমাণের জায়গায় তার নমুনা-প্রতিরূপ বসিয়ে দাও" — MoM এর একটা উদাহরণ (\(\mu_k'\to\hat\mu_k'\)); LLN-এর কারণে যুক্তিসঙ্গত | 4.2 |
| point estimate | একটা একক সংখ্যা দিয়ে \(\theta\)-এর অনুমান (interval নয়); যেমন \(\hat\mu=\bar X_n=172.4\) | 4.1 |
| point estimation | data থেকে কোনো অজানা প্যারামিটার \(\theta\)-এর একটি একক সংখ্যাগত আনুমান \(\hat\theta\) বের করা (interval নয়); estimator হলো নমুনার একটা ফাংশন \(\hat\theta=\hat\theta(X_1,\dots,X_n)\) | 4.2 |
| Poisson distribution | ব্যবধিতে বিরল ঘটনার সংখ্যা; \(\lambda^k e^{-\lambda}/k!\), mean \(=\) variance \(=\lambda\) | 2.3 |
| Poisson Fisher information | \(I(\lambda)=\frac{1}{\lambda}\) (E3); \(\bar X\) efficient, asymptotic SE \(=\sqrt{\lambda/n}\) (Figure 3) | 4.5 |
| Poisson limit theorem | Binomial\((n,p)\to\) Poisson\((\lambda)\) যখন \(n\to\infty,\,np\to\lambda\) | 2.3 |
| Poisson process | rate \(\lambda\)-র counting process: \(N(t)\sim\text{Poisson}(\lambda t)\), independent increments, interarrival time iid \(\text{Exp}(\lambda)\) (E2) | 3.5 |
| Poisson regression | count outcome (\(y\in\{0,1,2,\dots\}\))-এর জন্য GLM: log link-এ \(\log\mu_i=x_i^\top\beta\) (অর্থাৎ \(\mu_i=e^{x_i^\top\beta}\)), response Poisson; MLE/IRLS দিয়ে fit, coefficient rate-ratio হিসেবে পঠিত | 5.5 |
| polynomial kernel | \(K(x,x')=(x^\top x'+c)^d\) — degree-\(d\) পর্যন্ত feature-মিথস্ক্রিয়া ধরে; nonlinearity আনে কিন্তু make_moons-এ RBF-এর চেয়ে কম উপযুক্ত; canonical (deg 3) \(0.833\) | 6.4 |
| pooled covariance | LDA-তে সব শ্রেণির data একত্র করে অনুমিত একটিই শেয়ার-covariance \(\hat\Sigma\) (শ্রেণি-প্রতি deviation-গুলোর ভারিত গড়); শেয়ার-\(\Sigma\) ধারণার বাস্তব estimate, যা LDA-কে কম-parameter (কম variance) রাখে | 6.3 |
| pooled OLS SE problem | clustering-এ একই গোষ্ঠীর observation redundant ⇒ effective \(n\) ছোট ⇒ between-cluster coefficient (যেমন intercept)-এর OLS-SE মারাত্মক underestimated; উদাহরণে intercept SE OLS \(0.867\) বনাম সঠিক mixed \(1.416\) | 5.6 |
| population | আগ্রহের পুরো গোষ্ঠী; যাদের সম্পর্কে সিদ্ধান্ত নিতে চাই (আকার \(N\), প্রায়ই পুরোটা অদৃশ্য) | 1.1 |
| population mean | পুরো population-এর প্রকৃত গড় \(\mu\) (একটি parameter) | 1.1 |
| population moment | \(\mu_k'=\mathbb{E}[X^k]\) — distribution-এর \(k\)-তম কাঁচা (raw) moment, প্যারামিটারের ফাংশন (যেমন Exp-এ \(\mu_1'=1/\lambda\)) | 4.2 |
| population regression line | bivariate normal \(\rho=0.6\)-এ \(\mathbb E[X\mid Y{=}y]=\rho y=0.6y\) — সরলরেখা, ঢাল \(\hat\beta=\operatorname{Cov}(X,Y)/\operatorname{Var}(Y)=\rho\), intercept \(0\); "শর্তাধীন প্রত্যাশা = regression function" এর কংক্রিট মুখ | 7.7 |
| portmanteau theorem | weak convergence-এর সমতুল্য বহু-শর্ত চরিত্রায়ণ; প্রধান রূপ — \(X_n\Rightarrow X\iff\mathbb E[f(X_n)]\to\mathbb E[f(X)]\) প্রতিটি bounded continuous \(f\)-এ (অন্য রূপ: open/closed set, CDF) | 7.10 |
| positive part | \(f^+=\max(f,0)\); ফাংশনের অঋণাত্মক অংশ, সাধারণ integral-এর সংজ্ঞায় \(f=f^+-f^-\)-এর প্রথম পদ | 7.4 |
| positive-definite | সব eigenvalue \(>0\) (বা \(\mathbf{x}^\top A\mathbf{x}>0\)) symmetric matrix | 0.5 |
| positive-definite function | যেকোনো \(t_1,\dots,t_n\) ও \(c_1,\dots,c_n\in\mathbb C\)-তে \(\sum_{j,k}c_j\bar c_k\,\varphi(t_j-t_k)\ge0\); প্রতিটি cf positive-definite — Bochner-এর চরিত্রায়ণের অর্ধেক | 7.10 |
| positive-part James–Stein | \(\hat\theta^{JS+}=\big(1-\frac{p-2}{\lVert X\rVert^2}\big)^{+}X\) (\((a)^+=\max(0,a)\)) — shrinkage factor-কে ঋণাত্মক হতে দেয় না (worst case পুরো ০-তে shrink); সাধারণ JS-কেও dominate করে, তাই বাস্তবে ব্যবহার্য | 8.3 |
| positive/negative part \(f^\pm\) | যেকোনো measurable \(f\)-কে দুই অঋণাত্মক টুকরোয় ভাঙা: \(f^+=\max(f,0)\) ও \(f^-=\max(-f,0)\), তাই \(f=f^+-f^-\) ও \(\lvert f\rvert=f^++f^-\); এতে approximation theorem অঋণাত্মক থেকে সাধারণ \(f\)-এ প্রসারিত হয় | 7.3 |
| post-hoc test | \(F\) significant হওয়ার পরে কোন জোড়া-গড় আলাদা তা খোঁজার পরীক্ষা; FWER নিয়ন্ত্রিত রাখে (যেমন Tukey HSD) | 5.3 |
| posterior | data দেখার পর হালনাগাদ বিশ্বাস \(P(B\mid A)\) | 2.2 |
| posterior \(p(\theta\mid\text{data})\) | data দেখার পরে \(\theta\) নিয়ে আপডেটেড বিশ্বাস; prior ও likelihood-এর মাঝে বসে, দুটোর চেয়ে সরু (Figure 1) | 4.10 |
| posterior mean | \(\mathbb{E}[\theta\mid\text{data}]=\int\theta\,p(\theta\mid\text{data})\,d\theta\) — posterior-এর ভারকেন্দ্র; squared-error loss-এ optimal point estimate (Figure 1: \(0.67\)) | 4.10 |
| posterior odds | prior odds \(\times\) likelihood ratio | 2.2 |
| posterior predictive | ভবিষ্যৎ পর্যবেক্ষণের পূর্বাভাস \(p(\tilde y\mid\text{data})=\int p(\tilde y\mid\theta)\,p(\theta\mid\text{data})\,d\theta\); \(\theta\)-র অনিশ্চয়তার ওপর গড় (E4; §৭ Q8) | 4.10 |
| posterior probability | data দেখার পর শ্রেণির সম্ভাবনা \(P(y=c\mid x)=\dfrac{\pi_c f_c(x)}{\sum_l\pi_l f_l(x)}\) (Bayes-নিয়ম, ২.২); generative classifier-এর কেন্দ্রীয় পরিমাণ — যার \(\arg\max\)-ই শ্রেণি-সিদ্ধান্ত | 6.3 |
| potential outcomes | causal inference-এর মৌলিক কাঠামো: প্রতিটি ইউনিটের treatment ও control উভয় অবস্থার একটা কল্পিত ফলাফল \(Y(1),Y(0)\), যার একটাই পর্যবেক্ষিত (\"causal inference-এর মৌলিক সমস্যা\"); causal effect \(=\mathbb E[Y(1)-Y(0)]\) | 8.4 |
| power \(=1-\beta\) | সত্যিকারের effect ধরতে পারার সম্ভাবনা \(P(\text{reject}\mid H_1)\); effect-size/\(n\) বাড়লে \(\alpha\) থেকে \(1\)-এর দিকে ওঠে (Figure 3) | 4.7 |
| power rule | \(\frac{d}{dx}x^n=nx^{n-1}\) নিয়ম | 0.3 |
| precision | \(\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}\); "positive" বলা case-এর কত অংশ সত্যিই positive (এখানে \(0.88\)); FP-খরচ বেশি হলে গুরুত্বপূর্ণ | 5.4 |
| predictable process | \((H_n)_{n\ge1}\) predictable যদি প্রতিটি \(H_n\) \(\mathcal F_{n-1}\)-measurable — "এক-ধাপ-আগেই জানা", ঘটনা ঘটার আগেই (যেমন বাজির আকার); "ভবিষ্যৎ উঁকি দেওয়া যায় না"-র গণিত | 7.8 |
| predictor variable | যা দিয়ে ভবিষ্যদ্বাণী করি, ব্যাখ্যাকারী/স্বাধীন চলক (\(x\), feature) | 5.1 |
| preimage | \(X\) দিয়ে একটা target-set \(B\)-তে পৌঁছানো সব input-এর সংগ্রহ: \(X^{-1}(B)=\{\omega\in\Omega:X(\omega)\in B\}=\{X\in B\}\); union/intersection/complement সংরক্ষণ করে — যা measurability-যুক্তির মেরুদণ্ড | 7.3 |
| premeasure | একটা algebra \(\mathcal A\)-র উপর সংজ্ঞায়িত আদি "আকার" \(\mu_0\) (\(\mu_0(\varnothing)=0\) ও \(\mathcal A\)-র ভেতরে থাকা গণনাযোগ্য disjoint union-এ additive); Carathéodory যাকে গোটা \(\sigma(\mathcal A)\)-এ প্রসারিত করে | 7.2 |
| preregistration | একটা বিশ্লেষণ চালানোর আগে তার hypothesis ও পদ্ধতি (কী, কীভাবে, কোন test) লিখে নথিভুক্ত করা — ফল-দেখে-পরে-গল্প (p-hacking, selective reporting) এড়াতে; reproducibility ও গবেষণা-সততার হাতিয়ার | 8.4 |
| primal problem (SVM) | SVM-এর মূল optimization \(\min_{w,b,\xi}\tfrac12\lVert w\rVert^2+C\sum_i\xi_i\) s.t. \(y_i(w^\top x_i+b)\ge1-\xi_i,\ \xi_i\ge0\); \(w\)-এর মাত্রায় চলক (feature-সংখ্যা-নির্ভর), যার দ্বৈত (dual) kernel-trick-এর পথ খোলে | 6.4 |
| principal component (PC) | covariance \(\Sigma\)-এর একটা orthonormal eigenvector \(v_j\) — data-র একটা প্রধান-অক্ষ; PC-গুলো eigenvalue-ক্রমে সাজানো (PC1 সর্বোচ্চ-variance দিক, PC2 তার লম্বে পরবর্তী-সর্বোচ্চ, …); §৭-এ Lagrangian-প্রমাণে দেখানো "variance-সর্বোচ্চকারী একক-দিক" \(=\) শীর্ষ-eigenvector | 5.9 |
| principal component analysis (PCA) | standardized data-র covariance \(\Sigma\)-এর eigen-decomposition করে ক্রমান্বয়ে variance-সর্বোচ্চকারী লম্ব দিক (principal component) খুঁজে উচ্চ-মাত্রিক, correlated feature-কে কয়েকটা অর্থপূর্ণ অক্ষে নামানোর কৌশল (dimensionality reduction); চলমান উদাহরণে \(4\)-D data-কে \(2\) PC-তে নামিয়ে \(99.4\%\) variance ধরে রাখে | 5.9 |
| prior | data দেখার আগে hypothesis-এ বিশ্বাস \(P(B)\) | 2.2 |
| prior \(\pi(\theta)\) | data দেখার আগে প্যারামিটার \(\theta\) নিয়ে বিশ্বাস, একটা distribution হিসেবে (Figure 1-এ নীল বক্ররেখা) | 4.10 |
| prior probability | data দেখার আগে শ্রেণির সম্ভাবনা \(\pi_c=P(y=c)\); সাধারণত প্রশিক্ষণে প্রতিটি শ্রেণির অনুপাত থেকে অনুমান; posterior-এ likelihood-এর সাথে গুণ হয় | 6.3 |
| probability density function | continuous random variable-এর সম্ভাব্যতার ঘনত্ব curve \(f(x)\) | 0.4 |
| probability inequality | random variable-এর probability/tail-এর উপর একটি সীমা (bound) দেয় এমন অসমতা; distribution পুরো না জেনেও | 3.1 |
| probability integral transform | \(U=F_X(X)\sim\text{Uniform}(0,1)\), \(X\)-এর distribution যাই হোক | 2.7 |
| probability mass function | PMF, সম্ভাব্যতা ভর-অপেক্ষক \(p_X(k)=P(X=k)\); অঋণাত্মক, যোগফল \(1\) | 2.3 |
| probability measure | প্রতিটি event-কে \([0,1]\)-এ পাঠানো axiom-মানা function \(P\) | 2.1 |
| product measure | iid অনুক্রমের যৌথ law = প্রতিটি coordinate-এর law-এর গুণফল \(\bigotimes_i P_X\) (\(\mathbb R^{\mathbb N}\)-তে); iid \(\iff\) যৌথ law = product measure (7.2-এর নির্মাণ) | 7.6 |
| product rule | \((uv)'=u'v+uv'\) নিয়ম | 0.3 |
| projection (onto column space) | \(\hat y\) হলো \(y\)-এর \(\text{col}(X)\)-এ orthogonal projection; residual তার লম্ব | 5.1 |
| projection (PC score) | data-কে PC-অক্ষে উৎক্ষেপ: score \(z=Xv\), বা top-\(k\)-এ \(Z=XV_k\in\mathbb R^{n\times k}\); \(z_{i1}=x_i^\top v_1\) হলো বিন্দু \(x_i\)-এর PC1-অক্ষে নতুন স্থানাঙ্ক (প্রধান দিকে কেন্দ্র থেকে কতদূর); orthonormal \(V\) বলে PC-score পরস্পর uncorrelated | 5.9 |
| projection theorem | closed subspace \(M\)-এ যেকোনো \(f\)-এর একক নিকটতম বিন্দু \(\hat f\) আছে, residual \(f-\hat f\perp M\); least squares ও conditional expectation-এর জ্যামিতি | 7.5 |
| Prokhorov's theorem | tight বণ্টন-অনুক্রমের একটি weakly-অভিসারী subsequence থাকে (relative compactness ⇔ tightness); Lévy's continuity theorem-এর "weak limit বিদ্যমান" অংশের ভিত্তি | 7.10 |
| proof by contradiction | উল্টোটা ধরে অসম্ভব পরিস্থিতি দেখিয়ে মূলটি প্রতিষ্ঠা | 0.1 |
| proof by contrapositive | \(\neg Q \Rightarrow \neg P\) প্রমাণ করে \(P \Rightarrow Q\) প্রতিষ্ঠা | 0.1 |
| proper subset | \(A \subsetneq B\): subset কিন্তু সমান নয় | 0.1 |
| proportion CI (Wald) | \(\hat p\pm z_{\alpha/2}\sqrt{\hat p(1-\hat p)/n}\) (E3); আসলে Bernoulli-র MLE \(\hat p\)-এর large-sample CI; চরম \(p\)/ছোট \(n\)-এ under-cover করে | 4.6 |
| proportion test (one-sample) | \(T=\frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}\) (E3); null-এর \(\mathrm{SE}\)-তে \(p_0\) (— \(\hat p\) নয়, কারণ \(H_0\) সত্যি ধরে) | 4.7 |
| proposal distribution | \(q(x'\mid x)\) — বর্তমান state থেকে পরের প্রার্থী \(x'\) প্রস্তাবের নিয়ম (যেমন random-walk \(x'=x+\mathcal N(0,\text{step}^2)\)) | 3.6 |
| proposition | সত্য বা মিথ্যা — এমন একটি বাক্য | 0.1 |
| pruning | অতি-নমনীয় (overfit) গাছ ছোট করে variance কমানোর কৌশল — pre-pruning (max_depth/min_samples দিয়ে আগেই থামানো) বা post-pruning (পূর্ণ গাছ গড়ে cost-complexity দিয়ে শাখা কাটা); bias সামান্য বাড়িয়ে variance বড় কমায়। canonical: depth \(10\to3\), test \(0.733\to0.794\) | 6.5 |
| pseudo-random seed | np.random.default_rng(20260619)-এর মতো একটা নির্দিষ্ট বীজমান যা random stream-কে স্থির করে; একই seed \(\Rightarrow\) একই ধারা \(\Rightarrow\) reproducible ফল, তবে default_rng draw-order-নির্ভর—draw-এর ক্রম বদলালে ফলও বদলায় |
8.2 |
| pseudo-residual | gradient boosting-এ round \(t\)-এ যে target-এ গাছ fit হয় — \(r_i=-\big[\partial L/\partial F(x_i)\big]_{F=F_{t-1}}\) (loss-এর negative gradient); squared loss-এ এটা ঠিক সাধারণ residual \(y_i-F_{t-1}(x_i)\), অন্য loss-এ গাছ এই negative-gradient-কে সর্বত্র smooth-আনুমানিত করে generalize করে | 6.6 |
| pull-out property (taking out what is known) | \(Y\) \(\mathcal G\)-measurable, \(XY\in L^1\Rightarrow\mathbb E[YX\mid\mathcal G]=Y\,\mathbb E[X\mid\mathcal G]\) — "জানা \(Y\) ধ্রুবকের মতো বাইরে আসে"; indicator \(Y=\mathbf 1_{G_0}\)-এ \(\int_G\mathbf 1_{G_0}(\cdot)=\int_{G\cap G_0}(\cdot)\) দিয়ে প্রমাণ | 7.7 |
| pushforward measure (image measure) | \(X\) যেভাবে \(\Omega\)-র ভর \(\mathbb P\)-কে \(\mathbb R\)-এ ঠেলে দেয়: \(P_X=\mathbb P\circ X^{-1}\), অর্থাৎ \(P_X(B)=\mathbb P(X^{-1}(B))=\mathbb P(X\in B)\) — \((\mathbb R,\mathcal B)\)-এর উপর একটা probability measure | 7.3 |
| Pólya urn | কলস থেকে বল তুলে তার রঙের আরেকটা সঙ্গে ফেরত — সময় \(n\)-এ রঙের অনুপাত \(X_n\) একটা martingale (\(\mathbb E[X_{n+1}\mid\mathcal F_n]=X_n\)); স্ব-শক্তিশালী প্রক্রিয়াতেও অনুপাত গড়ে স্থির | 7.8 |
| QQ-plot | quantile–quantile plot; data-quantile বনাম তাত্ত্বিক quantile (normality-যাচাই) | 1.3 |
| QQ-plot of residuals | residual-এর sample quantile বনাম তাত্ত্বিক Normal quantile; বিন্দু \(y=x\) রেখা বরাবর হলে Normality অনুমান যুক্তিসঙ্গত (৩.৪-এর QQ-ধারণা) | 5.2 |
| quadratic discriminant analysis (QDA) | generative classifier — শ্রেণি-প্রতি আলাদা covariance \(\Sigma_c\); quadratic পদ টিকে থাকে ⇒ boundary quadratic (উপবৃত্ত/অধিবৃত্ত); বেশি parameter (বেশি variance) কিন্তু কম bias; covariance অসমান হলে LDA-কে হারায়; canonical \(0.919\) (best); LDA = QDA-র বিশেষ ক্ষেত্র (\(\Sigma_c\) সব সমান) | 6.3 |
| quadratic variation | \(L^2\)-martingale \(X\)-এর predictable variation \(\langle X\rangle_n=\sum_{k\le n}\mathbb E\big[(X_k-X_{k-1})^2\mid\mathcal F_{k-1}\big]\) — জমা-হওয়া শর্তাধীন ভেদ; random walk-এ \(\langle S\rangle_n=n\), আর \(X_n^2-\langle X\rangle_n\) martingale | 7.8 |
| quantile | percentile-এর ভগ্নাংশ-রূপ (0.5 quantile = median) | 1.2 |
| quantile function | CDF-এর উল্টো \(Q(p)=F^{-1}(p)\); কোন মানের নিচে probability \(p\) জমে | 2.4 |
| quartile | data-কে চার ভাগে ভাগকারী মান: Q1, Q2(median), Q3 | 1.2 |
| quasi-Poisson | overdispersion-প্রতিকার: \(\operatorname{Var}=\phi\mu\) ধরে SE-কে \(\sqrt{\hat\phi}\) দিয়ে স্ফীত করা (\(\mathrm{SE}_{\text{quasi}}=\sqrt{\hat\phi}\,\mathrm{SE}_{\text{Poisson}}\)); quasi-likelihood (পূর্ণ distribution নয়), তাই AIC তুলনীয় নয়; উদাহরণে \(\sqrt{4.44}\approx2.107\) | 5.5 |
| quotient rule | \((u/v)'=(u'v-uv')/v^2\) নিয়ম | 0.3 |
| R-squared | মডেল-ব্যাখ্যাত variation-এর অনুপাত \(R^2=1-\text{SSE}/\text{SST}\), পরিসর \([0,1]\); simple-এ \(=r^2\) | 5.1 |
| Rademacher complexity | একটা model-শ্রেণি এলোমেলো noise-এর (Rademacher চিহ্ন \(\pm1\)) সাথে কতটা খাপ খায় তার একটা মাপ; generalisation-ত্রুটির শক্ত, data-নির্ভর সীমা দেয় (VC-এর চেয়ে প্রায়ই আঁটোসাঁটো) | 8.4 |
| Radon–Nikodym derivative / density | সেই \(f=\tfrac{d\nu}{d\mu}\ge0\) যাতে \(\nu(A)=\int_A f\,d\mu\); pdf \(f_X=\tfrac{dP_X}{d\lambda}\) ও likelihood ratio \(\tfrac{dP}{dQ}\) এর বিশেষ রূপ | 7.5 |
| Radon–Nikodym existence | \(\nu(G)=\int_G X\,d\mathbb P\ll\mathbb P\), তাই density \(\tfrac{d\nu}{d\mathbb P}\big\rvert_{\mathcal G}=\mathbb E[X\mid\mathcal G]\) — সাধারণ \(X\in L^1\)-এ অস্তিত্ব-ইঞ্জিন (7.5) | 7.7 |
| Radon–Nikodym theorem | \(\nu\ll\mu\) ও σ-finite \(\Rightarrow\) একটি অঋণাত্মক density \(f=\tfrac{d\nu}{d\mu}\) আছে (a.e.-অনন্য) যাতে \(\nu(A)=\int_A f\,d\mu\); "কঠোর pdf"-এর অস্তিত্ব-ইঞ্জিন | 7.5 |
| Radon–Nikodym via martingales | density \(\frac{d\mathbb Q}{d\mathbb P}\)-র martingale-নির্মাণ: ক্রমশ-সূক্ষ্ম \((\mathcal F_n)\)-এ সীমাবদ্ধ density \(X_n=\frac{d\mathbb Q}{d\mathbb P}\rvert_{\mathcal F_n}\) একটা অঋণাত্মক (UI, \(\mathbb Q\ll\mathbb P\)) martingale, সীমা \(X_\infty=\frac{d\mathbb Q}{d\mathbb P}\rvert_{\mathcal F_\infty}\) | 7.9 |
| random effect | গোষ্ঠী-ভিত্তিক বিচ্যুতি \(u_j\sim\mathcal N(0,\sigma_u^2)\) — গোষ্ঠীগুলোকে বৃহত্তর জনগোষ্ঠীর নমুনা ধরা হয়; \(J\)টা আলাদা parameter নয়, শুধু একটা variance \(\sigma_u^2\) estimate (বিরাট parsimony) | 5.6 |
| random experiment | অনিশ্চিত ফলাফলের পরীক্ষা যার সম্ভাব্য outcome জানা কিন্তু ফল আগে বলা যায় না | 2.1 |
| random forest | bagging-এর উন্নত রূপ — প্রতিটি split-এ এলোমেলো \(m=\sqrt{p}\)টি feature থেকেই সেরা split খুঁজে গাছগুলো decorrelate করে (\(\rho\)↓), তাই variance-floor bagging-এর চেয়ে নিচু। canonical (\(B{=}300\)): test \(0.839\), OOB \(0.848\); \(m=\sqrt{20}\approx4\) | 6.5 |
| random intercept | শুধু উচ্চতা গোষ্ঠী-ভেদে বদলায় (\(\beta_0+u_j\)), ঢাল \(\beta_1\) অভিন্ন ⇒ সব গোষ্ঠীর regression-রেখা সমান্তরাল, কেবল উলম্বভাবে স্থানান্তরিত; চলমান উদাহরণের model | 5.6 |
| random slope | predictor-এর প্রভাবও গোষ্ঠী-ভেদে বদলায় (\(\beta_1+u_{1j}\)): \(y_{ij}=\beta_0+\beta_1x_{ij}+u_{0j}+u_{1j}x_{ij}+\varepsilon_{ij}\) ⇒ রেখাগুলো আর সমান্তরাল নয়; intercept-slope random part-এর covariance \(\sigma_{01}\) নতুন parameter | 5.6 |
| random variable | ফলাফল→সংখ্যা একটি function, \(X:\Omega\to\mathbb{R}\) | 0.1 |
| random vector | একটা measurable map \(X:(\Omega,\mathcal F)\to(\mathbb R^d,\mathcal B(\mathbb R^d))\) — একসঙ্গে \(d\)টি random variable \((X_1,\dots,X_d)\); \(X\) measurable iff প্রতিটি উপাংশ \(X_i\) measurable | 7.3 |
| random walk | \(S_n=\sum_{i=1}^{n} X_i\) যেখানে \(X_i\) iid ধাপ (\(\pm1\)); discrete-time process, \(\mathbb{E}[S_n]=0\) কিন্তু \(\operatorname{Var}(S_n)=n\) — তাই \(0\) থেকে দূরত্ব \(\sqrt{n}\)-হারে বাড়ে (E1) | 3.5 |
| random walk on a graph | graph-এর প্রতি ধাপে কোনো প্রতিবেশী node-এ সমান সম্ভাবনায় যাওয়া (E2); undirected graph-এ সর্বদা reversible, stationary \(\pi_i\propto\deg(i)\) | 3.6 |
| random-effects ANOVA | ৫.৩-এর random-effects (one-way) ANOVA-ই random-intercept model-এর regression-রূপ — total variance-কে between (\(\sigma_u^2\)) ও within (\(\sigma_\varepsilon^2\)) component-এ ভাঙা; ICC এখান থেকেই আসা ধারণা | 5.6 |
| randomization | treatment/condition এলোমেলোভাবে unit-এ বণ্টন; পরিচিত-অপরিচিত confounder ভেঙে causal তুলনা সম্ভব করে — design-এর ভিত্তি | 5.3 |
| randomization test | permutation test-এর সমার্থক; group label-কে random treatment-assignment ধরে p-value হিসাব | 4.9 |
| range | আসলে যত output পাওয়া যায়, \(f(A)\); codomain-এর subset | 0.1 |
| rank | মানগুলোকে ছোট-থেকে-বড় ক্রমে দেওয়া অবস্থান-সংখ্যা | 1.4 |
| rate (Exponential) | প্রতি এককে গড় ঘটনার হার \(\lambda\); mean \(=1/\lambda\) | 2.4 |
| rate (intensity) | \(\lambda\); Poisson process-এ একক সময়ে গড় event-সংখ্যা; \(\mathbb{E}[N(t)]=\lambda t\) | 3.5 |
| rate of change | কত দ্রুত function বদলাচ্ছে তার পরিমাপ | 0.3 |
| rate ratio | \(e^{\hat\beta_j}\) — predictor \(j\) এক একক বাড়লে প্রত্যাশিত count কত গুণ হয় (বাকি স্থির); উদাহরণে temp \(e^{0.0597}=1.0616\) (per \(+1\)°C), per \(+5\)°C \(1.348\), weekend \(e^{0.301}=1.351\); \(>1\) বাড়ায়, \(=1\) নিরপেক্ষ, \(<1\) কমায় | 5.5 |
| rate vs count | offset-সহ Poisson regression count নয়, rate (\(\mu/t\)) model করে; exposure-proportionality জোর করতে offset লাগে — না দিলে rate-interpretation নষ্ট | 5.5 |
| raw (uncentered) moment | মূল-বিন্দু \(0\)-সাপেক্ষে moment \(\mathbb{E}[X^k]\); MoM-এ সাধারণত এগুলোই মেলানো হয় (central moment-এর বিপরীত) | 4.2 |
| raw moment | \(0\)-এর সাপেক্ষে \(k\)-th moment; \(\mu_k'=\mathbb{E}[X^k]\) | 2.5 |
| RBF / Gaussian kernel | \(K(x,x')=\exp(-\gamma\lVert x-x'\rVert^2)\) — সবচেয়ে বহুল-ব্যবহৃত kernel; অন্তর্নিহিত feature-space অসীম-মাত্রিক তবু গণনাযোগ্য; \(\gamma\) kernel-প্রস্থ/capacity নিয়ন্ত্রণ করে; ছোট \(\gamma\) মসৃণ (under-fit), বড় \(\gamma\) wiggly (over-fit)। canonical সেরা \(C{=}10\) এ \(0.944\) | 6.4 |
| recall | \(\frac{TP}{TP+FN}\) — সত্যিকার anomaly-র কত ভাগ ধরলাম (miss-এর বিপরীত); rare-শ্রেণিতে মূল মাপ — "সব inlier" trivial detector accuracy \(0.95\) পেলেও recall \(0\) (canonical IF @5% recall \(1.00\)) | 6.9 |
| recall (sensitivity, TPR) | \(\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}\); সত্যিকারের positive-দের কত অংশ ধরা পড়ল (এখানে \(0.887\)); ROC-এর \(y\)-অক্ষ | 5.4 |
| reconstruction | প্রক্ষিপ্ত score থেকে আসল-মাত্রায় আনুমানিক ফেরা: \(\hat X=ZV_k^\top\) (\(p\)-মাত্রায়, কিন্তু \(X\)-এর সমান নয়); হারানো অংশ বাদ-দেওয়া PC-দিকের, reconstruction-error (গড় Frobenius-বর্গ) \(=\sum_{j>k}\lambda_j\) (চলমান উদাহরণে \(0.017+0.008=0.025\), প্রায় lossless); top-\(k\) PC সব rank-\(k\) approx-এর মধ্যে এই error সর্বনিম্ন করে (Eckart–Young) | 5.9 |
| reconstruction weights (LLE) | LLE-র প্রথম ধাপে শেখা সহগ \(w_{ij}\) — \(x_i\)-কে তার প্রতিবেশীদের রৈখিক যোগ হিসেবে লেখার barycentric স্থানাঙ্ক; \(\sum_j w_{ij}=1\) শর্ত weight-কে input-translation/rotation-এ অপরিবর্তিত রাখে, তাই geometry নিম্ন-মাত্রায় হুবহু বহনযোগ্য | 6.8 |
| rectangular data | structured data-র সমার্থক: টেবিল-আকৃতির data (rows × columns) | 1.1 |
| recursive partitioning | tree বানানোর প্রক্রিয়া — প্রতিটি node-এ সেরা split বেছে data দুই child-এ ভাগ, তারপর প্রতিটি child-এ একই প্রক্রিয়া পুনরাবৃত্ত (recursion), যতক্ষণ থামার শর্ত (max_depth, min_samples, pure node) পূরণ হয় | 6.5 |
| reference (baseline) coding | একটি group-কে baseline ধরে বাকিদের indicator রাখা; তখন \(\beta_0=\) reference গড়, প্রতিটি slope \(=\) সেই group ও reference-এর গড়-পার্থক্য | 5.3 |
| regression function | \(\mathbb E[X\mid Y]=g(Y)\) — \(Y\) থেকে \(X\)-এর নিঃশর্ত সেরা পূর্বাভাস (কোনো রৈখিকতা-অনুমান ছাড়া); 5.1-এর linear regression কেবল এর \(g(Y)=a+bY\)-রূপ সীমিত আনুমান | 7.7 |
| regression spline | টুকরো-টুকরো polynomial (knot-এ মসৃণ-জোড়া) দিয়ে \(f\) মডেল করা; গাণিতিকভাবে একটা B-spline basis বানিয়ে \(\hat f(x)=\sum_k\hat\gamma_k B_k(x)\), যেখানে \(\hat\gamma\) = \(y\)-কে basis-matrix-এর ওপর সাধারণ OLS — অর্থাৎ basis-expansion-এ linear regression | 5.7 |
| regret \(R_T\) | online learner-এর মান: \(R_T=\sum_t\ell_t(\theta_t)-\min_{\theta^\*}\sum_t\ell_t(\theta^\*)\) — online-ভাবে নেওয়া সিদ্ধান্তের মোট ক্ষতি বনাম পিছন-ফিরে-জানা সেরা স্থির \(\theta^\*\); ভালো algorithm-এ sublinear (\(o(T)\), যেমন \(O(\sqrt T)\)), তাই average regret \(R_T/T\to0\) | 6.9 |
| regular conditional distribution | \(\mathbb P(X\in\cdot\mid\mathcal G)(\omega)\) — প্রতিটি (প্রায়) \(\omega\)-তে একটি সত্যিকার probability measure হিসেবে সমগ্র শর্তাধীন বণ্টন; শর্তাধীন density ও প্রত্যাশাকে এক ছাতার নিচে আনে (Polish space-এ অস্তিত্ব) | 7.7 |
| regular martingale | closed/UI martingale-এর সমার্থ: যে martingale একটা \(X_\infty\in L^1\)-এ \(L^1\)-তে অভিসারী ও \(X_n=\mathbb E[X_\infty\mid\mathcal F_n]\) — "সুনিয়মিত" আচরণ | 7.9 |
| regularity conditions | smoothness ও \(\partial_\theta\!\leftrightarrow\!\int\) বিনিময়ের শর্ত যা score-এর গড় \(0\), CRLB ও MLE-asymptotics-কে বৈধ করে (§৭ Q10–Q11) | 4.5 |
| regularization | overfit ঠেকাতে loss-এর সাথে একটি penalty (coefficient-size-এর জরিমানা) \(\lambda\cdot(\text{norm})\) যোগ করে effective-capacity একটানা কমানোর কৌশল; \(\lambda=0\) (OLS, পূর্ণ capacity) থেকে \(\lambda\to\infty\) (সব coefficient \(\to0\)) পর্যন্ত knob; সামান্য bias কিনে অনেক variance বেচে ৬.১-এর U-curve-এর তলায় নামা | 6.2 |
| regularization path | \(\lambda\)-র পুরো পরিসর জুড়ে coefficient-গুলো কীভাবে বদলায় তার বক্ররেখা/তালিকা; \(\lambda\uparrow\) ⇒ lasso-তে nonzero একঘেয়ে কমে; canonical path #nonzero: \(\lambda\,0.05\to16,\,0.10\to9,\,0.20\to5,\,0.30\to4,\,0.50\to4\) (সত্য support \(\{0,1,2,3\}\)) | 6.2 |
| rejection region \(R\) | \(T\)-এর যে মানে \(H_0\) বাতিল করা হয়; \(P(T\in R\mid H_0)=\alpha\) (Figure 1) | 4.7 |
| relation | \(A \times B\)-এর একটি subset; কোন জোড়া "সম্পর্কিত" তার তালিকা | 0.1 |
| relative efficiency | দুই estimator-এর MSE (বা variance)-এর অনুপাত; Figure 4-এ \(\mathrm{MSE}(2\bar X)/\mathrm{MSE}(\max)\approx3.9\) | 4.4 |
| relative efficiency (vs CRLB) | দুই estimator-এর efficiency-অনুপাত বা একটির floor-এর তুলনায় অবস্থান; অর্ধেক-data estimator \(e=0.5\) (দ্বিগুণ নমুনা দরকার) | 4.5 |
| relative frequency | frequency ÷ n; ভগ্নাংশ বা proportion (যোগফল 1) | 1.3 |
| REML (restricted maximum likelihood) | variance component estimate করার পদ্ধতি যা fixed-effect estimate করার df-খরচ ছাড় দিয়ে (residual-space-এ project করে) unbiased \(\hat\sigma^2\) দেয় — sample-variance-এ \(n\)-বনাম-\(n-1\)-এর mixed-model অ্যানালগ; variance/random-structure-এর জন্য পছন্দ (চলমান fit REML) | 5.6 |
| replication | প্রতিটি condition-এ একাধিক স্বাধীন unit (\(n=20\)/cell); \(\sigma^2\) আনুমান ও within-group variation পরিমাপের জন্য অপরিহার্য | 5.3 |
| replications | একই পরীক্ষা \(R\) বার স্বাধীনভাবে চালানো (যেমন E1-এ \(R=60000\), E2-এ \(D=2000\) dataset); বড় \(R\) \(\Rightarrow\) ছোট Monte-Carlo error, তাই আনুমানের নির্ভুলতা replication-সংখ্যার সঙ্গে বাড়ে | 8.2 |
| representative sample | যে sample-এর গঠন population-এর গঠনের কাছাকাছি (SRS গড়ে এটি দেয়) | 1.1 |
| reproducibility | একই seed দিলে হুবহু একই ফলাফল পাওয়ার বৈশিষ্ট্য (পুনরুৎপাদনযোগ্যতা) | 0.6 |
| resampling with replacement | মূল \(n\)টা মান থেকে এলোমেলোভাবে টেনে ফেরত রেখে আবার টানা — মোট \(n\)বার; একই মান একাধিকবার আসতে পারে, কিছু বাদ পড়ে — এটাই bootstrap variation-এর উৎস (§৭ Q1, Q10) | 4.9 |
| residual | প্রকৃত ও fitted মানের পার্থক্য \(\hat\varepsilon_i=y_i-\hat y_i\) | 5.1 |
| residual orthogonality | residual প্রতিটি predictor column-এর সাথে orthogonal, \(X^\top\hat\varepsilon=\mathbf 0\) | 5.1 |
| residual plot | fitted মান (বা predictor)-এর বিপরীতে residual \(\hat\varepsilon_i\)-এর scatter; এলোমেলো অনুভূমিক ব্যান্ড = অনুমান ঠিক, funnel = heteroscedasticity, বাঁক = nonlinearity — diagnostics-এর সবচেয়ে সস্তা ও প্রথম পরীক্ষা | 5.2 |
| residual sum of squares (RSS/SSE) | residual-গুলোর বর্গের যোগফল \(\sum_i\hat\varepsilon_i^2\), যা OLS minimize করে | 5.1 |
| residual-vs-fitted plot | \(\hat y_i\) বনাম \(\hat\varepsilon_i\); Linearity ও Equal-variance অনুমান একসাথে চোখে যাচাই করার মূল চিত্র | 5.2 |
| response variable | যা ভবিষ্যদ্বাণী করতে চাই, নির্ভরশীল চলক \(y\) | 5.1 |
| responsibility | E-step-এ গণনা করা \(\gamma_{ik}=P(z_i{=}k\mid x_i)\) — বিন্দু \(x_i\)-এর "দায়িত্ব" component \(k\) কতটা নেয়, একটা Bayes posterior (prior \(\pi_k\), likelihood \(\mathcal N_k\), evidence \(p(x_i)\)); \(\sum_k\gamma_{ik}=1\)। canonical ambiguous বিন্দু \([0.864,0.002,0.133]\) | 6.7 |
| restriction (under \(H_0\)) | \(H_0\) যতগুলো স্বাধীন প্যারামিটার-সম্পর্ক আটকায়; Wilks-এর \(k\) (= df) এই সংখ্যা | 4.8 |
| reverse martingale | অ-ক্রমহ্রাসমান σ-algebra-পরিবার \(\mathcal G_0\supseteq\mathcal G_1\supseteq\cdots\)-এ সংজ্ঞায়িত martingale; সর্বদা UI ও a.s./\(L^1\)-অভিসারী — SLLN-এর martingale-প্রমাণ ও de Finetti-উপপাদ্যের যন্ত্র (Klenke Ch.12) | 7.9 |
| reversibility | detailed balance-এর সমার্থ ধর্ম: equilibrium-এ chain-কে সময়ে উল্টো চালালেও একই পরিসংখ্যান দেখায় | 3.6 |
| ridge closed-form / invertibility | \(\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y\); \(\lambda>0\) হলে \(X^\top X+\lambda I\) positive-definite (eigenvalue \(\ge\lambda>0\)), তাই \(X^\top X\) singular (\(p>n\) বা collinear) হলেও সর্বদা invertible — OLS-এর normal equation-এর তুলনায় ridge-এর সংখ্যাগত সুবিধা | 6.2 |
| ridge regression | \(\min_\beta\lVert y-X\beta\rVert_2^2+\lambda\lVert\beta\rVert_2^2\); closed-form \(\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y\); সব coefficient-কে \(0\)-র দিকে সংকুচিত করে কিন্তু কোনোটাকে ঠিক \(0\) করে না; multicollinearity সারায়; canonical \(\lambda^\*{\approx}0.21\), MSE \(2.075\), \(20\) nonzero | 6.2 |
| Riemann integral | \(\int_a^b f\)-কে domain-কে vertical strip-এ ভেঙে (upper/lower sum মিলিয়ে) গণনা; সংকীর্ণ — \(\mathbf 1_{\mathbb Q}\)-এর মতো wild function-এ ব্যর্থ (C2) | 7.1 |
| Riemann sum | অনেকগুলো rectangle-এর area যোগ করে integral-এর আনুমানিক মান \(\sum f(x_i^*)\Delta x\) | 0.4 |
| Riemann vs Lebesgue | Riemann domain (\(x\)-অক্ষ) কুচি করে, Lebesgue range (\(y\)-মান) কুচি করে; Lebesgue কঠোরভাবে বড় ও limit-সহনশীল | 7.4 |
| Riesz representation theorem | একটি Hilbert space-এ প্রতিটি bounded linear functional \(\Lambda f=\langle f,g\rangle\) আকারে একক \(g\) দিয়ে লেখা যায়; Radon–Nikodym-এর \(L^2\)-প্রমাণের ভিত্তি | 7.5 |
| Riesz–Fischer theorem | প্রতিটি \(L^p\) (\(1\le p<\infty\)) complete — তাই Banach space; absolutely-convergent-series criterion দিয়ে প্রমাণিত | 7.5 |
| right-skewed | ডান দিকে লম্বা লেজ; সাধারণত mean > median | 1.3 |
| risk (of an estimator) | quadratic loss-এ একটা estimator \(\hat\theta\)-এর মোট প্রত্যাশিত বর্গ-ত্রুটি \(R(\hat\theta,\theta)=\mathbb E\lVert\hat\theta-\theta\rVert^2\); \(\theta\)-এর একটা ফাংশন (estimator-কে তার পুরো risk-বক্ররেখা দিয়ে বিচার করা হয়); MLE-র risk সর্বত্র \(p\) | 8.3 |
| risk / expected risk (\(R(h)\)) | পুরো (অজানা) distribution \(P(x,y)\)-র উপর প্রত্যাশিত loss \(R(h)=\mathbb E[\ell(h(x),y)]\) — অদেখা data-তে গড় ভুল; modeling-এর আসল লক্ষ্য এটিই minimize করা, কিন্তু \(P\) অজানা | 6.1 |
| robust covariance | outlier-প্রভাব কমিয়ে \(\mu,\Sigma\) আঁচ করার পদ্ধতি (যেমন Minimum Covariance Determinant), যাতে দূষিত data-তেও Mahalanobis-threshold নির্ভরযোগ্য থাকে; Elliptic Envelope-এর ভিত্তি (নয়তো কয়েকটা outlier-ই \(\Sigma\)-কে ফুলিয়ে নিজেদের লুকিয়ে ফেলত) | 6.9 |
| robust statistic | outlier থাকলেও সামান্য বদলায় এমন পরিমাপ | 1.2 |
| ROC / AUC | threshold-মুক্ত পারফরম্যান্স-বক্ররেখা (TPR বনাম FPR) ও তার নিচের ক্ষেত্রফল; AUC = P(random positive-এর score \(>\) random negative-এর score), imbalance-এ accuracy-র চেয়ে নির্ভরযোগ্য। canonical logistic AUC \(0.997\) | 8.1 |
| ROC AUC | threshold-নিরপেক্ষ র্যাঙ্কিং-মাপ: random anomaly-কে random inlier-এর চেয়ে উঁচু score দেওয়ার সম্ভাবনা (\(1.0\) নিখুঁত, \(0.5\) এলোমেলো); class-imbalance-এ accuracy বিভ্রান্তিকর বলে এটাই পছন্দ; canonical IF/LOF/Elliptic \(1.000\), OC-SVM \(0.941\) | 6.9 |
| ROC curve | threshold \(0\to1\) ঘোরালে TPR (recall) বনাম FPR (\(=1-\)specificity)-এর curve; threshold বাছাই ও discrimination দেখার হাতিয়ার | 5.4 |
| running maximum | \(X_n^*=\max_{0\le k\le n}\lvert X_k\rvert\) — সময় \(n\) পর্যন্ত পথের চরম-বিচ্যুতি; Doob's maximal ও \(L^p\) inequalities ঠিক একে বাঁধে | 7.9 |
| running mean | \(n\)-এর সাথে ক্রমে হালনাগাদ হওয়া চলমান গড় \(\bar X_n\); LLN-এ true mean-এ গড়িয়ে যাওয়ার দৃশ্যরূপ | 3.3 |
| sample | population থেকে নেওয়া পর্যবেক্ষিত উপসেট (আকার \(n\), সাধারণত \(n \ll N\)) | 1.1 |
| sample maximum (as MLE) | Uniform\((0,\theta)\)-এ \(\hat\theta_{\text{MLE}}=\max_i X_i\) — likelihood \(\max_i X_i\)-এ লাফিয়ে চূড়ায় ওঠে, তারপর \(\theta^{-n}\) ধরে ক্ষয়; কখনো \(\theta\) ছাড়ায় না (সর্বদা বৈধ) | 4.3 |
| sample maximum / order statistic | \(X_{(n)}=\max_i X_i\) — Uniform\((0,\theta)\)-এর MLE; biased low (\(\mathbb{E}=\frac{n}{n+1}\theta\)) কিন্তু \(\mathrm{Var}\sim\theta^2/n^2\), তাই MSE অতি ছোট (Figure 4) | 4.4 |
| sample mean | sample-এর গড় \(\bar{x} = \frac{1}{n}\sum_i x_i\); population mean \(\mu\)-এর estimator | 1.1 |
| sample mean concentration | \(\bar X_n\) data বাড়লে \(\mu\)-র চারপাশে আরও আঁটসাঁটভাবে কেন্দ্রীভূত হওয়া; LLN-এর পরিমাণগত রূপ | 3.1 |
| sample median | মাঝের order statistic (\(n\) বিজোড় হলে \(X_{((n+1)/2)}\)) | 2.7 |
| sample moment | \(\hat\mu_k'=\frac1n\sum_{i=1}^n X_i^k\) — data থেকে হিসাব করা \(k\)-তম কাঁচা moment; population moment-এর plug-in estimate | 4.2 |
| sample path | process-এর একটিমাত্র realization — একটা স্থির outcome \(\omega\) ধরে \(t\mapsto X_t(\omega)\) পুরো ফাংশন; "একটা পরীক্ষার পুরো ইতিহাস" | 3.5 |
| sample proportion | binary বৈশিষ্ট্যযুক্ত sample-এর অনুপাত \(\hat{p} = k/n\) (= binary গড়) | 1.1 |
| sample reweighting | AdaBoost-এর প্রতি round-শেষে নমুনা-ওজন আপডেট — ভুল-শ্রেণিবদ্ধ বিন্দু \(w_i\leftarrow w_ie^{\alpha_t}\) (বাড়ে), ঠিক-বিন্দু \(w_ie^{-\alpha_t}\) (কমে), তারপর normalize; পরের learner-কে এখনো-ভুল বিন্দুর দিকে মন দিতে বাধ্য করে। reweight-পরে আগের learner ঠিক \(50\%\) weighted-error-এ নামে | 6.6 |
| sample size determination | চাহিদা-মাফিক margin of error \(m\) পেতে দরকারি নমুনা-আকার \(n\ge(z_{\alpha/2}\sigma/m)^2\) (proportion-এ worst-case \(\hat p=0.5\)) (§৭ Q8) | 4.6 |
| sample space | সব সম্ভাব্য ফলাফলের set, \(\Omega\) (probability-তে) | 0.1 |
| sample variance | \(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\); \(\sigma^2\)-এর unbiased estimator, ভাজক \(n-1\) (এক df খরচ) | 4.1 |
| sample variance \(S^2\) | \(S^2=\frac1{n-1}\sum(X_i-\bar X)^2\) — \(\sigma^2\)-এর unbiased estimator (\(\mathbb{E}[S^2]=\sigma^2\)); \(n-1\) ভাজক বলে "Bessel correction" | 4.4 |
| sampling bias | বাছাই-পদ্ধতি কিছু unit-কে systematically বেশি/কম নেয়, ফলে statistic-এ পদ্ধতিগত ভুল | 1.1 |
| sampling distribution | একই population থেকে বারবার (কাল্পনিক) নমুনা তুললে একটা statistic \(T\)-এর যে distribution হয়; inference-এর কেন্দ্রীয় বস্তু — এর কেন্দ্র দেয় bias, ছড়ানো দেয় standard error | 4.1 |
| Sauer–Shelah lemma | যদি \(d_{\mathrm{VC}}=d\) হয়, তবে growth function \(\Pi_{\mathcal H}(n)\le\sum_{i=0}^{d}\binom{n}{i}=O(n^d)\) — অর্থাৎ \(d_{\mathrm{VC}}\) সসীম হলে labeling-সংখ্যা exponential নয়, polynomial; এটিই অসীম-\(\mathcal H\)-এ generalization-bound সম্ভব করে | 6.1 |
| scalar | একটি একক সংখ্যা (vector নয়), যা দিয়ে vector scale করা হয় | 0.5 |
| scale (Exponential) | \(\theta=1/\lambda\); scipy.stats.expon এই scale চায় | 2.4 |
| scatterplot | \((x,y)\) জোড়াকে সমতলে বিন্দু হিসেবে আঁকা চিত্র; সম্পর্কের প্রথম ছবি | 1.4 |
| score equation | first-order condition \(\ell'(\theta)=0\) (একাধিক প্যারামিটারে প্রতিটি partial \(=0\)) — মসৃণ অভ্যন্তরীণ সর্বোচ্চে MLE বের করার সমীকরণ (\(\ell''<0\) দিয়ে সর্বোচ্চ যাচাই) | 4.3 |
| score equation (Poisson) | log canonical link-এ MLE-শর্ত \(X^\top(y-\mu)=\mathbf 0\) (logistic-এর \(X^\top(y-p)=0\)-র জমজ); intercept থাকলে conservation \(\sum_i\hat\mu_i=\sum_i y_i\) (sample mean সংরক্ষিত) | 5.5 |
| score function | log-likelihood-এর derivative \(\ell'(\theta)=\frac{\partial}{\partial\theta}\sum_i\log f(X_i;\theta)\); মসৃণ অভ্যন্তরীণ চূড়ায় MLE আসে score equation \(\ell'(\theta)=0\) সমাধান করে | 4.3 |
| score statistic | \(S=\dfrac{U(\theta_0)^2}{I(\theta_0)}\) — \(\theta_0\)-তে log-likelihood-এর ঢাল ও information থেকে; MLE বের না করেই চলে; \(\xrightarrow{d}\chi^2_1\) (Figure 1, §৭ Q7) | 4.8 |
| score test (Rao) | score statistic-ভিত্তিক \(H_0:\theta=\theta_0\) test; শুধু null-এ হিসাব লাগে; multinomial-এ Pearson \(\chi^2\)-এ পরিণত হয় (§৭ Q9) | 4.8 |
| scree plot | eigenvalue (বা explained-variance-ratio) বনাম PC-নম্বরের লেখচিত্র — কতগুলো PC রাখা উচিত তা দৃশ্যত বাছতে; খাড়া-পতন-থেকে-সমতল বাঁকই "elbow"; চলমান উদাহরণে PC2→PC3-এ তীক্ষ্ণ পতন (\(0.343\to0.0042\)) ⇒ elbow PC2-র পরে ⇒ \(2\) PC রাখা | 5.9 |
| secant line | curve-এর দুটো বিন্দু যোগকারী সরলরেখা | 0.3 |
| second derivative | derivative-এর derivative; curvature মাপে | 0.3 |
| second derivative test | \(f''\)-এর চিহ্ন দিয়ে max/min নির্ণয় | 0.3 |
| second-order Delta method | \(g'(\mu)=0\) হলে ব্যবহৃত; \(n(g(\bar X_n)-g(\mu))\xrightarrow{d}\tfrac12 g''(\mu)\sigma^2\chi^2_1\) — limit Normal নয়, chi-square | 3.4 |
| seed | pseudo-random generator-এর শুরুর মান; reproducibility নিশ্চিত করে | 0.6 |
| self-independence (\(\mathbb P(A)=\mathbb P(A)^2\)) | একটি ঘটনা নিজের থেকে স্বাধীন হলে \(\mathbb P(A)=\mathbb P(A\cap A)=\mathbb P(A)^2\Rightarrow\mathbb P(A)\in\{0,1\}\); 0–1 law-এর এক-লাইন বীজগণিতিক হৃৎপিণ্ড | 7.6 |
| self-selection bias | উত্তরদাতারা নিজেরা বাছাই হওয়ায় সৃষ্ট bias (যেমন স্বেচ্ছা অনলাইন জরিপ) | 1.1 |
| self-training | সরলতম semi-supervised কৌশল: labeled data-তে classifier ফিট করে, তার সবচেয়ে-আত্মবিশ্বাসী unlabeled-প্রেডিকশনগুলোকে "pseudo-label" হিসেবে training-এ যোগ করে, বারবার পুনরাবৃত্তি; সরল কিন্তু ভুল-pseudo-label জমলে বিপথগামী হতে পারে | 6.9 |
| semi-supervised learning | অল্প label-যুক্ত + বহু label-হীন বিন্দু একসাথে ব্যবহার করে শেখা; unlabeled data সাহায্য করে কেবল যদি গঠন label-সম্পর্কিত হয় (cluster/manifold/smoothness অনুমান); canonical-এ labeled-only \(0.833\) → LabelSpreading \(0.989\) | 6.9 |
| sensitivity | \(P(+\mid D)\); রোগীকে test ধরার হার (true positive rate) | 2.2 |
| separating hyperplane | feature-space-এ যে সমতল \(w^\top x+b=0\) দুই শ্রেণির অঞ্চল ভাগ করে; \(w\) এর লম্ব-অভিমুখ, \(b\) স্থানান্তর; SVM এদের মধ্যে max-margin-টি বাছে | 6.4 |
| sequential (online) updating | প্রতিটা নতুন data-তে আগের posterior পরের ধাপের prior হয়ে যায়; conjugacy-তে শুধু parameter আপডেট (Figure 2, §৭ Q12) | 4.10 |
| sequential ensemble | boosting-এর গঠন — গাছগুলো পরস্পর-নির্ভর, \(h_t\) গড়তে আগের সমষ্টি \(F_{t-1}\)-এর ভুল (reweighted data বা residual) লাগে, তাই \(h_{t-1}\) শেষ না হলে \(h_t\) শুরু করা যায় না (parallel নয়); bagging/RF-এর parallel-স্বাধীন ensemble-এর সরাসরি বিপরীত | 6.6 |
| Series | pandas-এর index-যুক্ত নামাঙ্কিত 1D array (একটি কলাম) | 0.6 |
| set | কিছু সুনির্দিষ্ট, পরস্পর-আলাদা বস্তুর সংগ্রহ; ক্রম ও পুনরাবৃত্তি গোনা হয় না | 0.1 |
| set-builder notation | শর্ত দিয়ে set লেখার রীতি, \(\{x \mid \text{শর্ত}\}\) | 0.1 |
| shattering | \(\mathcal H\) যদি কিছু বিন্দু-সেটের সব \(2^k\)টি ±labeling আলাদা করতে পারে, তবে সেই সেটকে shatter করে; \(d_{\mathrm{VC}}\) = বৃহত্তম shatter-যোগ্য সেটের আকার; 2D-তে 3 অ-সমরেখ বিন্দু shatter হয়, 4 হয় না | 6.1 |
| shrinkage | গোষ্ঠী-estimate-কে গ্র্যান্ড-গড়ের দিকে টানা — partial pooling-এর প্রভাব; কতটা তা নির্ভর করে shrinkage factor \(\lambda_j\)-এর ওপর; ছোট/noisy গোষ্ঠী বেশি টানা, বড়/তথ্যবহুল কম; noisy চরম মান নিয়ন্ত্রণ করে | 5.6 |
| shrinkage estimator | unbiased estimator-কে \(0\)-র দিকে টেনে (factor \(c<1\)) সামান্য bias ঢুকিয়ে variance কমানো; MSE-optimal \(c^\ast=\theta^2/(\theta^2+\sigma_0^2)<1\) (§৭ Q11) | 4.4 |
| shrinkage factor (\(\lambda_j\)) | গোষ্ঠীর data কতটা "বিশ্বাস" পায়: \(\lambda_j=\dfrac{n_j\sigma_u^2}{n_j\sigma_u^2+\sigma_\varepsilon^2}\); BLUP \(\approx\lambda_j\times\)(গোষ্ঠীর raw-deviation); \(n_j\)-তে একঘেয়ে বাড়ে; উদাহরণে \(\lambda_{10}=0.855\), \(\lambda_{20}=0.922\), \(\lambda_{30}=0.947\) | 5.6 |
| shrinkage factor (ridge) | orthonormal \(X\)-এ ridge-coefficient OLS-এর সমানুপাতিক সংকোচন \(\hat\beta_j^{\text{ridge}}=\hat\beta_j^{\text{OLS}}/(1+\lambda)\); factor \(\frac1{1+\lambda}\in(0,1)\) for \(\lambda>0\) বলে কোনো coefficient ঠিক \(0\) হয় না — এজন্যই ridge sparse নয় | 6.2 |
| \(\sigma\)-algebra | \(\Omega\)-এর subset-দের পরিবার \(\mathcal F\) যা \(\Omega\) ধারণ করে এবং complement ও গণনাযোগ্য union-এ বদ্ধ; এ থেকেই \(\varnothing\), গণনাযোগ্য intersection ও set-difference-এর বদ্ধতা আসে — "পরিমাপযোগ্য ঘটনা"-র বৈধ পরিবার | 7.2 |
| \(\sigma\)-algebra (preview) | একটা set \(\Omega\)-এর কিছু subset-এর পরিবার \(\mathcal F\) যা \(\Omega\) ধারণ করে এবং complement ও গণনাযোগ্য union/intersection-এ বদ্ধ; measure যেখানে সংজ্ঞায়িত হয় (event-দের বৈধ পরিবার), পূর্ণ নির্মাণ 7.2-এ | 7.1 |
| \(\sigma\)-finite | measure যেখানে \(\Omega=\bigcup_n\Omega_n\) সম্ভব এমন গণনাযোগ্য \(\Omega_n\)-এ যাদের প্রতিটির \(\mu(\Omega_n)<\infty\); Carathéodory uniqueness ও \(\pi\)–\(\lambda\)-এর আবশ্যক শর্ত (Lebesgue \(\sigma\)-finite: \(\mathbb R=\bigcup_n[-n,n]\)) | 7.2 |
| \(\sigma\)-finite integral | যে measure space-এ \(\Omega=\bigcup_n\Omega_n\) (\(\mu(\Omega_n)<\infty\)); integral ও limit-interchange-জাতীয় ফল এই শর্তে মসৃণ চলে | 7.4 |
| \(\sigma(X)\) (generated σ-algebra of \(X\)) | \(X\)-কে measurable করা সবচেয়ে ছোট σ-algebra: \(\sigma(X)=X^{-1}(\mathcal B)=\{X^{-1}(B):B\in\mathcal B\}\); simple \(X\)-এর \(k\)টি ভিন্ন মান হলে \(\lvert\sigma(X)\rvert=2^k\) (\(k=2,3,4\to 4,8,16\)) | 7.3 |
| sigmoid (logistic) function | \(\sigma(z)=\frac{1}{1+e^{-z}}\); logit-এর inverse, \(\eta\)-কে \((0,1)\)-তে S-আকৃতিতে চেপে আনে; \(\sigma(0)=0.5\), \(\sigma(\pm\infty)=1/0\) | 5.4 |
| sigmoid-derivative identity | \(\sigma'(z)=\sigma(z)(1-\sigma(z))\); তাই \(\frac{\partial p}{\partial\eta}=p(1-p)=\) Bernoulli variance, যা score/Hessian/IRLS-weight-এর চাবিকাঠি | 5.4 |
| signed area | চিহ্নসহ ক্ষেত্রফল; x-অক্ষের নিচের অংশ ঋণাত্মক ধরা হয় | 0.4 |
| significance level \(\alpha\) | type I error-এর আগে-থেকে-বাছা ঊর্ধ্বসীমা (যেমন \(0.05\)); এটাই critical value ঠিক করে | 4.7 |
| silhouette score | প্রতিটি বিন্দুর cluster-membership-এর মান: \(s_i=\frac{b_i-a_i}{\max(a_i,b_i)}\in[-1,1]\), \(a_i=\) নিজের cluster-এর গড়-দূরত্ব, \(b_i=\) নিকটতম-অন্য cluster-এর গড়-দূরত্ব; \(\to1\) ভালো-বসানো, \(\approx0\) সীমান্ত, \(<0\) সম্ভবত ভুল cluster; গড়-\(s\) সর্বোচ্চকারী \(K\) বাছা — label-মুক্ত, সংখ্যাগত, তাই elbow-এর চেয়ে নির্ভরযোগ্য; চলমান উদাহরণে \(k{=}3\to0.712\) (সর্বোচ্চ) | 5.9 |
| Silverman's rule of thumb | bandwidth-এর default আনুমান h ≈ 1.06·σ̂·n^(−1/5) | 1.3 |
| simple function | সসীম-মানের measurable function \(s=\sum_{i=1}^n a_i\mathbf 1_{A_i}\) (\(a_i\in\mathbb R,\ A_i\in\mathcal F\)); approximation theorem ও Lebesgue integral (7.4)-এর মৌলিক ইট | 7.3 |
| simple function integral | \(\int\sum_i a_i\mathbf 1_{A_i}\,d\mu=\sum_i a_i\mu(A_i)\); "উচ্চতা × আকার"-এর যোগফল, প্রতিনিধিত্ব-নিরপেক্ষ ও linear | 7.4 |
| simple linear regression | একটিমাত্র predictor-এর regression, \(\hat y=\beta_0+\beta_1 x\) | 5.1 |
| simple random sample | SRS: প্রতিটি unit সমান সম্ভাবনায় ও স্বাধীনভাবে বাছাই-করা নমুনা | 1.1 |
| singular matrix | inverse-হীন matrix (\(\det=0\)) | 0.5 |
| singular measure | \(\mu\)-এর সাপেক্ষে singular \(\nu\) (\(\nu\perp\mu\)): এমন একটি set আছে যেখানে \(\nu\)-এর সব ভর অথচ \(\mu\)-measure শূন্য; Lebesgue decomposition-এর density-হীন অংশ | 7.5 |
| singular value decomposition (SVD) | \(X=USV^\top\) — যেকোনো matrix-এর গুণনপচন; PCA-র সংখ্যাগতভাবে স্থিতিশীল পথ: \(V\)-র column \(=\) PC দিক (eigenvector), singular-value-বর্গ \(s_j^2/n=\lambda_j\) (eigenvalue), \(US=\) PC score; covariance সরাসরি না বানিয়েই PCA দেয়, তাই বাস্তবে এটাই ব্যবহৃত | 5.9 |
| skewness | distribution কোন দিকে হেলানো; তৃতীয় standardized moment g₁ | 1.3 |
| slack (of a bound) | bound ও প্রকৃত মানের পার্থক্য; ঢিলা bound-এ বড়, আঁটসাঁট bound-এ ছোট | 3.1 |
| slack variable | soft-margin-এ প্রতিটি বিন্দুর margin-লঙ্ঘনের পরিমাপ \(\xi_i\ge0\) (\(\xi_i=0\) নিরাপদ বাইরে, \(0<\xi_i<1\) margin-এর ভিতরে কিন্তু সঠিক পাশে, \(\xi_i>1\) ভুল পাশে); \(C\sum_i\xi_i\) রূপে শাস্তিপ্রাপ্ত | 6.4 |
| SLLN via martingale | বৃহৎ সংখ্যার শক্তিশালী সূত্রের martingale-প্রমাণ: গড় \(\bar X_n=\frac1n\sum_{k\le n}\xi_k\)-কে backwards-martingale-কাঠামোয় বসিয়ে convergence theorem দিয়ে \(\bar X_n\to\mu\) a.s. (7.6-এর পুনঃপ্রমাণ) | 7.9 |
| slope | রেখার ঢাল, প্রতি একক x-এ y-এর পরিবর্তন | 0.3 |
| slope coefficient | predictor-এর এক-একক পরিবর্তনে \(\hat y\)-এর গড় পরিবর্তন, \(\beta_j\) | 5.1 |
| Slutsky's theorem | \(X_n\xrightarrow{d}X\) ও \(Y_n\xrightarrow{P}c\) হলে \(X_n+Y_n\xrightarrow{d}X+c\), \(X_nY_n\xrightarrow{d}cX\); CLT-তে \(\sigma\)-কে \(S_n\) দিয়ে বদলানো ও Delta method প্রমাণের হাতিয়ার | 3.4 |
| smoother matrix (\(S\)) | linear smoother-এ \(\hat{\mathbf f}=S\mathbf y\)-এর \(n\times n\) matrix; regression spline-এ \(S=B(B^\top B)^{-1}B^\top\) একটা orthogonal projection (\(S^\top=S\), \(S^2=S\), \(\operatorname{tr}(S)=K\)); kernel-এ row \(i\) = \(x_i\)-এর চারপাশের normalized kernel-weight | 5.7 |
| smoothing parameter (\(\lambda\)) | smoothing spline-এ roughness-শাস্তির ওজন; \(\lambda\to0\) ⇒ interpolation (চরম overfit, high variance), \(\lambda\to\infty\) ⇒ সরলরেখা/linear fit (চরম oversmooth, high bias); মাঝামাঝি মান সর্বোত্তম আপস | 5.7 |
| smoothing spline | প্রতিটা data-বিন্দুতে knot বসিয়ে penalized criterion \(\sum_i(y_i-f(x_i))^2+\lambda\int f''^2\) minimize করে পাওয়া spline; knot বাছার বদলে \(\lambda\) দিয়ে নমনীয়তা নিয়ন্ত্রণ; সমাধান সর্বদা natural cubic spline; চলমান উদাহরণে \(s=13.5\) → MSE \(0.0197\) | 5.7 |
| smoothness assumption | semi-supervised-এর মূল অনুমান: কাছাকাছি দুই বিন্দুর label সম্ভবত এক (ছোট পরিবর্তনে label বদলায় না); label propagation এটি graph-diffusion ও \(f^\top L f\)-minimization দিয়ে বাস্তবায়িত করে | 6.9 |
| soft assignment | প্রতিটি বিন্দুকে সব component-এ ভগ্নাংশে (responsibility \(\gamma_{ik}\in[0,1]\), যোগফল \(1\)) বণ্টন — GMM-এর ধরন; সীমানা-অনিশ্চয়তা ধরে রাখে (যেমন \([0.864,0.002,0.133]\) = প্রধানত comp-\(1\), সামান্য comp-\(3\))। hard assignment-এর বিপরীত | 6.7 |
| soft margin | hard-margin-এর শিথিল রূপ — প্রতিটি বিন্দুতে slack \(\xi_i\ge0\) অনুমোদন করে কিছু margin-লঙ্ঘন সহ্য করে, উদ্দেশ্যে \(C\sum_i\xi_i\) শাস্তি যোগ; inseparable/noisy data-র (যেমন make_moons) জন্য অপরিহার্য | 6.4 |
| soft-thresholding | orthonormal-এ lasso-র সমাধান-অপারেটর \(\hat\beta_j=\operatorname{sign}(z_j)\big(\lvert z_j\rvert-\lambda/2\big)_+\) — \(\lvert z_j\rvert\le\lambda/2\) হলে \(0\), নাহলে magnitude থেকে \(\lambda/2\) বিয়োগ করে চিহ্ন রাখা; lasso-র "shrink + zero" আচরণের গাণিতিক রূপ ও sparsity-র উৎস | 6.2 |
| sparse regression | এমন regression যা ইচ্ছাকৃতভাবে অল্প-সংখ্যক nonzero coefficient-যুক্ত মডেল খোঁজে (অর্থাৎ feature selection-সহ fit); lasso/elastic net এর প্রধান হাতিয়ার; সত্য মডেল sparse হলে বিশেষ লাভজনক | 6.2 |
| sparsity | সমাধান-vector-এ অধিকাংশ coefficient ঠিক \(0\) হওয়ার বৈশিষ্ট্য; lasso/elastic net এটি প্ররোচিত করে; ব্যাখ্যাযোগ্যতা ও কম-variance দেয়; canonical lasso path \(\lambda{=}0.30\)-এ মাত্র \(4\) nonzero | 6.2 |
| Spearman rank correlation | rank-এর উপর Pearson; যেকোনো monotonic সম্পর্ক ও outlier-robust পরিমাপ, \(\rho\) | 1.4 |
| specificity | \(P(-\mid D^c)\); সুস্থকে test ছেড়ে দেওয়ার হার (true negative rate) | 2.2 |
| spherically symmetric | multivariate normal \(N(\theta,I_p)\)-এর গোলীয় প্রতিসাম্য — density কেবল \(\lVert x-\theta\rVert\)-এর উপর নির্ভর; তাই \(\theta=0\)-তে \(\lVert X\rVert^2\sim\chi^2_p\), আর JS-এর \(\lVert X\rVert^2\)-নির্ভর radial shrinkage এই প্রতিসাম্যের সাথে সামঞ্জস্যপূর্ণ | 8.3 |
| splitting criterion | কোন split "সেরা" তা মাপার function — classification-এ Gini বা entropy (information gain সর্বোচ্চকরণ), regression-এ variance/MSE-হ্রাস; greedy-ভাবে প্রতিটি node-এ স্থানীয়-সেরা split বাছাইয়ের ভিত্তি | 6.5 |
| spurious correlation | কাকতালীয় বা confounder-চালিত অর্থহীন correlation | 1.4 |
| standard deviation | variance-এর বর্গমূল; মূল data-র এককে spread | 1.2 |
| standard error | একটা estimator-এর standard deviation; \(\bar X_n\)-এর \(\sigma/\sqrt{n}\), \(g(\bar X_n)\)-এর Delta method-পূর্বাভাস \(\lvert g'(\mu)\rvert\sigma/\sqrt{n}\) | 3.4 |
| standard error (SE) | একটি estimator-এর standard deviation; Monte Carlo-তে \(\operatorname{SE}\propto 1/\sqrt n\), error band-এর প্রস্থ ঠিক করে | 3.3 |
| standard error from Fisher info | \(\mathrm{SE}(\hat\theta)=\sqrt{\frac{1}{nI(\hat\theta)}}\) — MLE-র অনিশ্চয়তা; 4.6-এ confidence interval-এর ভিত্তি | 4.5 |
| standard error of coefficient | \(\widehat{\mathrm{se}}(\hat\beta_j)=\hat\sigma\sqrt{(X^\top X)^{-1}_{jj}}\); \(\operatorname{Var}(\hat\beta)=\sigma^2(X^\top X)^{-1}\) থেকে — coefficient-এর অনিশ্চয়তার পরিমাপ, \(t\) ও CI-র ভিত্তি | 5.2 |
| standard error of CV | fold-জুড়ে fold-MSE-গুলোর variability-র মাপ \(\text{SE}=s_{\text{fold}}/\sqrt{K}\); CV-গড়ের অনিশ্চয়তা বোঝায় ও one-SE rule-এ threshold বানাতে লাগে; চলমান উদাহরণে \(d{=}3\)-এ \(\approx0.85\) | 5.8 |
| standard Normal | \(\mathcal{N}(0,1)\); mean \(0\), sd \(1\); CDF \(\Phi\) | 2.4 |
| standardization | z-score-এ রূপান্তর (mean 0, std 1 বানানো) | 1.2 |
| standardized sample mean | \(Z_n=\dfrac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\); CLT-র কেন্দ্রীয় রাশি, mean \(0\) ও variance \(1\) | 3.4 |
| stars and bars | একরকম জিনিসকে শ্রেণিতে বণ্টনের গণনা-কৌশল \(\binom{n+r-1}{r-1}\) | 0.2 |
| state space | \(X_t\) যেসব মান নিতে পারে তার set; discrete (গণনা, যেমন \(N(t)\)) বা continuous (যেমন Brownian motion) | 3.5 |
| stationarity (strict) | যেকোনো শিফট \(h\)-এ \((X_{t_1+h},\dots,X_{t_k+h})\)-এর joint distribution \(h\)-নিরপেক্ষ; "পরিসংখ্যান সময়ের সাথে বদলায় না" (E4) | 3.5 |
| stationary distribution | \(\pi\) এমন distribution যে \(\pi=\pi P\) (ও \(\sum_i\pi_i=1\)); একবার পৌঁছালে আর বদলায় না — transition-এর ভারসাম্য/fixed point (E3); E1-এ \(\pi=(2/3,1/3)\) | 3.6 |
| statistic | sample থেকে গণনাযোগ্য সংখ্যা; random (sample বদলালে বদলায়) (\(\bar{x}, s, \hat{p}\); Roman অক্ষর) | 1.1 |
| statistical inference | একটা population-এর অজানা বৈশিষ্ট্য (estimand) সম্পর্কে নমুনা-data থেকে সিদ্ধান্ত টানার প্রক্রিয়া — estimation, confidence interval, hypothesis testing | 4.1 |
| statistical learning | data থেকে এমন একটি ফাংশন/মডেল \(h\) শেখার তত্ত্ব যা অদেখা data-তেও কাজ করে; কেন্দ্রীয় প্রশ্ন — সীমিত নমুনায় ভালো করা মডেল পুরো distribution-এ ভালো করবে কি (generalization); Part VI-এর ভিত্তি | 6.1 |
| statistical learning theory | কেন training-data-য় ভালো model অদেখা data-তেও ভালো করে তার গাণিতিক ভিত্তি (generalisation); মূল যন্ত্র VC dimension, Rademacher complexity, ও deep-learning theory; ML-এর তাত্ত্বিক হৃদয় (← Part VI, III concentration) | 8.4 |
| statistical vs practical significance | "\(p\) ছোট" (signal আছে) ≠ "effect বড়/গুরুত্বপূর্ণ"; বিশাল \(n\)-এ তুচ্ছ effect-ও significant হতে পারে — effect size/CI দেখা জরুরি (§৭ Q4) | 4.7 |
| Stein's lemma | \(X\sim N(\theta,1)\), \(g\) মসৃণ ⇒ \(\mathbb E[(X-\theta)g(X)]=\mathbb E[g'(X)]\) (normal-density-র উপর integration by parts, \(f'(x)=-(x-\theta)f(x)\)); \"\((X-\theta)\)-যুক্ত পদ\"-কে \"derivative-প্রত্যাশা\"-য় বদলে \(\theta\) সরায় — SURE-এর একক ইট | 8.3 |
| Stein's paradox | \(p\ge3\) মাত্রায় normal-means সমস্যায় স্পষ্ট estimator MLE \(\hat\theta=X\) সেরা নয় — একটা shrinkage estimator (James–Stein) তাকে প্রতিটি \(\theta\)-তে হারায়; এমনকি coordinate-গুলো সম্পূর্ণ অসম্পর্কিত হলেও যৌথভাবে সংকুচিত করা পৃথকভাবে estimate করার চেয়ে ভালো — সহজাত-বিরোধী অথচ প্রমাণিত | 8.3 |
| Stein's Unbiased Risk Estimate (SURE) | estimator \(\hat\theta=X+g(X)\)-এর risk-এর একটা \(\theta\)-মুক্ত unbiased estimate: \(\mathbb E\lVert\hat\theta-\theta\rVert^2=\mathbb E[p+2\,\nabla\!\cdot g(X)+\lVert g(X)\rVert^2]\); সত্যিকারের \(\theta\) না জেনেও risk আন্দাজ করা যায় | 8.3 |
| step-function structure of \(\mathbb E[X\mid\mathcal G]\) | finite partition-এ \(\mathbb E[X\mid\mathcal G]\) একটি ধাপ-অপেক্ষক — প্রতি atom-এ একটি ধ্রুবক; \(\mathcal G\)-measurability মানকে atom-ভেদে ধ্রুব করে, averaging তা atom-গড়ে বাঁধে | 7.7 |
| stepwise selection | criterion (AIC/\(p\)-value) ধরে predictor ধাপে ধাপে যোগ (forward) বা বাদ (backward) দেওয়ার লোভী অনুসন্ধান; সুবিধাজনক কিন্তু overfitting ও \(p\)-value বিকৃতির ঝুঁকিপূর্ণ | 5.2 |
| stochastic differential equation (SDE) | একটা random-চালিকা-সহ অন্তরকল সমীকরণ \(dX_t=\mu(X_t)\,dt+\sigma(X_t)\,dW_t\) (\(W_t\) Brownian motion); সমাধানে Itô calculus লাগে (Brownian path সাধারণ calculus মানে না); finance/physics/diffusion-model-এর ভিত্তি (← Part VII 7.8-7.9 martingale) | 8.4 |
| stochastic gradient boosting | প্রতি round-এ training-row ও/বা feature-এর একটা এলোমেলো উপসেটে গাছ fit করা — subsampling variance কমায় ও গাছ decorrelate করে overfitting ঠেকায়; gradient boosting-এর তিনটি মূল regularizer-এর একটি (shrinkage ও depth/early-stopping-এর সাথে) | 6.6 |
| stochastic matrix | অঋণাত্মক ভুক্তি ও সারি-যোগ \(1\) বিশিষ্ট বর্গ ম্যাট্রিক্স; প্রতিটি transition matrix stochastic, আর এর সর্বদা একটি eigenvalue ঠিক \(1\) থাকে (Perron–Frobenius) | 3.6 |
| stochastic process | একই probability space-এ সংজ্ঞায়িত random variable-এর একটা সংগ্রহ \(\{X_t\}\), \(t\) index (সময়/স্থান) দিয়ে সাজানো; "সময়ের সাথে বিবর্তিত randomness"-এর মডেল | 3.5 |
| stopped process | \(X_n^\tau=X_{n\wedge\tau}\) ("\(\tau\) পর্যন্ত খেলো, তারপর থামো") — martingale হলে এটিও martingale, কারণ থামা = predictable bounded বাজি \(H_n=\mathbf 1_{\{\tau\ge n\}}\) দিয়ে transform; তাই \(\mathbb E[X_{n\wedge\tau}]=\mathbb E[X_0]\) | 7.8 |
| stopping time | random variable \(\tau:\Omega\to\{0,1,\dots\}\cup\{\infty\}\) যেখানে \(\{\tau\le n\}\in\mathcal F_n\) সব \(n\)-তে — থামার সিদ্ধান্ত কেবল অতীত-তথ্যে, ভবিষ্যৎ উঁকি দিয়ে নয়; \(\tau\wedge m\)-ও stopping time | 7.8 |
| stratification | split/fold-এর প্রতিটি অংশে মূল class-অনুপাত ধরে রাখা (benign fraction \(\approx0.627\)); imbalance-এ CV-variance কমায় এবং কোনো fold-এ একটি class অতি-উপস্থাপন/অনুপস্থিত হওয়া ঠেকায় | 8.1 |
| streaming | data সম্পূর্ণ আগে-থেকে নয়, এক-এক বিন্দু (বা mini-batch) ক্রমাগত আসছে — এই সেটিংয়েই online learning প্রযোজ্য; বিশাল/অসীম data-তে একবারে সব রাখা অসম্ভব বলে incremental প্রক্রিয়াকরণ আবশ্যক | 6.9 |
| strong law of large numbers (SLLN) | \(\bar X_n\xrightarrow{a.s.}\mu\); প্রায় প্রতিটি গোটা পথ আক্ষরিকভাবে \(\mu\)-তে যায়; শর্ত শুধু \(\mathbb E\lvert X_i\rvert<\infty\) | 3.3 |
| strong learner | boosting-এ অনেক weak learner-এর ওজনিত সমষ্টি \(F_T(x)=\sum_t\alpha_t h_t(x)\) যা নিম্ন training/test-error অর্জন করে; তত্ত্ব বলে যথেষ্ট weak learner যোগ করলে যেকোনো-নিম্ন training-error সম্ভব | 6.6 |
| structured data | সারি-কলামবিশিষ্ট আয়তাকার (rectangular) data; প্রতিটি column-এর নির্দিষ্ট type | 1.1 |
| Student's t-statistic | \(T=\frac{\bar X_n-\mu}{S/\sqrt{n}}\); \(\sigma\)-কে \(S\) দিয়ে বদলানোয় \(t_{n-1}\) distribution অনুসরণ করে, \(z\)-statistic-এর small-sample সংস্করণ | 4.1 |
| Student-t tail (t-SNE) | t-SNE-র low-D affinity Gaussian নয়, ভারী-লেজ Student-\(t\) (\(1\) df, \(q_{ij}\propto(1+\lVert y_i-y_j\rVert^2)^{-1}\)) — দূরত্ব বাড়লেও \(q\) ধীরে (বহুপদীয়) পড়ে, তাই দূরের বিন্দু low-D-তে মুছে যায় না; crowding কমিয়ে cluster স্পষ্ট ও আলাদা রাখে | 6.8 |
| studentized range distribution | \(k\)টি group-গড়ের সর্বোচ্চ-সর্বনিম্ন পরিসরের (scaled) distribution; Tukey HSD-এর critical value এখান থেকে — তাই Tukey-CI সাধারণ \(t\)-CI-র চেয়ে চওড়া | 5.3 |
| studentized residual | residual-কে তার নিজস্ব আনুমানিক std দিয়ে scale করা: \(r_i=\hat\varepsilon_i/\sqrt{\hat\sigma^2(1-h_{ii})}\); বিভিন্ন leverage-এর বিন্দুর residual তুলনাযোগ্য করে, outlier শনাক্তে ব্যবহৃত | 5.2 |
| Sturges' formula | bin-সংখ্যার থাম্ব-রুল ⌈log₂ n + 1⌉ | 1.3 |
| sub-σ-algebra (as information) | \(\mathcal G\subseteq\mathcal F\) — "যতটুকু জানা" তথ্যকে ধরা; \(\mathcal G\) যত সূক্ষ্ম তত বেশি তথ্য; \(\mathcal G=\{\varnothing,\Omega\}\) (কিছু জানি না) ⇒ \(\mathbb E[X\mid\mathcal G]=\mathbb E[X]\), \(\mathcal G=\mathcal F\) (সব জানি) ⇒ \(=X\) | 7.7 |
| submartingale | adapted integrable \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]\ge X_n\) a.s. — পক্ষে-ঝোঁকা, গড়ে বাড়ে; convex \(\varphi\)-তে martingale থেকে \(\varphi(X_n)\) submartingale হয় (conditional Jensen) | 7.8 |
| subset | \(A \subseteq B\): \(A\)-এর প্রতিটি সদস্য \(B\)-তেও আছে | 0.1 |
| substitution | chain rule-এর উল্টো integration কৌশল (\(u=g(x)\) ধরা) | 0.4 |
| sufficiency (intuition) | "\(T\)-ই inference-এর জন্য যথেষ্ট" — দুই ভিন্ন-ক্রম dataset একই \(T\) দিলে একই likelihood, একই MLE (Figure 4) | 4.5 |
| sufficient condition for consistency | bias\(\to0\) এবং variance\(\to0\) (\(\Rightarrow\) MSE\(\to0\)) হলে Chebyshev দিয়ে \(\hat\theta_n\xrightarrow{P}\theta\) (§৭ Q10) | 4.4 |
| sufficient statistic | statistic \(T(X)\) যা প্যারামিটার সম্পর্কে data-র সব তথ্য ধরে রাখে; \(T\) দেওয়া থাকলে raw data আর কিছু বলে না (Figure 4) | 4.5 |
| sum of random variables | \(S=X+Y\); independent হলে density convolution দিয়ে পাওয়া যায় | 2.7 |
| sum of squares | বিচ্যুতির বর্গের যোগফল; ANOVA-তে variation-কে উৎস-অনুযায়ী (between/within/factor/interaction/residual) ভাগ করার একক | 5.3 |
| \(\sum X_i\) as sufficient statistic | Bernoulli/Poisson-এ \(T=\sum X_i\) sufficient; ক্রম অপ্রাসঙ্গিক, কেবল যোগফলেই সব তথ্য (Figure 4; §৭ Q12) | 4.5 |
| sums and products measurable | measurable \(X,Y\)-এর \(X+Y\) ও \(XY\) আবার measurable; \(\{X+Y<x\}=\bigcup_{q\in\mathbb Q}(\{X<q\}\cap\{Y<x-q\})\) (গণনাযোগ্য union over \(\mathbb Q\)), গুণ \(XY=\tfrac14[(X+Y)^2-(X-Y)^2]\) ও \(t\mapsto t^2\) Borel | 7.3 |
| sup/limsup of measurable functions | measurable \(X_n\)-দের \(\sup_n X_n,\inf_n X_n,\limsup_n X_n,\liminf_n X_n,\lim_n X_n\) আবার measurable; key: \(\{\sup_n X_n\le x\}=\bigcap_n\{X_n\le x\}\) (গণনাযোগ্য intersection of events) | 7.3 |
| supermartingale | adapted integrable \((X_n)\) যেখানে \(\mathbb E[X_{n+1}\mid\mathcal F_n]\le X_n\) a.s. — বিপক্ষে-ঝোঁকা, গড়ে কমে (যেমন ঘর-সুবিধাযুক্ত ক্যাসিনো); নাম-সাদৃশ্য subharmonic ফাংশনের উল্টো | 7.8 |
| support | সমর্থন — random variable-এর সব সম্ভাব্য মানের set \(\mathcal{X}\) | 2.3 |
| support of a law | \(X\)-এর law \(P_X\) যেখানে "ভর রাখে" — ক্ষুদ্রতম closed set \(S\) with \(P_X(S)=1\); যেমন \(Y=X^2,\ X\sim U(-1,1)\)-এ support \([0,1]\), যেখানে density \(\dfrac{1}{2\sqrt y}\) (\(y\to 0\)-এ \(\to\infty\), তবু \(\int_0^1=1\)) | 7.3 |
| support vector | সেই training-বিন্দু যাদের dual coefficient \(\alpha_i>0\) — জ্যামিতিকভাবে margin-এর উপর বা ভিতরে/ভুল পাশে; decision function \(f(x)=\sum_i\alpha_i y_i K(x_i,x)+b\) কেবল এদের উপর নির্ভর; non-SV মুছলে boundary অপরিবর্তিত; canonical RBF\(C{=}10\)-এ ৪৫টি | 6.4 |
| support vector machine (SVM) | discriminative classifier যা দুই শ্রেণিকে সর্বোচ্চ margin-এ আলাদা করা hyperplane \(w^\top x+b=0\) খোঁজে; soft-margin-এ slack ও penalty \(C\), এবং kernel-trick দিয়ে nonlinear boundary; সিদ্ধান্ত অল্প কয়েকটি support vector-নির্ভর (sparse)। canonical (make_moons): linear \(0.811\), RBF \(C{=}10\) \(0.944\) | 6.4 |
| supporting line | convex curve-এর কোনো বিন্দুতে tangent, যা পুরো curve-এর নিচে থাকে; Jensen-প্রমাণের হাতিয়ার | 3.1 |
| sure event | পুরো \(\Omega\); probability \(1\) | 2.1 |
| surjective | onto: codomain-এর প্রতিটি element কোনো input থেকে আসে (range=codomain) | 0.1 |
| survival function | \(S(x)=P(X>x)=1-F(x)\); "\(x\) অতিক্রম করে টিকে থাকার" probability | 2.4 |
| symbolic integration | closed-form/বীজগাণিতিক রূপে integral (যেমন sympy integrate) | 0.4 |
| symmetric difference | \(A \triangle B\): একটিতে আছে কিন্তু দুটোতে একসাথে নেই | 0.1 |
| symmetric matrix | \(A=A^\top\) সমানুবর্তী matrix | 0.5 |
| system of linear equations | একসাথের রৈখিক সমীকরণ, \(A\mathbf{x}=\mathbf{b}\) | 0.5 |
| t-distribution | \(t_k=\frac{Z}{\sqrt{V/k}}\) (\(Z\sim\mathcal N(0,1)\), \(V\sim\chi^2_k\) স্বাধীন); \(0\)-কেন্দ্রিক, Normal-এর চেয়ে ভারী লেজ; \(\sigma\) অজানা থাকলে \(\frac{\bar X_n-\mu}{S/\sqrt{n}}\sim t_{n-1}\) (E3) | 4.1 |
| t-interval | \(\sigma\) অজানা হলে \(\bar x\pm t_{n-1,\alpha/2}\,s/\sqrt n\) (E2); z-interval-এর চেয়ে চওড়া, কারণ \(s\) আঁচের বাড়তি অনিশ্চয়তা (Figure 3) | 4.6 |
| t-SNE | t-distributed Stochastic Neighbor Embedding — visualization-কেন্দ্রিক manifold পদ্ধতি: high-D affinity \(p_{ij}\) (Gaussian, perplexity-স্কেল) ও low-D affinity \(q_{ij}\) (Student-\(t\)) সংজ্ঞায়িত করে \(\mathrm{KL}(P\Vert Q)\) minimize করে embedding শেখে; local-strong, global-weak। canonical \(T=0.999,\ \lvert\text{corr}\rvert=0.857\) | 6.8 |
| t-test | \(\sigma\) অজানা হলে \(T=\frac{\bar x-\mu_0}{s/\sqrt n}\sim t_{n-1}\) (E2); ছোট \(n\)-এ z ব্যবহার করলে type I error স্ফীত (§৭ Q14) | 4.7 |
| t-test (regression) | প্রতিটি coefficient-এর জন্য \(H_0:\beta_j=0\) পরীক্ষা: \(t_j=\hat\beta_j/\widehat{\mathrm{se}}(\hat\beta_j)\sim t_{n-p}\) — "অন্য predictor রেখে এই predictor কি দরকার?"; ৪.৭-এর \(t\)-test-এর সরাসরি প্রয়োগ | 5.2 |
| tail (of a distribution) | distribution-এর প্রান্ত — খুব বড় বা খুব ছোট মানের অঞ্চল | 3.1 |
| tail bound | একটি distribution-এর প্রান্তে (tail) কত mass থাকতে পারে তার উপরসীমা | 3.1 |
| tail event | \(A\in\mathcal T\) — কোনো সসীম উপসর্গ (প্রথম \(m-1\)টি \(X_i\)) বদলালেও যার সত্য-মিথ্যা বদলায় না; যেমন \(\{\sum X_n\ \text{converges}\}\), \(\{\limsup\bar X_n>c\}\) | 7.6 |
| tail random variable | \(\mathcal T\)-measurable random variable (যেমন \(\limsup_n X_n\), \(\liminf_n\bar X_n\)); 0–1 law-এ a.s. ধ্রুবক — CDF একটি \(\{0,1\}\)-মানের ধাপ | 7.6 |
| tail σ-algebra | \(\mathcal T=\bigcap_{m\ge1}\sigma(X_m,X_{m+1},\dots)\); যে তথ্য সসীম-সংখ্যক \(X_i\) বদলালেও অটুট — "অসীম-দূরের লেজ" | 7.6 |
| tangent line | curve-কে একটি বিন্দুতে স্পর্শকারী রেখা | 0.3 |
| target distribution | যে distribution থেকে আমরা নমুনা চাই (\(\pi\) বা un-normalized \(f\)); MCMC-তে এটাই chain-এর stationary distribution বানানো হয় (Figure 4-এর লাল curve) | 3.6 |
| Taylor expansion of \(\varphi\) | \(\varphi(t)=1+it\mathbb E[X]-\tfrac{t^2}{2}\mathbb E[X^2]+o(t^2)\); গড়-শূন্য একক-ভেদে \(\varphi(t)=1-\tfrac{t^2}{2}+o(t^2)\) — CLT-প্রমাণের একমাত্র analytic input | 7.10 |
| test / generalization error (Err) | model আগে-না-দেখা স্বাধীন data-তে যে গড়-বর্গ-ভুল করবে; modeling-এর প্রকৃত লক্ষ্য, decomposition \(\text{Err}=\sigma^2+\text{bias}^2+\text{variance}\); train error এটিকে under-estimate করে, CV সৎভাবে আন্দাজ করে (চলমান উদাহরণে deg-\(3\) test MSE \(9.71\approx\sigma^2\)) | 5.8 |
| test of independence | \(r\times c\) contingency table-এ row ও column স্বাধীন কিনা তার \(\chi^2\) test; \(E_{ij}=\frac{\text{row}_i\,\text{col}_j}{n}\), df \(=(r-1)(c-1)\) (§৭ Q14) | 4.8 |
| test statistic \(T\) | data-কে একটা সংখ্যায় চাপানো যার null distribution জানা (যেমন \(z=\frac{\bar x-\mu_0}{\sigma/\sqrt n}\)); মাপে data \(H_0\) থেকে কত দূরে | 4.7 |
| tidy data | "এক row = এক observation, এক column = এক variable" নিয়মে সাজানো data | 1.1 |
| tightness | একটা বণ্টন-পরিবারের ভর "অসীমে পালায় না": প্রতি \(\epsilon\)-এ একটা compact \([-M,M]\) আছে যাতে \(\mathbb P(\lvert X_n\rvert>M)<\epsilon\) সব \(n\)-এ; Lévy-তে সীমা-\(\varphi\)-এর \(0\)-অবিচ্ছিন্নতা এটি নিশ্চিত করে | 7.10 |
| Tonelli (series form) | অঋণাত্মক পদের জন্য \(\int\sum_n f_n\,d\mu=\sum_n\int f_n\,d\mu\) (যোগ ও integral অদলবদল); MCT-এর সরাসরি ফল | 7.4 |
| total / between-cluster SS | spread-পচন \(\text{TSS}=\text{WSS}+\text{BSS}\): total \(\text{TSS}=\sum_i\lVert x_i-\bar x\rVert^2\) (grand-mean থেকে, \(K\)-নিরপেক্ষ ধ্রুবক, \(=k{=}1\) inertia \(=1200\)), within \(\text{WSS}=\) inertia, between \(\text{BSS}=\sum_k\lvert C_k\rvert\lVert\mu_k-\bar x\rVert^2\); WSS কমানো \(\Leftrightarrow\) BSS বাড়ানো; ANOVA-র variance-বিভাজনের clustering-অনুরূপ (৫.১) | 5.9 |
| total mean squared error | একাধিক প্যারামিটার একসাথে estimate করার risk — সব coordinate-এর MSE-র যোগফল \(\sum_i\mathbb E[(\hat\theta_i-\theta_i)^2]=\mathbb E\lVert\hat\theta-\theta\rVert^2\); JS বনাম MLE-র তুলনার মাপকাঠি | 8.3 |
| total sum of squares (SST) | \(y\)-এর মোট variation \(\sum_i(y_i-\bar y)^2\) | 5.1 |
| tower property / iterated expectation | \(\mathcal H\subseteq\mathcal G\Rightarrow\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]=\mathbb E[X\mid\mathcal H]\); বিশেষে \(\mathbb E[\mathbb E[X\mid\mathcal G]]=\mathbb E[X]\) — "ধাপে-ধাপে গড়, মোটাটাই জেতে" (পাশায় \(4\cdot\tfrac12+3\cdot\tfrac12=3.5\)) | 7.7 |
| trace plot | iteration বনাম chain-state-এর plot (Figure 3); burn-in, mode-হপিং ও mixing চোখে যাচাইয়ের হাতিয়ার | 3.6 |
| train/test split | data-কে model-fitting ও নিরপেক্ষ-মূল্যায়নে ভাগ করা; এখানে stratified \(70/30\) (seed \(20260619\) → train \(398\) / test \(171\)) — test-set কেবল একবার, চূড়ান্ত রিপোর্টিং-এর সময় ছোঁয়া হয় | 8.1 |
| train/validation/test split | data-কে তিন ভূমিকায় ভাগ: train (parameter \(\hat\beta\) শেখা), validation (tuning parameter/model বাছা), test (চূড়ান্ত মডেলের honest error, একবার-মাত্র); test বারবার দেখলে leakage ⇒ optimistic, তাই একদম শেষে একবার ব্যবহার | 5.8 |
| training error | model যে data-তে fit হয়েছে সেই একই data-তে মাপা গড়-বর্গ-ভুল \(\frac1n\sum_i(y_i-\hat f(x_i))^2\); complexity বাড়ালে একঘেয়ে কমে (চলমান উদাহরণে \(d{=}1\to22.08\), \(d{=}10\to9.12\), এমনকি \(\sigma^2=9\)-এর নিচে), তাই model-complexity বাছার অযোগ্য — সবসময় optimistic | 5.8 |
| transformation | একটি random variable-কে function দিয়ে নতুন random variable-এ রূপান্তর, \(Y=g(X)\) | 2.7 |
| transition matrix | সব \(P_{ij}\) নিয়ে গঠিত ম্যাট্রিক্স \(P\); প্রতিটি ভুক্তি \(\ge0\) আর প্রতিটি সারি যোগে \(1\) (row-stochastic), কারণ প্রতিটি state থেকে কোথাও-না-কোথাও যেতেই হয় | 3.6 |
| transition probability | \(P_{ij}=P(X_{n+1}=j\mid X_n=i)\) — এক ধাপে state \(i\) থেকে \(j\)-তে যাওয়ার সম্ভাবনা (Figure 1-এর তীর) | 3.6 |
| translation invariance | measure সরালে বদলায় না: \(\lambda(A+t)=\lambda(A)\) সব \(t\)-এ; length-এর একটি কাম্য ধর্ম, কিন্তু countable additivity-র সঙ্গে মিলে Vitali-অসম্ভবতা ঘটায় (C3) | 7.1 |
| transpose | row ও column অদলবদল করা matrix, \(A^\top\) | 0.5 |
| triangular distribution | দুই independent Uniform(0,1)-এর sum-এর ত্রিভুজাকার density (চূড়া \(s=1\)-এ) | 2.7 |
| trimmed mean | দুই প্রান্ত থেকে নির্দিষ্ট ভগ্নাংশ বাদ দিয়ে নেওয়া গড় | 1.2 |
| truncation | চলককে কেটে আবদ্ধ করা \(X_n'=X_n\mathbf 1_{\{\lvert X_n\rvert\le n\}}\) — সব আঘূর্ণ সসীম হয়, maximal inequality প্রয়োগযোগ্য; Etemadi-র SLLN-প্রমাণের কেন্দ্রীয় কৌশল | 7.6 |
| trustworthiness | embedding-গুণমানের মাপ \(T\in[0,1]\): low-D-তে দেখানো \(k\)-নিকটতম প্রতিবেশীরা high-D-তেও কি কাছের ছিল (মিথ্যা-প্রতিবেশী নেই — local বিশ্বস্ততা); উঁচু \(T\) global গঠন নিশ্চিত করে না (PCA: \(T=0.968\) কিন্তু \(\lvert\text{corr}\rvert=0.165\)), তাই global মাপের সাথে দেখা জরুরি | 6.8 |
| Tukey HSD | সব জোড়ার গড়-পার্থক্যের জন্য studentized-range-ভিত্তিক simultaneous CI ও adjusted \(p\); FWER-কে \(\alpha\)-তে ধরে রেখে "কোন জোড়া আলাদা" বলে | 5.3 |
| tuning / hyperparameter | model fit-এর আগে বেছে নেওয়া complexity-নিয়ন্ত্রক মান যা data থেকে সরাসরি estimate হয় না (polynomial degree, bandwidth \(h\), df, penalty \(\lambda\)); CV-grid-search-এর প্রধান লক্ষ্য — প্রতিটা grid-মানে CV-error হিসাব করে সেরাটা বাছা | 5.8 |
| tuning parameter / regularization strength (\(\lambda\)) | penalty-র ওজন \(\lambda\ge0\) — capacity নিয়ন্ত্রণের knob; \(\lambda\uparrow\) ⇒ বেশি shrink, কম nonzero, কম variance বেশি bias; সাধারণত cross-validation (৫.৮) দিয়ে বাছা হয়; canonical ridge \(\lambda^\*{\approx}0.21\), lasso \(\lambda^\*{\approx}0.042\) | 6.2 |
| two-way ANOVA | দুটি factor একসাথে (যেমন fertilizer \(\times\) irrigation) — প্রতিটির main effect ও তাদের interaction আলাদা করে মাপে | 5.3 |
| type I error | \(H_0\) সত্যি তবু বাতিল করা (false positive); এর সম্ভাবনা \(\alpha=P(\text{reject}\mid H_0)\) (Figure 1-লাল region) | 4.7 |
| type II error | \(H_1\) সত্যি তবু \(H_0\) না-বাতিল করা (false negative); সম্ভাবনা \(\beta=P(\text{fail to reject}\mid H_1)\) (Figure 1-বেগুনি) | 4.7 |
| typewriter sequence | \([0,1]\)-এ পিছলে-যাওয়া indicator; \(\xrightarrow{P}0\) করে কিন্তু \(\xrightarrow{a.s.}\) করে না — মূল প্রতি-উদাহরণ | 3.2 |
| U-curve (test error vs complexity) | test/generalization error বনাম model-complexity-র U-আকৃতির বক্ররেখা — বাঁয়ে underfit (bias-প্রধান), ডানে overfit (variance-প্রধান), মাঝে min; train error একঘেয়ে নামে বলে এর সাথে মেলে না; চলমান উদাহরণে min \(d{=}3\) (0.102) | 6.1 |
| UI ⇔ \(L^1\)-convergence ⇔ closed | martingale-এর তিন-সমতুল্যতা: uniform integrability \(\iff\) \(L^1\)-অভিসরণ (ও a.s.) \(\iff\) closed (\(X_n=\mathbb E[X_\infty\mid\mathcal F_n]\)); Pólya/Radon–Nikodym/Bayes-প্রয়োগের প্রাণ | 7.9 |
| UMAP | Uniform Manifold Approximation and Projection — t-SNE-র মতো neighbor-গ্রাফ-ভিত্তিক visualization/embedding পদ্ধতি, কিন্তু দ্রুততর ও বড়-scale-এ ভালো; fuzzy-topological প্রতিবেশ-গঠন রক্ষা করে। t-SNE-র মতোই মূলত visualization-হাতিয়ার, downstream-feature নয় | 6.8 |
| unbiased estimator | যে estimator-এর প্রত্যাশিত মান সত্যিকারের parameter-এর সমান (\(\mathbb{E}[\bar{X}] = \mu\)) | 1.1 |
| uncorrelated | \(\operatorname{Cov}(X,Y)=0\); রৈখিক সম্পর্ক নেই (তবে dependent হতে পারে) | 2.6 |
| undefined mean | \(\mathbb E\lvert X\rvert=\infty\) হওয়ায় কোনো \(\mu\) না থাকা; Cauchy-র মতো ক্ষেত্রে LLN প্রযোজ্য নয় | 3.3 |
| under-coverage | প্রকৃত coverage প্রতিশ্রুত \(1-\alpha\)-এর নিচে; যেমন ছোট \(n\) ও \(\sigma\) অজানা হলে z-interval ব্যবহার (§৭ Q13) | 4.6 |
| underfitting | model বাস্তব signal ধরতে অক্ষম (অতি-সরল) ⇒ উচ্চ bias, train ও test দুটোই বড়; চলমান উদাহরণে \(d{=}1\) (cubic \(f\)-কে সরলরেখায় ধরা, MSE \(\approx22\)); complexity বাড়ালে কমে — bias–variance-এর bias-প্রধান প্রান্ত | 5.8 |
| uniform continuity of \(\varphi\) | \(\varphi_X\) গোটা \(\mathbb R\)-এ সমভাবে অবিচ্ছিন্ন (শুধু অবিচ্ছিন্ন নয়); DCT (7.4) দিয়ে \(\sup_t\lvert\varphi(t+h)-\varphi(t)\rvert\le\mathbb E\lvert e^{ihX}-1\rvert\to0\), dominating function ধ্রুবক \(2\) | 7.10 |
| Uniform distribution | \([a,b]\)-এ সব মান সমান-সম্ভাব্য; সমতল PDF \(f=\frac{1}{b-a}\) | 2.4 |
| uniform integrability | \(\sup_n\mathbb E[\lvert X_n\rvert\mathbf 1_{\{\lvert X_n\rvert>K\}}]\to0\) যখন \(K\to\infty\) — "সীমায় ভর হারায় না"; a.s.-অভিসরণকে \(L^1\)-অভিসরণে উন্নীত করে (Vitali), DCT-র dominated-শর্তের শিথিল রূপ | 7.9 |
| uniform integrability (preview) | একটা family \(\{X_i\}\) uniformly integrable যদি \(\sup_i\mathbb E[\lvert X_i\rvert\,\mathbf 1_{\{\lvert X_i\rvert>K\}}]\to0\) (\(K\to\infty\)) — OST/martingale-convergence-এ সীমা-বিনিময়ের সঠিক শর্ত (7.9-এর পূর্ণ হাতিয়ার) | 7.8 |
| unimodal | একটিমাত্র চূড়াবিশিষ্ট distribution | 1.3 |
| union | \(A \cup B\): যা \(A\) বা \(B\)-তে আছে | 0.1 |
| union bound | \(P(\bigcup_i A_i)\le\sum_i P(A_i)\) (Boole's inequality) | 2.1 |
| uniqueness theorem | \(\varphi_X(t)=\varphi_Y(t)\ \forall t\iff X\overset{d}{=}Y\) — cf আইনকে অনন্যভাবে নির্ধারণ করে; দুই random variable-এর একই cf মানে একই বণ্টন (Fourier-invertibility থেকে) | 7.10 |
| unit | population/sample-এর একক উপাদান (যেমন একজন মানুষ, একটি পণ্য, একটি লেনদেন) | 1.1 |
| unit vector | দৈর্ঘ্য ১-এর vector | 0.5 |
| univariate analysis | একক variable-এর center, spread ও shape বিশ্লেষণ | 1.5 |
| universal quantifier | \(\forall\): "for all / প্রত্যেকের জন্য" | 0.1 |
| universal set | প্রসঙ্গের সব সম্ভাব্য বস্তুর set, \(U\) | 0.1 |
| universality (CLT) | মূল বণ্টন যাই হোক, মানক যোগফল একই \(N(0,1)\)-এ মেলে; কারণ \(\varphi\)-সীমায় কেবল দ্বিতীয়-ক্রম তথ্য (গড়, ভেদ) বাঁচে, তৃতীয়+ moment \(o(\frac1n)\)-এ মুছে যায় | 7.10 |
| unsupervised learning | লেবেল (\(y\)) ছাড়া শুধু feature-matrix \(X\in\mathbb R^{n\times p}\) থেকে data-র অন্তর্নিহিত গঠন বের করার শিক্ষা — লক্ষ্য ভবিষ্যদ্বাণী নয়, বরং structure উন্মোচন (কত মাত্রায় data বাস করে, কয় দলে ভাগ হয়); supervised-এর বিপরীত, মানদণ্ড predictive error নয় বরং reconstruction/separation/stability; এ অধ্যায়ের দুই স্তম্ভ PCA ও clustering | 5.9 |
| upcrossing | একটা ধারা/process \(a\)-র নিচ থেকে উঠে \(b\)-র উপরে পৌঁছানোর একটি সম্পূর্ণ "ঊর্ধ্ব-পারাপার" (\(a<b\)); সময় \(n\) পর্যন্ত এমন পারাপারের সংখ্যা \(U_n([a,b])\) — অভিসরণ-বিশ্লেষণের কেন্দ্রীয় গণক | 7.9 |
| upper / lower Darboux integral | \(\overline{\int}f=\inf_P U(f,P)\) ও \(\underline{\int}f=\sup_P L(f,P)\); সমান হলে Riemann integral বিদ্যমান, \(\mathbf 1_{\mathbb Q}\)-এ \(\overline{\int}=1\ne0=\underline{\int}\) | 7.1 |
| validation set | training-এ দেখা হয়নি এমন data-অংশ, যেখানে tuning parameter / model বাছা হয় (degree, \(h\), \(\lambda\), model-পরিবার); cross-validation এর data-সাশ্রয়ী বিকল্প — আলাদা অংশ স্থায়ীভাবে কেটে না রেখে fold ঘুরিয়ে validation | 5.8 |
| variability | data কতটা ছড়ানো তা নির্দেশক পরিমাপ (dispersion) | 1.2 |
| variable | পরিমাপযোগ্য বৈশিষ্ট্য/চলক (DataFrame-এ একটি column) | 1.1 |
| variance | mean থেকে বর্গ-বিচ্যুতির গড় (spread-এর বর্গ-এককে) | 1.2 |
| variance component | মোট পরিবর্তনশীলতার পৃথক উৎস-ভিত্তিক টুকরো: between-group \(\sigma_u^2\) ও within-group \(\sigma_\varepsilon^2\); ৫.৩-এর ANOVA sum-of-squares বিভাজনের ধারাবাহিকতা; উদাহরণে \(\hat\sigma_u^2=37.64\), \(\hat\sigma_\varepsilon^2=63.69\) | 5.6 |
| variance floor | CRLB-র দৃশ্যরূপ — log-log plot-এ ঢাল \(-1\)-এর সরল রেখা \(\frac{1}{nI(\theta)}\); এর নিচের এলাকা unbiased estimator-এর জন্য নিষিদ্ধ (Figure 2) | 4.5 |
| variance inflation factor (VIF) | \(\text{VIF}_j=1/(1-R_j^2)\) (\(R_j^2\) = predictor \(j\)-কে বাকিদের ওপর regress করার \(R^2\)); collinearity-জনিত coefficient-variance বৃদ্ধির গুণক — se বাড়ে \(\sqrt{\text{VIF}_j}\) গুণ; থাম্ব-রুল VIF \(>5\) (বা \(>10\)) উদ্বেগজনক | 5.2 |
| variance of a sum | \(\operatorname{Var}(X+Y)=\operatorname{Var}X+\operatorname{Var}Y+2\operatorname{Cov}(X,Y)\) | 2.6 |
| variance of estimator | \(\mathrm{Var}(\hat\theta)=\mathbb{E}[(\hat\theta-\mathbb{E}\hat\theta)^2]\) — estimate নমুনাভেদে কতটা ওঠানামা করে (precision-এর অভাব) (Figure 1) | 4.4 |
| variance reduction | ensemble-এর কেন্দ্রীয় লক্ষ্য — \(B\)টি correlated estimator-এর গড়ের variance \(\rho\sigma^2+\frac{1-\rho}{B}\sigma^2\); \(B\) বাড়ালে দ্বিতীয় পদ মরে কিন্তু \(\rho\sigma^2\) floor থাকে, তাই গাছ-গড় ও decorrelation দুই পথে variance কমানো হয় | 6.5 |
| variational inference | একটা কঠিন posterior-কে একটা সরল, নিয়ন্ত্রণযোগ্য distribution-শ্রেণি দিয়ে approximate করা — sampling-এর বদলে একটা lower-bound (ELBO) সর্বোচ্চকরণ (optimisation); computational statistics-এর মূল, EM-এর সাধারণীকরণ (← Part IV, VI EM) | 8.4 |
| VC dimension (\(d_{\mathrm{VC}}\)) | অসীম hypothesis class-এর capacity-র মাপ: সবচেয়ে বড় বিন্দু-সংখ্যা যাকে \(\mathcal H\) shatter করতে পারে; \(\ln\lvert\mathcal H\rvert\)-এর জায়গা নেয় generalization-bound-এ; চলমান উদাহরণে 2D linear classifier-এর \(d_{\mathrm{VC}}=3\) (সাধারণভাবে \(\mathbb R^p\)-এ \(p+1\)) | 6.1 |
| vector | মান ও দিকসম্পন্ন রাশি; সংখ্যার ক্রমিক তালিকা | 0.5 |
| vectorization | loop ছাড়াই পুরো array-তে একসাথে operation চালানো | 0.6 |
| VIF (variance inflation factor) | multicollinearity-র মাপ \(\text{VIF}_j=1/(1-R_j^2)\) যেখানে \(R_j^2\) = বাকি predictor দিয়ে \(x_j\)-এর regression; \(>10\) severe। canonical mean perimeter \(934.95\), mean radius \(891.13\), mean area \(52.68\) (radius/perimeter/area প্রায়-অভিন্ন তথ্য বহন করে) | 8.1 |
| violin plot | boxplot + দুই পাশে আয়না-করা KDE; পূর্ণ density-আকৃতি দেখায় | 1.3 |
| Vitali set | Axiom of Choice দিয়ে \(x\sim y\iff x-y\in\mathbb Q\)-এর প্রতি class থেকে একটি প্রতিনিধি নিয়ে গড়া \(V\subseteq[0,1]\); non-measurable — translate-গুলো disjoint, \(1\le\sum\lambda(V)\le3\) অসম্ভব | 7.1 |
| Wald confidence interval | \(\hat\theta\pm z_{\alpha/2}\,\widehat{\mathrm{se}}\) — MLE-র asymptotic normality থেকে; \(\widehat{\mathrm{se}}=1/\sqrt{n\,I(\hat\theta)}\) (E4, §৭ Q11) | 4.6 |
| Wald test | \(W=\dfrac{(\hat\theta-\theta_0)^2}{\widehat{\mathrm{se}}^{\,2}}\) — MLE \(\hat\theta\) ও \(\theta_0\)-এর scaled অনুভূমিক দূরত্ব; শুধু MLE-তে হিসাব; \(\xrightarrow{d}\chi^2_1\) (Figure 1, §৭ Q6) | 4.8 |
| weak (wide-sense) stationarity | \(m(t)\) ধ্রুবক এবং \(C(s,t)\) কেবল lag \(h=t-s\)-এর ফাংশন (\(\operatorname{Var}<\infty\)); Gaussian process-এ strict-এর সমতুল্য | 3.5 |
| weak convergence | convergence in distribution-এর আরেক নাম (দুর্বলতম mode) | 3.2 |
| weak law of large numbers (WLLN) | \(\bar X_n\xrightarrow{P}\mu\); প্রতিটি \(\varepsilon>0\)-এ \(P(\lvert\bar X_n-\mu\rvert\ge\varepsilon)\to 0\); finite variance-এ Chebyshev দিয়ে প্রমাণযোগ্য | 3.3 |
| weak learner | এমন classifier যার error random guessing-এর চেয়ে ধারাবাহিকভাবে একটু কম (\(\varepsilon<0.5\), binary-তে); boosting-এর base unit। canonical decision stump (depth-\(1\)): test \(0.739\), error \(0.261<0.5\) — দুর্বল কিন্তু chance-এর চেয়ে ভালো | 6.6 |
| Weak vs Strong LLN | weak: \(\bar X_n\xrightarrow{P}\mu\) (in probability, 3.3); strong: \(\bar X_n\to\mu\) a.s. — a.s. ⇒ in probability, উল্টোটা নয়; strong-এ শুধু \(\mathbb E\lvert X\rvert<\infty\) লাগে (variance নয়) | 7.6 |
| weighted mean | প্রতিটি মানকে আলাদা weight দিয়ে নেওয়া গড় (Σwx / Σw) | 1.2 |
| white noise | iid (বা uncorrelated) mean-\(0\) ক্রম; \(\gamma(0)=\sigma^2\), \(\gamma(h)=0\) (\(h\ne0\)); সরলতম stationary process, অন্য process-এর নির্মাণ-ব্লক | 3.5 |
| Wilks' theorem | বড় নমুনায় \(H_0\)-র অধীনে \(-2\log\Lambda\xrightarrow{d}\chi^2_k\), \(k=\) আটকানো প্যারামিটার সংখ্যা (restrictions/df); LRT-কে practical করে (Figure 2, §৭ Q10) | 4.8 |
| within-group variation (SSW) | প্রতিটি group-এর ভেতরের ছড়ানো (শুধু noise): \(\mathrm{SSW}=\sum_g\sum_i(y_{gi}-\bar y_g)^2\); \(df=n-k\); \(\mathrm{MSW}\) সর্বদা \(\sigma^2\)-এর unbiased estimate | 5.3 |
| worst-case (distribution) | যে distribution একটি bound-কে প্রায় সমতায় নেয়; সর্বজনীন bound-এর রক্ষণশীলতার কারণ | 3.1 |
| XGBoost | gradient boosting-এর regularized, scalable বাস্তবায়ন (এবং LightGBM/CatBoost) — shrinkage, গাছ-গভীরতা/সংখ্যা-সীমা, stochastic subsampling, ও অতিরিক্ত L1/L2 (leaf-weight) penalty দিয়ে overfitting নিয়ন্ত্রণ করে; tabular data-তে প্রায়ই সেরা off-the-shelf predictor | 6.6 |
| Young's inequality | ধনাত্মক \(a,b\) ও conjugate \(\tfrac1p+\tfrac1q=1\)-এ \(ab\le\tfrac{a^p}{p}+\tfrac{b^q}{q}\); Hölder ও Cauchy–Schwarz-এর point-wise বীজ (\(p=q=2\) দেয় AM–GM) | 7.5 |
| z-interval | \(\sigma\) জানা হলে \(\bar x\pm z_{\alpha/2}\,\sigma/\sqrt n\) (E1); pivot \(\frac{\bar X-\mu}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\) থেকে | 4.6 |
| z-score | (x − mean)/std; mean থেকে কত std দূরে তা একক-নিরপেক্ষভাবে | 1.2 |
| z-test | \(\sigma\) জানা হলে \(T=\frac{\bar x-\mu_0}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\) (E1) | 4.7 |
| zero-inflated model | যখন data-তে প্রত্যাশার তুলনায় অতিরিক্ত শূন্য (structural zeros) — দুটো প্রক্রিয়ার mixture (একটা "সর্বদা শূন্য", একটা Poisson/NB); ZIP/ZINB — count GLM-এর সম্প্রসারণ (এই data-তে দরকার পড়েনি) | 5.5 |
| π-system independence criterion | π-system \(\mathcal P_i\)-তে factorization \(\mathbb P(\bigcap A_i)=\prod\mathbb P(A_i)\) মিললেই \(\sigma(\mathcal P_1),\dots,\sigma(\mathcal P_n)\) স্বাধীন (π–λ থেকে); তাই random variable-এর স্বাধীনতা CDF-স্তরেই যাচাইযোগ্য | 7.6 |