Part V — পরিসংখ্যানিক মডেলিং (Statistical Modeling)¶
inference (Part IV) থেকে এবার মডেল-এ: data-র ভেতরের সম্পর্ক ধরা, যাচাই করা, প্রসারিত করা ও কাঠামো খোঁজা। সরল রেখা থেকে শুরু করে GLM, mixed model, nonparametric curve, cross-validation, আর শেষে unsupervised (PCA/clustering) — আধুনিক applied statistics ও data science-এর মূল হাতিয়ার। Part 0–IV ধরে নেওয়া হয়েছে।
প্রতিটি অধ্যায়ে ৮টি অংশ — ভূমিকা → মূল ধারণা → উদাহরণ → প্রমাণ → কোড ল্যাব (Python) → ভিজ্যুয়ালাইজেশন → অনুশীলনী → সারসংক্ষেপ। সমাধান: _solutions/।
অধ্যায়সমূহ (Chapters)¶
| # | অধ্যায় | মূল বিষয় |
|---|---|---|
| 5.1 | Simple & Multiple Linear Regression | OLS, design matrix \(X\beta\), \(\hat\beta=(X^\top X)^{-1}X^\top y\), \(R^2\), multiple predictors |
| 5.2 | Regression Diagnostics, Inference & Selection | residual plots, leverage, Cook's distance, VIF, \(t\)/\(F\), AIC/BIC, stepwise |
| 5.3 | ANOVA & Experimental Design | one/two-way ANOVA, \(F\)-test, interaction, ANOVA = dummy-variable regression, design |
| 5.4 | GLM: Logistic Regression | logit link, odds ratio, Bernoulli MLE/IRLS, deviance, confusion matrix, ROC/AUC |
| 5.5 | GLM: Poisson Regression & Beyond | log link, rate ratio, offset, overdispersion, quasi-Poisson, Negative Binomial |
| 5.6 | Mixed-Effects / Hierarchical Models | fixed vs random effects, variance components, ICC, shrinkage/BLUP, REML |
| 5.7 | Nonparametric Regression: Kernels & Splines | Nadaraya–Watson, bandwidth, B-splines, smoothing spline, effective df = \(\operatorname{tr}(S)\) |
| 5.8 | Cross-Validation & Model Validation | train vs test error, \(K\)-fold, LOOCV, optimism, one-standard-error rule |
| 5.9 | Multivariate Methods: PCA & Clustering | PCA (eigen-decomposition, explained variance), \(k\)-means, elbow & silhouette |
নির্মাণ পদ্ধতি (Build method)¶
এই Part-এর প্রতিটি অধ্যায় ৬ জন writer + ৩ জন reviewer agent দিয়ে তৈরি: ছয় writer আলাদা অংশ লেখেন (header+ধারণা / উদাহরণ / প্রমাণ / কোড ল্যাব / চিত্র / অনুশীলনী+সমাধান+পরিভাষা — একটি shared brief ও আগে-থেকে-গণিত canonical সংখ্যা মেনে), তারপর math · code · pedagogy reviewer স্বাধীনভাবে যাচাই করেন (সংখ্যা পুনরুৎপাদন, প্রমাণ, চিত্র, সংগতি) — সব scratch থেকে ব্যাখ্যা নিশ্চিত করতে। প্রতিটি অধ্যায়ে fixed seed 20260619-এ পুনরুৎপাদনযোগ্য dataset, ৪টি করে generated figure, ও runnable Python কোড।
এরপর (Next)¶
Part VI — পরিসংখ্যানিক মেশিন লার্নিং (Statistical ML): regularization (ridge/lasso), SVM, decision tree, random forest, boosting, EM — Part V-এর মডেল-ভিত্তির উপর আরও শক্তিশালী predictive model।
পরিভাষা: ../GLOSSARY.md · পরিকল্পনা: ../PLAN.md · সিলেবাস: ../README.md