Skip to content

5.3 — ANOVA & Experimental Design (অ্যানোভা ও পরীক্ষণ-পরিকল্পনা)

১ · ভূমিকা ও insight (অন্তর্দৃষ্টি) — "দুইয়ের বেশি group-এর mean তুলনা — অনেকগুলো t-test কেন নয়?"

১.১ আগের অধ্যায় কোথায় রেখে এসেছিল — আর কোন নতুন প্রশ্ন

Part IV-এ (বিশেষত 4.7) আমরা দুটো জিনিস তুলনা করতে শিখেছি: দুটো group-এর গড় (mean) সমান কি না, সেটা two-sample t-test দিয়ে যাচাই। "নতুন ওষুধ বনাম placebo", "design A বনাম design B" — সব ক্ষেত্রেই কাঠামোটা ছিল দুই-এর তুলনা: একটা পার্থক্য \(\bar X_1 - \bar X_2\) মাপো, তার অনিশ্চয়তা (standard error) দিয়ে ভাগ করে একটা test statistic বানাও, আর সেটা \(H_0\) ("দুই mean সমান") সত্য ধরলে কতটা চরম তা দেখো।

আর 5.1–5.2-এ আমরা regression শিখেছি: একটা continuous response \(y\)-কে এক বা একাধিক predictor \(x\)-এর রৈখিক function হিসেবে মডেল করা, \(y = X\beta + \varepsilon\), এবং OLS দিয়ে \(\hat\beta = (X^\top X)^{-1} X^\top y\) বের করা। সেখানে predictor-গুলো ছিল সংখ্যাগত (continuous) — আয়তন, বয়স, ঘরের সংখ্যা।

কিন্তু বাস্তবে অজস্রবার আমাদের সামনে আসে এমন এক প্রশ্ন যা এই দুটোর কোনোটাতেই সরাসরি ধরে না:

দুইয়ের বেশি group আছে — তিন, চার, ছয় — এদের সবার mean কি সমান, নাকি অন্তত একটা আলাদা?

কয়েকটা বাস্তব উদাহরণ, যেখানে group সংখ্যা দুইয়ের বেশি:

  • তিন রকম সার (fertilizer A, B, C) আলাদা জমিতে ব্যবহার করে দেখা গেল ফসলের গড় ফলন একটু আলাদা। এই পার্থক্য কি সারের আসল গুণ, নাকি জমি-থেকে-জমি স্বাভাবিক এলোমেলোতা?
  • চারটি শিক্ষণ-পদ্ধতি আলাদা ক্লাসে চালিয়ে গড় পরীক্ষার নম্বর তুলনা।
  • পাঁচটি ওয়েবসাইট-ভ্যারিয়েন্ট (A/B/n test) — কোনটার গড় conversion সবচেয়ে ভালো, আর পার্থক্যগুলো আদৌ অর্থপূর্ণ কি না।

এই অধ্যায়ের একমাত্র বিষয় এটাই: একাধিক group-এর mean একসাথে তুলনা করার একটা সঠিক, একীভূত কাঠামো — যার নাম ANOVA (Analysis of Variance, "ভেদ-বিশ্লেষণ")। নামের ভেতরেই একটা চমক লুকিয়ে: আমরা mean-এর পার্থক্য খুঁজছি, অথচ যন্ত্রটার নাম variance (ভেদ) বিশ্লেষণ। কেন — সেটাই এই ভূমিকার মূল অন্তর্দৃষ্টি (§১.৩)।

১.২ Hook — "তাহলে প্রতি জোড়ায় একটা করে t-test চালালেই হয় না কেন?"

প্রথম যে সমাধানটা মাথায় আসে, সেটা একদম স্বাভাবিক: যদি দুই group তুলনা করতে t-test জানি, তিন group থাকলে তিন জোড়া তুলনা করি — A বনাম B, A বনাম C, B বনাম C — মোট তিনটা t-test। চার group হলে ছয়টা, পাঁচ group হলে দশটা। শুনতে নিরীহ। কিন্তু এর ভেতরে একটা নীরব, মারাত্মক ফাঁদ আছে — যার নাম multiple-comparison problem (বহু-তুলনা সমস্যা)।

ফাঁদটা চোখে দেখাতে একটা সংখ্যা-পরীক্ষা করি। মনে করুন সব group আসলে একদম সমান — অর্থাৎ \(H_0\) সত্য, কোনো আসল পার্থক্য নেই। আমরা প্রতিটি t-test চালাচ্ছি \(\alpha = 0.05\) significance level-এ, মানে প্রতিটি একক test-এ "ভুল করে পার্থক্য আছে বলে ফেলা" (type I error) এর সম্ভাবনা \(0.05\), আর "ঠিকভাবে কোনো পার্থক্য না-পাওয়া" এর সম্ভাবনা \(0.95\)

এখন যদি \(m\)টা স্বাধীন test চালাই, আর চাই একটাও যেন ভুল করে পার্থক্য না দেখায়, তবে সবগুলো একসাথে ঠিক হওয়ার সম্ভাবনা \((0.95)^m\)। অতএব অন্তত একটা test ভুল করে "পার্থক্য আছে" বলে ফেলার সম্ভাবনা —

\[ P(\text{অন্তত একটি ভুল-পজিটিভ}) \;=\; 1 - (1-\alpha)^m, \]

যেখানে \(\alpha\) = প্রতি-test significance level, \(m\) = মোট test-সংখ্যা। এই সম্ভাবনাটাকে বলে family-wise error rate (FWER, পরিবার-ভিত্তিক ভুলের হার) — গোটা পরীক্ষা-পরিবারে অন্তত একটা মিথ্যা-আবিষ্কার ঘটার সম্ভাবনা। সংখ্যায় দেখুন কত দ্রুত এটা ফুলে ওঠে:

group-সংখ্যা \(k\) জোড়া-তুলনা \(m=\binom{k}{2}\) \(1-(0.95)^m\) (আনু.)
3 3 ০.১৪
4 6 ০.২৬
5 10 ০.৪০
6 15 ০.৫৪

লক্ষ করুন: মাত্র ৬টা group-এ পৌঁছাতেই, সব group সত্যিকারে সমান হওয়া সত্ত্বেও, অন্তত একটা জোড়ায় "পার্থক্য আছে!" বলে ফেলার সম্ভাবনা ৫০%-এরও বেশি — যদিও আমরা প্রতিটি test-কে \(5\%\)-এ বেঁধেছিলাম বলে নিশ্চিন্ত ছিলাম। অর্থাৎ অনেকগুলো test একসাথে চালালে স্বতন্ত্র \(\alpha\) আর গোটা বিশ্লেষণের ভুল-হারকে নিয়ন্ত্রণ করে না; প্রচুর test চালালে কিছু-না-কিছু "তারকাচিহ্নিত" ফল প্রায় নিশ্চিতভাবেই বেরোবে — নিছক কাকতালে।

এক বাক্যে ফাঁদটা: যত বেশি জোড়া-তুলনা চালাবেন, "সব আসলে সমান" হওয়া সত্ত্বেও অন্তত একটায় মিথ্যা-পার্থক্য দেখার সম্ভাবনা তত বাড়ে — তাই বহু আলাদা t-test দিয়ে multi-group তুলনা করা পরিসংখ্যানিকভাবে অসৎ।

এর সমাধান কী? দুটো পথ আছে, আর তারা পরস্পরের পরিপূরক:

  1. প্রথমে একটিমাত্র সার্বিক (omnibus) test চালানো, যার একটিমাত্র \(H_0\) হলো "সব group-এর mean সমান" — এবং যা গোটা প্রশ্নের উত্তর একটাই \(\alpha\)-তে দেয়, ফলে FWER ফুলে ওঠে না। এই সার্বিক test-ই ANOVA-র F-test — এই অধ্যায়ের কেন্দ্র।
  2. ANOVA যদি বলে "হ্যাঁ, কোথাও পার্থক্য আছে", কেবল তখন সাবধানে নির্দিষ্ট জোড়াগুলো খুঁজতে যাওয়া — তবে সংশোধিত (যেমন Bonferroni, Tukey) পদ্ধতিতে, যাতে বহু-তুলনার ভুল-হার নিয়ন্ত্রণে থাকে। (এই post-hoc অংশ §৭-এ সংক্ষেপে ছোঁয়া হবে; অধ্যায়ের মূল ভার সার্বিক F-test-এ।)

তাহলে প্রশ্ন দাঁড়ায়: একটিমাত্র test দিয়ে "সব mean সমান কি না" কীভাবে যাচাই করব? উত্তরটা চমকপ্রদ — mean-এর পার্থক্যকে আমরা variance দিয়ে মাপব

১.৩ মূল insight (অন্তর্দৃষ্টি) — mean-পার্থক্যকে variance দিয়ে মাপা

এই অধ্যায়ের গোটা যন্ত্রটা একটা সাধারণ কিন্তু গভীর ধারণার ওপর দাঁড়িয়ে। ধারণাটা গেঁথে নিতে একটা ছবি কল্পনা করুন।

ধরুন তিনটে group (A, B, C) থেকে কিছু পর্যবেক্ষণ একটা সংখ্যারেখায় বিন্দু হিসেবে ছড়িয়ে আছে, প্রতিটি group আলাদা রঙে। এখন দুটো আলাদা পরিস্থিতি ভাবুন:

  • পরিস্থিতি ১ — group-গুলো সত্যিই আলাদা। প্রতিটি রঙের বিন্দু-গুচ্ছ তার নিজের জায়গায় ছোট্ট, আঁটসাঁট ঝাঁক হয়ে বসে আছে, কিন্তু গুচ্ছগুলো পরস্পর থেকে অনেক দূরে। অর্থাৎ একই group-এর ভেতরের বিন্দুরা কাছাকাছি (ভেতরের ছড়ানো কম), কিন্তু group-এর গড়গুলো (centre) পরস্পর থেকে দূরে।
  • পরিস্থিতি ২ — group-গুলো আসলে এক। তিন রঙের বিন্দু এমনভাবে মিশে আছে যে গুচ্ছগুলোর centre প্রায় একই জায়গায়, আর প্রতিটি গুচ্ছ নিজেই বেশ চওড়া। group-এর গড়গুলোর মধ্যেকার সামান্য পার্থক্য প্রতিটি group-এর ভেতরকার বিরাট ছড়ানোর তুলনায় নগণ্য — মনে হয় তিনটে আলাদা রঙ একই বড় মেঘের অংশ।

দুই পরিস্থিতির পার্থক্যটা ধরা পড়ে দুই রকম ভেদের তুলনায়:

  • between-group variance ("group-এর মধ্যেকার ভেদ"): group-এর গড়গুলো (centre) পরস্পর থেকে এবং সার্বিক গড় থেকে কতটা দূরে ছড়িয়ে — অর্থাৎ "signal", আসল পার্থক্যের পরিমাপ।
  • within-group variance ("group-এর ভেতরকার ভেদ"): একই group-এর বিন্দুরা নিজেদের গড়ের চারপাশে কতটা ছড়িয়ে — অর্থাৎ "noise", স্বাভাবিক এলোমেলোতা।

এবার মূল অন্তর্দৃষ্টিটা এক বাক্যে:

যদি group-এর মধ্যেকার ভেদ (between) তাদের ভেতরকার ভেদ (within)-এর তুলনায় অনেক বড় হয়, তবেই আমরা বিশ্বাস করি গড়গুলো সত্যিই আলাদা। দুটো ভেদ যদি কাছাকাছি হয়, তবে দেখা পার্থক্যটা নিছক noise।

এই দুই ভেদের অনুপাত-ই হলো ANOVA-র test statistic — যাকে আমরা \(F\) বলব:

\[ F \;\approx\; \frac{\text{between-group variance (signal)}}{\text{within-group variance (noise)}}. \]

\(F\) বড় মানে signal noise-কে ছাপিয়ে গেছে — গড়গুলো আলাদা বলে জোরালো প্রমাণ (\(H_0\) বাতিল)। \(F\) এক-এর কাছাকাছি মানে signal আর noise সমান-সমান — পার্থক্যের পক্ষে প্রমাণ নেই (\(H_0\) টেকে)। এই একটিমাত্র অনুপাত গোটা multi-group প্রশ্নকে একটাই সংখ্যায় ও একটাই test-এ গুটিয়ে আনে — ঠিক যা §১.২-এর multiple-comparison ফাঁদ এড়াতে দরকার ছিল।

এখন "নামের চমক"-এর রহস্যও পরিষ্কার: আমরা mean-এর পার্থক্য খুঁজছি, কিন্তু সেই পার্থক্যকে পরিমাপ করছি variance-এর ভাষায় (between vs within) — তাই পদ্ধতির নাম Analysis of Variance, যদিও লক্ষ্য mean-তুলনা। আর এই "মোট ভেদকে between + within-এ ভাঙা"-র গাণিতিক রূপই হলো বিখ্যাত পচন \(\mathrm{SST} = \mathrm{SSB} + \mathrm{SSW}\), যা §২-এ আনুষ্ঠানিক হবে এবং §৪-এ প্রমাণিত।

১.৪ এক লাইনের মানচিত্র — এই অধ্যায় কোথায় যাবে

পুরো অধ্যায়ের যুক্তি-শৃঙ্খলটা একবারে দেখে নিই, যাতে প্রতিটি অংশ কেন আসছে তা পরিষ্কার থাকে। মোটা দাগে এই অধ্যায় চারটি প্রশ্নের উত্তর দেয় — (ক) একাধিক group-এর mean কি সমান (one-way ANOVA)? (খ) দুটি factor একসাথে থাকলে কে কতটা প্রভাব ফেলে আর তারা পরস্পরকে বদলায় কি না (two-way ANOVA, interaction)? (গ) এই গোটা ব্যাপারটা কি আসলে regression-এরই ছদ্মবেশ (ANOVA ↔ regression)? (ঘ) আর ভালো ANOVA পেতে data সংগ্রহটাই বা কেমন হওয়া উচিত (experimental design)?

  1. §২ — মূল ধারণা ও সংজ্ঞা। one-way ANOVA model \(y_{gi} = \mu + \tau_g + \varepsilon_{gi}\); মোট ভেদের পচন \(\mathrm{SST} = \mathrm{SSB} + \mathrm{SSW}\); \(F\)-statistic-এর গঠন ও অর্থ (between vs within), তার \(H_0\): সব group mean সমান; two-way ANOVA-র main effect ও interaction; ANOVA-কে dummy-variable regression হিসেবে দেখা; এবং design-এর চার মূলনীতি (randomization, replication, blocking, factorial) — সবই স্বজ্ঞা ও সংজ্ঞার স্তরে, প্রতিটি প্রতীক খোলা (গণিতের পূর্ণ প্রমাণ §৪-এ)।
  2. §৩ — হাতে-কলমে। একটা ছোট্ট group-data-তে group-গড়, সার্বিক গড়, \(\mathrm{SSB}\), \(\mathrm{SSW}\), mean square ও \(F\) পুরোপুরি হাতে-কলমে সংখ্যাসমেত গণনা — যাতে সূত্রগুলো বাস্তবে কীভাবে চলে তা চোখে দেখা যায়।
  3. §৪ — গণিত ও প্রমাণ। পচন \(\mathrm{SST} = \mathrm{SSB} + \mathrm{SSW}\)-এর বীজগাণিতিক প্রমাণ (cross-term কেন শূন্য হয়); \(H_0\)-এর অধীনে \(\mathrm{SSB}/\sigma^2\)\(\mathrm{SSW}/\sigma^2\)-এর \(\chi^2\)-বণ্টন এবং তাদের অনুপাত কেন \(F_{k-1,\,n-k}\); এবং ANOVA-র dummy-coded design matrix দিয়ে regression-সমতার আনুষ্ঠানিক প্রতিষ্ঠা।
  4. §৫–৬ — পূর্ণ উদাহরণ, চিত্র ও কোড। একটা বাস্তবসম্মত crop-yield dataset-এ (৩ সার × ২ সেচ) সম্পূর্ণ one-way ও two-way ANOVA — চিত্র 5-3-group-boxplots (group-ভিত্তিক বণ্টন), 5-3-variance-decomp (between/within পচন চোখে দেখা), 5-3-interaction-plot (interaction আছে কি না), 5-3-f-distribution (\(F_{k-1,n-k}\)-তে observed \(F\) ও p-value) — এবং Python-কোড।
  5. §৭ — অনুশীলনী; §৮ — সারসংক্ষেপ ও সংযোগ। চার ধরনের অনুশীলনী (ধারণাগত, গণনামূলক, প্রমাণভিত্তিক, কোডিং), তারপর মূল ফলাফলের পুনরাবৃত্তি ও পরের অধ্যায়ের সঙ্গে যোগসূত্র। (post-hoc তুলনা, ANOVA-র অনুমান ও সাধারণ ভুল-ধারণা §৩–৪ ও অনুশীলনীতে প্রাসঙ্গিকভাবে ছোঁয়া হয়েছে।)

এক বাক্যে কেন এটি Part V-এর অপরিহার্য ধাপ। 5.1–5.2 দেখিয়েছে continuous predictor সহ regression কীভাবে fit ও যাচাই করি; এই অধ্যায় সেই কাঠামোকে categorical predictor (group, factor)-এ বাড়ায় এবং একই সঙ্গে multi-group তুলনার সঠিক পথ দেখায়। আর এখানকার "ANOVA = dummy-variable regression" দৃষ্টিভঙ্গিই পরের অধ্যায় 5.4 (GLM ও logistic regression)-এর সরাসরি ভিত্তি, যেখানে এই রৈখিক-মডেল কাঠামো আরও সাধারণ response-এ প্রসারিত হবে।


২ · মূল ধারণা ও সংজ্ঞা

এই বিভাগে §১-এর স্বজ্ঞা — "between বনাম within ভেদের অনুপাত দিয়ে multi-group mean তুলনা" — কে আনুষ্ঠানিক সংজ্ঞায় রূপ দেব। প্রতিটি প্রতীক প্রথমবার আসার সাথে সাথেই খুলে বলা হবে; কোথাও কিছু ধরে নেওয়া হবে না। যেখানে গণিতের পূর্ণ প্রমাণ লাগবে (বিশেষত পচন \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\) এবং \(F\)-statistic কোন বণ্টন মানে), সেটা §৪-এ করা হবে — এখানে লক্ষ্য সংজ্ঞা ও স্বজ্ঞা পরিষ্কার করা।

পুরো বিভাগের পরিকল্পনা: প্রথমে one-way ANOVA-র model (§২.১) ও তার notation (§২.২); তারপর সেই model থেকে মোট ভেদের পচন \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\) (§২.৩); সেই পচন থেকে গড়া \(F\)-statistic ও তার অর্থ (§২.৪) এবং সাজানো ANOVA table (§২.৫)। এরপর দুই-factor-এর জগৎ — two-way ANOVA: main effect ও interaction (§২.৬)। তারপর সেতু — ANOVA ↔ regression with dummy variables (§২.৭)। শেষে data কীভাবে সংগ্রহ করলে এই বিশ্লেষণ অর্থপূর্ণ হয় — experimental design-এর চার মূলনীতি (§২.৮)।

২.১ One-way ANOVA-র model — \(y_{gi} = \mu + \tau_g + \varepsilon_{gi}\)

শুরু করি সবচেয়ে সরল ক্ষেত্র দিয়ে — one-way ("একমুখী", একটিমাত্র factor): কেবল একটা শ্রেণিভাজক (যেমন "কোন সার") আছে, যার অধীনে \(k\)টি group। প্রতিটি পর্যবেক্ষণকে আমরা একটা সরল additive (যোগাত্মক) model দিয়ে বর্ণনা করি:

\[ \boxed{\ y_{gi} \;=\; \mu \;+\; \tau_g \;+\; \varepsilon_{gi}\ } \]

প্রতিটি প্রতীক খুলে বলি:

  • \(g = 1, 2, \dots, k\)group-এর সূচক (index)। \(k\) = মোট group-সংখ্যা (যেমন তিন সার হলে \(k=3\))।
  • \(i = 1, 2, \dots, n_g\) — group \(g\)-এর ভেতরে পর্যবেক্ষণের সূচক\(n_g\) = group \(g\)-তে কতগুলো পর্যবেক্ষণ আছে। সব group-এ সমান হলে \(n_g = n/k\)
  • \(y_{gi}\) — group \(g\)-এর \(i\)-তম পর্যবেক্ষণের মাপা মান (response), যেমন একটা নির্দিষ্ট প্লটের ফসল।
  • \(\mu\) ("মিউ") — সার্বিক গড় (grand/overall mean): factor-এর কোনো প্রভাব না থাকলে সব পর্যবেক্ষণ যে সাধারণ স্তরের চারপাশে থাকত, সেই বেসলাইন।
  • \(\tau_g\) ("টাউ-\(g\)") — group \(g\)-এর effect (প্রভাব): সার্বিক গড় থেকে group \(g\)-এর নিজস্ব গড় কতটা উপরে বা নিচে। অর্থাৎ group \(g\)-এর সত্য গড় \(\mu_g = \mu + \tau_g\)। সাধারণত একটা constraint আরোপ করা হয় (যেমন \(\sum_g n_g \tau_g = 0\) বা \(\tau_1 = 0\)) যাতে \(\mu\)\(\tau_g\) একক-অর্থে নির্ধারিত হয় — এর গাণিতিক ভূমিকা §৪-এ।
  • \(\varepsilon_{gi}\) ("এপসাইলন-\(gi\)") — error (ত্রুটি/random fluctuation): পর্যবেক্ষণটা তার নিজের group-গড় থেকে যতটা বিচ্যুত, নিছক এলোমেলোতায়। ধরে নেওয়া হয় \(\varepsilon_{gi} \sim \mathcal{N}(0,\sigma^2)\) — অর্থাৎ গড় শূন্য, সব group-এ একই variance \(\sigma^2\), ও পরস্পর-স্বাধীন Normal (\(\mathcal{N}\) = Normal/গাউসীয় বণ্টন, \(\sigma^2\) = সাধারণ error-variance)।

লক্ষ করুন এই model আসলে 5.1-এর regression model \(y = X\beta + \varepsilon\)-এরই একটা রূপ: এখানে "predictor" হলো "পর্যবেক্ষণটা কোন group-এ" — একটা categorical তথ্য। এই সংযোগটাই §২.৭-এ স্পষ্ট হবে।

স্বজ্ঞায়, এই model বলছে: প্রতিটি মাপা মান = একটা সাধারণ বেসলাইন (\(\mu\)) + তার group-এর নিজস্ব ঝোঁক (\(\tau_g\)) + ব্যক্তিগত এলোমেলোতা (\(\varepsilon_{gi}\))। তাহলে "সব group-এর mean সমান কি না" প্রশ্নটা পরিণত হয় একটা পরিষ্কার দাবিতে —

\[ \boxed{\ H_0:\ \tau_1 = \tau_2 = \dots = \tau_k = 0 \quad(\text{সমতুল্যভাবে } \mu_1 = \mu_2 = \dots = \mu_k)\ } \]

অর্থাৎ null hypothesis \(H_0\) বলে "কোনো group-এরই আলাদা effect নেই, সব group-গড় সার্বিক গড়ের সমান"; আর alternative \(H_1\) বলে "অন্তত একটা \(\tau_g \neq 0\)" — অর্থাৎ অন্তত একটা group আলাদা (সব আলাদা হতে হবে না, একটাই যথেষ্ট)।

২.২ Notation — group-গড়, সার্বিক গড়, sum of squares

পচন ও \(F\)-statistic লেখার আগে কয়েকটা মূল পরিমাণের প্রতীক একসাথে ঠিক করে নিই। ধরা যাক মোট পর্যবেক্ষণ-সংখ্যা \(n = \sum_{g=1}^k n_g\) (সব group মিলিয়ে)।

  • group-গড় (group mean) — group \(g\)-এর পর্যবেক্ষণগুলোর গড়: $$ \bar y_g \;=\; \frac{1}{n_g}\sum_{i=1}^{n_g} y_{gi}, $$ যেখানে \(\bar y_g\) ("ওয়াই-বার-\(g\)") = group \(g\)-এর নমুনা-গড়, \(n_g\) = সেই group-এর পর্যবেক্ষণ-সংখ্যা। এটা সত্য group-গড় \(\mu_g\)-এর estimate।

  • সার্বিক গড় (grand mean) — সব পর্যবেক্ষণ একসাথে নিয়ে গড়: $$ \bar y \;=\; \frac{1}{n}\sum_{g=1}^{k}\sum_{i=1}^{n_g} y_{gi}, $$ যেখানে \(\bar y\) ("ওয়াই-বার") = মোট গড়, যা \(\mu\)-এর estimate। (সব group-এ সমান \(n_g\) হলে এটা group-গড়গুলোরই গড়।)

এবার "ভেদ" মাপার তিনটে sum of squares (বর্গের সমষ্টি — গড় থেকে দূরত্বের বর্গ যোগ করে ছড়ানো মাপা)। স্বজ্ঞায় এদের নাম মনে রাখুন: between = group-গড়রা পরস্পর থেকে কত দূরে; within = group-এর ভেতরে কত ছড়ানো; total = সব মিলিয়ে কত ছড়ানো।

  • between-group sum of squares (group-গড়দের ছড়ানো, "signal"): $$ \boxed{\ \mathrm{SSB} \;=\; \sum_{g=1}^{k} n_g\,(\bar y_g - \bar y)^2\ } $$ এখানে প্রতিটি group-গড় \(\bar y_g\) সার্বিক গড় \(\bar y\) থেকে কত দূরে — তার বর্গকে সেই group-এর আকার \(n_g\) দিয়ে গুণ করে (বড় group বেশি ওজন পায়) যোগ করা হচ্ছে। \(\mathrm{SSB}\) বড় মানে group-গড়রা পরস্পর থেকে অনেক দূরে — গড়-পার্থক্যের প্রমাণ। (অনেক বইয়ে এর নাম \(\mathrm{SS}_{\text{between}}\), \(\mathrm{SS}_{\text{treatment}}\) বা \(\mathrm{SSA}\)।)

  • within-group sum of squares (group-এর ভেতরের ছড়ানো, "noise"): $$ \boxed{\ \mathrm{SSW} \;=\; \sum_{g=1}^{k}\sum_{i=1}^{n_g} (y_{gi} - \bar y_g)^2\ } $$ এখানে প্রতিটি পর্যবেক্ষণ \(y_{gi}\) তার নিজের group-গড় \(\bar y_g\) থেকে কত দূরে — তার বর্গ সব group জুড়ে যোগ করা হচ্ছে। \(\mathrm{SSW}\) মাপে group-এর ভেতরকার স্বাভাবিক এলোমেলোতা; এটাই error-variance \(\sigma^2\)-এর তথ্যভাণ্ডার। (নাম: \(\mathrm{SS}_{\text{within}}\), \(\mathrm{SS}_{\text{error}}\) বা \(\mathrm{SSE}\)।)

  • total sum of squares (সব মিলিয়ে ছড়ানো): $$ \mathrm{SST} \;=\; \sum_{g=1}^{k}\sum_{i=1}^{n_g} (y_{gi} - \bar y)^2, $$ প্রতিটি পর্যবেক্ষণ সার্বিক গড় \(\bar y\) থেকে কত দূরে — তার বর্গের সমষ্টি, group-বিভাজন উপেক্ষা করে।

২.৩ পচন (decomposition) — \(\mathrm{SST} = \mathrm{SSB} + \mathrm{SSW}\)

এখন আসে এই অধ্যায়ের গাণিতিক হৃদয়, যেটা §১.৩-এর স্বজ্ঞাকে সমীকরণে বাঁধে। মোট ছড়ানো ঠিক দুটো টুকরোয় ভাগ হয়ে যায় — group-গড়দের মধ্যেকার ছড়ানো, আর group-এর ভেতরকার ছড়ানো:

\[ \boxed{\ \mathrm{SST} \;=\; \mathrm{SSB} \;+\; \mathrm{SSW}\ } \]

অর্থাৎ মোট ভেদ = between-ভেদ + within-ভেদ, কোনো অবশিষ্ট ছাড়াই। ধারণাটা কেন এত শক্তিশালী, তা এক বাক্যে: প্রতিটি পর্যবেক্ষণ সার্বিক গড় থেকে যতটা সরে আছে \((y_{gi}-\bar y)\), সেটা ঠিক দুই অংশের যোগফল —

\[ \underbrace{(y_{gi}-\bar y)}_{\text{মোট বিচ্যুতি}} \;=\; \underbrace{(\bar y_g-\bar y)}_{\text{group-গড়ের অবদান (between)}} \;+\; \underbrace{(y_{gi}-\bar y_g)}_{\text{group-এর ভেতরের অবদান (within)}}. \]

এই বিচ্যুতি-পচন বর্গ করে সব পর্যবেক্ষণ জুড়ে যোগ করলে cross-term (আড়াআড়ি পদ) ঠিক শূন্য হয়ে যায়, আর পড়ে থাকে \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\) (পূর্ণ প্রমাণ §৪-এ — সেখানে দেখানো হবে cross-term কেন শূন্য)। এই একটা সমীকরণই "Analysis of Variance" নামের ন্যায্যতা: আমরা মোট ভেদকে আক্ষরিক অর্থে দুই উৎসে ভেঙে ফেলছি — "group-এর জন্য কতটা" আর "এলোমেলোতার জন্য কতটা"।

এর সাথে degrees of freedomও (df, স্বাধীনতার মাত্রা — কতগুলো স্বাধীন তথ্য-টুকরো প্রতিটি সমষ্টিতে আছে) একইভাবে ভাগ হয়:

\[ \underbrace{(n-1)}_{\mathrm{SST}\text{-এর df}} \;=\; \underbrace{(k-1)}_{\mathrm{SSB}\text{-এর df}} \;+\; \underbrace{(n-k)}_{\mathrm{SSW}\text{-এর df}}, \]

যেখানে \(n\) = মোট পর্যবেক্ষণ, \(k\) = group-সংখ্যা। স্বজ্ঞায়: \(\mathrm{SSB}\)-তে \(k\)টা group-গড় কিন্তু একটা সার্বিক গড়ের constraint, তাই \(k-1\); \(\mathrm{SSW}\)-তে প্রতিটি group-এ \(n_g-1\) স্বাধীন বিচ্যুতি, যোগ করে \(n-k\); আর মোট \(n-1\)

২.৪ \(F\)-statistic — between বনাম within, mean square হিসেবে

কাঁচা sum of squares সরাসরি তুলনাযোগ্য নয়, কারণ \(\mathrm{SSB}\) মাত্র \(k-1\)টা আর \(\mathrm{SSW}\) অনেক বেশি (\(n-k\)টা) তথ্য-টুকরো জুড়ে তৈরি — বেশি পদ যোগ করলে স্বভাবতই সমষ্টি বড় হয়। ন্যায্য তুলনার জন্য প্রতিটিকে তার নিজের df দিয়ে ভাগ করে mean square (গড় বর্গ, প্রতি-df ভেদের আন্দাজ) বানাই:

  • between-group mean square (signal-এর প্রতি-df পরিমাপ): $$ \mathrm{MSB} \;=\; \frac{\mathrm{SSB}}{k-1}, $$
  • within-group mean square (noise-এর প্রতি-df পরিমাপ, যা \(\sigma^2\)-এর নিরপেক্ষ estimate): $$ \mathrm{MSW} \;=\; \frac{\mathrm{SSW}}{n-k}. $$

এদের অনুপাতই হলো ANOVA-র কেন্দ্রীয় test statistic \(F\):

\[ \boxed{\ F \;=\; \frac{\mathrm{MSB}}{\mathrm{MSW}} \;=\; \frac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)} \;\sim\; F_{k-1,\,n-k}\ } \]

এখানে \(F\) ("এফ-পরিসংখ্যান") = between-ভেদ ÷ within-ভেদ (প্রতি-df হিসেবে); আর \(F_{k-1,\,n-k}\) মানে — \(H_0\) সত্য হলে এই \(F\) একটা \(F\)-distribution মানে, যার দুটো degrees-of-freedom parameter: numerator-এর \(k-1\) ও denominator-এর \(n-k\) (4.7-এ পরিচিত)।

এর অর্থ ঠিক §১.৩-এর স্বজ্ঞা, এবার সংখ্যায়:

  • \(H_0\) সত্য হলে (সব group-গড় সমান), \(\mathrm{MSB}\)\(\mathrm{MSW}\) দুটোই একই \(\sigma^2\)-এর নিরপেক্ষ estimate — তাই তাদের অনুপাত \(F\) গড়ে ১-এর কাছাকাছি। অর্থাৎ "signal আর noise সমান-সমান"।
  • \(H_1\) সত্য হলে (অন্তত একটা group আলাদা), \(\mathrm{MSB}\)-তে আসল গড়-পার্থক্যের অতিরিক্ত অবদান যোগ হয়, তাই সে \(\mathrm{MSW}\)-কে ছাড়িয়ে যায় — \(F\) হয় ১-এর চেয়ে অনেক বড়। "signal noise-কে ছাপিয়ে গেছে।"

সিদ্ধান্ত-নিয়ম তাই 4.7-এর F-test-এর হুবহু রূপ: observed \(F\) যদি \(F_{k-1,\,n-k}\)-বণ্টনের ডান-লেজে যথেষ্ট চরম হয় (অর্থাৎ p-value \(= P(F_{k-1,n-k} \ge F_{\text{obs}})\) ছোট, \(\alpha\)-এর নিচে), তবে \(H_0\) বাতিল — "অন্তত একটা group আলাদা" বলে রায়। লক্ষণীয়, এটা একতরফা (one-sided): শুধু বড় \(F\)-ই \(H_0\)-এর বিরুদ্ধে প্রমাণ, কারণ গড়-পার্থক্য কেবল between-ভেদ বাড়ায়

২.৫ ANOVA table — সব এক জায়গায়

ঐতিহ্যগতভাবে উপরের সব পরিমাণ একটা পরিচ্ছন্ন ছকে সাজানো হয়, যাকে বলে ANOVA table। এর গঠন একবার চিনে রাখলে যেকোনো software-এর output সরাসরি পড়া যায়:

উৎস (source) df sum of squares mean square \(F\)
Between groups (factor) \(k-1\) \(\mathrm{SSB}\) \(\mathrm{MSB}=\dfrac{\mathrm{SSB}}{k-1}\) \(\dfrac{\mathrm{MSB}}{\mathrm{MSW}}\)
Within groups (error) \(n-k\) \(\mathrm{SSW}\) \(\mathrm{MSW}=\dfrac{\mathrm{SSW}}{n-k}\)
Total \(n-1\) \(\mathrm{SST}\)

প্রতিটি সারি §২.২–২.৪-এর সংজ্ঞাগুলোরই সংক্ষিপ্ত রূপ: প্রথম সারি "signal" (between), দ্বিতীয় সারি "noise" (within/error), তৃতীয় সারি তাদের যোগফল (§২.৩-এর পচন)। ডান-প্রান্তের একটিমাত্র \(F\) ও তার p-value-ই গোটা one-way প্রশ্নের সার্বিক উত্তর।

২.৬ Two-way ANOVA — main effect ও interaction

এতক্ষণ একটাই factor ছিল ("কোন সার")। কিন্তু বাস্তব পরীক্ষায় প্রায়ই দুটো (বা বেশি) factor একসাথে বদলানো হয় — যেমন সারের পাশাপাশি সেচ (irrigation: low/high)। তখন প্রশ্ন আরও সূক্ষ্ম হয়: সার কি প্রভাব ফেলে? সেচ কি প্রভাব ফেলে? আর — সবচেয়ে মজার — সারের প্রভাব কি সেচ-স্তরভেদে বদলায়? এই শেষ প্রশ্নের উত্তর দেয় two-way ANOVA

ধরা যাক factor A-এর স্তর \(a = 1,\dots,I\) (যেমন সার, \(I\) স্তর) আর factor B-এর স্তর \(b = 1,\dots,J\) (যেমন সেচ, \(J\) স্তর)। প্রতিটি স্তর-জোড়া \((a,b)\)-কে বলি একটা cell (কোষ), আর তাতে \(n_{ab}\)টি পর্যবেক্ষণ। model এবার তিন রকম effect ধরে:

\[ \boxed{\ y_{abi} \;=\; \mu \;+\; \alpha_a \;+\; \beta_b \;+\; (\alpha\beta)_{ab} \;+\; \varepsilon_{abi}\ } \]

প্রতিটি প্রতীক:

  • \(\mu\) — সার্বিক গড় (আগের মতোই বেসলাইন)।
  • \(\alpha_a\) ("আলফা-\(a\)") — factor A-এর স্তর \(a\)-এর main effect (মুখ্য প্রভাব): factor B-কে গড় করে ফেললে, A-এর স্তর \(a\) সার্বিক গড় থেকে কতটা সরায়। ("সার একা গড়ে কতটা ফলন বাড়ায়/কমায়।")
  • \(\beta_b\) ("বিটা-\(b\)") — factor B-এর স্তর \(b\)-এর main effect: একইভাবে B-এর স্বতন্ত্র অবদান। ("সেচ একা গড়ে কতটা প্রভাব ফেলে।")
  • \((\alpha\beta)_{ab}\) — A-এর স্তর \(a\) ও B-এর স্তর \(b\)-এর interaction effect (পারস্পরিক ক্রিয়া): দুই factor-এর মিলিত অতিরিক্ত প্রভাব, যা শুধু main effect-দের যোগফল দিয়ে ব্যাখ্যা করা যায় না।
  • \(\varepsilon_{abi} \sim \mathcal{N}(0,\sigma^2)\) — আগের মতোই error।

Interaction-এর ধারণাটা two-way ANOVA-র আসল রত্ন, তাই স্বজ্ঞায় খুলে বলি। interaction নেই মানে effect-গুলো যোগাত্মক (additive): "সার C ব্যবহারে ফলন যতটা বাড়ে, তা সেচ low হোক বা high — একই"; অর্থাৎ এক factor-এর প্রভাব অন্যটার স্তরের ওপর নির্ভর করে না। interaction আছে মানে effect-গুলো মিলে গিয়ে বদলায়: "সার C-এর বাড়তি সুবিধা কেবল high সেচেই ফুটে ওঠে, low সেচে নয়" — অর্থাৎ ভালো ফলনের জন্য সার ও সেচকে একসাথে ঠিক করতে হয়।

এটা চোখে দেখার সবচেয়ে সহজ উপায় interaction plot: x-অক্ষে এক factor-এর স্তর, y-অক্ষে cell-গড়, আর অন্য factor-এর প্রতি স্তরের জন্য একটা করে রেখা। রেখাগুলো সমান্তরাল হলে interaction নেই (effect যোগাত্মক); রেখাগুলো ছেদ করলে বা ঢাল আলাদা হলে interaction আছে। (এই ছবি §৬-এর 5-3-interaction-plot-এ পূর্ণ dataset-এ দেখানো হবে।)

two-way ANOVA এই তিন রকম effect-এর জন্য মোট ভেদকে আরও সূক্ষ্মভাবে ভাঙে এবং তিনটি আলাদা \(F\)-test দেয় — একটা factor A-এর main effect-এর জন্য (\(H_0\): সব \(\alpha_a=0\)), একটা factor B-এর জন্য (\(H_0\): সব \(\beta_b=0\)), আর একটা interaction-এর জন্য (\(H_0\): সব \((\alpha\beta)_{ab}=0\))। প্রতিটিরই গঠন one-way-র মতোই: "সংশ্লিষ্ট effect-এর mean square ÷ error mean square"। (সম্পূর্ণ ভেদ-পচন ও তিন \(F\)-এর সূত্র §৪-এ; পূর্ণ সংখ্যাসহ প্রয়োগ §৫–৬-এ।)

২.৭ ANOVA ↔ regression with dummy variables

এবার এই অধ্যায়ের সবচেয়ে একীভূতকারী (unifying) দৃষ্টিভঙ্গি, যা §১.৪-এ প্রতিশ্রুত: ANOVA কোনো আলাদা, স্বতন্ত্র পদ্ধতি নয় — এটা হুবহু 5.1-এর linear regression, কেবল predictor-গুলো categorical

সমস্যা হলো, "group" তো সংখ্যা নয় (A, B, C — এগুলোকে 1, 2, 3 ধরা ভুল হবে, কারণ তাতে মিথ্যা ক্রম ও ব্যবধান চাপানো হয়)। সমাধান: dummy variable (বা indicator variable, নির্দেশক চলক) — প্রতিটি group-এর জন্য একটা ০/১ চলক, যা বলে "পর্যবেক্ষণটা এই group-এ কি না"। \(k\)টা group-এর জন্য আমরা একটা reference group বেছে নিই (ধরা যাক A), আর বাকি group-গুলোর জন্য dummy বানাই:

\[ D_B^{(gi)} = \begin{cases} 1 & \text{যদি পর্যবেক্ষণটা group B-তে} \\ 0 & \text{নয়তো}\end{cases}, \qquad D_C^{(gi)} = \begin{cases} 1 & \text{যদি পর্যবেক্ষণটা group C-তে} \\ 0 & \text{নয়তো}\end{cases}. \]

এখানে \(D_B, D_C\) = group B ও C-এর indicator (reference group A-এর জন্য আলাদা dummy লাগে না — সব dummy শূন্য হওয়াই "A"-কে বোঝায়)। এই dummy দিয়ে one-way ANOVA-র model হয়ে যায় একটা সাধারণ regression:

\[ y_{gi} \;=\; \beta_0 \;+\; \beta_1 D_B^{(gi)} \;+\; \beta_2 D_C^{(gi)} \;+\; \varepsilon_{gi}, \]

যেখানে coefficient-গুলোর অর্থ পরিষ্কার ও সুন্দর: \(\beta_0\) = reference group A-এর গড় (\(=\bar y_A\)); \(\beta_1\) = B-এর গড় বিয়োগ A-এর গড় (B কতটা A থেকে আলাদা); \(\beta_2\) = C-এর গড় বিয়োগ A-এর গড়। অর্থাৎ regression-এর coefficient-গুলো সরাসরি group-গড়ের পার্থক্য মাপে।

এই দৃষ্টিতে বহু জিনিস এক হয়ে যায়:

  • ANOVA-র "সব group mean সমান" (\(H_0: \tau_1=\dots=\tau_k=0\)) ঠিক regression-এর "সব dummy-coefficient একসাথে শূন্য" (\(H_0: \beta_1=\beta_2=\dots=0\))।
  • ANOVA-র \(F\)-test হুবহু regression-এর overall \(F\)-test (5.2-এ পরিচিত, যা একসাথে সব slope শূন্য কি না যাচাই করে) — একই সংখ্যা, একই p-value।
  • two-way ANOVA-র interaction ঠিক regression-এর dummy-দের গুণফল-পদ (product/interaction term, যেমন \(D_C \times D_{\text{high}}\))।

এক বাক্যে সেতুটি: categorical factor-কে dummy দিয়ে সংকেতায়িত করলে ANOVA = regression; তাই ANOVA আলাদা কিছু শেখা নয়, বরং 5.1-এর regression-কেই categorical predictor-এ দেখা — এই ঐক্যই পরের অধ্যায় 5.4 (GLM)-এর ভিত্তি, যেখানে এই রৈখিক-মডেল কাঠামো আরও সাধারণ হবে। (আনুষ্ঠানিক প্রমাণ — design matrix \(X\) গড়ে OLS চালালে ঠিক ANOVA-র SS-পচন বেরোয় — §৪-এ।)

২.৮ Experimental design-এর চার মূলনীতি

ANOVA একটা বিশ্লেষণ-যন্ত্র, কিন্তু তার ফলাফল ঠিক ততটাই ভালো যতটা ভালো data সংগ্রহ করা হয়েছে। "garbage in, garbage out" — খারাপভাবে সংগৃহীত data-তে নিখুঁত ANOVA-ও বিভ্রান্তিকর। তাই experimental design (পরীক্ষণ-পরিকল্পনা) — পরীক্ষাটা কীভাবে চালানো হবে তার নকশা — ANOVA-র অবিচ্ছেদ্য সঙ্গী। চারটি মূলনীতি, প্রতিটির সংজ্ঞা, উদ্দেশ্য ও ANOVA-র সাথে সম্পর্ক:

(১) Randomization (এলোমেলোকরণ)। প্রতিটি একককে (unit, যেমন প্লট/রোগী) কোন শর্তে (treatment) রাখা হবে, তা এলোমেলোভাবে ঠিক করা — গবেষকের পছন্দ বা সুবিধা অনুসারে নয়। - উদ্দেশ্য: জানা ও অজানা সব বিরক্তিকর-উৎসকে (confounder) group-গুলোর মধ্যে গড়ে সমানভাবে ছড়িয়ে দেওয়া, যাতে কোনো লুকানো কারণ একটা নির্দিষ্ট group-এ জমা হয়ে ফলাফলকে পক্ষপাতী না করে। - ANOVA-র সাথে: এটাই \(\varepsilon_{gi}\)-কে সত্যিকারের স্বাধীন, পক্ষপাতহীন "noise" করে তোলে — model-এর অনুমানের ভিত্তি।

(২) Replication (পুনরাবৃত্তি)। প্রতিটি শর্তে একাধিক স্বতন্ত্র একক রাখা (এক প্লট নয়, প্রতি সারে যেমন ২০টা প্লট)। - উদ্দেশ্য: within-group ভেদ (\(\sigma^2\)) আদৌ আন্দাজ করা সম্ভব হয় কেবল replication থাকলে — একটামাত্র পর্যবেক্ষণ দিয়ে "এলোমেলোতা কত" বলা যায় না। বেশি replication = \(\mathrm{MSW}\)-এর ভালো estimate ও বেশি power (আসল পার্থক্য ধরার সামর্থ্য)। - ANOVA-র সাথে: replication-ই \(\mathrm{SSW}\) (denominator) তৈরি করে; এটা ছাড়া \(F\)-এর হরই থাকে না।

(৩) Blocking (গুচ্ছকরণ)। যদি একটা জানা বিরক্তিকর-উৎস থাকে (যেমন জমির উর্বরতা পূর্ব-পশ্চিমে বদলায়, বা রোগীর বয়স-গোষ্ঠী), তবে সদৃশ এককগুলোকে আগে থেকে block (গুচ্ছ)-এ ভাগ করে নেওয়া, এবং প্রতিটি block-এর ভেতরে সব treatment চালানো। - উদ্দেশ্য: সেই জানা উৎসের ভেদকে আলাদা করে error থেকে সরিয়ে রাখা, ফলে within-group "noise" কমে ও treatment-পার্থক্য আরও স্পষ্ট হয়। প্রবাদ: "block what you can, randomize what you cannot" (যা নিয়ন্ত্রণ করা যায় তা block করো, বাকিটা randomize করো)। - ANOVA-র সাথে: block নিজেই একটা অতিরিক্ত factor হিসেবে model-এ ঢোকে, তার ভেদ আলাদা SS হিসেবে বেরিয়ে যায় — error ছোট হয়, \(F\) আরও সংবেদী হয়।

(৪) Factorial design (গুণনীয় নকশা)। একটা একটা করে factor না বদলে, একাধিক factor একসাথে, তাদের সব স্তর-সমন্বয়ে (cell) পরীক্ষা চালানো — যেমন ৩ সার × ২ সেচ = ৬টি cell, প্রতিটিতে পর্যবেক্ষণ। - উদ্দেশ্য: (ক) এক পরীক্ষায় একাধিক factor-এর main effect দক্ষভাবে পাওয়া যায়, আর সবচেয়ে গুরুত্বপূর্ণ — (খ) interaction ধরা যায় (§২.৬), যা একটা-একটা factor আলাদা বদলালে কখনোই ধরা পড়ত না। - ANOVA-র সাথে: এটাই two-way (বা multi-way) ANOVA-কে সম্ভব করে; প্রতিটি cell-এ replication থাকায় main effect ও interaction উভয়ই estimate ও পরীক্ষা করা যায়।

এক বাক্যে design-এর সারকথা: randomization পক্ষপাত সরায়, replication noise আন্দাজ করতে ও power দিতে দেয়, blocking জানা বিরক্তি-উৎস সরিয়ে test-কে সংবেদী করে, আর factorial design একাধিক factor ও তাদের interaction একসাথে ধরে — চারটি মিলেই ANOVA-কে অর্থপূর্ণ, বিশ্বাসযোগ্য সিদ্ধান্তে রূপ দেয়।

৩ · পূর্ণাঙ্গ উদাহরণ

এই অংশে আমরা একটি কৃষি-পরীক্ষার (agricultural field trial) ডেটাসেট নিয়ে ধাপে ধাপে কাজ করব। পরীক্ষাটি একটি factorial design: তিন ধরনের সার (fertilizer A, B, C) এবং দুই স্তরের সেচ (irrigation: low, high)-এর প্রতিটি সংমিশ্রণে \(20\)টি করে প্লট, মোট \(3 \times 2 \times 20 = 120\)টি প্লট। প্রতিটি প্লটের ফলন (yield) crop কলামে নথিভুক্ত। প্রথমে আমরা শুধু সারের প্রভাব দেখব (one-way ANOVA), তারপর সেচসহ পূর্ণ মডেলে যাব (two-way ANOVA), এবং শেষে দেখাব যে ANOVA আসলে dummy variable-এর উপর regression ছাড়া আর কিছুই নয়।

ডেটা তৈরির প্রকৃত মডেল (data-generating process) ছিল: $$ \text{crop} = 30 + \tau_{\text{fert}} + \beta_{\text{irrig}} + \gamma\,[\text{C} \wedge \text{high}] + \varepsilon, \qquad \varepsilon \sim N(0, 4^2), $$ যেখানে \(\tau_A = 0,\ \tau_B = 5,\ \tau_C = 8\); \(\beta_{\text{low}} = 0,\ \beta_{\text{high}} = 6\); এবং interaction পদ \(\gamma = 4\) কেবল C-সার ও high-সেচের সংমিশ্রণে যুক্ত হয়। অর্থাৎ "সত্য" parameter-গুলো আমরা জানি — এই উদাহরণের লক্ষ্য হলো নমুনা ডেটা থেকে সেই কাঠামো ANOVA-র মাধ্যমে পুনরুদ্ধার করা এবং দেখা যে আমাদের সিদ্ধান্ত বাস্তবতার সঙ্গে মেলে কি না।

নমুনা থেকে পাওয়া group means (seed 20260619):

Fertilizer (\(g\)) \(n_g\) \(\bar y_g\)
A \(40\) \(32.40\)
B \(40\) \(38.10\)
C \(40\) \(43.97\)
Grand \(120\) \(\bar y = 38.16\)

এখানে \(n_g = 40\) — কারণ one-way বিশ্লেষণে সেচ (irrigation) উপেক্ষা করা হচ্ছে, তাই প্রতিটি সার-গ্রুপে low ও high মিলিয়ে \(2 \times 20 = 40\)টি প্লট। (\(20\) হলো প্রতি cell-এর আকার, যা E3-র two-way বিশ্লেষণে দরকার হবে।)


E1 · One-way ANOVA হাতে-কলমে: SSB, SSW, F এবং ANOVA টেবিল

প্রশ্ন: তিনটি সারের গড় ফলন কি একই, নাকি অন্তত একটি আলাদা? Null hypothesis: $$ H_0:\ \mu_A = \mu_B = \mu_C \qquad \text{বনাম} \qquad H_1:\ \text{অন্তত একটি } \mu_g \text{ ভিন্ন।} $$

ধাপ ১ — Between-group sum of squares (\(\mathrm{SSB}\)). প্রতিটি গ্রুপের গড় grand mean থেকে কতটা সরে আছে, তার ওজন-করা বর্গযোগ। যেহেতু one-way বিশ্লেষণে প্রতিটি সার-গ্রুপে \(n_g = 40\): $$ \mathrm{SSB} = \sum_{g} n_g\,(\bar y_g - \bar y)^2 = 40\big[(\bar y_A - \bar y)^2 + (\bar y_B - \bar y)^2 + (\bar y_C - \bar y)^2\big]. $$ বিচ্যুতিগুলো বসিয়ে: $$ \begin{aligned} \bar y_A - \bar y &= 32.40 - 38.16 = -5.76, &(\bar y_A - \bar y)^2 &= 33.18,\ \bar y_B - \bar y &= 38.10 - 38.16 = -0.06, &(\bar y_B - \bar y)^2 &= 0.004,\ \bar y_C - \bar y &= 43.97 - 38.16 = \phantom{-}5.81, &(\bar y_C - \bar y)^2 &= 33.76. \end{aligned} $$ যোগফল \(\approx 66.94\), তাই $$ \mathrm{SSB} = 40 \times 66.94 \approx 2677.6 \approx 2675.0. $$

সতর্কতা — গোলকরণ (rounding)। উপরে দুই দশমিকে কাটা group means ব্যবহার করায় বিচ্যুতি-বর্গের যোগফল \(\approx 66.94\), অথচ পূর্ণ-নির্ভুল মানে \(\sum_g (\bar y_g - \bar y)^2 = 66.875\)। তাই \(40 \times 66.94 \approx 2677.6\) বনাম সঠিক \(40 \times 66.875 = 2675.0\) — পার্থক্য সামান্য (\(\approx 2.6\)), পুরোটাই গড় গোলকরণের ফল। নীতি: ANOVA-র মধ্যবর্তী ধাপে অতিরিক্ত গোলকরণ এড়িয়ে চলো; চূড়ান্ত মানে আমরা canonical \(\mathrm{SSB} = 2675.0\) গ্রহণ করব, যা §৩-র শেষে statsmodels দিয়ে যাচাই করা হবে।

ধাপ ২ — Within-group sum of squares (\(\mathrm{SSW}\)). প্রতিটি গ্রুপের ভেতরের বিক্ষেপ (residual scatter)। এটি প্রতিটি গ্রুপের নিজস্ব গড় থেকে পর্যবেক্ষণগুলোর বর্গবিচ্যুতির যোগ: $$ \mathrm{SSW} = \sum_g \sum_{i \in g} (y_{gi} - \bar y_g)^2 = 4624.2 \quad (\text{ডেটা থেকে গণিত}). $$

ধাপ ৩ — মোট (\(\mathrm{SST}\)) ও পরিচয় যাচাই। Total sum of squares হলো দুইটির যোগ: $$ \mathrm{SST} = \mathrm{SSB} + \mathrm{SSW} = 2675.0 + 4624.2 = 7299.2. $$ এই additive decomposition (বিভাজন) ANOVA-র মেরুদণ্ড: মোট পরিবর্তনশীলতা = গ্রুপের মধ্যেকার অংশ + গ্রুপের ভেতরের অংশ।

ধাপ ৪ — degrees of freedom, mean squares, ও \(F\) \(k = 3\) গ্রুপ, \(n = 120\) পর্যবেক্ষণ: $$ \mathrm{df}{\text{between}} = k - 1 = 2, \qquad \mathrm{df} = n - k = 117. $$ Mean squares (গড় বর্গ) = sum of squares }\(\div\) df: $$ \mathrm{MSB} = \frac{\mathrm{SSB}}{k-1} = \frac{2675.0}{2} = 1337.5, \qquad \mathrm{MSW} = \frac{\mathrm{SSW}}{n-k} = \frac{4624.2}{117} = 39.52. $$ \(F\)-statistic হলো এই দুই variance-অনুমানের অনুপাত: $$ F = \frac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)} = \frac{\mathrm{MSB}}{\mathrm{MSW}} = \frac{1337.5}{39.52} = 33.84. $$

লক্ষণীয়, \(\mathrm{MSW} = 39.52\) আমাদের error variance \(\sigma^2\)-এর অনুমান, এবং এর বর্গমূল \(\sqrt{39.52} \approx 6.29\) — তবে মনে রাখা দরকার এই pooled estimate-এ সেচের প্রভাব এখনো residual-এ মিশে আছে (E3-তে সেটিকে আলাদা করলে \(\hat\sigma\) অনেক ছোট হবে, প্রকৃত \(\sigma = 4\)-এর কাছাকাছি)।

ANOVA টেবিল (one-way, crop ~ fert):

Source \(\mathrm{SS}\) \(\mathrm{df}\) \(\mathrm{MS}\) \(F\) \(p\)-value
Between (fert) \(2675.0\) \(2\) \(1337.5\) \(33.84\) \(2.5 \times 10^{-12}\)
Within (error) \(4624.2\) \(117\) \(39.52\)
Total \(7299.2\) \(119\)

সিদ্ধান্ত। \(p\)-value \(\approx 2.5 \times 10^{-12}\), যা যেকোনো প্রচলিত তাৎপর্য-স্তরের (\(\alpha = 0.05\) বা এমনকি \(0.001\)) চেয়ে বহুগুণ ছোট। সমতুল্যভাবে, critical value \(F_{0.05;\,2,117} \approx 3.07\)-এর তুলনায় আমাদের \(F = 33.84\) বিশাল। অতএব আমরা \(H_0\) প্রত্যাখ্যান (reject) করি: তিনটি সারের গড় ফলন একরকম নয় — অন্তত একটি গড় বাকিদের থেকে পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণভাবে ভিন্ন।


E2 · ব্যাখ্যা ও post-hoc চিন্তা: কোন গ্রুপ আলাদা?

ANOVA-র \(F\)-test একটি omnibus test — এটি কেবল বলে "সব গড় সমান নয়", কিন্তু কোন জোড়াগুলো ভিন্ন তা বলে না। প্রত্যাখ্যানের পর স্বাভাবিক পরবর্তী প্রশ্ন: A, B, C-র মধ্যে ঠিক কোথায় পার্থক্য?

গড়গুলোর ক্রম স্পষ্ট: $$ \bar y_A = 32.40 \ <\ \bar y_B = 38.10 \ <\ \bar y_C = 43.97, $$ অর্থাৎ পর্যবেক্ষিত ফলনে \(\mathbf{C > B > A}\)। ব্যবধানগুলোও বেশ বড়: B, A-র চেয়ে \(\approx 5.7\) ইউনিট বেশি, এবং C, B-র চেয়ে আরও \(\approx 5.9\) ইউনিট বেশি। যেহেতু \(\mathrm{MSW} = 39.52\) থেকে প্রতিটি গ্রুপ-গড়ের (\(n_g = 40\)) standard error \(\approx \sqrt{39.52/40} \approx 0.99\), এই পার্থক্যগুলো standard error-এর তুলনায় বহুগুণ — তাই তিনটি জোড়াই (A vs B, A vs C, B vs C) সম্ভবত আলাদা।

কিন্তু "সম্ভবত" থেকে আনুষ্ঠানিক সিদ্ধান্তে যেতে হলে multiple comparison সমস্যাকে সামলাতে হয়। তিনটি গ্রুপে \(\binom{3}{2} = 3\)টি জোড়া; প্রতিটিকে আলাদাভাবে \(\alpha = 0.05\)-এ পরীক্ষা করলে অন্তত একটিতে ভুল-ইতিবাচক (false positive) পাওয়ার সম্ভাবনা \(0.05\)-এর চেয়ে বেড়ে যায় — এটিই family-wise error rate স্ফীতির সমস্যা। দুটি প্রচলিত সমাধান (এখানে কেবল ধারণাগতভাবে):

  • Tukey HSD (Honestly Significant Difference): সব জোড়াভিত্তিক তুলনা একসঙ্গে করে, studentized range distribution ব্যবহার করে family-wise error ঠিক \(\alpha\)-তে আটকে রাখে। সব-বনাম-সব pairwise তুলনার জন্য এটিই আদর্শ পছন্দ এবং সাধারণত Bonferroni-র চেয়ে বেশি শক্তিশালী (powerful)।
  • Bonferroni correction: সহজতম রক্ষণশীল উপায় — প্রতিটি তুলনাকে \(\alpha/m\) স্তরে পরীক্ষা করো (\(m\) = তুলনার সংখ্যা; এখানে \(\alpha/3 \approx 0.0167\))। সহজ কিন্তু অনেক তুলনায় অতিরিক্ত রক্ষণশীল হয়ে শক্তি হারায়।

এই ডেটায় তিনটি গড় এত স্পষ্টভাবে পৃথক যে Tukey HSD প্রয়োগ করলে তিনটি জোড়াই তাৎপর্যপূর্ণ আসবে বলে আশা করা যায় — অর্থাৎ পূর্ণ ক্রম \(C > B > A\) পরিসংখ্যানগতভাবেও দৃঢ়। মূল শিক্ষা: তাৎপর্যপূর্ণ ANOVA-র পর সবসময় একটি correction-যুক্ত post-hoc পরীক্ষা চালাও, যাতে "কোথায় পার্থক্য" প্রশ্নের উত্তর family-wise error নিয়ন্ত্রণে রেখে দেওয়া যায়।


E3 · Two-way ANOVA: main effects ও interaction

এখন সেচকে (irrigation) মডেলে যুক্ত করি। one-way মডেলে সেচের প্রভাব আলাদা না করায় তা residual-এ আটকে গিয়ে \(\mathrm{MSW}\)-কে স্ফীত করেছিল। দুই-মুখী (two-way) মডেল crop ~ fert + irrig + fert:irrig সেই variance-কে তিনটি অর্থপূর্ণ উৎসে ভাগ করে: সারের main effect, সেচের main effect, এবং তাদের interaction

প্রথমে cell means (প্রতিটি সংমিশ্রণে \(20\)টি প্লটের গড়):

low high fert গড়
A \(28.55\) \(36.26\) \(32.40\)
B \(33.78\) \(42.43\) \(38.10\)
C \(37.88\) \(50.06\) \(43.97\)
irrig গড় \(33.40\) \(42.92\) \(\bar y = 38.16\)

Two-way ANOVA টেবিল (Type II sum of squares):

Source \(\mathrm{SS}\) \(\mathrm{df}\) \(\mathrm{MS}\) \(F\) \(p\)-value
fert \(2675.0\) \(2\) \(1337.5\) \(84.80\) \(< 10^{-12}\)
irrig \(2714.4\) \(1\) \(2714.4\) \(172.10\) \(< 10^{-12}\)
fert : irrig \(111.7\) \(2\) \(55.86\) \(3.54\) \(0.032\)
Residual (error) \(1798.0\) \(114\) \(15.77\)

এখানে \(F\) = (প্রতিটি উৎসের \(\mathrm{MS}\)) \(\div\) (residual \(\mathrm{MS} = 15.77\))। লক্ষ্য করো residual \(\mathrm{MS}\) এখন মাত্র \(15.77\) — one-way মডেলের \(39.52\)-এর প্রায় এক-চতুর্থাংশ। কারণ সেচের বিশাল প্রভাব (\(\mathrm{SS} = 2714.4\)) আগে error-এ মিশে ছিল, এখন আলাদা হয়ে গেছে। \(\sqrt{15.77} \approx 3.97\), যা প্রকৃত \(\sigma = 4\)-এর প্রায় সমান — মডেল ঠিকঠাক হলে error-এর অনুমান সত্যের কাছে পৌঁছায়।

ব্যাখ্যা।

Main effect — fert (\(F = 84.80\)). সার একটি প্রবল প্রভাবক। লক্ষণীয়, সারের \(\mathrm{SS}\) দুই মডেলেই অভিন্ন (\(2675.0\)) — কারণ design balanced (প্রতিটি cell-এ সমান \(20\)টি), ফলে factor-গুলো orthogonal এবং প্রতিটির \(\mathrm{SS}\) অন্যের উপস্থিতিতে বদলায় না। কিন্তু \(F\) লাফিয়ে \(33.84 \to 84.80\) হয়েছে, কারণ denominator-এর error variance ছোট হয়েছে — অর্থাৎ সেচকে নিয়ন্ত্রণ করায় সারের প্রভাব শনাক্ত করার ক্ষমতা (power) অনেক বেড়েছে।

Main effect — irrig (\(F = 172.10\)). সেচ আরও প্রবল। irrig গড় দেখাচ্ছে high-সেচে গড় ফলন \(42.92\) বনাম low-তে \(33.40\) — গড়ে \(\approx 9.5\) ইউনিট বেশি। \(p \ll 0.001\), তাই সেচের প্রধান প্রভাব অত্যন্ত তাৎপর্যপূর্ণ।

Interaction — fert : irrig (\(F = 3.54,\ p = 0.032\)). এটিই সূক্ষ্ম কিন্তু গুরুত্বপূর্ণ অংশ। \(p = 0.032 < 0.05\) — অর্থাৎ interaction পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ, যদিও main effect-গুলোর তুলনায় মৃদু (mild)। interaction-এর মানে: সেচ থেকে প্রাপ্ত বাড়তি ফলন সব সারে এক নয়। cell means থেকে high-সেচের লাভ (high \(-\) low) হিসাব করি: $$ \begin{aligned} \text{A: } & 36.26 - 28.55 = 7.71,\ \text{B: } & 42.43 - 33.78 = 8.65,\ \text{C: } & 50.06 - 37.88 = 12.18. \end{aligned} $$ A ও B-তে সেচের লাভ মোটামুটি কাছাকাছি (\(\approx 7.7\)\(8.7\)), কিন্তু C-সারে high-সেচের লাভ লক্ষণীয়ভাবে বড় (\(\approx 12.2\)) — যেন C-সার ও বেশি সেচ একসঙ্গে থাকলে একটি অতিরিক্ত বোনাস পাওয়া যায়। এটিই data-generating process-এর \(\gamma = 4\) interaction পদের প্রতিফলন: C \(\wedge\) high-এ অতিরিক্ত \(4\) ইউনিট যুক্ত হয়েছিল, আর নমুনায় তা \(\approx 12.2 - 8.65 \approx 3.5\) ইউনিট বাড়তি লাভ হিসেবে দেখা দিচ্ছে।

ব্যবহারিক তাৎপর্য: যদি interaction উপেক্ষা করে শুধু main effect দেখতাম, তাহলে বলতাম "C সবচেয়ে ভালো, high-সেচ ভালো"। interaction আমাদের আরও সূক্ষ্ম সুপারিশ দেয় — C-সার ও high-সেচের সংমিশ্রণে বিনিয়োগ অসমানুপাতিকভাবে বেশি লাভজনক, কারণ এখানে দুই প্রভাব যোগ (additive) নয়, বরং পরস্পরকে কিছুটা বর্ধিত (synergistic) করে।

interaction তাৎপর্যপূর্ণ হলে main effect কীভাবে পড়ব? একটি গুরুত্বপূর্ণ সতর্কতা — interaction উপস্থিত থাকলে main effect-কে "সব পরিস্থিতিতে এক" বলে ব্যাখ্যা করা বিপজ্জনক, কারণ একটি factor-এর প্রভাব অন্যটির স্তরের উপর নির্ভর করে। এখানে interaction মৃদু (effect size ছোট, \(F = 3.54\)) হওয়ায় main effect-এর সরল ব্যাখ্যা মোটামুটি নিরাপদ; কিন্তু interaction যদি প্রবল হতো, তবে প্রতিটি cell-কে আলাদাভাবে (simple effects) বিশ্লেষণ করাই শ্রেয় হতো।


E4 · ANOVA = Regression: dummy variable-এর উপর regression

ANOVA এবং linear regression আসলে একই কাঠামোর দুই রূপ — উভয়ই general linear model। one-way ANOVA হলো ঠিক সেই regression যেখানে predictor হলো গ্রুপ-পরিচয়ের dummy variable (indicator variable)। এটি দেখানোর জন্য আমরা reference (baseline) হিসেবে A-গ্রুপ নিই এবং দুটি dummy সংজ্ঞায়িত করি: $$ D_B = \begin{cases} 1 & \text{যদি fert} = B \ 0 & \text{অন্যথায়} \end{cases}, \qquad D_C = \begin{cases} 1 & \text{যদি fert} = C \ 0 & \text{অন্যথায়} \end{cases}. $$ A-গ্রুপের জন্য \(D_B = D_C = 0\) — তাই A হলো reference level, এবং তার আলাদা dummy লাগে না (\(k = 3\) গ্রুপে \(k - 1 = 2\) dummy)। regression মডেল: $$ \text{crop} = \beta_0 + \beta_1 D_B + \beta_2 D_C + \varepsilon. $$

এই coding-এ coefficient-গুলোর সরাসরি অর্থ আছে: $$ \beta_0 = \bar y_A, \qquad \beta_1 = \bar y_B - \bar y_A, \qquad \beta_2 = \bar y_C - \bar y_A. $$ অর্থাৎ intercept = reference গ্রুপের গড়, আর প্রতিটি slope = সেই গ্রুপের গড় reference থেকে কতটা বেশি। ডেটা থেকে পাওয়া fitted মান: $$ \hat\beta_0 = 32.40\ (=\bar y_A), \qquad \hat\beta_1 = 5.70\ (\approx \bar y_B - \bar y_A), \qquad \hat\beta_2 = 11.57\ (\approx \bar y_C - \bar y_A). $$ যাচাই: \(32.40 + 5.70 = 38.10 = \bar y_B\) ✓ এবং \(32.40 + 11.57 = 43.97 = \bar y_C\) ✓ — regression ঠিক গ্রুপ-গড়গুলোই পুনরুৎপাদন করছে।

সবচেয়ে গুরুত্বপূর্ণ সংযোগ: এই dummy regression-এর overall \(F\)-test (অর্থাৎ \(H_0: \beta_1 = \beta_2 = 0\)) ঠিক one-way ANOVA-র \(F\)-test-এর সমান: $$ F_{\text{regression}} = 33.84 = F_{\text{ANOVA}}. $$ শুধু \(F\) নয় — regression-এর explained sum of squares (model SS) = ANOVA-র \(\mathrm{SSB} = 2675.0\), এবং regression-এর residual sum of squares = ANOVA-র \(\mathrm{SSW} = 4624.2\)। কারণ "\(H_0:\) সব \(\beta = 0\)" আর "\(H_0:\) সব গ্রুপ-গড় সমান" আসলে একই বক্তব্য: \(\beta_1 = \beta_2 = 0\) মানে \(\bar y_B = \bar y_C = \bar y_A\)

এই সমতুল্যতা শুধু কৌতূহলোদ্দীপক নয়, ব্যবহারিকভাবেও মূল্যবান — এর মানে categorical এবং continuous predictor একই regression কাঠামোতে অবাধে মেশানো যায় (যা ANCOVA-র ভিত্তি), এবং ANOVA-র জন্য আলাদা যন্ত্রপাতির দরকার নেই; regression ইঞ্জিনই যথেষ্ট।


যাচাই (statsmodels anova_lm)

উপরের সব canonical সংখ্যা statsmodels দিয়ে নিশ্চিত করা হয়েছে। সংক্ষিপ্ত নিশ্চিতকরণ-আউটপুট:

import numpy as np, pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

rng = np.random.default_rng(20260619)
fert_eff = {'A':0,'B':5,'C':8}; irr_eff = {'low':0,'high':6}
rows = []
for f in ['A','B','C']:
    for ir in ['low','high']:
        base = 30 + fert_eff[f] + irr_eff[ir] + (4 if (f=='C' and ir=='high') else 0)
        for v in base + rng.normal(0, 4, 20):
            rows.append((f, ir, v))
df = pd.DataFrame(rows, columns=['fert','irrig','crop'])

# --- one-way ---
m1 = ols('crop ~ C(fert)', data=df).fit()
print(anova_lm(m1, typ=1).round(3))
# --- two-way, Type II ---
m2 = ols('crop ~ C(fert)*C(irrig)', data=df).fit()
print(anova_lm(m2, typ=2).round(3))
# --- ANOVA as regression (dummy coding, A = reference) ---
df['DB'] = (df['fert']=='B').astype(int)
df['DC'] = (df['fert']=='C').astype(int)
m3 = ols('crop ~ DB + DC', data=df).fit()
print("dummy-regression F =", round(m3.fvalue, 2))

আউটপুট (গোলকৃত):

ONE-WAY  crop ~ fert
              df    sum_sq   mean_sq       F   PR(>F)
C(fert)      2.0  2674.985  1337.493  33.841  ~2.5e-12
Residual   117.0  4624.169    39.523

means: A=32.40  B=38.10  C=43.97   grand=38.16

TWO-WAY  crop ~ fert * irrig   (Type II)
                    sum_sq     df        F   PR(>F)
C(fert)           2674.985    2.0   84.801   <1e-12
C(irrig)          2714.423    1.0  172.102   <1e-12
C(fert):C(irrig)   111.719    2.0    3.542    0.032
Residual          1798.027  114.0

dummy-regression F = 33.84      # == one-way ANOVA F ✓
intercept = 32.40 (= ȳ_A),  DB = +5.70,  DC = +11.57

সব মান পরিকল্পিত canonical সংখ্যার সঙ্গে মিলে যাচ্ছে: one-way \(\mathrm{SSB} = 2675.0,\ \mathrm{SSW} = 4624.2,\ F = 33.84\); two-way \(F_{\text{fert}} = 84.80,\ F_{\text{irrig}} = 172.10,\ F_{\text{interaction}} = 3.54\ (p = 0.032)\); এবং dummy-regression-এর \(F = 33.84\) ঠিক one-way ANOVA-র সমান — যা E4-এর ANOVA-regression সমতুল্যতা পরিসংখ্যানগতভাবে নিশ্চিত করে।

৪ · প্রমাণ ও উৎপাদন

এই অংশটাই অধ্যায়ের হৃৎপিণ্ড: এতক্ষণ আমরা ANOVA-র সূত্রগুলো — \(\mathrm{SSB}\), \(\mathrm{SSW}\), \(F\)-statistic — "ব্যবহার" করেছি, এবার সেগুলো শূন্য থেকে উৎপাদন করব। লক্ষ্য একটাই: শেষে যেন \(F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}\) আর "আকাশ থেকে পড়া" সূত্র মনে না হয়, বরং মনে হয় একটাই স্বাভাবিক প্রশ্নের অনিবার্য উত্তর — "মোট ভেদ (total variation) কি গ্রুপের মধ্যে না গ্রুপের ভেতরে বেশি?"

আমরা পাঁচ ধাপে এগোব: (ক) মৌলিক ANOVA পরিচয় \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\); (খ) \(\mathbb{E}[\mathrm{MSW}]\)\(\mathbb{E}[\mathrm{MSB}]\) বের করে দেখানো কেন \(F\sim F_{k-1,\,n-k}\); (গ) ANOVA আসলে dummy-variable regression-এরই ছদ্মবেশ; (ঘ) two-way ANOVA-র decomposition; (ঙ) কেন একগাদা \(t\)-test না করে একটাই \(F\)-test করি। সঙ্গে চলবে একটা হাতে-গোনা উদাহরণ যাতে পরিচয়টা সংখ্যায় "চোখে দেখা" যায়।

প্রতীক-স্মারক (§১–২ থেকে): গ্রুপ \(g=1,\dots,k\); \(g\)-তম গ্রুপে \(n_g\)টি observation; observation \(y_{gi}\) (\(i=1,\dots,n_g\)); গ্রুপ-গড় \(\bar y_g=\frac{1}{n_g}\sum_i y_{gi}\); grand mean \(\bar y=\frac{1}{n}\sum_g\sum_i y_{gi}\) যেখানে \(n=\sum_g n_g\)
\(\mathrm{SST}=\sum_g\sum_i (y_{gi}-\bar y)^2\), \(\quad\mathrm{SSB}=\sum_g n_g(\bar y_g-\bar y)^2\), \(\quad\mathrm{SSW}=\sum_g\sum_i (y_{gi}-\bar y_g)^2\)
Mean squares: \(\mathrm{MSB}=\mathrm{SSB}/(k-1)\), \(\mathrm{MSW}=\mathrm{SSW}/(n-k)\)


৪.১ · মৌলিক ANOVA পরিচয়: \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\) (★★)

প্রশ্নটা পরিষ্কার করি। প্রতিটা observation \(y_{gi}\) grand mean \(\bar y\) থেকে কতটা দূরে — এই মোট বিচ্যুতিকে আমরা দুই টুকরোয় ভাঙতে চাই: (১) observation-টা তার নিজের গ্রুপ-গড় \(\bar y_g\) থেকে কতটা দূরে (গ্রুপের ভেতরের এলোমেলো ভেদ), আর (২) সেই গ্রুপ-গড়টা grand mean থেকে কতটা দূরে (গ্রুপের মধ্যেকার পদ্ধতিগত ভেদ)। দাবি: এই দুই টুকরোর বর্গ-যোগফল ঠিকঠাক যোগ হয়ে মোট বর্গ-যোগফল দেয়।

ধাপ ১ — যোগ-বিয়োগের কৌশল (add–subtract)। প্রতিটা পদের ভেতরে গ্রুপ-গড় \(\bar y_g\) একবার যোগ ও একবার বিয়োগ করি — মান বদলায় না, কিন্তু গঠন বদলে যায়:

\[ y_{gi}-\bar y=\underbrace{(y_{gi}-\bar y_g)}_{\text{within: }w_{gi}}+\underbrace{(\bar y_g-\bar y)}_{\text{between: }b_g}. \]

ধাপ ২ — বর্গ করে যোগফল নিই। এখন দুই পাশে বর্গ করে \(g\)\(i\) দুই-ই জুড়ে যোগ করি। \((w+b)^2=w^2+b^2+2wb\) সূত্রে:

\[ \mathrm{SST}=\sum_g\sum_i (y_{gi}-\bar y)^2 =\underbrace{\sum_g\sum_i (y_{gi}-\bar y_g)^2}_{=\,\mathrm{SSW}} +\underbrace{\sum_g\sum_i (\bar y_g-\bar y)^2}_{(\ast)} +\underbrace{2\sum_g\sum_i (y_{gi}-\bar y_g)(\bar y_g-\bar y)}_{\text{cross-term}}. \]

ধাপ ৩ — মাঝের পদ \((\ast)\) সরল করি। ভেতরের \((\bar y_g-\bar y)^2\) পদটায় \(i\) নেই — তাই \(\sum_i\) শুধু একই জিনিস \(n_g\) বার যোগ করে:

\[ \sum_g\sum_i (\bar y_g-\bar y)^2=\sum_g n_g(\bar y_g-\bar y)^2=\mathrm{SSB}. \]

ধাপ ৪ — cross-term অদৃশ্য হয় (এটাই মূল চমক)। ভেতরের যোগফলে \((\bar y_g-\bar y)\) পদটা \(i\)-র উপর ধ্রুবক, তাই \(\sum_i\)-এর বাইরে আনা যায়:

\[ \sum_g\sum_i (y_{gi}-\bar y_g)(\bar y_g-\bar y) =\sum_g (\bar y_g-\bar y)\,\Big[\sum_i (y_{gi}-\bar y_g)\Big]. \]

এখন বর্গাকার বন্ধনীর ভেতরের যোগফল দেখুন — এটা প্রতিটা গ্রুপের ভেতরে শূন্য:

\[ \sum_{i=1}^{n_g} (y_{gi}-\bar y_g)=\sum_i y_{gi}-n_g\bar y_g=n_g\bar y_g-n_g\bar y_g=0, \]

কারণ গ্রুপ-গড়ের সংজ্ঞাই হলো \(\sum_i y_{gi}=n_g\bar y_g\)। অর্থাৎ যেকোনো গড় থেকে নেওয়া বিচ্যুতিগুলোর যোগ সবসময় শূন্য — এটাই গড়ের মৌলিক ধর্ম। তাই প্রতিটা \(g\)-এর জন্য বন্ধনী \(=0\), ফলে গোটা cross-term \(=0\)

সিদ্ধান্ত। তিন টুকরো জোড়া দিয়ে পাই মৌলিক ANOVA পরিচয়:

\[ \boxed{\;\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\;} \]

§৫.১-এর সঙ্গে সাযুজ্য। এটা ঠিক regression-এর \(\mathrm{SST}=\mathrm{SSR}+\mathrm{SSE}\) পরিচয়ের যমজ — সেখানে fitted মান \(\hat y_i\), এখানে গ্রুপ-গড় \(\bar y_g\)ই হলো ভবিষ্যদ্বাণী। "Between" = ব্যাখ্যাকৃত (explained) ভেদ, "Within" = অবশিষ্ট (residual) ভেদ। §৪.৩-এ দেখব এই সাযুজ্য কাকতালীয় নয় — দুটো আক্ষরিক অর্থেই একই জিনিস

জ্যামিতিক ব্যাখ্যা (★★★ ঐচ্ছিক): \(\mathbb{R}^n\)-এ vector \((y_{gi}-\bar y)\)-কে দুই লম্ব (orthogonal) উপাংশে ভাঙা হলো — একটা গ্রুপ-indicator subspace-এ (between), অন্যটা তার orthogonal complement-এ (within)। cross-term শূন্য হওয়া মানেই এই দুই উপাংশ পরস্পর-লম্ব, আর Pythagoras-এর উপপাদ্য বলছে দৈর্ঘ্যের বর্গ যোগ হবে — সেটাই \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\)


৪.২ · কেন \(F=\mathrm{MSB}/\mathrm{MSW}\sim F_{k-1,\,n-k}\) (★★)

পরিচয়টা পেলাম, কিন্তু \(\mathrm{SSB}\) আর \(\mathrm{SSW}\)-কে শুধু \(k-1\)\(n-k\) দিয়ে ভাগ করে অনুপাত নিই কেন? উত্তরটা লুকিয়ে আছে এদের প্রত্যাশিত মানে (expected value)। মডেলটা লিখি:

\[ y_{gi}=\mu+\tau_g+\varepsilon_{gi},\qquad \varepsilon_{gi}\overset{\text{iid}}{\sim}\mathcal{N}(0,\sigma^2), \]

যেখানে \(\mu\) সার্বিক গড়, \(\tau_g\) হলো \(g\)-তম গ্রুপের effect (এমনভাবে সাজানো যে \(\sum_g n_g\tau_g=0\)), আর \(\varepsilon_{gi}\) এলোমেলো error। Null hypothesis \(H_0:\tau_1=\dots=\tau_k=0\) — অর্থাৎ সব গ্রুপ একই।

ক) \(\mathbb{E}[\mathrm{MSW}]=\sigma^2\) — সবসময়, \(H_0\) সত্য হোক বা না হোক

গ্রুপের ভেতরে observation-গুলো একই \(\tau_g\) ভাগ করে নেয়, তাই \(\tau_g\) কাটাকাটি হয়ে যায়:

\[ y_{gi}-\bar y_g=(\mu+\tau_g+\varepsilon_{gi})-(\mu+\tau_g+\bar\varepsilon_g)=\varepsilon_{gi}-\bar\varepsilon_g, \]

যেখানে \(\bar\varepsilon_g=\frac1{n_g}\sum_i\varepsilon_{gi}\)। অর্থাৎ within-deviation-এ গ্রুপ-effect-এর কোনো ছায়া নেই — পুরোটাই বিশুদ্ধ error। প্রতিটা গ্রুপ আলাদাভাবে \(\sigma^2\)-এর একটা estimate দেয়: পরিসংখ্যানের সাধারণ ফল অনুযায়ী \(\mathbb{E}\big[\sum_i(\varepsilon_{gi}-\bar\varepsilon_g)^2\big]=(n_g-1)\sigma^2\) (একটা গড় বের করতে গিয়ে এক degree of freedom খরচ)। সব গ্রুপ জুড়ে:

\[ \mathbb{E}[\mathrm{SSW}]=\sum_g (n_g-1)\sigma^2=\Big(\sum_g n_g-k\Big)\sigma^2=(n-k)\sigma^2 \;\Longrightarrow\; \boxed{\;\mathbb{E}[\mathrm{MSW}]=\frac{\mathbb{E}[\mathrm{SSW}]}{n-k}=\sigma^2\;} \]

তাই \(\mathrm{MSW}\) হলো \(\sigma^2\)-এর একটা নিরপেক্ষ (unbiased) estimator — সম্পূর্ণ \(\tau_g\)-নিরপেক্ষ। একে বলে pooled within-group variance; এটা সবসময় শুধু "noise" মাপে।

খ) \(\mathbb{E}[\mathrm{MSB}]=\sigma^2+\dfrac{\sum_g n_g\tau_g^2}{k-1}\)

এবার গ্রুপ-গড়টা দেখি: \(\bar y_g=\mu+\tau_g+\bar\varepsilon_g\), আর grand mean \(\bar y=\mu+\bar\varepsilon\) (যেহেতু \(\sum_g n_g\tau_g=0\), weighted effect গড় শূন্য)। তাই

\[ \bar y_g-\bar y=\tau_g+(\bar\varepsilon_g-\bar\varepsilon). \]

বর্গ করে \(n_g\) দিয়ে গুণ করে যোগ করি; expectation নিলে cross-term \(2\tau_g(\bar\varepsilon_g-\bar\varepsilon)\) গড়ে শূন্য হয়ে যায় (কারণ \(\mathbb{E}[\bar\varepsilon_g]=\mathbb{E}[\bar\varepsilon]=0\)):

\[ \mathbb{E}[\mathrm{SSB}]=\sum_g n_g\Big(\tau_g^2+\mathbb{E}\big[(\bar\varepsilon_g-\bar\varepsilon)^2\big]\Big) =\sum_g n_g\tau_g^2+\mathbb{E}\Big[\sum_g n_g(\bar\varepsilon_g-\bar\varepsilon)^2\Big]. \]

ডান দিকের দ্বিতীয় পদটা ঠিক \(H_0\)-এর অধীনে \(\mathrm{SSB}\)-র প্রত্যাশা — অর্থাৎ যখন সব \(\tau_g=0\), তখন এটা গ্রুপ-গড়গুলোর নিজেদের এলোমেলো ভেদ মাত্র। সেই ক্ষেত্রে standard ফল দেয় \(\mathbb{E}\big[\sum_g n_g(\bar\varepsilon_g-\bar\varepsilon)^2\big]=(k-1)\sigma^2\) (\(k\)টা গ্রুপ-গড়, একটা grand mean বাদ দিয়ে \(k-1\) df)। তাই

\[ \mathbb{E}[\mathrm{SSB}]=\sum_g n_g\tau_g^2+(k-1)\sigma^2 \;\Longrightarrow\; \boxed{\;\mathbb{E}[\mathrm{MSB}]=\sigma^2+\frac{\sum_g n_g\tau_g^2}{k-1}\;} \]

এই দুই বাক্সই পুরো ANOVA-র যুক্তি। \(\mathbb{E}[\mathrm{MSW}]=\sigma^2\) সবসময়; কিন্তু \(\mathbb{E}[\mathrm{MSB}]=\sigma^2+(\text{ধনাত্মক})\) যদি কোনো \(\tau_g\neq0\) হয়। তাই —
\(H_0\) সত্য (\(\tau_g\equiv0\)): \(\mathbb{E}[\mathrm{MSB}]=\mathbb{E}[\mathrm{MSW}]=\sigma^2\), অনুপাত \(F\approx1\)
\(H_0\) মিথ্যা: \(\mathbb{E}[\mathrm{MSB}]>\mathbb{E}[\mathrm{MSW}]\), তাই \(F\) ১-এর চেয়ে বড় হওয়ার ঝোঁক — বড় \(F\) মানেই "গ্রুপগুলো সত্যিই আলাদা"। এ কারণেই ANOVA-র \(F\)-test সর্বদা one-sided (ডান-লেজ)

গ) বণ্টন (distribution) — \(F\sim F_{k-1,\,n-k}\) under \(H_0\)

প্রত্যাশা বলল \(F\)-এর "ঝোঁক" কোনদিকে; কিন্তু \(p\)-value পেতে চাই পুরো বণ্টন। তিনটা ফল একসঙ্গে এটা দেয় (\(\varepsilon_{gi}\sim\mathcal{N}(0,\sigma^2)\)\(H_0\) ধরে):

  1. \(\dfrac{\mathrm{SSW}}{\sigma^2}\sim\chi^2_{n-k}\) — within sum of squares হলো \(n-k\)টা স্বাধীন standard normal-এর বর্গযোগ (প্রতিটা গ্রুপে \(n_g-1\) df, যোগে \(n-k\))।
  2. \(\dfrac{\mathrm{SSB}}{\sigma^2}\sim\chi^2_{k-1}\) — between sum of squares, \(k-1\) df (\(k\)টা গ্রুপ-গড় minus একটা grand-mean constraint)। এটা কেবল \(H_0\)-এর অধীনে central \(\chi^2\) (নইলে non-central)।
  3. \(\mathrm{SSB}\)\(\mathrm{SSW}\) পরস্পর স্বাধীন — কারণ একটা শুধু গ্রুপ-গড়ের ফাংশন, অন্যটা শুধু গ্রুপের-ভেতরের বিচ্যুতির ফাংশন; normal বণ্টনে নমুনা-গড় ও নমুনা-ভেদ স্বাধীন (Cochran-এর উপপাদ্যের অনুসিদ্ধান্ত)।

এখন §৪.৭-এর \(F\)-বণ্টনের সংজ্ঞা স্মরণ করি: দুটো স্বাধীন \(\chi^2\)-কে নিজ নিজ df দিয়ে ভাগ করে অনুপাত নিলে \(F\) পাওয়া যায়। অনুপাতে \(\sigma^2\) উপর-নিচে কাটাকাটি হয়ে যায়:

\[ F=\frac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)} =\frac{\big(\mathrm{SSB}/\sigma^2\big)/(k-1)}{\big(\mathrm{SSW}/\sigma^2\big)/(n-k)} =\frac{\chi^2_{k-1}/(k-1)}{\chi^2_{n-k}/(n-k)} \;\sim\;\boxed{\;F_{k-1,\,n-k}\;} \]

\(\sigma^2\) কেটে যাওয়াটা চমৎকার: অজানা \(\sigma^2\) না জেনেও আমরা test করতে পারি, কারণ \(F\) একটা pivotal রাশি। যদি পর্যবেক্ষিত \(F\) এই \(F_{k-1,n-k}\) বণ্টনের ডান-লেজে অনেক দূরে পড়ে (ছোট \(p\)-value), তবে \(H_0\) বাতিল।


৪.৩ · ANOVA = dummy-variable regression (★★)

§৪.১-এ ইঙ্গিত দিয়েছিলাম one-way ANOVA আর regression "যমজ"। এখন দেখাব এরা আক্ষরিক অর্থেই অভিন্ন — একই \(F\), একই \(\mathrm{SSB}=\mathrm{SSR}\), একই \(\mathrm{SSW}=\mathrm{SSE}\)

ধাপ ১ — গ্রুপকে dummy variable-এ রূপান্তর (reference coding)। \(k\)টা গ্রুপের জন্য একটা reference গ্রুপ (ধরা যাক গ্রুপ \(1\)) বেছে নিই, আর বাকি \(k-1\)টা গ্রুপের জন্য indicator (dummy) variable বানাই:

\[ D_{2},D_{3},\dots,D_{k},\qquad D_{g}= \begin{cases}1 & \text{observation গ্রুপ }g\text{-তে}\\[2pt]0 & \text{নয়তো}\end{cases} \]

Regression মডেল দাঁড়ায়:

\[ y=\beta_0+\beta_2 D_2+\beta_3 D_3+\dots+\beta_k D_k+\varepsilon. \]

এই coding-এ coefficient-গুলোর অর্থ পরিষ্কার:

\[ \beta_0=\bar y_1\ (\text{reference গ্রুপের গড়}),\qquad \beta_g=\bar y_g-\bar y_1\ (g\geq2,\ \text{গ্রুপ }g\text{ ও reference-এর গড়-পার্থক্য}). \]

ধাপ ২ — fitted মান গ্রুপ-গড়েই বসে। §৫.১-এর OLS সমাধান এই design-এ প্রয়োগ করলে দেখা যায় প্রতিটা observation-এর fitted মান হলো তার নিজের গ্রুপের গড়:

\[ \hat y_{gi}=\hat\beta_0+\sum_{h\geq2}\hat\beta_h D_h=\bar y_g. \]

কারণটা স্বজ্ঞাত: dummy-গুলো observation-গুলোকে \(k\)টা ভাগে ভাগ করে, আর প্রতিটা ভাগে RSS-কে সবচেয়ে ছোট করে সেই ভাগের গড়ই (least-squares-এ একটা constant-এর সেরা মান হলো গড়)।

ধাপ ৩ — তিন sum of squares মিলিয়ে দেখি। §৫.১-এর সংজ্ঞা (\(\hat y_{gi}=\bar y_g\) বসিয়ে):

\[ \mathrm{SSR}=\sum_g\sum_i(\hat y_{gi}-\bar y)^2=\sum_g\sum_i(\bar y_g-\bar y)^2=\sum_g n_g(\bar y_g-\bar y)^2=\mathrm{SSB}, \]
\[ \mathrm{SSE}=\sum_g\sum_i(y_{gi}-\hat y_{gi})^2=\sum_g\sum_i(y_{gi}-\bar y_g)^2=\mathrm{SSW}. \]

অর্থাৎ regression-এর "explained" sum of squares ঠিক ANOVA-র between, আর "residual" sum of squares ঠিক within।

ধাপ ৪ — \(F\)-test অভিন্ন। Regression-এ "সব dummy coefficient শূন্য" (\(H_0:\beta_2=\dots=\beta_k=0\)) test-এর overall \(F\) হলো:

\[ F_{\text{reg}}=\frac{\mathrm{SSR}/(p-1)}{\mathrm{SSE}/(n-p)}, \]

যেখানে parameter-সংখ্যা \(p=k\) (একটা intercept + \(k-1\) dummy)। তাই \(p-1=k-1\) আর \(n-p=n-k\) — হুবহু ANOVA-র df। \(\mathrm{SSR}=\mathrm{SSB}\), \(\mathrm{SSE}=\mathrm{SSW}\) বসিয়ে:

\[ \boxed{\;F_{\text{reg}}=\frac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}=F_{\text{ANOVA}}\;} \]

এক বাক্যে সারমর্ম। One-way ANOVA = categorical predictor-এর উপর regression। "\(H_0:\) সব dummy coefficient \(=0\)" আর "\(H_0:\) সব গ্রুপ-গড় সমান" — দুটো একই বাক্য, শুধু ভাষা আলাদা। এ কারণেই আধুনিক software (যেমন lm, statsmodels) ANOVA-কে regression হিসেবেই হিসাব করে।


৪.৪ · Two-way ANOVA-র decomposition (★)

এক factor (এক grouping) থেকে দুই factor-এ গেলে — ধরা যাক factor \(A\)-র \(a\)টা level আর factor \(B\)-র \(b\)টা level, প্রতিটা সমন্বয়ে (cell) সমান \(r\)টা replicate (balanced design) — মডেলটা হয়:

\[ y_{ijk}=\mu+\alpha_i+\beta_j+(\alpha\beta)_{ij}+\varepsilon_{ijk}, \]

যেখানে \(\alpha_i\) হলো \(A\)-র main effect, \(\beta_j\) হলো \(B\)-র main effect, \((\alpha\beta)_{ij}\) হলো interaction, আর \(\varepsilon_{ijk}\sim\mathcal{N}(0,\sigma^2)\)

Decomposition। §৪.১-এর মতো একই add–subtract কৌশল (এবার চারটা গড়: grand mean, row-গড় \(\bar y_{i\cdot}\), column-গড় \(\bar y_{\cdot j}\), cell-গড় \(\bar y_{ij}\) ক্রমান্বয়ে যোগ-বিয়োগ) প্রয়োগ করলে balanced design-এ সব cross-term অদৃশ্য হয় (effect-গুলো orthogonal), আর পাওয়া যায়:

\[ \boxed{\;\mathrm{SST}=\mathrm{SS_A}+\mathrm{SS_B}+\mathrm{SS_{AB}}+\mathrm{SSE}\;} \]

প্রতিটা টুকরো:

\[ \mathrm{SS_A}=br\sum_i(\bar y_{i\cdot}-\bar y)^2,\quad \mathrm{SS_B}=ar\sum_j(\bar y_{\cdot j}-\bar y)^2,\quad \mathrm{SS_{AB}}=r\sum_i\sum_j(\bar y_{ij}-\bar y_{i\cdot}-\bar y_{\cdot j}+\bar y)^2. \]

প্রতিটা effect-এর নিজস্ব \(F\) \(\mathrm{MSE}=\mathrm{SSE}/(ab(r-1))\) হলো common noise estimate (within-cell ভেদ)। প্রতিটা effect-কে নিজের df দিয়ে ভাগ করে \(\mathrm{MSE}\)-র সঙ্গে তুলনা:

\[ F_A=\frac{\mathrm{MS_A}}{\mathrm{MSE}},\quad F_B=\frac{\mathrm{MS_B}}{\mathrm{MSE}},\quad F_{AB}=\frac{\mathrm{MS_{AB}}}{\mathrm{MSE}}, \]

df যথাক্রমে \((a-1,\,ab(r-1))\), \((b-1,\,ab(r-1))\), \(((a-1)(b-1),\,ab(r-1))\)। অর্থাৎ একই hypothesis test তিনবার — প্রতিটা প্রশ্নের (\(A\)-র প্রভাব আছে? \(B\)-র? দুজনের মিথস্ক্রিয়া?) জন্য আলাদা।

Interaction-এর অর্থ। \((\alpha\beta)_{ij}=0\) মানে \(A\)-র প্রভাব \(B\)-র level-নির্বিশেষে একই (effect-গুলো additive — গ্রাফে রেখাগুলো সমান্তরাল)। Interaction তাৎপর্যপূর্ণ হলে \(A\)-র প্রভাব \(B\)-র উপর নির্ভর করে — যেমন "ওষুধ \(A\) কাজ করে কেবল যখন রোগী তরুণ" — তখন main effect একা পড়লে ভুল বোঝা যায়, interaction আগে দেখতে হয়।


৪.৫ · কেন অনেক \(t\)-test না, একটাই \(F\)-test (★)

স্বাভাবিক প্রশ্ন: \(k\)টা গ্রুপ যদি তুলনা করতেই হয়, প্রতি জোড়ায় একটা করে two-sample \(t\)-test করলেই তো হয়? সমস্যাটা family-wise error rate (FWER) — একাধিক test একসঙ্গে করলে অন্তত একটা মিথ্যা-ধনাত্মক (Type I error) পাওয়ার সম্ভাবনা দ্রুত ফুলে ওঠে।

হিসাবটা করি। \(k\)টা গ্রুপের মধ্যে জোড়ার সংখ্যা \(m=\binom{k}{2}=\dfrac{k(k-1)}{2}\)। ধরা যাক সব null সত্য (কোনো গ্রুপ আসলে আলাদা নয়) এবং test-গুলো স্বাধীন, প্রতিটায় significance level \(\alpha\)। একটা test-এ ভুল-করে-reject না করার সম্ভাবনা \((1-\alpha)\); \(m\)টা স্বাধীন test-এ একটাও ভুল না করার সম্ভাবনা \((1-\alpha)^m\)। তাই অন্তত একটা ভুল reject-এর সম্ভাবনা:

\[ \boxed{\;\mathrm{FWER}=1-(1-\alpha)^m\;},\qquad m=\binom{k}{2}. \]

\(\alpha=0.05\) ধরে সংখ্যায় দেখি কত দ্রুত নিয়ন্ত্রণ হারায়:

\(k\) (গ্রুপ) \(m=\binom{k}{2}\) (জোড়া) \(\mathrm{FWER}=1-0.95^{m}\)
\(3\) \(3\) \(\approx 0.143\)
\(4\) \(6\) \(\approx 0.265\)
\(5\) \(10\) \(\approx 0.401\)
\(6\) \(15\) \(\approx 0.537\)

মাত্র \(6\)টা গ্রুপে FWER \(54\%\) ছাড়িয়ে যায় — অর্থাৎ সব গ্রুপ একই হওয়া সত্ত্বেও অর্ধেকেরও বেশি বার আপনি ভুল-করে অন্তত একটা "পার্থক্য" ঘোষণা করবেন।

ANOVA কীভাবে বাঁচায়। ANOVA \(m\)টা জোড়া-test-এর বদলে একটাই omnibus \(F\)-test করে ("সব গ্রুপ-গড় কি সমান?") — তাই Type I error হুবহু \(\alpha\)-তেই থাকে, ফোলে না। এটা multiple comparison-এর জাল এড়িয়ে একটা সিদ্ধান্তে পৌঁছায়।
পরের ধাপ। \(F\)-test যদি \(H_0\) বাতিল করে (কোনো-না-কোনো গ্রুপ আলাদা), তখন কোন জোড়া আলাদা জানতে post-hoc পদ্ধতি (যেমন Tukey HSD, Bonferroni সংশোধন) ব্যবহার হয় — যেগুলো জোড়া-তুলনা করলেও FWER নিয়ন্ত্রণে রাখে। অর্থাৎ ANOVA = "দরজার পাহারাদার", post-hoc = তারপর সাবধানে ভেতরে খোঁজা।

৫ · কোড ল্যাব (Python)

এই ল্যাবে আমরা একটিমাত্র runnable script-এ পুরো ANOVA-র গল্পটা শেষ করব। প্রথমে কৃত্রিম একটা agricultural field trial dataset বানাব — তিনটা fertilizer (A, B, C) আর দুটো irrigation level (low, high), মোট \(120\)টা plot, প্রতিটার fertilizer-irrigation combination-এ \(20\)টা করে observation। response variable হলো crop (ফলন, ধরা যাক quintal/hectare)। dataset-টা এমনভাবে সাজানো যে আমরা আগে থেকেই জানি কোন effect-টা সত্যি আছে: fertilizer-এর main effect আছে (\(B\) গড়ে \(+5\), \(C\) গড়ে \(+8\)), irrigation-এর main effect আছে (high গড়ে \(+6\)), এবং একটা ছোট interaction আছে — শুধু \((C, \text{high})\) combination-এ অতিরিক্ত \(+4\)। random noise-এর standard deviation \(\sigma = 4\)

কাজটা চার ধাপে:

  1. PART 1 — from scratch one-way ANOVA: numpy দিয়ে group means, grand mean, \(SS_B\), \(SS_W\), \(MS_B\), \(MS_W\), \(F\), এবং \(p\)-value নিজে হাতে হিসাব করব।
  2. PART 2statsmodels-এর ols + anova_lm দিয়ে যাচাই করব যে আমাদের হাতে-করা সংখ্যাগুলো হুবহু মেলে।
  3. PART 3 — two-way ANOVA: fertilizer ও irrigation-এর main effect এবং তাদের interaction।
  4. PART 4 — post-hoc Tukey HSD: এক-way ANOVA-তে \(F\) significant হলে আমরা শুধু জানি "অন্তত একজোড়া গড় আলাদা" — কিন্তু কোন জোড়া? Tukey HSD সেটা বলে দেয়।

স্ক্রিপ্ট

import numpy as np
import pandas as pd
from scipy import stats
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# ---- Dataset ----
rng = np.random.default_rng(20260619)
fert = np.repeat(['A', 'B', 'C'], 40)
irrig = np.tile(np.repeat(['low', 'high'], 20), 3)
fe = {'A': 0.0, 'B': 5.0, 'C': 8.0}
ie = {'low': 0.0, 'high': 6.0}
inter = {('C', 'high'): 4.0}
mu = np.array([30.0 + fe[f] + ie[i] + inter.get((f, i), 0.0)
               for f, i in zip(fert, irrig)])
crop = mu + rng.normal(0, 4, 120)
df = pd.DataFrame({'crop': crop, 'fert': fert, 'irrig': irrig})

# ========== PART 1: from-scratch one-way ANOVA ==========
print("="*60)
print("PART 1: From-scratch one-way ANOVA  (crop ~ fert)")
print("="*60)

groups = ['A', 'B', 'C']
N = len(df)
k = len(groups)
grand_mean = df['crop'].mean()

group_means = {}
group_n = {}
SSB = 0.0   # Sum of Squares Between
SSW = 0.0   # Sum of Squares Within
for g in groups:
    vals = df.loc[df['fert'] == g, 'crop'].values
    m = vals.mean()
    n = len(vals)
    group_means[g] = m
    group_n[g] = n
    SSB += n * (m - grand_mean)**2
    SSW += ((vals - m)**2).sum()

df_between = k - 1            # 2
df_within = N - k            # 117
MSB = SSB / df_between
MSW = SSW / df_within
F = MSB / MSW
p = stats.f.sf(F, df_between, df_within)   # survival function = 1 - CDF

print(f"\nGroup means:")
for g in groups:
    print(f"  {g}: mean = {group_means[g]:.4f}  (n = {group_n[g]})")
print(f"Grand mean: {grand_mean:.4f}\n")

print(f"{'Source':<12}{'SS':>12}{'df':>6}{'MS':>12}{'F':>10}{'p':>14}")
print("-"*66)
print(f"{'Between':<12}{SSB:>12.2f}{df_between:>6}{MSB:>12.2f}{F:>10.2f}{p:>14.3e}")
print(f"{'Within':<12}{SSW:>12.2f}{df_within:>6}{MSW:>12.2f}")
print(f"{'Total':<12}{SSB+SSW:>12.2f}{N-1:>6}")

# ========== PART 2: confirm with statsmodels ==========
print("\n" + "="*60)
print("PART 2: statsmodels confirmation  ols + anova_lm(typ=2)")
print("="*60)
model1 = smf.ols('crop ~ C(fert)', data=df).fit()
aov1 = anova_lm(model1, typ=2)
print(aov1)
print(f"\nMatch check: from-scratch F = {F:.4f},  statsmodels F = {aov1.loc['C(fert)','F']:.4f}")
print(f"             from-scratch SSB = {SSB:.4f}, statsmodels = {aov1.loc['C(fert)','sum_sq']:.4f}")
print(f"             from-scratch SSW = {SSW:.4f}, statsmodels = {aov1.loc['Residual','sum_sq']:.4f}")

# ========== PART 3: two-way ANOVA ==========
print("\n" + "="*60)
print("PART 3: Two-way ANOVA  crop ~ C(fert)*C(irrig)")
print("="*60)
model2 = smf.ols('crop ~ C(fert)*C(irrig)', data=df).fit()
aov2 = anova_lm(model2, typ=2)
print(aov2)

# ========== PART 4: post-hoc Tukey HSD ==========
print("\n" + "="*60)
print("PART 4: Post-hoc Tukey HSD on fert")
print("="*60)
tukey = pairwise_tukeyhsd(endog=df['crop'], groups=df['fert'], alpha=0.05)
print(tukey)

আউটপুট

============================================================
PART 1: From-scratch one-way ANOVA  (crop ~ fert)
============================================================

Group means:
  A: mean = 32.4040  (n = 40)
  B: mean = 38.1029  (n = 40)
  C: mean = 43.9686  (n = 40)
Grand mean: 38.1585

Source                SS    df          MS         F             p
------------------------------------------------------------------
Between          2674.99     2     1337.49     33.84     2.529e-12
Within           4624.17   117       39.52
Total            7299.15   119

============================================================
PART 2: statsmodels confirmation  ols + anova_lm(typ=2)
============================================================
               sum_sq     df          F        PR(>F)
C(fert)   2674.985395    2.0  33.841031  2.529455e-12
Residual  4624.168931  117.0        NaN           NaN

Match check: from-scratch F = 33.8410,  statsmodels F = 33.8410
             from-scratch SSB = 2674.9854, statsmodels = 2674.9854
             from-scratch SSW = 4624.1689, statsmodels = 4624.1689

============================================================
PART 3: Two-way ANOVA  crop ~ C(fert)*C(irrig)
============================================================
                       sum_sq     df           F        PR(>F)
C(fert)           2674.985395    2.0   84.800822  2.749021e-23
C(irrig)          2714.422619    1.0  172.102076  1.593439e-24
C(fert):C(irrig)   111.719314    2.0    3.541660  3.219364e-02
Residual          1798.026998  114.0         NaN           NaN

============================================================
PART 4: Post-hoc Tukey HSD on fert
============================================================
Multiple Comparison of Means - Tukey HSD, FWER=0.05
===================================================
group1 group2 meandiff p-adj  lower   upper  reject
---------------------------------------------------
     A      B   5.6989 0.0003 2.3618  9.0361   True
     A      C  11.5646    0.0 8.2275 14.9017   True
     B      C   5.8657 0.0002 2.5285  9.2028   True
---------------------------------------------------

পাঠোদ্ধার

PART 1 — from scratch। group means বেরিয়েছে \(\bar{x}_A = 32.40\), \(\bar{x}_B = 38.10\), \(\bar{x}_C = 43.97\) — ঠিক যেমন আশা করেছিলাম: \(B\) প্রায় \(A\)-র চেয়ে \(\sim 5\) বেশি, \(C\) প্রায় \(\sim 8\) বেশি (plus irrigation effect গড়ে সবার মধ্যে সমানভাবে ছড়ানো)। grand mean \(\bar{x} = 38.16\)। এবার মূল হিসাব:

\[ SS_B = \sum_{g} n_g (\bar{x}_g - \bar{x})^2 = 2674.99, \qquad SS_W = \sum_{g} \sum_{i} (x_{gi} - \bar{x}_g)^2 = 4624.17. \]

degrees of freedom: \(df_B = k - 1 = 2\) এবং \(df_W = N - k = 120 - 3 = 117\)। mean squares:

\[ MS_B = \frac{SS_B}{df_B} = \frac{2674.99}{2} = 1337.49, \qquad MS_W = \frac{SS_W}{df_W} = \frac{4624.17}{117} = 39.52. \]

আর শেষমেশ test statistic:

\[ F = \frac{MS_B}{MS_W} = \frac{1337.49}{39.52} = 33.84, \qquad p = P\!\left(F_{2,117} > 33.84\right) = 2.53 \times 10^{-12}. \]

লক্ষ করো \(MS_W = 39.52 \approx \sigma^2 = 4^2 = 16\) নয় — \(16\) হওয়ার কথা ছিল যদি within-group variation শুধু noise হতো। এখানে \(MS_W\) বেশি, কারণ আমরা one-way model-এ irrigation-কে উপেক্ষা করেছি; irrigation-এর variation এই "within" bucket-এ গিয়ে জমা হয়েছে। PART 3-এ এটা ঠিক হবে।

PART 2 — যাচাই। statsmodels-এর anova_lm থেকে \(F = 33.8410\), \(SS_B = 2674.9854\), \(SS_W = 4624.1689\) — হাতে-করা সংখ্যার সাথে দশমিকের পর চার ঘর পর্যন্ত হুবহু মিলেছে। অর্থাৎ আমাদের from-scratch বোঝাপড়া আর library একই অঙ্ক করছে; ANOVA কোনো black box নয়।

PART 3 — two-way ANOVA। এখন irrigation-কে model-এ এনে চিত্রটা পাল্টে গেল:

  • C(fert): \(F = 84.80\), \(p \approx 2.7 \times 10^{-23}\) — fertilizer-এর effect এখন আরও তীব্রভাবে significant। কারণ residual variance কমে গেছে: irrigation-এর variation আলাদা করে নেওয়ায় Residual \(SS = 1798.03\) (\(df = 114\)), যা one-way-এর \(4624.17\)-এর তুলনায় অনেক ছোট। denominator ছোট হলে \(F\) বড় হয় — এটাই blocking / covariate যোগ করার power।
  • C(irrig): \(F = 172.10\), \(p \approx 1.6 \times 10^{-24}\) — irrigation-এর effect বিশাল, যা প্রত্যাশিত (\(+6\) একটা বড় shift)।
  • C(fert):C(irrig) interaction: \(F = 3.54\), \(p = 0.032\)\(\alpha = 0.05\)-এ ঠিক significant। এই ছোট কিন্তু বাস্তব interaction-টাই আমরা শুধু \((C, \text{high})\)-তে \(+4\) যোগ করে ঢুকিয়েছিলাম। মানে: fertilizer \(C\)-র সুবিধা high irrigation-এ সাধারণ additive প্রত্যাশার চেয়েও একটু বেশি — অর্থাৎ ভালো সার আর ভালো সেচ একসাথে দিলে synergy পাওয়া যায়।

typ=2 কেন? balanced design (প্রতিটা cell-এ সমান \(n\)) হলে Type I, II, III sum of squares মূলত একই ফল দেয়। কিন্তু অভ্যাস হিসেবে interaction-সহ model-এ typ=2 (বা typ=3) ব্যবহার করা নিরাপদ, কারণ এগুলো term-এর প্রবেশক্রমের উপর নির্ভর করে না।

PART 4 — Tukey HSD। one-way \(F\) significant বলল "তিনটা গড়ের অন্তত একটা জোড়া আলাদা" — কিন্তু সরাসরি তিনটা আলাদা \(t\)-test চালালে multiple comparison-এর কারণে family-wise error বেড়ে যায়। Tukey HSD সেই error rate-কে \(\text{FWER} = 0.05\)-এ ধরে রেখে সব জোড়া তুলনা করে:

জোড়া mean diff adjusted \(p\) reject \(H_0\)?
\(A\) বনাম \(B\) \(5.70\) \(0.0003\) হ্যাঁ
\(A\) বনাম \(C\) \(11.56\) \(< 0.001\) হ্যাঁ
\(B\) বনাম \(C\) \(5.87\) \(0.0002\) হ্যাঁ

তিনটে জোড়াই significant — প্রতিটা confidence interval (\(\text{lower}, \text{upper}\)) শূন্যকে বাদ দিয়েছে। তাই উপসংহার: তিনটা fertilizer-ই একে অপরের থেকে আলাদা ফলন দেয়, এবং ক্রম \(A < B < C\) — যা আমাদের ground-truth effect \(0 < 5 < 8\)-এর সাথে সঙ্গতিপূর্ণ।

মূল takeaway। from-scratch হিসাব (\(F = 33.84\)) আর library হুবহু মিলেছে, তাই ANOVA-র ভেতরের যন্ত্র এখন স্পষ্ট: total variation-কে "between groups" আর "within groups"-এ ভাগ করা, তারপর তাদের অনুপাত নেওয়া। irrigation-কে model-এ আনলে noise কমে effect আরও পরিষ্কার দেখা গেল (one-way \(F = 33.84 \to\) two-way fert \(F = 84.80\)), interaction term ছোট হলেও ধরা পড়ল, আর Tukey HSD শেষমেশ বলে দিল কোন কোন জোড়া আসলে আলাদা।

৬ · ভিজ্যুয়ালাইজেশন

চারটি ছবি একটিমাত্র স্ক্রিপ্ট _code/figs_5-3.py-তে তৈরি; PNG _assets/-এ (prefix 5-3, dpi=150)। in-figure সব লেখা ইংরেজিতে (matplotlib-এ Bengali-font rendering সমস্যা এড়াতে), আর প্রতিটি ছবির ক্যাপশনে কী লক্ষ করতে হবে আলাদা করে বলা — beginner-এর জন্য এটাই আসল শেখার সূত্র। সব ছবি একই synthetic crop-yield dataset থেকে (\(n=120\) plot; দুটি factor — fert তিন level \(A,B,C\) ৪০টি করে, আর irrig দুই level low/high ৬০টি করে; true effect \(A{:}0,\,B{:}5,\,C{:}8\) এবং low\({:}0,\,\)high\({:}6\), plus শুধু \((C,\text{high})\) cell-এ অতিরিক্ত interaction \(+4\), baseline \(30\), noise SD \(4\))। নিচে প্রতিটি ছবির আসল plotting-code-ও দেওয়া আছে, যাতে আপনি হুবহু পুনরুৎপাদন করতে পারেন।

ANOVA-র গাণিতিক কঙ্কালটা §২–§৫-এ দাঁড় করানো হয়েছে — variance-কে between-group (\(SSB\)) আর within-group (\(SSW\))-এ ভাঙা, \(F=\dfrac{MSB}{MSW}\) statistic, \(F\)-distribution-এর তলায় \(p\)-value, আর two-way design-এ main effect বনাম interaction। কিন্তু এই সব সংখ্যা সত্যিকারের অর্থ পায় তখনই, যখন আমরা সেগুলোকে চোখে দেখি। এই বিভাগে চারটি ছবি দিয়ে ANOVA-র চারটি কেন্দ্রীয় প্রশ্ন ধরা হয়েছে: (১) group-গুলো কি আদৌ আলাদা দেখায় — fertilizer-ভিত্তিক crop-এর boxplot, group-mean চিহ্নিত করে (\(C>B>A\) কি না দেখা, Figure 1); (২) \(F\)-test ঠিক কী জিনিস ভাঙছে\(SST=SSB+SSW\) এই variance-decomposition-টা ছবিতে (Figure 2); (৩) দুই factor কি পরস্পরের ওপর নির্ভর করে — cell-mean দিয়ে interaction plot, প্রায়-সমান্তরাল রেখা (Figure 3); আর (৪) পাওয়া \(F\)-টা কতটা চরম\(H_0\)-এর অধীন \(F_{2,117}\) density-তে observed \(F=33.84\) কোথায় পড়ে (Figure 4)। প্রথম ছবি পার্থক্যটা চোখে দেখা, দ্বিতীয়টি সেই পার্থক্য \(F\)-এ কীভাবে রূপ নেয়, তৃতীয়টি factor দুটোর যৌথ আচরণ, আর শেষটি সিদ্ধান্তের চূড়ান্ত যুক্তি — চার কোণ থেকে একই বিশ্লেষণকে দেখা।

Figure 1 — group boxplot: fertilizer-ভেদে crop কি আলাদা?

একদম শুরুর ছবি — one-way ANOVA-র মূল প্রশ্নটা (\(A,B,C\) তিন fertilizer-এর গড় crop কি সমান?) চোখে দেখার সবচেয়ে সরাসরি উপায়। তিনটি box তিন fertilizer-এর crop-yield বিতরণ দেখাচ্ছে (অনুভূমিক অক্ষে fertilizer type, উল্লম্ব অক্ষে crop yield); প্রতিটি box-এর ভেতরের কালো রেখা সেই group-এর median, আর কালো হীরা (diamond) হলো group-এর mean — যে পরিমাণটা ANOVA আসলে তুলনা করে। প্রতিটি box-এর গায়ে jitter করা কাঁচা বিন্দুগুলোও দেওয়া, যাতে কতগুলো plot আর তাদের ছড়ানো বোঝা যায়। ধূসর আনুভূমিক ভাঙা-রেখা হলো grand mean (\(38.16\)) — সব ১২০টি plot একসাথে ধরলে গড়। যা লক্ষ করতে হবে: (ক) তিনটি mean-হীরা স্পষ্টভাবে আলাদা উচ্চতায় বসেছে — \(A=32.40\), \(B=38.10\), \(C=43.97\) — অর্থাৎ \(C>B>A\), যা ঠিক আমাদের generator-এর true effect (\(A{:}0,B{:}5,C{:}8\)) প্রতিফলিত করছে। (খ) box-গুলো আংশিক overlap করে (যেমন \(A\)-র উপরের প্রান্ত আর \(B\)-র নিচের প্রান্ত), অর্থাৎ যেকোনো একটা plot দেখে fertilizer বলা যাবে না — কিন্তু গড়ের পার্থক্য overlap-এর তুলনায় বড়, আর ঠিক এই "between-গড়-পার্থক্য বনাম within-ছড়ানো"-র অনুপাতই \(F\)-test মাপে। (গ) \(A\)-র mean grand-mean-এর নিচে, \(C\)-র উপরে, \(B\) প্রায় গায়ে — তিন group grand-mean থেকে যত দূরে সরে, between-group variation তত বড়, \(F\) তত বড়। (ঘ) title-এ \(F=33.84,\ p<0.001\): এই দৃশ্যমান পার্থক্য কাকতালীয় হওয়ার সম্ভাবনা কার্যত শূন্য — পরের ছবিগুলোয় কেন, সেটা ভাঙা হবে।

groups = [crop[fert == g] for g in ["A", "B", "C"]]
bp = ax.boxplot(groups, positions=[1, 2, 3], patch_artist=True,
                medianprops=dict(color="black"))           # box + median
for k, g in enumerate(["A", "B", "C"], start=1):
    m = crop[fert == g].mean()                             # group mean
    ax.scatter([k], [m], marker="D", color="black", s=70)  # mean diamond
ax.axhline(crop.mean(), color="#7f8c8d", ls="--")          # grand mean

Boxplots of crop yield for three fertilizer types A, B and C, with group means marked. The horizontal axis is fertilizer type with three categories A, B and C; the vertical axis is crop yield from about 22 to 56. Each fertilizer has a coloured box (green for A, orange for B, red for C) showing the interquartile range, a black horizontal line for the median, and jittered raw data points overlaid. A black diamond marks each group mean, labelled 32.40 for A, 38.10 for B and 43.97 for C, so the means rise steadily in the order A less than B less than C. A grey dashed horizontal line marks the grand mean at 38.16. The boxes partly overlap one another vertically, so a single plot cannot be classified by fertilizer, but the gaps between the group means are clearly larger than that overlap. The title reports the one-way F statistic equals 33.84 with p less than 0.001. The viewer should notice that the three group means sit at distinctly different heights matching the true effects, that within-group spread overlaps while the means separate, and that this between-versus-within contrast is exactly what the F test quantifies.

Figure 2 — variance decomposition: \(SST = SSB + SSW\)

দ্বিতীয় ছবি ANOVA-র যান্ত্রিক হৃদয় খুলে দেখায় — পুরো total variation (\(SST\)) কীভাবে দুই টুকরোয় ভাঙে। বাঁ প্যানেল ১২০টি plot-কে fertilizer অনুযায়ী তিন কলামে আঁকে; প্রতিটি কালো আনুভূমিক দাগ একটা group-mean, বেগুনি ভাঙা-রেখা grand mean (\(38.16\))। প্রতিটি বিন্দু থেকে তার নিজের group-mean পর্যন্ত যে সরু ধূসর সেগমেন্ট, সেটাই সেই plot-এর within-group residual (\(y_{ij}-\bar y_i\)) — এদের বর্গের যোগফল \(SSW\)। আর group-mean-গুলো grand-mean থেকে যতটা সরে, সেটা between-group অংশ (\(\bar y_i-\bar y\)) — এদের বর্গের ভারিত (weighted) যোগফল \(SSB\)ডান প্যানেল এই দুই অংশকে সংখ্যায় stacked bar করে: মাঝের লম্বা bar-টা \(SST=7299\), যেটা নিচে নীল \(SSB=2675\) আর উপরে কমলা \(SSW=4624\)-এ ভাগ হয়েছে; দুই পাশের আলাদা bar দুটো \(SSB\)\(SSW\) আলাদাভাবে দেখায়। যা লক্ষ করতে হবে: (ক) সংখ্যাগুলো নিখুঁতভাবে যোগ মেলে — \(7299 = 2675 + 4624\) — এটা কোনো আনুমানিক ছবি নয়, বরং একটা বীজগাণিতিক পরিচয় (algebraic identity), যা সবসময় হুবহু মেলে (§২-এর sum-of-squares ভাঙন)। (খ) এখানে \(SSW\) (\(4624\)) \(SSB\) (\(2675\))-এর চেয়ে বড়, তবু \(F\) বিশাল — কারণ \(F\) raw SS তুলনা করে না, করে mean square (df-দিয়ে ভাগ): \(MSB=2675/2=1337\) বনাম \(MSW=4624/117=39.5\), আর \(F=1337/39.5=33.84\); অল্প df-এ ছড়ানো between-অংশ অনেক বেশি "ঘন"। (গ) বাঁ প্যানেলে চোখে দেখা যায় within-residual (ধূসর সেগমেন্ট) প্রতিটি group-এ মোটামুটি একই দৈর্ঘ্যের — এটাই ANOVA-র সমান-variance (homoscedasticity) অনুমানের দৃশ্যরূপ। মূল শিক্ষা: \(F\)-test আসলে "group-mean grand-mean থেকে কত দূরে" বনাম "group-এর ভেতরে plot-রা নিজ-mean থেকে কত দূরে" — এই দুই দূরত্বের প্রতিযোগিতা।

grand = crop.mean()
gmean = {g: crop[fert == g].mean() for g in ["A", "B", "C"]}
SSB = sum(len(crop[fert == g]) * (gmean[g] - grand)**2 for g in "ABC")  # 2675
SSW = sum(((crop[fert == g] - gmean[g])**2).sum() for g in "ABC")       # 4624
SST = SSB + SSW                                                         # 7299

# stacked bar: SST split into SSB (bottom) + SSW (top)
axR.bar(["SST"], [SSB], color="#1f6fb2")
axR.bar(["SST"], [SSW], bottom=[SSB], color="#E8833A")

A two-panel figure illustrating the variance decomposition of one-way ANOVA. LEFT panel: crop yield points for three fertilizers A, B and C are plotted in three columns; the horizontal axis is fertilizer type and the vertical axis is crop yield from about 22 to 56. A thick black horizontal bar marks each group mean and a purple dashed line marks the grand mean at 38.16. Thin grey segments connect every point to its own group mean, depicting the within-group residuals, and the gaps between the group bars and the purple line depict the between-group deviations. RIGHT panel: a stacked bar chart of sums of squares. A tall middle bar labelled SST total equals 7299 is split into a blue lower part labelled SSB 2675 (between) and an orange upper part labelled SSW 4624 (within); two separate bars on the sides show SSB 2675 and SSW 4624 individually. The title reads SST equals SSB plus SSW, 7299 equals 2675 plus 4624. The viewer should notice that the numbers add up exactly because this is an algebraic identity, that the within-group residual segments are roughly equal across groups (the constant-variance assumption), and that although SSW is larger than SSB the F statistic is large because it compares mean squares per degree of freedom, not the raw sums.

Figure 3 — interaction plot: দুই factor কি পরস্পর-নির্ভর?

তৃতীয় ছবি two-way design-এর কেন্দ্রীয় হাতিয়ার — interaction plot, যা একটা factor-এর প্রভাব অন্য factor-এর level-ভেদে বদলায় কি না দেখায়। অনুভূমিক অক্ষে fertilizer (\(A,B,C\)), উল্লম্ব অক্ষে প্রতিটি \((\text{fert},\text{irrig})\) cell-এর mean crop। নীল রেখা (বৃত্ত) low-irrigation, লাল রেখা (বর্গ) high-irrigation; ছয়টি cell-mean (A-low \(28.55\), A-high \(36.26\), B-low \(33.78\), B-high \(42.43\), C-low \(37.88\), C-high \(50.06\)) চিহ্নিত। ধূসর dotted রেখা আর ফাঁপা বৃত্তটি দেখায় interaction না থাকলে high-রেখা \(C\)-তে কোথায় পৌঁছাত (অর্থাৎ \(A,B\)-র গড় low→high উত্থানটা \(C\)-তেও হুবহু খাটত — পুরোপুরি সমান্তরাল রেখা); সবুজ দ্বিমুখী তির সেই ধরে-নেওয়া বিন্দু থেকে আসল C-high পর্যন্ত অতিরিক্ত \(+4.0\) লাফটা দেখায়। যা লক্ষ করতে হবে: (ক) দুটো রেখা প্রায় সমান্তরাল কিন্তু হুবহু নয়\(A\to B\) অংশে দুই রেখার ফাঁক মোটামুটি একই, কিন্তু \(B\to C\)-তে লাল রেখা একটু বেশি খাড়া হয়ে উপরে চলে যায়; এই সামান্য অ-সমান্তরালতাই হলো interaction-এর দৃশ্যরূপ। (খ) সমান্তরালতা থেকে বিচ্যুতিটা ছোট — তাই interaction মৃদু (mild), প্রবল নয়; title-এ \(F=3.54,\ p=0.032\), অর্থাৎ \(\alpha=0.05\)-এ statistically significant হলেও দুই main effect (fert, irrig)-এর তুলনায় অনেক দুর্বল। (গ) দুটো রেখাই বাঁ থেকে ডানে ওঠে (fertilizer main effect: \(C>B>A\)) এবং লাল রেখা সর্বত্র নীলের উপরে (irrigation main effect: high\(>\)low) — অর্থাৎ main effect দুটো প্রবল, interaction শুধু তার উপর একটা ছোট "বাড়তি মোচড়"। (ঘ) মূল ব্যাখ্যা: \((C,\text{high})\)-এ crop শুধু "ভালো সার \(+\) বেশি জল" যোগফলের চেয়ে \(\approx4\) একক বেশি — দুটো অনুকূল অবস্থা একসাথে কাজ করলে আলাদা-আলাদার চেয়ে বেশি ফল দেয়, যেটা ঠিক generator-এ রাখা inter[('C','high')] = 4। interaction plot-এ রেখা সমান্তরাল হলে → interaction নেই; যত বেশি ছাড়াছাড়ি/ক্রসিং, interaction তত প্রবল।

cell = {(f, i): crop[(fert == f) & (irrig == i)].mean()
        for f in "ABC" for i in ["low", "high"]}
x = [0, 1, 2]
ax.plot(x, [cell[(f, "low")]  for f in "ABC"], "o-", color="#1f6fb2")   # low
ax.plot(x, [cell[(f, "high")] for f in "ABC"], "s-", color="#c0392b")   # high
# "if no interaction" reference: average low->high lift carried to C
add = np.mean([cell[("A","high")]-cell[("A","low")],
               cell[("B","high")]-cell[("B","low")]])
ax.plot([1, 2], [cell[("B","high")], cell[("C","low")] + add], ":", color="#7f8c8d")

Interaction plot of cell mean crop yield for a two-factor design. The horizontal axis is fertilizer type with categories A, B and C; the vertical axis is cell mean crop yield from about 28 to 50. A blue line with circle markers shows irrigation equals low, passing through points 28.55, 33.78 and 37.88; a red line with square markers shows irrigation equals high, passing through 36.26, 42.43 and 50.06. The red high line lies entirely above the blue low line, and both lines rise from A to C, indicating strong main effects of irrigation and fertilizer. The two lines are nearly but not exactly parallel: the gap between them is similar from A to B but widens from B to C because the red line steepens. A grey dotted reference line and a hollow circle show where the high line would reach at C if there were no interaction (perfectly parallel), and a green double-headed arrow marks the extra plus 4.0 lift from that reference up to the actual C-high point. The title reports the fertilizer-by-irrigation interaction F equals 3.54 with p equals 0.032. The viewer should notice the slight non-parallelism signalling a mild but significant interaction, that the combination of best fertilizer and high irrigation yields about 4 units more than the additive prediction, and that parallel lines would have meant no interaction.

Figure 4 — \(F\)-distribution: পাওয়া \(F\) কতটা চরম?

শেষ ছবি — hypothesis-test-এর চূড়ান্ত যুক্তিটা চোখে দেখায়। নীল curve হলো \(H_0\) (সব fertilizer-mean সমান) সত্যি হলে \(F\) statistic-এর sampling distribution, অর্থাৎ \(F_{2,117}\) density — df দুটো ঠিক আমাদের between-df \(=3-1=2\) আর within-df \(=120-3=117\)। লাল ভাঙা-রেখা হলো critical value \(F^{*}=3.07\) (\(\alpha=0.05\)-এ); তার ডানে লাল ছায়াঘেরা অংশটা rejection region — মোট ক্ষেত্রফলের ঠিক \(5\%\), অর্থাৎ "\(H_0\) সত্যি হলেও নিছক randomness-এ \(F\) এতটা বড় হওয়ার সম্ভাবনা মাত্র \(5\%\)"। সবুজ box ও ডানমুখী তির দেখায় আমাদের observed \(F=33.84\) কোথায় — সেটা চার্টের ডান প্রান্তেরও অনেক বাইরে (তাই অক্ষে // break-চিহ্ন)। যা লক্ষ করতে হবে: (ক) \(H_0\)-এর অধীন \(F\)-এর density-র প্রায় পুরোটা \(0\) থেকে \(\sim3\)-এর মধ্যে ভিড় করে — অর্থাৎ "কিছুই ঘটছে না" হলে \(F\) সাধারণত ছোট (\(1\)-এর আশপাশে) থাকার কথা। (খ) আমাদের \(F=33.84\) critical value \(3.07\)-এর দশ গুণেরও বেশি, density-র লেজে এত দূরে যে স্বাভাবিক স্কেলে আঁকাই যায় না — তাই \(p\approx0\) (\(\approx2.5\times10^{-12}\)): এমন মান \(H_0\) সত্যি হলে কার্যত অসম্ভব। (গ) সিদ্ধান্ত পরিষ্কার — observed \(F\) rejection region-এর অনেক ভেতরে পড়ায় \(H_0\) নাকচ; fertilizer-গুলোর গড় crop সত্যিই আলাদা (Figure 1-এর চোখে-দেখা পার্থক্যেরই আনুষ্ঠানিক নিশ্চয়তা)। (ঘ) সূক্ষ্ম কিন্তু গুরুত্বপূর্ণ: ছবিটা one-tailed\(F\) সবসময় \(\ge 0\), আর between-variation বাড়লেই \(F\) বড় হয়, তাই reject-অঞ্চল শুধু ডান লেজে; \(t\)-test-এর মতো দুই-প্রান্তের ব্যাপার এখানে নেই। মূল শিক্ষা: \(p\)-value মানে "\(H_0\) সত্যি হলে এই বা এর-চেয়ে-চরম ফল পাওয়ার সম্ভাবনা" — আর এখানে সেই সম্ভাবনা এতই ক্ষুদ্র যে data আর \(H_0\) একসাথে টেকে না।

from scipy import stats
xx = np.linspace(0.001, 6.5, 800)
ax.plot(xx, stats.f.pdf(xx, 2, 117), color="#1f6fb2")          # F(2,117) density
F_crit = stats.f.ppf(0.95, 2, 117)                             # 3.07
xr = np.linspace(F_crit, 6.5, 200)
ax.fill_between(xr, stats.f.pdf(xr, 2, 117), color="#c0392b", alpha=0.3)  # reject region
ax.axvline(F_crit, color="#c0392b", ls="--")                   # critical value
# observed F = 33.84 is off the right edge -> arrow + callout box

Density curve of the F distribution with 2 and 117 degrees of freedom, showing the rejection region and the observed test statistic. The horizontal axis is the F statistic from 0 to 7; the vertical axis is probability density from 0 to about 1. A blue curve shows the F(2, 117) density under the null hypothesis that all fertilizer means are equal; it starts high near F equals 0 and falls steeply, with almost all of its mass between 0 and about 3. A red dashed vertical line marks the critical value F-star equals 3.07 for alpha equals 0.05, and the area to its right is shaded red as the rejection region, comprising five percent of the total area. A green callout box on the right with a green rightward arrow states that the observed F equals 33.84 lands far out to the right, off the chart, with p approximately 0; a double-slash axis-break symbol sits on the horizontal axis near 6.8 to indicate the large gap up to 33.84. The title reads sampling distribution of F under the null hypothesis. The viewer should notice that under the null the F statistic is usually small, near 1, that the observed F of 33.84 is more than ten times the critical value and lies impossibly far in the tail (p about two times ten to the minus twelve), and that the test is one-tailed because F is always non-negative and only large values give evidence against the null, leading to a clear rejection of equal fertilizer means.


৭ · অনুশীলনী

প্রতিটি প্রশ্নে difficulty tag (★ সহজ · ★★ মাঝারি · ★★★ চ্যালেঞ্জিং) ও একটি hint। পূর্ণ সমাধান _solutions/05-03-anova-solutions.md-এ। নিজে চেষ্টা করার আগে সমাধান দেখবেন না — variance-কে "between" ও "within"-এ ভাগ করার যন্ত্রটা হাতে গুনে দেখাটাই এই অধ্যায়ের আসল শেখা।

(চলমান উদাহরণ স্মারক — agricultural field trial, seed np.random.default_rng(20260619), \(n=120\): তিনটা fertilizer (A, B, C) \(\times\) দুটো irrigation (low, high), প্রতি cell-এ \(20\)টা plot। response crop \(= 30 + \{A{:}0, B{:}5, C{:}8\} + \{\text{low}{:}0, \text{high}{:}6\} + 4\cdot[\![C\ \&\ \text{high}]\!] + \mathcal N(0,4^2)\)one-way (crop ~ fert): গড় \(\bar y_A=32.40,\ \bar y_B=38.10,\ \bar y_C=43.97\), grand \(\bar y=38.16\); \(\mathrm{SSB}=2675.0,\ \mathrm{SSW}=4624.2,\ df=(2,117)\); \(F=33.84,\ p\approx 2.5\times10^{-12}\)two-way (crop ~ fert*irrig): fert \(F=84.80\), irrig \(F=172.10\), interaction \(F=3.54\ (p\approx0.032)\), residual \(\mathrm{SS}=1798.0,\ df=114\)। cell means: A-low \(28.55\), A-high \(36.26\), B-low \(33.78\), B-high \(42.43\), C-low \(37.88\), C-high \(50.06\)। মূল সূত্র: \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\), \(F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}\)।)

ক · ধারণাগত (conceptual)

প্রশ্ন ১ (★). ANOVA-র নামেই "variance" শব্দটা আছে, অথচ আমরা আসলে গড় (mean) তুলনা করছি — তিন fertilizer-এর গড় ফলন এক কিনা। এই আপাত-বৈপরীত্য ব্যাখ্যা করুন: কীভাবে দুই রকম variance-এর তুলনা করে আমরা গড়ের সমতা সম্পর্কে সিদ্ধান্ত নিই? \(\mathrm{SSB}\) আর \(\mathrm{SSW}\) আলাদা করে কী মাপে, আর \(H_0\) সত্য হলে তাদের অনুপাত \(F\)-এর আশেপাশে কোন মানের কাছে থাকার কথা? Hint: \(\mathrm{SSB}\) মাপে group-গড়গুলো grand mean থেকে কত ছড়ানো (signal + noise); \(\mathrm{SSW}\) মাপে শুধু group-এর ভেতরের noise। \(H_0:\mu_A=\mu_B=\mu_C\) সত্য হলে দুটোই একই \(\sigma^2\)-এর estimate, তাই \(F=\mathrm{MSB}/\mathrm{MSW}\approx 1\)। গড় আলাদা হলে \(\mathrm{MSB}\) বাড়ে, \(F\gg 1\)

প্রশ্ন ২ (★). তিনটা fertilizer-এর গড় তুলনা করতে কেউ পরামর্শ দিল: "একটা ANOVA-র দরকার কী? তিনটা জোড়ায় তিনটা আলাদা two-sample \(t\)-test চালাও — \(A\) vs \(B\), \(A\) vs \(C\), \(B\) vs \(C\) — সহজ।" এই পদ্ধতির মূল সমস্যাটা এক বাক্যে নাম দিন, তারপর ব্যাখ্যা করুন। প্রতিটি test যদি \(\alpha=0.05\)-এ চালানো হয়, তিনটা test মিলিয়ে অন্তত একটা false positive পাওয়ার সম্ভাবনা (family-wise error rate) আনুমানিক কত? group সংখ্যা \(5\) হলে কতগুলো জোড়া-test লাগত? Hint: সমস্যাটা multiple comparisons / family-wise error inflation। সব null সত্য আর test স্বাধীন ধরলে \(\text{FWER}=1-(1-0.05)^m\), যেখানে \(m=\binom{k}{2}\)\(k=3\Rightarrow m=3\); \(k=5\Rightarrow m=\binom{5}{2}=10\)। ANOVA একটিমাত্র global test দিয়ে এই inflation এড়ায়।

প্রশ্ন ৩ (★★). নিচের two-way ANOVA-র ফল (চলমান field trial থেকে) পড়ুন: fertilizer-এর main effect \(F=84.80\ (p<10^{-20})\), irrigation-এর main effect \(F=172.10\ (p<10^{-20})\), এবং interaction \(F=3.54\ (p=0.032)\)। (ক) "main effect" আর "interaction effect"-এর পার্থক্য সাধারণ ভাষায় বলুন। (খ) এই interaction significant হওয়ার বাস্তব অর্থ কী — অর্থাৎ fertilizer \(C\)-র সুবিধা low আর high irrigation-এ কি একই? cell means (C-low \(37.88\to\) C-high \(50.06\), বৃদ্ধি \(12.18\); A-low \(28.55\to\) A-high \(36.26\), বৃদ্ধি \(7.71\)) দিয়ে যুক্তি দিন। (গ) interaction significant হলে কেন main effect-গুলোকে একা একা ("fertilizer C গড়ে \(X\) বাড়ায়") বলা একটু বিভ্রান্তিকর হতে পারে? Hint: main effect = এক factor-এর গড় প্রভাব (অন্য factor-এর level জুড়ে averaged)। interaction = এক factor-এর প্রভাব অন্য factor-এর level-ভেদে বদলায় কিনা। এখানে irrigation low\(\to\)high-এ ফলন-বৃদ্ধি \(C\)-তে (\(12.18\)) \(A\)-র চেয়ে (\(7.71\)) বেশি — তাই additive নয়, synergy আছে; "average effect" পুরো গল্প বলে না।

প্রশ্ন ৪ (★★). "ANOVA হলো categorical predictor-সহ regression-এরই আরেক চেহারা" — এই দাবিটা স্পষ্ট করুন। one-way ANOVA-র crop ~ fert মডেলকে কীভাবে dummy/indicator variable দিয়ে একটা linear regression \(\;y=\beta_0+\beta_1 D_B+\beta_2 D_C+\varepsilon\;\) হিসেবে লেখা যায় (\(D_B,D_C\) হলো \(B,C\)-র indicator, \(A\) reference)? এই encoding-এ \(\beta_0,\beta_1,\beta_2\) কী অর্থ বহন করে, আর ANOVA-র overall \(F\)-test (\(H_0:\mu_A=\mu_B=\mu_C\)) regression-এর কোন test-এর হুবহু সমান? Hint: reference (baseline) cell mean coding-এ \(\beta_0=\mu_A\) (reference গড়), \(\beta_1=\mu_B-\mu_A\), \(\beta_2=\mu_C-\mu_A\) — অর্থাৎ coefficient-গুলো group-গড়ের পার্থক্য\(H_0:\beta_1=\beta_2=0\Leftrightarrow \mu_A=\mu_B=\mu_C\), যা ৫.২-এর overall \(F\)-test (সব slope একসাথে শূন্য) — সংখ্যায় এক।

প্রশ্ন ৫ (★★). ANOVA-র বৈধতা তিনটা অনুমানের উপর দাঁড়ায়: (i) প্রতিটি group স্বাধীন, (ii) প্রতিটি group-এর মধ্যে error আনুমানিক Normal, (iii) সব group-এ error-variance সমান (homogeneity of variance / homoscedasticity)। (ক) এই তিনটা LINE অনুমানের (৫.১) কোনগুলোর সাথে মেলে? (খ) যদি group-গুলোর variance খুব আলাদা হয় (যেমন এখানে A-র sd \(\approx5.3\) বনাম C-র sd \(\approx7.3\) — মাঝারি পার্থক্য), \(F\)-test-এ কী ঝুঁকি? (গ) balanced design (প্রতি cell-এ সমান \(n=20\)) কেন এই variance-অসমতার বিরুদ্ধে কিছুটা robustness দেয়? Hint: (i)=Independence, (ii)=Normality, (iii)=Equal variance — Linearity ছাড়া LINE-এর বাকি তিনটি। variance অসম হলে \(F\)-এর null distribution আর ঠিক \(F_{k-1,n-k}\) থাকে না, তাই \(p\)-value বিকৃত। balanced design-এ এই বিকৃতি অনেক ছোট থাকে — তাই সমান cell-size একটা design-গুণ (এ-ই randomization/blocking-এর সাথে যুক্ত)।

খ · গণনামূলক (computational)

প্রশ্ন ৬ (★). একজন গবেষক শুধু group-summary রিপোর্ট করেছেন (raw data নেই): fertilizer \(A\)\(n_A=40,\ \bar y_A=32.40,\ s_A=5.315\); \(B\)\(n_B=40,\ \bar y_B=38.10,\ s_B=6.135\); \(C\)\(n_C=40,\ \bar y_C=43.97,\ s_C=7.259\)। এই summary থেকেই পুরো one-way ANOVA table বানান: (ক) grand mean \(\bar y\) (balanced বলে সরল গড়); (খ) \(\mathrm{SSB}=\sum_g n_g(\bar y_g-\bar y)^2\); (গ) \(\mathrm{SSW}=\sum_g (n_g-1)s_g^2\) (কারণ \(s_g^2=\frac{1}{n_g-1}\sum(y-\bar y_g)^2\)); (ঘ) \(df_B,\ df_W\), এবং \(\mathrm{MSB},\ \mathrm{MSW}\); (ঙ) \(F\)-stat। আপনার সংখ্যাগুলো canonical-এর সাথে মিলছে কি? Hint: \(\bar y=(32.40+38.10+43.97)/3=38.16\) (balanced বলেই সরল গড় চলে)। \(\mathrm{SSB}=40[(32.40-38.16)^2+(38.10-38.16)^2+(43.97-38.16)^2]\approx 2675\)\(\mathrm{SSW}=39(5.315^2+6.135^2+7.259^2)\approx 4624\)। তারপর \(F=\frac{2675/2}{4624/117}=\frac{1337.5}{39.5}\approx 33.8\)

প্রশ্ন ৭ (★). প্রশ্ন ৬-এর table-এর \(F=33.84\) (\(df=2,117\))। (ক) \(\alpha=0.05\)-এ critical value \(F_{0.95;\,2,117}\approx 3.07\) — observed \(F\) কি তা ছাড়িয়েছে? সিদ্ধান্ত কী? (খ) \(p\)-value \(\approx 2.5\times10^{-12}\)-কে এক বাক্যে সঠিকভাবে ব্যাখ্যা করুন (সাধারণ ভুল ব্যাখ্যা এড়িয়ে)। (গ) \(F\)-test reject করল — এখন আমরা ঠিক কী জানি এবং কী জানি না? পরের ধাপ কী হওয়া উচিত? Hint: \(33.84\gg 3.07\), তাই \(H_0\) জোরালোভাবে বাতিল। \(p\) = "যদি তিন গড় সত্যিই সমান হতো, তবে এত বড় (বা বড়তর) \(F\) পাওয়ার সম্ভাবনা \(\approx 2.5\times10^{-12}\)" — group means সমান হওয়ার সম্ভাবনা নয়। reject মানে শুধু "অন্তত একজোড়া গড় আলাদা"; কোন জোড়া তা জানতে post-hoc (Tukey HSD) লাগে।

প্রশ্ন ৮ (★★). variance decomposition যাচাই। চলমান data-তে total variation \(\mathrm{SST}=\sum_i(y_i-\bar y)^2=7299.15\), আর one-way crop ~ fert-এ \(\mathrm{SSB}=2675.0\)। (ক) identity \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\) ব্যবহার করে \(\mathrm{SSW}\) বের করুন এবং canonical \(4624.2\)-এর সাথে মেলান। (খ) "fertilizer কত শতাংশ total variation ব্যাখ্যা করে" — এটি ANOVA-র \(\eta^2=\mathrm{SSB}/\mathrm{SST}\) (regression-এর \(R^2\)-এর সমতুল্য); গণনা করুন। (গ) two-way-তে irrigation যোগ করলে residual SS \(4624.2\to 1798.0\) নামে — এই পতন কোন variation-কে আলাদা করায় ঘটল, এবং কেন এটা \(F\)-কে বড় করে (fert-এর \(F\) \(33.84\to 84.80\))? Hint: (ক) \(\mathrm{SSW}=7299.15-2675.0=4624.15\approx 4624.2\)। (খ) \(\eta^2=2675.0/7299.15\approx 0.366\) — অর্থাৎ একা fertilizer \(\sim37\%\) ব্যাখ্যা করে। (গ) irrigation-এর variation আগে "within/residual" bucket-এ লুকিয়ে ছিল; model-এ এনে আলাদা করায় \(\mathrm{MSW}\) ছোট হয় (\(=\) denominator), তাই একই \(\mathrm{SSB}\)-তে \(F\) বড় — এ-ই blocking-এর power।

প্রশ্ন ৯ (★★). post-hoc-এর সংখ্যা। Tukey HSD তিনটা জোড়ার mean difference দিয়েছে: \(A\)\(B\): \(5.70\), \(A\)\(C\): \(11.56\), \(B\)\(C\): \(5.87\); তিনটারই adjusted \(p<0.001\), সব confidence interval শূন্যকে বাদ দিয়েছে। (ক) এই তিনটি pairwise difference কি group means (\(\bar y_A=32.40,\ \bar y_B=38.10,\ \bar y_C=43.97\)) থেকে সরাসরি বের হয়? যাচাই করুন। (খ) Tukey-র CI সাধারণ two-sample-\(t\)-এর CI-র চেয়ে চওড়া — কেন, এবং এতে কী লাভ? (গ) তিন জোড়াই significant — group-গুলোকে কোন ক্রমে সাজানো যায়, আর তা ground-truth effect (\(A{:}0<B{:}5<C{:}8\))-এর সাথে মেলে কি? Hint: (ক) \(38.10-32.40=5.70\), \(43.97-32.40=11.57\), \(43.97-38.10=5.87\) — হ্যাঁ, ঠিক mean-পার্থক্য (rounding-এ সামান্য তফাত)। (খ) Tukey studentized-range distribution ব্যবহার করে FWER-কে \(0.05\)-এ ধরে রাখে, তাই প্রতিটি interval একটু চওড়া — বিনিময়ে সব জোড়া মিলিয়ে error inflate হয় না। (গ) \(A<B<C\), যা ground truth-এর সাথে সঙ্গতিপূর্ণ।

প্রশ্ন ১০ (★★). two-way table পূরণ। two-way ANOVA-র আংশিক table নিচে; ফাঁকা ঘর ভরুন (total \(n=120\), তাই \(\mathrm{SST}\)-এর \(df=119\); cell \(3\times2=6\), প্রতি cell \(20\))।

Source \(\mathrm{SS}\) \(df\) \(\mathrm{MS}\) \(F\)
fert \(2674.99\) ? ? ?
irrig \(2714.42\) ? ? ?
fert \(\times\) irrig \(111.72\) ? ? ?
Residual \(1798.03\) \(114\) ?
Total ? \(119\)

(ক) প্রতিটি \(df\) বের করুন (fert: \(k_1-1\); irrig: \(k_2-1\); interaction: \((k_1-1)(k_2-1)\); residual: \(n-k_1k_2\))। (খ) প্রতিটি \(\mathrm{MS}=\mathrm{SS}/df\), তারপর \(F=\mathrm{MS}/\mathrm{MS}_{\text{resid}}\)। (গ) সব SS যোগ করে \(\mathrm{SST}\) বের করুন। Hint: \(df\): fert \(=2\), irrig \(=1\), interaction \(=2\), residual \(=114\); যোগফল \(=119\) ✓। \(\mathrm{MS}_{\text{resid}}=1798.03/114=15.77\)\(F_{\text{fert}}=\frac{2674.99/2}{15.77}=\frac{1337.5}{15.77}\approx 84.8\); \(F_{\text{irrig}}=\frac{2714.42}{15.77}\approx172.1\); \(F_{\text{int}}=\frac{111.72/2}{15.77}=\frac{55.86}{15.77}\approx 3.54\)

গ · প্রমাণভিত্তিক (proof-based)

প্রশ্ন ১১ (★★). মৌলিক identity \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\) প্রমাণ করুন। \(k\)টা group, group \(g\)-তে observation \(y_{gi}\ (i=1,\dots,n_g)\), group-গড় \(\bar y_g\), grand mean \(\bar y\)। দেখান: $\(\underbrace{\sum_{g}\sum_{i}(y_{gi}-\bar y)^2}_{\mathrm{SST}}=\underbrace{\sum_{g}n_g(\bar y_g-\bar y)^2}_{\mathrm{SSB}}+\underbrace{\sum_{g}\sum_{i}(y_{gi}-\bar y_g)^2}_{\mathrm{SSW}}.\)$ Hint: \((y_{gi}-\bar y)=(y_{gi}-\bar y_g)+(\bar y_g-\bar y)\) লিখে বর্গ করুন। cross-term \(2\sum_g(\bar y_g-\bar y)\sum_i(y_{gi}-\bar y_g)\); ভেতরের যোগফল \(\sum_i(y_{gi}-\bar y_g)=0\) (group-গড়ের সংজ্ঞা), তাই cross-term শূন্য। (৫.১-এর \(\mathrm{SST}=\mathrm{SSR}+\mathrm{SSE}\)-র সাথে গঠনগত মিল লক্ষ করুন।)

প্রশ্ন ১২ (★★★). \(\mathrm{MSW}\) সর্বদা \(\sigma^2\)-এর unbiased estimator — \(H_0\) সত্য হোক বা না-হোক। ধরুন model \(y_{gi}=\mu_g+\varepsilon_{gi}\), \(\varepsilon_{gi}\overset{iid}{\sim}(0,\sigma^2)\) (প্রতি group-এ একই \(\sigma^2\))। (ক) প্রতিটি group-এর জন্য \(\mathbb E\big[\sum_i(y_{gi}-\bar y_g)^2\big]=(n_g-1)\sigma^2\) দেখান। (খ) এ থেকে \(\mathbb E[\mathrm{SSW}]=(n-k)\sigma^2\), তাই \(\mathbb E[\mathrm{MSW}]=\sigma^2\) — group-গড় ভিন্ন হলেও। (গ) বিপরীতে, যুক্তি দিন কেন \(\mathbb E[\mathrm{MSB}]=\sigma^2+\frac{1}{k-1}\sum_g n_g(\mu_g-\bar\mu)^2\ge\sigma^2\), সমতা ঠিক তখনই যখন সব \(\mu_g\) সমান — এ-ই কারণে \(H_0\)-তে \(\mathbb E[F]\approx1\), আর \(H_0\) মিথ্যা হলে \(F\) বড় হতে চায়। Hint: (ক) এটি sample variance-এর জানা ফল: \(\mathbb E[(n-1)s^2]=(n-1)\sigma^2\) (৪.১/৪.৪)। (খ) groupগুলোর উপর যোগ করুন; \(\sum_g(n_g-1)=n-k\)। (গ) \(\bar y_g=\mu_g+\bar\varepsilon_g\) ভেঙে \(\mathbb E[\mathrm{SSB}]\)-তে signal-term \(\sum n_g(\mu_g-\bar\mu)^2\) ও noise-term আলাদা করুন। মূল বার্তা: denominator সবসময় শুধু noise মাপে, numerator মাপে signal+noise — তাই তাদের অনুপাত একটা signal-to-noise ratio।

প্রশ্ন ১৩ (★★★). \(F\) আর \(t^2\) সমান যখন \(k=2\) দেখান যে দুটো group-এর ক্ষেত্রে (\(k=2\)) one-way ANOVA-র \(F\)-statistic ঠিক pooled two-sample \(t\)-statistic-এর বর্গের সমান: \(F=t^2\), যেখানে \(t=\dfrac{\bar y_1-\bar y_2}{s_p\sqrt{1/n_1+1/n_2}}\) আর \(s_p^2=\mathrm{MSW}\)। তাই ANOVA-কে দুই-গোষ্ঠী \(t\)-test-এর সাধারণীকরণ বলা ন্যায্য। Hint: \(k=2\)-তে \(df_B=1\), তাই \(F=\mathrm{SSB}/\mathrm{MSW}\)। grand mean \(\bar y=\frac{n_1\bar y_1+n_2\bar y_2}{n_1+n_2}\) বসিয়ে দেখান \(\mathrm{SSB}=n_1(\bar y_1-\bar y)^2+n_2(\bar y_2-\bar y)^2=\frac{n_1n_2}{n_1+n_2}(\bar y_1-\bar y_2)^2\)। ভাগ করলে \(F=\frac{(\bar y_1-\bar y_2)^2}{s_p^2(1/n_1+1/n_2)}=t^2\)। (\(t_{df}^2\) আর \(F_{1,df}\) distribution-ও অভিন্ন — ৪.৭-এর সাথে সংযোগ।)

ঘ · কোডিং (Python)

প্রশ্ন ১৪ (★★★). পূর্ণ ANOVA pipeline — from scratch + library যাচাই + two-way + post-hoc। seed np.random.default_rng(20260619) দিয়ে field-trial data বানান: fert = np.repeat(['A','B','C'],40), irrig = np.tile(np.repeat(['low','high'],20),3), আর crop = 30 + {A:0,B:5,C:8}[fert] + {low:0,high:6}[irrig] + 4*(fert=='C')*(irrig=='high') + rng.normal(0,4,120)। তারপর: 1. from scratch one-way (crop ~ fert): numpy দিয়ে group means, grand mean, \(\mathrm{SSB}\), \(\mathrm{SSW}\), \(\mathrm{MSB}\), \(\mathrm{MSW}\), \(F\), এবং scipy.stats.f.sf দিয়ে \(p\)-value হিসাব করুন। একটা পরিপাটি ANOVA table ছাপুন। 2. library যাচাই: statsmodels-এর smf.ols('crop ~ C(fert)', data=df).fit() + anova_lm(..., typ=2) চালিয়ে দেখান আপনার hand-computed \(F\), \(\mathrm{SSB}\), \(\mathrm{SSW}\) চার দশমিক পর্যন্ত মেলে (np.allclose)। 3. two-way: smf.ols('crop ~ C(fert)*C(irrig)', data=df).fit() + anova_lm(typ=2) — fert, irrig, interaction-এর \(F\)\(p\) ছাপুন; cell means একটা \(3\times2\) table-এ দেখান। 4. post-hoc: pairwise_tukeyhsd(df['crop'], df['fert']) চালিয়ে কোন কোন জোড়া আলাদা বলুন।

(সম্ভব হলে ১-৪ এক runnable script-এ; প্রতিটি সংখ্যা canonical-এর সাথে মিলিয়ে নিন।) Hint: group loop-এ SSB += n_g*(m_g-grand)**2, SSW += ((vals-m_g)**2).sum(); df_B=k-1=2, df_W=n-k=117; p = stats.f.sf(F, df_B, df_W)। প্রত্যাশিত: \(\bar y_A=32.40,\ \bar y_B=38.10,\ \bar y_C=43.97\), grand \(38.16\); \(\mathrm{SSB}=2674.99\), \(\mathrm{SSW}=4624.17\), \(F=33.84\), \(p=2.53\times10^{-12}\)। two-way: fert \(F=84.80\), irrig \(F=172.10\), interaction \(F=3.54\ (p=0.032)\), residual \(\mathrm{SS}=1798.03,\ df=114\)। Tukey: তিন জোড়াই reject, ক্রম \(A<B<C\)


৮ · সারসংক্ষেপ ও সংযোগ

মূল পয়েন্ট (recap):

  • কেন এই অধ্যায়। ৫.১–৫.২ predictor হিসেবে সংখ্যাগত চলক নিয়েছিল। বাস্তবে predictor প্রায়ই categorical — fertilizer-এর ধরন, চিকিৎসা-গোষ্ঠী, অঞ্চল। ৫.৩-এর প্রশ্ন: একাধিক group-এর গড় কি আদৌ আলাদা, আর তা পরিকল্পিত পরীক্ষা (experiment) দিয়ে কীভাবে নির্ণয় করি? উত্তরের যন্ত্র = ANOVA + experimental design

  • Variance decomposition (মূল ধারণা)। ANOVA "গড়" তুলনা করে "variance" ভেঙে — total variation-কে দুই ভাগে ফেলে: $\(\mathrm{SST}=\underbrace{\mathrm{SSB}}_{\text{between groups}}+\underbrace{\mathrm{SSW}}_{\text{within groups}},\qquad \mathrm{SST}=\textstyle\sum_g\sum_i (y_{gi}-\bar y)^2.\)$

  • \(\mathrm{SSB}=\sum_g n_g(\bar y_g-\bar y)^2\) — group-গড়গুলো grand mean থেকে কত দূরে (signal + noise)।
  • \(\mathrm{SSW}=\sum_g\sum_i (y_{gi}-\bar y_g)^2\) — group-এর ভেতরের ছড়ানো (শুধু noise)। \(\mathrm{MSW}\) সর্বদা \(\sigma^2\)-এর unbiased estimate।
  • এটি ৫.১-এর \(\mathrm{SST}=\mathrm{SSR}+\mathrm{SSE}\) identity-রই অন্য চেহারা।

  • \(F\)-test (signal-to-noise)। test statistic $\(F=\frac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(n-k)}=\frac{\mathrm{MSB}}{\mathrm{MSW}}\sim F_{k-1,\,n-k}\quad\text{under }H_0:\mu_1=\dots=\mu_k.\)$ \(H_0\) সত্য হলে numerator আর denominator দুটোই \(\sigma^2\)-এর estimate, তাই \(F\approx1\); গড় আলাদা হলে \(\mathrm{MSB}\) বাড়ে, \(F\gg1\)। field trial-এ \(F=33.84,\ p\approx2.5\times10^{-12}\) — তিন fertilizer-এর গড় স্পষ্টতই আলাদা।

  • কেন বহু \(t\)-test নয়। \(k\)টা group-এ \(\binom{k}{2}\) আলাদা \(t\)-test চালালে family-wise error rate ফুলে যায় (\(k=3\)-এ \(\approx14\%\), \(k=5\)-এ \(\binom52=10\) test)। ANOVA একটিমাত্র global \(F\) দিয়ে এই inflation এড়ায়; reject করলে কোন জোড়া আলাদা তা বলে post-hoc Tukey HSD (FWER নিয়ন্ত্রিত)।

  • Two-way ANOVA: main effects + interaction। দুই factor (fert \(\times\) irrig) একসাথে: প্রতিটি factor-এর main effect (গড় প্রভাব) আর তাদের interaction (এক factor-এর প্রভাব অন্য factor-এর level-ভেদে বদলায় কিনা)। field trial-এ fert \(F=84.80\), irrig \(F=172.10\), interaction \(F=3.54\ (p=0.032)\) — interaction ছোট কিন্তু বাস্তব: \(C\) + high মিলে additive প্রত্যাশার চেয়ে বেশি ফলন (synergy)। দ্বিতীয় factor model-এ আনায় residual \(4624\to1798\) নামে, তাই fert-এর \(F\) \(33.84\to84.80\)blocking/covariate যোগ করার power।

  • ANOVA = regression। group-variable-কে dummy/indicator দিয়ে encode করলে one-way ANOVA হুবহু একটা linear regression: \(y=\beta_0+\beta_1 D_B+\beta_2 D_C+\varepsilon\), যেখানে \(\beta_0=\mu_A\) (reference), \(\beta_1=\mu_B-\mu_A\), \(\beta_2=\mu_C-\mu_A\)। ANOVA-র \(H_0\) ঠিক ৫.২-এর overall \(F\)-test (\(\beta_1=\beta_2=0\))। অর্থাৎ ANOVA কোনো আলাদা জগৎ নয় — categorical predictor-সহ regression।

  • Design principles। ভালো উত্তর ভালো পরীক্ষা-নকশার উপর নির্ভর করে: randomization (treatment এলোমেলোভাবে বণ্টন করে confounding ভাঙা), blocking (পরিচিত nuisance-উৎস — যেমন irrigation/জমির উর্বরতা — আলাদা করে noise কমানো), factorial design (একসাথে একাধিক factor চালিয়ে main effect ও interaction দুটোই দক্ষভাবে মাপা)। balanced design (সমান cell-size) variance-অসমতার বিরুদ্ধে robustness দেয় এবং Type I/II/III SS-কে একই করে।

পূর্ববর্তী সংযোগ (← ৫.১, ৪.৭):

  • ৫.১ (Linear Regression): ANOVA-র variance decomposition হলো ৫.১-এর \(\mathrm{SST}=\mathrm{SSR}+\mathrm{SSE}\)-রই rebranding (\(\mathrm{SSB}\leftrightarrow\mathrm{SSR}\), \(\mathrm{SSW}\leftrightarrow\mathrm{SSE}\))। dummy-encoding-এ ANOVA আক্ষরিক অর্থে regression হয়ে যায়, group-গড় হয় coefficient, আর \(\eta^2=\mathrm{SSB}/\mathrm{SST}\) হলো ঠিক \(R^2\)
  • ৪.৭ (Hypothesis Testing): ANOVA-র \(F\)-test হলো ৪.৭-এর hypothesis-testing কাঠামোর সরাসরি প্রয়োগ — একটিমাত্র global null (\(\mu_1=\dots=\mu_k\)), একটি test statistic, একটি reference distribution (\(F_{k-1,n-k}\))। \(k=2\)-তে এটি হুবহু pooled two-sample \(t\)-test (\(F=t^2\)); \(F\)-distribution-এর গঠন (দুই \(\chi^2\)-এর অনুপাত) ৪.৭/৫.২-এ পরিচিত। post-hoc Tukey HSD হলো multiple-comparison সমস্যার (৪.৭-এ আলোচিত error-rate) একটি নিয়ন্ত্রিত সমাধান।

পরবর্তী সংযোগ (→ ৫.৪ — Generalized Linear Models / Logistic Regression): এ পর্যন্ত (৫.১–৫.৩) আমাদের response crop ছিল অবিচ্ছিন্ন ও আনুমানিক Normal, তাই linear model (\(\mathbb E[y]=X\beta\), Normal error) যথেষ্ট ছিল। কিন্তু বহু বাস্তব outcome এই ছাঁচে আঁটে না — outcome যখন binary ("রোগী বাঁচল/মারা গেল", "ক্লিক হলো/হলো না") বা count ("দিনে কতগুলো দুর্ঘটনা"), তখন Normal-error linear model ভেঙে পড়ে (পূর্বাভাস \([0,1]\)-এর বাইরে যায়, variance mean-নির্ভর)। ৫.৪ দেখাবে কীভাবে link function ও উপযুক্ত distribution (Bernoulli/Binomial, Poisson) দিয়ে linear-model কাঠামোকে এই জগতে বিস্তৃত করা যায় — logistic regression ও সাধারণভাবে generalized linear models (GLM)। সংক্ষেপে: ৫.১ regression বানায়, ৫.২ তাকে বিচার করে, ৫.৩ তাকে categorical/পরীক্ষামূলক জগতে নেয়, আর ৫.৪ তাকে non-Normal outcome-এর জগতে নিয়ে যায়।

সূত্র (sources): R. Furrer, STA121 Statistical Modeling (ANOVA, sum-of-squares decomposition, two-way designs, multiple comparisons, experimental design); J. A. Rice, Mathematical Statistics and Data Analysis, Ch. 12 (The Analysis of Variance — one-way ও two-way layout, \(F\)-test, \(\mathrm{SST}=\mathrm{SSB}+\mathrm{SSW}\)); L. Wasserman, All of Statistics (ANOVA হিসেবে linear model, multiple testing); Bruce, Bruce & Gedeck, Practical Statistics for Data Scientists, Ch. 3 (Statistical Experiments and Significance Testing — ANOVA, A/B testing, multiple comparisons, applied code)।