Skip to content

4.8 — Likelihood Ratio, Wald & Score Tests; Goodness-of-Fit (লাইকলিহুড-অনুপাত, ওয়াল্ড ও স্কোর পরীক্ষা)

১ · ভূমিকা ও insight (অন্তর্দৃষ্টি) — একটিমাত্র পাহাড়, তিন দিক থেকে মাপা

১.১ আগের অধ্যায় কোথায় রেখে এসেছিল — আর কোন প্রশ্ন এখনও খোলা

গত অধ্যায়ে (4.7) আমরা hypothesis testing (প্রকল্প-পরীক্ষা)-এর পুরো কাঠামো গড়েছি। সংক্ষেপে মনে করিয়ে দিই, কারণ এই অধ্যায়ের গল্প ঠিক সেখান থেকেই শুরু:

  • আমরা দুটো প্রতিদ্বন্দ্বী দাবি দাঁড় করাই — null hypothesis (শূন্য প্রকল্প) \(H_0\) (সাধারণত "কিছু ঘটেনি / parameter একটা নির্দিষ্ট মান", যেমন \(\theta=\theta_0\)) আর alternative hypothesis (বিকল্প প্রকল্প) \(H_1\) (যেমন \(\theta\neq\theta_0\))। এখানে \(\theta\) ("থিটা") হলো অজানা parameter, আর \(\theta_0\) ("থিটা-নট") হলো \(H_0\) যে নির্দিষ্ট মান দাবি করে।
  • তারপর data থেকে একটা test statistic (পরীক্ষা-পরিসংখ্যান) গণনা করি — একটা সংখ্যা যা মাপে data কতটা \(H_0\)-র বিরুদ্ধে যায়। সেই statistic যথেষ্ট চরম হলে আমরা \(H_0\) বাতিল করি (reject)। কত চরম হলে বাতিল করব, তা ঠিক করে significance level \(\alpha\) ("আলফা", টাইপ I error-এর অনুমোদিত হার), আর কতটা চরম তা summarise করে p-value
  • 4.7-এ আমরা দুটো নির্দিষ্ট test হাতে-কলমে শিখেছি — Normal গড়ের জন্য z-test আর σ অজানা হলে t-test

কিন্তু এখানেই একটা বড় সীমাবদ্ধতা রয়ে গেছে — আর সেই সীমাবদ্ধতা থেকেই এই অধ্যায়ের প্রশ্ন জন্ম নেয়:

z-test, t-test — এগুলো তো বিশেষ বিশেষ পরিস্থিতির জন্য হাতে গড়া (Normal গড়, একটা parameter)। কিন্তু পৃথিবীতে তো হাজার রকম মডেল আর parameter — Poisson-এর rate \(\lambda\), Exponential-এর \(\lambda\), একটা বণ্টনের আকৃতি-parameter, একসাথে কয়েকটা parameter। প্রতিটার জন্য কি আলাদা আলাদা test আবিষ্কার করতে হবে? নাকি একটা সর্বজনীন কারখানা আছে — যেখানে যেকোনো মডেল ঢোকালেই একটা বৈধ test বেরিয়ে আসে?

উত্তর — হ্যাঁ, এমন কারখানা আছে, আর তার কাঁচামাল আমাদের পরিচিত: likelihood। এই অধ্যায়ের পুরো কাজ — likelihood থেকে test বানানোর তিনটি সর্বজনীন উপায় শেখা, যাদের যেকোনো parametric মডেলে প্রায় যান্ত্রিকভাবে প্রয়োগ করা যায়।

১.২ মূল ছবি — likelihood একটা পাহাড়, \(H_0\) একটা বিন্দু

পুরো অধ্যায়ের insight (অন্তর্দৃষ্টি)-টা একটামাত্র ছবিতে ধরা যায়, তাই ধীরে গড়ি। 4.3 থেকে মনে করুন: data হাতে আসার পর log-likelihood \(\ell(\theta)=\sum_{i=1}^n\log f(X_i;\theta)\) হলো \(\theta\)-র একটা function — প্রতিটি সম্ভাব্য \(\theta\)-মানের জন্য একটা সংখ্যা, যা বলে "এই \(\theta\) ধরলে হাতে-পাওয়া data কতটা যুক্তিযুক্ত"। এই function-টা আঁকলে সাধারণত একটা পাহাড়ের আকার — কোথাও সর্বোচ্চ (চূড়া), দুপাশে নিচু।

  • পাহাড়ের চূড়ার অবস্থান (যে \(\theta\)-তে \(\ell\) সর্বোচ্চ) = MLE, \(\hat\theta\) — data যাকে সবচেয়ে বেশি সমর্থন করে।
  • পাহাড়ের চূড়ার উচ্চতা = \(\ell(\hat\theta)\) — data-র সঙ্গে সবচেয়ে ভালো মানানসই মডেলের "ফিট-স্কোর"।

এখন \(H_0\) আসে দৃশ্যে। \(H_0:\theta=\theta_0\) মানে আমরা পাহাড়ের একটা নির্দিষ্ট বিন্দু \(\theta_0\)-তে দাঁড়িয়ে জিজ্ঞেস করছি: "সত্য \(\theta\) কি এখানেই (চূড়ার অবস্থান যা-ই হোক)?" স্বাভাবিক স্বজ্ঞা: যদি \(\theta_0\) চূড়ার কাছেই হয়, তবে \(H_0\) যুক্তিসঙ্গত; আর যদি \(\theta_0\) চূড়া থেকে অনেক দূরে, নিচু ঢালে, তবে data \(H_0\)-র বিরুদ্ধে — বাতিল করা উচিত।

এই "\(\theta_0\) চূড়া থেকে কতটা দূরে / খাপছাড়া" — এটাই মাপার তিনটি স্বাভাবিক উপায় আছে, আর সেই তিনটিই এই অধ্যায়ের তিন test:

  1. উচ্চতার তুলনা (LRT)। চূড়ার উচ্চতা \(\ell(\hat\theta)\)-র সঙ্গে \(H_0\)-বিন্দুর উচ্চতা \(\ell(\theta_0)\)-র পার্থক্য মাপো। পার্থক্য বড় মানে \(\theta_0\) চূড়ার চেয়ে অনেক নিচে — data \(H_0\) পছন্দ করছে না। → likelihood ratio test
  2. অনুভূমিক দূরত্ব (Wald)। চূড়ার অবস্থান \(\hat\theta\) আর \(H_0\)-বিন্দু \(\theta_0\)-র মধ্যে অনুভূমিক দূরত্ব \(\hat\theta-\theta_0\) মাপো (এবং সেটাকে তার standard error দিয়ে স্কেল করো — "কত SE দূরে")। → Wald test
  3. \(H_0\)-বিন্দুতে ঢাল (score)। চূড়ায় না গিয়ে, কেবল \(\theta_0\)-বিন্দুতে দাঁড়িয়ে পাহাড়ের ঢাল (slope = score \(\ell'(\theta_0)\)) মাপো। চূড়ায় ঢাল শূন্য; তাই \(\theta_0\)-তে ঢাল যত খাড়া, \(\theta_0\) চূড়া থেকে তত দূরে। → score (Rao) test

এক বাক্যে যা সারা অধ্যায় ধরে রাখবে: তিনটি test একই পাহাড়ের (\(\ell(\theta)\)-র) তিনটি ভিন্ন বৈশিষ্ট্য মাপে — উচ্চতার ফারাক (LRT), চূড়ার অনুভূমিক দূরত্ব (Wald), আর \(H_0\)-বিন্দুতে ঢাল (score)। তিনটিই একই প্রশ্নের ("\(\theta_0\) কি চূড়ার কাছে?") উত্তর দেয়, আর বড় নমুনায় প্রায় একই সিদ্ধান্তে পৌঁছায় (asymptotic equivalence)।

(§৬-এর চিত্র 4-8-three-tests এই এক-পাহাড়-তিন-পরিমাপ ছবিটা — উচ্চতার ফারাক, অনুভূমিক দূরত্ব, ও \(\theta_0\)-তে স্পর্শক-ঢাল — পাশাপাশি চোখে দেখাবে।)

১.৩ কেন তিনটিই দরকার — প্রত্যেকের আলাদা সুবিধা

তিনটি test যদি প্রায় একই উত্তর দেয়, তবে তিনটি কেন? কারণ হিসাবের সুবিধা তিন ক্ষেত্রে তিন রকম — পরিস্থিতিভেদে একটা অন্যটার চেয়ে অনেক সহজ:

  • LRT-র জন্য দুটো জায়গায় likelihood সর্বোচ্চ করতে হয় — একবার \(H_0\)-র সীমার মধ্যে, একবার পুরো জায়গায়। সবচেয়ে নীতিগতভাবে সুন্দর ও প্রায়ই সবচেয়ে শক্তিশালী, কিন্তু দুটো optimization লাগে।
  • Wald test-এর জন্য কেবল MLE \(\hat\theta\) আর তার standard error লাগে — \(\theta_0\)-তে আলাদা করে কিছু হিসাব করতে হয় না। MLE হাতে থাকলে সবচেয়ে সহজ; তাই software-এ ডিফল্ট রিপোর্ট প্রায়ই Wald।
  • Score test-এর সবচেয়ে বড় চমৎকারিতা: MLE হিসাব করতেই হয় না! কেবল \(H_0\)-বিন্দু \(\theta_0\)-তে score ও Fisher information লাগে। যখন \(H_0\)-র অধীনে হিসাব সহজ কিন্তু পূর্ণ MLE বের করা কঠিন (যেমন জটিল মডেল), তখন score test সোনার খনি।

তাই তিনটি একসঙ্গে শেখা মানে একটা পূর্ণ টুলবক্স — হাতে যা সহজে আছে (MLE? নাকি \(H_0\)-তে সহজ হিসাব? নাকি দুটো likelihood?) তার ভিত্তিতে সেরা যন্ত্রটা বেছে নেওয়া।

১.৪ দ্বিতীয় সুতো — "মডেলটা কি আদৌ মানানসই?" (goodness-of-fit hook)

এতক্ষণ আমরা ধরে নিয়েছি মডেলটা (যেমন Normal, বা একটা নির্দিষ্ট ছক্কার বণ্টন) ঠিক, শুধু তার parameter \(\theta\) নিয়ে প্রশ্ন। কিন্তু একটা আরও মৌলিক প্রশ্ন আছে:

আমি যে বণ্টনটা ধরে নিয়েছি — সেটাই কি আদৌ data-র সঙ্গে খাপ খায়? ছক্কাটা কি সত্যিই ন্যায্য (প্রতিটি মুখ \(1/6\))? চোখের রঙ আর হাতের-দিক (বাঁ/ডান) কি স্বাধীন? এই দুই categorical চলকের পর্যবেক্ষিত গণনা কি তত্ত্বের প্রত্যাশিত গণনার সঙ্গে মেলে?

এই প্রশ্নের নাম goodness-of-fit (সদৃশতা / মানানসইতা-যাচাই)। আর এর উত্তর দেয় পরিসংখ্যানের সবচেয়ে বিখ্যাত test-গুলোর একটি — Pearson's chi-square test, যার হৃদয়ে একটামাত্র সরল রাশি:

\[ X^2 = \sum_i \frac{(O_i - E_i)^2}{E_i}, \]

যেখানে \(O_i\) ("observed") হলো \(i\)-তম শ্রেণিতে পর্যবেক্ষিত গণনা, আর \(E_i\) ("expected") হলো \(H_0\) সত্য হলে যা প্রত্যাশিত ছিল। স্বজ্ঞা সরল: পর্যবেক্ষণ আর প্রত্যাশা যত আলাদা (লব বড়), মডেল তত খারাপ; আর এই পার্থক্য যথেষ্ট বড় হলে মডেল বাতিল। চমৎকার ব্যাপার — এই Pearson \(\chi^2\) আসলে likelihood-চিন্তার (বিশেষত multinomial-এর LRT-র) একটা সরাসরি ফল, তাই এটি এই অধ্যায়ের প্রথম সুতোর সঙ্গে গভীরভাবে বাঁধা (এই সংযোগ §৪–৫-এ খোলা হবে)।

১.৫ এক লাইনের মানচিত্র — এই অধ্যায় কোথায় যাবে

পুরো অধ্যায়ের যুক্তি-শৃঙ্খলটা একবারে দেখে নিই, যাতে প্রতিটি অংশ কেন আসছে তা পরিষ্কার থাকে:

  1. §২ — পাঁচটি কেন্দ্রীয় ধারণা from scratch, প্রতিটি প্রতীক খুলে: (ক) likelihood ratio \(\Lambda\)LRT; (খ) Wilks' theorem (\(-2\log\Lambda\xrightarrow{d}\chi^2_k\), df = \(H_0\) যত parameter বাঁধে); (গ) Wald test (MLE কত SE দূরে); (ঘ) score test (MLE-তে না গিয়ে \(H_0\)-তে ঢাল); (ঙ) তিনটির geometric intuition ও asymptotic equivalence; (চ) Pearson \(\chi^2\) goodness-of-fittest of independence
  2. §৩ — পাঁচটি/চারটি পূর্ণাঙ্গ উদাহরণ সংখ্যাসহ: E1 LRT, E2 Wald test, E3 score test, E4 Pearson \(\chi^2\) — ছক্কার ন্যায্যতা (goodness-of-fit) ও contingency table-এ independence।
  3. §৪–৫ — তিন test-এর asymptotic equivalence-এর যুক্তি, Wilks' theorem-এর উৎপত্তি (\(-2\log\Lambda\) কেন \(\chi^2\)), Pearson \(\chi^2\)-কে multinomial LRT থেকে পাওয়া, এবং degrees-of-freedom গোনার সাধারণ নিয়ম।
  4. §৬–৮ — চিত্র (three-tests, Wilks, chi2-gof, test-equivalence), সাধারণ ভুল-ধারণা, কোড ও অনুশীলনী।

এক বাক্যে কেন এটি Part IV-এর গুরুত্বপূর্ণ ধাপ। 4.7 দিয়েছিল testing-এর ব্যাকরণ (\(H_0/H_1\), \(\alpha\), p-value) কিন্তু কেবল কয়েকটি হাতে-গড়া test; এই অধ্যায় সেই ব্যাকরণে likelihood থেকে test বানানোর সর্বজনীন যন্ত্র জুড়ে দেয় — তিনটি general test (LRT, Wald, score) যা যেকোনো parametric মডেলে খাটে, আর Pearson \(\chi^2\) যা মডেলের আকৃতিই যাচাই করে। ঠিক এই asymptotic-\(\chi^2\) যন্ত্রপাতি পরের অধ্যায় 4.9 (bootstrap)-এ একটা বিকল্প — যখন asymptotic আনুমানিকতা যথেষ্ট নয়, তখন data পুনঃনমুনায়ন (resampling) দিয়ে সরাসরি বণ্টন আঁকা — পথ খুলে দেয়।


২ · মূল ধারণা ও সংজ্ঞা

এই বিভাগে §১-এর স্বজ্ঞাগুলোকে আনুষ্ঠানিক সংজ্ঞায় রূপ দেব। প্রতিটি প্রতীক প্রথমবার আসার সাথে সাথেই খুলে বলা হবে; কোথাও কিছু ধরে নেওয়া হবে না।

পুরো বিভাগ জুড়ে কাঠামোটা স্থির: আমাদের কাছে একটি i.i.d. নমুনা \(X_1,\dots,X_n\) আছে (independent and identically distributed — স্বাধীন ও একই বণ্টন থেকে আসা), যার pdf/pmf \(f(x;\theta)\), এবং একটি অজানা parameter \(\theta\) যা একটি parameter-জগৎ (parameter space) \(\Theta\) ("বড় থিটা")-র সদস্য। 4.3 থেকে মনে রাখি:

  • likelihood \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) — data স্থির, \(\theta\) চলক;
  • log-likelihood \(\ell(\theta)=\log L(\theta)=\sum_{i=1}^n\log f(X_i;\theta)\);
  • score \(\ell'(\theta)=\partial_\theta\ell(\theta)\) — log-likelihood-এর derivative (পাহাড়ের ঢাল);
  • MLE \(\hat\theta=\arg\max_{\theta\in\Theta}\ell(\theta)\) — পাহাড়ের চূড়ার অবস্থান।

আমরা একটা null hypothesis পরীক্ষা করছি, যেটা parameter-জগতের একটা উপ-অংশ \(\Theta_0\subseteq\Theta\) দিয়ে প্রকাশ করা যায় — \(H_0:\theta\in\Theta_0\)। সবচেয়ে সরল ক্ষেত্রে \(\Theta_0\) একটামাত্র বিন্দু, \(H_0:\theta=\theta_0\)

২.১ Likelihood ratio ও likelihood ratio test (LRT)

§১.২-এর "দুই উচ্চতার তুলনা"-কে নিখুঁত করি। মূল ধারণা: \(H_0\)-র সীমার মধ্যে data যতটা ভালো ব্যাখ্যা করা যায়, আর কোনো সীমা ছাড়া (পুরো \(\Theta\)-তে) যতটা ভালো ব্যাখ্যা করা যায় — এ-দুইয়ের অনুপাত

সংজ্ঞা (Likelihood ratio — লাইকলিহুড-অনুপাত, \(\Lambda\))। likelihood ratio হলো

\[ \boxed{\ \Lambda \;=\; \frac{\displaystyle\sup_{\theta\in\Theta_0} L(\theta)}{\displaystyle\sup_{\theta\in\Theta} L(\theta)}\ } \]

প্রতিটি অংশ খুলি:

  • \(\sup_{\theta\in\Theta_0} L(\theta)\) — "supremum" (সর্বোচ্চ মান) \(L(\theta)\)-র, কিন্তু \(\theta\)-কে কেবল \(H_0\)-র অনুমোদিত অঞ্চল \(\Theta_0\)-র মধ্যে রেখে। কথায়: "\(H_0\) মানলে data-র সর্বোচ্চ সম্ভাব্যতা"। (সরল ক্ষেত্রে \(\Theta_0=\{\theta_0\}\) হলে এটা শুধুই \(L(\theta_0)\)।)
  • \(\sup_{\theta\in\Theta} L(\theta)=L(\hat\theta)\) — পুরো \(\Theta\)-তে সর্বোচ্চ, অর্থাৎ চূড়ার উচ্চতা — MLE-তে likelihood। কথায়: "কোনো বাধা ছাড়াই data-র সর্বোচ্চ সম্ভাব্যতা"।
  • \(\Lambda\) ("ল্যামডা") — উপরের ভাগ নিচের দিয়ে। যেহেতু লব হরের একটা সীমাবদ্ধ (কম-স্বাধীনতার) সংস্করণ, লব কখনো হরের চেয়ে বড় হতে পারে না; তাই \(0\le\Lambda\le 1\)

\(\Lambda\) কীভাবে পড়ব (স্বজ্ঞা):

  • \(\Lambda\) \(1\)-এর কাছে\(H_0\)-র সেরা ব্যাখ্যা প্রায় বাধাহীন সেরা ব্যাখ্যার সমান ভালো → \(H_0\) যুক্তিসঙ্গত, বাতিল করার কারণ নেই। (পাহাড়-ছবিতে: \(\theta_0\) চূড়ার প্রায় সমান উঁচুতে।)
  • \(\Lambda\) \(0\)-র কাছে (ছোট) → \(H_0\)-র সীমা মানলে data অনেক কম সম্ভাব্য → data \(H_0\)-র বিরুদ্ধে → \(H_0\) বাতিল করা উচিত। (পাহাড়-ছবিতে: \(\theta_0\) চূড়ার চেয়ে অনেক নিচে।)

সংজ্ঞা (Likelihood ratio test — LRT)। ছোট \(\Lambda\) দেখলে \(H_0\) বাতিল করার test-ই LRT। সমতুল্যভাবে — এবং এটাই ব্যবহারিক রূপ — আমরা একটা রূপান্তরিত statistic ব্যবহার করি:

\[ \boxed{\ \lambda_{\text{LR}} \;=\; -2\log\Lambda \;=\; 2\big[\,\ell(\hat\theta)-\sup_{\theta\in\Theta_0}\ell(\theta)\,\big]\ } \]

এই রূপটা মন দিয়ে দেখুন — এটাই §১.২-এর "দুই উচ্চতার ফারাক" সংখ্যায়:

  • \(\log\Lambda=\log\frac{\sup_{\Theta_0}L}{\sup_\Theta L}=\sup_{\Theta_0}\ell-\ell(\hat\theta)\) (log নিলে ভাগ → বিয়োগ, আর \(\log L=\ell\))। এটা সবসময় \(\le 0\) (যেহেতু \(\Lambda\le 1\))।
  • সামনে \(-2\) গুণ বসিয়ে: \(-2\log\Lambda=2[\ell(\hat\theta)-\sup_{\Theta_0}\ell]\ge 0\) — অর্থাৎ চূড়ার উচ্চতা বিয়োগ \(H_0\)-বিন্দুর উচ্চতা, দ্বিগুণ করা। কেন ঠিক "\(2\)" আর কেন এই রূপ — তার রহস্য পরের উপবিভাগের Wilks' theorem-এ।
  • ছোট \(\Lambda\)বড় \(-2\log\Lambda\)। তাই LRT-র নিয়ম দাঁড়ায়: \(-2\log\Lambda\) যথেষ্ট বড় হলে \(H_0\) বাতিল

২.২ Wilks' theorem — LRT-র সর্বজনীন nul-বণ্টন

একটা গুরুতর সমস্যা এখনও বাকি: "\(-2\log\Lambda\) যথেষ্ট বড়" — কিন্তু কত বড়? সিদ্ধান্ত নিতে হলে আমাদের জানতে হবে, \(H_0\) সত্য হলে \(-2\log\Lambda\) কেমন মান নেয় (তার null distribution) — তবেই বলতে পারব কোন মান "অস্বাভাবিক বড়"। এখানেই এই অধ্যায়ের সবচেয়ে শক্তিশালী ফল।

Wilks' theorem (উইল্কসের উপপাদ্য — statement)। কিছু নিয়মিততা-শর্তে (regularity conditions), যদি \(H_0:\theta\in\Theta_0\) সত্য হয়, তবে নমুনা-আকার \(n\to\infty\) হলে

\[ \boxed{\ -2\log\Lambda \;\xrightarrow{\ d\ }\; \chi^2_k\ } \]

প্রতিটি প্রতীক খুলি:

  • \(\xrightarrow{d}\) — "converges in distribution" (3.4); বাঁ পাশের statistic-এর বণ্টন \(n\) বাড়লে ডান পাশের বণ্টনে গুটিয়ে যায়।
  • \(\chi^2_k\) ("কাই-স্কোয়ার", \(k\) degrees of freedom) — chi-square বণ্টন (3.5); মনে রাখুন, \(k\)টা স্বাধীন standard normal-এর বর্গের যোগফল \(\sum_{j=1}^k Z_j^2\) ঠিক \(\chi^2_k\) বণ্টন মানে। এটা ধনাত্মক, ডান দিকে লেজ-টানা, আর তার গড় ঠিক \(k\)
  • \(k\)degrees of freedom, যা গোনে: \(H_0\) মোট কতগুলো parameter "বেঁধে দেয়", অর্থাৎ $$ k \;=\; (\text{পূর্ণ মডেলে স্বাধীন parameter সংখ্যা}) - (H_0\text{-র অধীনে স্বাধীন parameter সংখ্যা}) \;=\; \dim(\Theta)-\dim(\Theta_0). $$ সরল ক্ষেত্রে \(H_0:\theta=\theta_0\) একটামাত্র parameter বাঁধে, তাই \(k=1\)

কেন এটা এত গুরুত্বপূর্ণ: লক্ষ করুন nul-বণ্টন \(\chi^2_k\) মডেলের বিস্তারিত-এর উপর নির্ভর করে না — Normal হোক, Poisson হোক, যা-ই হোক, কেবল df \(k\) জানলেই সীমা-বণ্টন এক। তাই LRT হয়ে ওঠে সর্বজনীন: যেকোনো মডেলে \(-2\log\Lambda\) গণনা করো, \(\chi^2_k\)-ছক থেকে সংকট-মান (বা p-value) নাও, সিদ্ধান্ত দাও। এই "এক ছাঁচ, সব মডেল" ব্যাপারটাই Wilks' theorem-কে inference-এর স্তম্ভ করে তোলে।

সিদ্ধান্তের নিয়ম। significance level \(\alpha\)-তে: \(-2\log\Lambda > \chi^2_{k,\alpha}\) হলে \(H_0\) বাতিল, যেখানে \(\chi^2_{k,\alpha}\) হলো \(\chi^2_k\) বণ্টনের upper-\(\alpha\) সংকট-মান (\(P(\chi^2_k>\chi^2_{k,\alpha})=\alpha\))। সমতুল্যভাবে \(\text{p-value}=P(\chi^2_k > -2\log\Lambda_{\text{obs}})\)

(§৬-এর চিত্র 4-8-wilks দেখাবে কীভাবে অনেক নমুনার \(-2\log\Lambda\)-র histogram \(\chi^2_k\) বক্ররেখায় বসে যায়, আর ডান-লেজের \(\alpha\)-অঞ্চলটাই rejection region।)

২.৩ Wald test — MLE সত্য থেকে কত SE দূরে

দ্বিতীয় পরিমাপ — §১.২-এর "অনুভূমিক দূরত্ব"। ধারণা সরল: যদি \(\hat\theta\) (চূড়ার অবস্থান) \(\theta_0\) থেকে অনেক দূরে, তবে \(H_0:\theta=\theta_0\) সম্ভবত মিথ্যা। কিন্তু "অনেক দূরে" আপেক্ষিক — তাই দূরত্বটা estimator-এর নিজের ওঠানামার মাপ, অর্থাৎ standard error দিয়ে স্কেল করি।

সংজ্ঞা (Wald statistic)। \(H_0:\theta=\theta_0\)-র জন্য Wald statistic:

\[ \boxed{\ W \;=\; \frac{(\hat\theta-\theta_0)^2}{\widehat{\mathrm{Var}}(\hat\theta)}\ } \qquad\text{সমতুল্য এক-দিকের রূপ}\qquad Z_W=\frac{\hat\theta-\theta_0}{\mathrm{SE}(\hat\theta)} . \]

প্রতিটি প্রতীক খুলি:

  • \(\hat\theta\) — MLE (চূড়ার অবস্থান)।
  • \(\hat\theta-\theta_0\) — MLE \(H_0\)-র দাবি-মান থেকে কত দূরে (কাঁচা অনুভূমিক দূরত্ব)।
  • \(\widehat{\mathrm{Var}}(\hat\theta)\)\(\hat\theta\)-র আনুমানিক variance। 4.5 থেকে MLE asymptotically \(\mathcal{N}\big(\theta,\,1/(nI(\theta))\big)\), তাই \(\widehat{\mathrm{Var}}(\hat\theta)=\dfrac{1}{n\,I(\hat\theta)}\) (অজানা \(\theta\)-র জায়গায় \(\hat\theta\) বসানো \(I\))। আর \(\mathrm{SE}(\hat\theta)=\sqrt{\widehat{\mathrm{Var}}(\hat\theta)}=1/\sqrt{n I(\hat\theta)}\) — সেই পরিচিত standard error।
  • ভাগ করার ফলে \(W\) একক-হীন — "MLE কত-গুণ-SE দূরে"-র বর্গ।

null বণ্টন ও স্বজ্ঞা। \(H_0\) সত্য হলে (4.5-এর asymptotic normality থেকে) \(Z_W=(\hat\theta-\theta_0)/\mathrm{SE}\xrightarrow{d}\mathcal{N}(0,1)\), তাই তার বর্গ \(W=Z_W^2\xrightarrow{d}\chi^2_1\)। অর্থাৎ এক-parameter Wald test-ও বড় নমুনায় \(\chi^2_1\) (বা সমতুল্যভাবে standard normal) ব্যবহার করে — ঠিক LRT-র df=1 ক্ষেত্রের মতো। স্বজ্ঞা: \(\hat\theta\) যদি \(\theta_0\) থেকে \(2\)-৩টা SE-র বেশি দূরে হয়, \(W\) বড় হয়, \(H_0\) বাতিল।

মনে রাখুন: Wald test-এর সবচেয়ে বড় ব্যবহারিক সুবিধা — এতে \(\theta_0\)-তে আলাদা করে কিছু সর্বোচ্চ করতে হয় না; কেবল MLE আর তার SE হাতে থাকলেই হলো। তাই অধিকাংশ পরিসংখ্যান-software রিপোর্টে "estimate ± SE" আর তার p-value আসলে Wald test-এর ফল। (একটা সতর্কতা §৪-এ আসবে: \(\hat\theta\) সীমার কাছে হলে Wald-এর SE আনুমানিকতা দুর্বল হতে পারে।)

২.৪ Score (Rao) test — MLE-তে না গিয়ে \(H_0\)-তে ঢাল

তৃতীয় পরিমাপ — §১.২-এর "\(\theta_0\)-বিন্দুতে ঢাল"। এর চমৎকারিতা: এতে MLE হিসাব করতেই হয় না। মূল স্বজ্ঞা পাহাড়-ছবি থেকে সরাসরি: চূড়ায় ঢাল (score) শূন্য। তাই \(\theta_0\)-তে যদি ঢাল শূন্যের কাছে হয়, \(\theta_0\) চূড়ার কাছেই (\(H_0\) ঠিক); আর ঢাল যদি খাড়া হয় (ধনাত্মক বা ঋণাত্মক, মানে চূড়া অন্যদিকে অনেক দূরে), তবে \(\theta_0\) চূড়া থেকে দূরে (\(H_0\) সন্দেহজনক)।

সংজ্ঞা (Score / Rao statistic)। \(H_0:\theta=\theta_0\)-র জন্য score statistic:

\[ \boxed{\ U \;=\; \frac{\big[\ell'(\theta_0)\big]^2}{n\,I(\theta_0)}\ } \]

প্রতিটি প্রতীক খুলি:

  • \(\ell'(\theta_0)=\partial_\theta\ell(\theta)\big\rvert_{\theta=\theta_0}\)score, অর্থাৎ log-likelihood-এর ঢাল, কিন্তু \(\theta_0\)-বিন্দুতে মাপা (MLE-তে নয়!)। এই ঢাল মাপতে শুধু \(\theta_0\) জানলেই হয় — পূর্ণ optimization লাগে না।
  • \([\ell'(\theta_0)]^2\) — ঢালের বর্গ (চিহ্ন মুছে কেবল মাত্রা; ঢাল ধনাত্মক হোক বা ঋণাত্মক, খাড়া মানেই \(H_0\)-র বিরুদ্ধে প্রমাণ)।
  • \(n\,I(\theta_0)\) — পুরো নমুনার Fisher information, কিন্তু \(\theta_0\)-তে মাপা (\(I(\theta_0)\) এক observation-এর Fisher information, 4.5)। এটা score-এর variance-এর মাপ — তাই ঢালটাকে এর দিয়ে ভাগ করে আমরা "score কত-গুণ-তার-স্বাভাবিক-ওঠানামা দূরে"-তে রূপ দিই।

null বণ্টন ও স্বজ্ঞা। 4.5-এর একটা মৌলিক ধর্ম: \(H_0\) সত্য হলে score \(\ell'(\theta_0)\)-র গড় \(0\) আর variance \(nI(\theta_0)\), এবং বড় নমুনায় এটি প্রায় Normal — \(\ell'(\theta_0)\xrightarrow{d}\mathcal{N}(0,\,nI(\theta_0))\)। তাই standardize করা ঢালের বর্গ \(U=\dfrac{[\ell'(\theta_0)]^2}{nI(\theta_0)}\xrightarrow{d}\chi^2_1\)। আবারও সেই একই \(\chi^2_1\) সীমা।

মনে রাখুন: score test-এর হিসাব পুরোটাই \(\theta_0\)-তে (\(\ell'(\theta_0)\) আর \(I(\theta_0)\)) — MLE \(\hat\theta\) কোথাও লাগে না। তাই যখন \(H_0\)-র অধীনে সব কিছু সরল কিন্তু পূর্ণ MLE বের করা কঠিন/অসম্ভব, তখন score test সবচেয়ে সহজ যন্ত্র। (পরে দেখা যাবে, বিখ্যাত Pearson \(\chi^2\) goodness-of-fit আসলে multinomial মডেলের একটা score-জাতীয় test।)

২.৫ তিন test এক ছবিতে — geometric intuition ও asymptotic equivalence

এবার তিনটিকে পাশাপাশি রেখে §১.২-এর পাহাড়-ছবিটা পূর্ণ করি। তিনটিই একই log-likelihood পাহাড়ের তিন বৈশিষ্ট্য, একই \(\theta_0\)-বিন্দুতে:

test পাহাড়ের কোন বৈশিষ্ট্য মাপে কী লাগে statistic null বণ্টন (df=1)
LRT চূড়া ও \(\theta_0\)-র উচ্চতার ফারাক (উল্লম্ব) দুই জায়গায় \(\sup\ell\) \(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\theta_0)]\) \(\chi^2_1\)
Wald চূড়ার অবস্থান \(\hat\theta\) কত দূরে (অনুভূমিক) MLE \(\hat\theta\) ও তার SE \(W=(\hat\theta-\theta_0)^2/\widehat{\mathrm{Var}}\) \(\chi^2_1\)
Score \(\theta_0\)-বিন্দুতে ঢাল কত খাড়া \(\theta_0\)-তে \(\ell'\)\(I\) \(U=[\ell'(\theta_0)]^2/(nI(\theta_0))\) \(\chi^2_1\)

Asymptotic equivalence (বড় নমুনায় তিনটি প্রায় সমান)। কেন তিনটির null বণ্টন একই \(\chi^2_1\) (বা সাধারণভাবে \(\chi^2_k\))? কারণ বড় নমুনায় log-likelihood পাহাড়টা চূড়ার কাছে প্রায় একটা উল্টানো প্যারাবোলা (quadratic) হয়ে যায় (Taylor-প্রসারণ, যা §৪-এ খোলা হবে)। একটা প্যারাবোলার ক্ষেত্রে — তিনটে পরিমাপ গাণিতিকভাবে একই তথ্য বহন করে:

  • উচ্চতার ফারাক (LRT), অনুভূমিক দূরত্ব² × বক্রতা (Wald), আর ঢাল² ÷ বক্রতা (score) — একটা প্যারাবোলায় এই তিনটি সমান হয়ে যায় (parabola-র জ্যামিতি)।

তাই \(\theta_0\) যদি \(\hat\theta\)-র কাছাকাছি হয় (যা \(H_0\) সত্য হলে বড় নমুনায় ঘটে), তিনটি statistic একে অপরের প্রায় সমান এবং একই \(\chi^2\) সিদ্ধান্ত দেয় — এটাই asymptotic equivalence। ছোট নমুনায় বা \(\theta_0\) চূড়া থেকে দূরে হলে এরা একটু আলাদা হতে পারে (তখন কোনটা বাছবেন তা হিসাবের সুবিধা ও §৪-এর সূক্ষ্মতা মতে)।

এক বাক্যে: বড় নমুনায় likelihood-পাহাড় চূড়ার কাছে প্যারাবোলা হয়ে যায়, আর প্যারাবোলায় "উচ্চতার ফারাক" (LRT), "অনুভূমিক দূরত্ব" (Wald), ও "\(\theta_0\)-তে ঢাল" (score) একই কথা বলে — তাই তিন test একই \(\chi^2\)-সিদ্ধান্তে মেলে। (§৬-এর চিত্র 4-8-test-equivalence এই তিন পরিমাপ একই প্যারাবোলায় কীভাবে মেলে তা দেখাবে।)

২.৬ Pearson's chi-square goodness-of-fit ও test of independence

এবার §১.৪-এর দ্বিতীয় সুতো — মডেলের আকৃতি যাচাই। ধরা যাক data কয়েকটা শ্রেণিতে (category) পড়ে — যেমন ছক্কার ৬টা মুখ, বা চোখের রঙের কয়েকটা ভাগ। প্রতিটি শ্রেণিতে কতগুলো পর্যবেক্ষণ পড়ল তা গুনি।

সংজ্ঞা (Observed ও expected counts)। ধরুন \(c\)টা শ্রেণি (\(i=1,\dots,c\)), মোট \(n\)টা পর্যবেক্ষণ।

  • \(O_i\)observed count (পর্যবেক্ষিত গণনা): \(i\)-তম শ্রেণিতে আসলে যতগুলো পড়ল। (যোগফল \(\sum_i O_i=n\)।)
  • \(E_i\)expected count (প্রত্যাশিত গণনা): \(H_0\) সত্য হলে \(i\)-তম শ্রেণিতে গড়ে যতগুলো পড়ার কথা, অর্থাৎ \(E_i = n\,p_i^{(0)}\), যেখানে \(p_i^{(0)}\) হলো \(H_0\)-র দাবি-অনুযায়ী \(i\)-শ্রেণিতে পড়ার সম্ভাবনা। (যেমন ন্যায্য ছক্কায় প্রতিটি মুখের \(p_i^{(0)}=1/6\)।)

সংজ্ঞা (Pearson's chi-square statistic — goodness-of-fit)।

\[ \boxed{\ X^2 \;=\; \sum_{i=1}^{c} \frac{(O_i - E_i)^2}{E_i}\ } \]

প্রতিটি অংশ খুলি:

  • \((O_i-E_i)\)\(i\)-শ্রেণিতে পর্যবেক্ষণ আর প্রত্যাশার ফারাক (residual)।
  • \((O_i-E_i)^2\) — বর্গ (চিহ্ন মুছে, বড় বিচ্যুতিকে বেশি ওজন)।
  • ভাজক \(E_i\) — প্রত্যাশিত গণনা দিয়ে ভাগ একটা normalization: একই কাঁচা ফারাক বড় \(E_i\)-র শ্রেণিতে কম তাৎপর্যপূর্ণ, ছোট \(E_i\)-তে বেশি। (গভীর কারণ: প্রতিটি count আনুমানিকভাবে Poisson/Binomial, যার variance \(\approx E_i\); তাই \((O_i-E_i)/\sqrt{E_i}\) একটা standardize-করা বিচ্যুতি, আর তার বর্গের যোগই \(X^2\) — §৪-এ খোলা হবে কেন এতে \(\chi^2\) আসে।)

null বণ্টন ও df। \(H_0\) সত্য হলে বড় নমুনায় \(X^2\xrightarrow{d}\chi^2_{\mathrm{df}}\), যেখানে df গোনার নিয়ম:

\[ \mathrm{df} \;=\; (\text{শ্রেণি সংখ্যা}) - 1 - (\text{data থেকে অনুমিত parameter সংখ্যা}). \]
  • কেন "\(-1\)": \(c\)টা গণনা স্বাধীন নয় — তাদের যোগ স্থির (\(\sum O_i=n\)), তাই একটা স্বাধীনতা হারায়।
  • কেন "\(-\) অনুমিত parameter সংখ্যা": যদি \(H_0\)-র সম্ভাবনাগুলো (\(p_i^{(0)}\)) সম্পূর্ণ নির্দিষ্ট থাকে (যেমন ন্যায্য ছক্কা, কোনো parameter অনুমান করতে হয় না), তবে এই পদ \(0\); কিন্তু যদি \(E_i\) গণনায় data থেকে কোনো parameter অনুমান করতে হয় (যেমন একটা Poisson rate fit করা), প্রতিটি অনুমিত parameter আরেকটা df কাড়ে। (সরল \(c\)-মুখ ছক্কায় কোনো parameter অনুমান নেই, তাই \(\mathrm{df}=c-1\)।)

Test of independence (contingency table)। এবার দুটো categorical চলক একসাথে — যেমন (চোখের রঙ) × (হাতের-দিক)। data সাজাই একটা contingency table (আনুষঙ্গিকতা-সারণি)-তে, \(r\)টা সারি ও \(c\)টা কলাম। \(H_0\): দুই চলক স্বাধীন (independent)। স্বাধীনতা ধরলে কোষ-\((i,j)\)-র প্রত্যাশিত গণনা:

\[ \boxed{\ E_{ij} \;=\; \frac{(\text{সারি } i\text{-র মোট})\times(\text{কলাম } j\text{-র মোট})}{n}\ } \]

(স্বজ্ঞা: স্বাধীন হলে \(P(\text{সারি } i,\ \text{কলাম } j)=P(\text{সারি } i)\,P(\text{কলাম } j)\), আর প্রতিটি প্রান্তিক সম্ভাবনা অনুমান করি তার মোট ÷ \(n\) দিয়ে; গুণ করে \(n\) দিয়ে গুণলে উপরের সূত্র।) তারপর একই Pearson রাশি:

\[ X^2 = \sum_{i=1}^r\sum_{j=1}^c \frac{(O_{ij}-E_{ij})^2}{E_{ij}}\ \xrightarrow{\ d\ }\ \chi^2_{(r-1)(c-1)} . \]

df এখানে \((r-1)(c-1)\) — কারণ সারি-মোট ও কলাম-মোট স্থির রাখলে স্বাধীনভাবে বসানো যায় এমন কোষের সংখ্যা ঠিক \((r-1)(c-1)\) (বাকি কোষ মোট থেকে নির্ধারিত)।

এক বাক্যে §২-এর সার। likelihood-পাহাড়ের তিন বৈশিষ্ট্য তিনটি general test দেয় — LRT (উচ্চতার ফারাক, \(-2\log\Lambda\)), Wald (চূড়ার দূরত্ব, SE-তে মাপা), score (Wald\(/\)LRT-র বিকল্প, \(\theta_0\)-তে ঢাল); তিনটিরই null বণ্টন \(\chi^2_k\) (Wilks' theorem ও asymptotic equivalence), df = \(H_0\) যত parameter বাঁধে। আর likelihood-চিন্তারই সরাসরি ফল Pearson \(\chi^2\) (\(\sum(O-E)^2/E\)) মডেলের আকৃতি যাচাই করে — goodness-of-fit (\(\mathrm{df}=c-1-\#\)অনুমিত) ও independence (\(\mathrm{df}=(r-1)(c-1)\))।


৩ · পূর্ণাঙ্গ উদাহরণ

§২-এর প্রতিটি যন্ত্র এবার সংখ্যায় হাতে-কলমে চালাব। চারটি উদাহরণ চারটি কেন্দ্রীয় যন্ত্র ধরে: E1 LRT, E2 Wald test, E3 score test, E4 Pearson \(\chi^2\) — goodness-of-fit (ছক্কা) ও independence (contingency)। সর্বত্র \(\bar X=\frac1n\sum_{i=1}^n X_i\) মানে sample mean।

প্রথম তিনটি উদাহরণ (E1–E3) ইচ্ছাকৃতভাবে একই পরিস্থিতি — Binomial/Bernoulli-র \(p\) পরীক্ষা — তিন যন্ত্রে চালায়, যাতে আপনি §২.৫-এর asymptotic equivalence নিজের চোখে সংখ্যায় মিলিয়ে দেখতে পারেন।

৩.১ E1 — Likelihood Ratio Test: একটা মুদ্রা/ছক্কা কি ন্যায্য?

এই উদাহরণ §২.১–২.২-এর LRT ও Wilks' theorem সরাসরি সংখ্যায় প্রয়োগ করে।

পরিস্থিতি। একটা মুদ্রা \(n=100\) বার ছুঁড়ে \(X=60\)টা head পাওয়া গেল। প্রতিটি toss Bernoulli\((p)\) (\(1\) = head), মোট head \(X=\sum X_i\sim\text{Binomial}(n,p)\)। পরীক্ষা: \(H_0:p=p_0=0.5\) (ন্যায্য) বনাম \(H_1:p\neq 0.5\)

ধাপ ১ — দুই likelihood সর্বোচ্চ। Binomial log-likelihood (\(\theta\)-নির্ভর অংশ): \(\ell(p)=X\log p+(n-X)\log(1-p)\) (ধ্রুবক \(\binom{n}{X}\) বাদ, যেহেতু \(p\)-নিরপেক্ষ)।

  • হর (পুরো \(\Theta\)-তে সর্বোচ্চ): MLE \(\hat p=X/n=60/100=0.6\)। তাই $$ \ell(\hat p)=60\log 0.6+40\log 0.4 = 60(-0.5108)+40(-0.9163) = -30.65 - 36.65 = -67.30 . $$
  • লব (\(\Theta_0=\{0.5\}\)-তে): $$ \ell(p_0)=60\log 0.5+40\log 0.5 = 100\log 0.5 = 100(-0.6931) = -69.31 . $$

ধাপ ২ — \(-2\log\Lambda\) §২.১-এর রূপে:

\[ -2\log\Lambda = 2\big[\ell(\hat p)-\ell(p_0)\big] = 2\big[-67.30-(-69.31)\big] = 2(2.01) = 4.02 . \]

ধাপ ৩ — Wilks দিয়ে সিদ্ধান্ত। \(H_0\) একটামাত্র parameter বাঁধে, তাই df \(k=1\); Wilks' theorem মতে null-এ \(-2\log\Lambda\approx\chi^2_1\)। সংকট-মান \(\chi^2_{1,\,0.05}=3.84\)। যেহেতু \(4.02 > 3.84\), আমরা \(H_0\) বাতিল করি (\(\alpha=0.05\)-এ) — data ন্যায্যতার বিরুদ্ধে যথেষ্ট প্রমাণ দেয়। (p-value \(=P(\chi^2_1>4.02)\approx 0.045\), যা \(0.05\)-এর সামান্য নিচে।)

ব্যাখ্যা। "ন্যায্য-মুদ্রা (\(p=0.5\)) মডেলে data-র সর্বোচ্চ সম্ভাব্যতা, পূর্ণ মডেলের (\(\hat p=0.6\)) সর্বোচ্চ সম্ভাব্যতার তুলনায় যথেষ্ট কম — এতটাই যে \(-2\log\Lambda\) একটা \(\chi^2_1\) থেকে আসা মানের জন্য অস্বাভাবিক বড়।" তাই ন্যায্যতার ধারণা বাতিল।

৩.২ E2 — Wald Test: একই মুদ্রা, MLE কত SE দূরে?

এবার §২.৩-এর Wald test — একই data (\(n=100,\ X=60,\ H_0:p_0=0.5\)), যাতে LRT-র সঙ্গে তুলনা করা যায়।

ধাপ ১ — MLE ও তার SE। MLE \(\hat p=0.6\)। Bernoulli-র Fisher information \(I(p)=\dfrac{1}{p(1-p)}\) (4.5-এর E1), তাই MLE-তে আনুমানিক variance:

\[ \widehat{\mathrm{Var}}(\hat p)=\frac{1}{n\,I(\hat p)} = \frac{\hat p(1-\hat p)}{n} = \frac{0.6\times 0.4}{100} = \frac{0.24}{100}=0.0024, \]

আর \(\mathrm{SE}(\hat p)=\sqrt{0.0024}\approx 0.0490\)

ধাপ ২ — Wald statistic। §২.৩-এর সূত্রে:

\[ Z_W=\frac{\hat p-p_0}{\mathrm{SE}}=\frac{0.6-0.5}{0.0490}=\frac{0.10}{0.0490}\approx 2.04, \qquad W=Z_W^2\approx (2.04)^2 \approx 4.17 . \]

ধাপ ৩ — সিদ্ধান্ত। \(W\approx 4.17\xrightarrow{d}\chi^2_1\); সংকট-মান \(3.84\)\(4.17>3.84\), তাই \(H_0\) বাতিল। (সমতুল্যভাবে \(\lvert Z_W\rvert = 2.04 > 1.96=z_{0.025}\); p-value \(\approx 0.041\)।)

LRT-র সঙ্গে তুলনা (asymptotic equivalence সংখ্যায়)। লক্ষ করুন — LRT দিল \(-2\log\Lambda=4.02\), Wald দিল \(W=4.17\)। দুটো প্রায় সমান (দুটোই \(\chi^2_1\), একই "বাতিল" সিদ্ধান্ত), কিন্তু হুবহু এক নয় — ঠিক §২.৫ যা বলেছিল: বড় নমুনায় কাছাকাছি, কিন্তু সসীম \(n\)-এ সামান্য ভিন্ন। (এখানে Wald-এর variance MLE \(\hat p=0.6\)-তে মাপা; পরের score test \(p_0=0.5\)-তে মাপবে — সেটাই মূল পার্থক্য।)

৩.৩ E3 — Score (Rao) Test: MLE-তে না গিয়ে \(H_0\)-তে ঢাল

এবার §২.৪-এর score test — আবার একই data, কিন্তু এবার আমরা MLE ব্যবহারই করব না; সব হিসাব \(p_0=0.5\)-তে।

ধাপ ১ — \(p_0\)-তে score। Bernoulli/Binomial-এ score \(\ell'(p)=\dfrac{X}{p}-\dfrac{n-X}{1-p}\)\(p_0=0.5\)-তে বসাই:

\[ \ell'(p_0)=\frac{X}{p_0}-\frac{n-X}{1-p_0}=\frac{60}{0.5}-\frac{40}{0.5}=120-80=40 . \]

(লক্ষণীয়: \(\ell'(p_0)\neq 0\), অর্থাৎ \(p_0=0.5\)-এ পাহাড়ের ঢাল শূন্য নয় — চূড়া অন্যত্র; এটাই \(H_0\)-র বিরুদ্ধে ইঙ্গিত।)

ধাপ ২ — \(p_0\)-তে Fisher information ও statistic। \(n\,I(p_0)=\dfrac{n}{p_0(1-p_0)}=\dfrac{100}{0.5\times 0.5}=\dfrac{100}{0.25}=400\)। তাই score statistic:

\[ U=\frac{[\ell'(p_0)]^2}{n\,I(p_0)}=\frac{(40)^2}{400}=\frac{1600}{400}=4.0 . \]

ধাপ ৩ — সিদ্ধান্ত। \(U=4.0\xrightarrow{d}\chi^2_1\); সংকট-মান \(3.84\)\(4.0>3.84\), তাই \(H_0\) বাতিল। (p-value \(\approx 0.046\)।)

তিন test পাশাপাশি (asymptotic equivalence-এর চূড়ান্ত মিল)। একই data (\(n=100,\ X=60\)), একই \(H_0:p=0.5\) — তিন যন্ত্রের ফল:

test statistic মান সংকট-মান (\(\chi^2_{1,0.05}\)) সিদ্ধান্ত
LRT (E1) \(-2\log\Lambda\) \(4.02\) \(3.84\) বাতিল
Wald (E2) \(W\) \(4.17\) \(3.84\) বাতিল
Score (E3) \(U\) \(4.00\) \(3.84\) বাতিল

তিনটিই \(\approx 4\), একই সিদ্ধান্ত — §২.৫-এর asymptotic equivalence-এর জীবন্ত উদাহরণ। (পার্থক্য কেবল কোথায় variance মাপা: Wald \(\hat p\)-তে, score \(p_0\)-তে, LRT উচ্চতার ফারাকে — তাই সামান্য আলাদা সংখ্যা, কিন্তু একই গল্প।)

৩.৪ E4 — Pearson's chi-square: ছক্কা ন্যায্য কি না, ও দুই চলক স্বাধীন কি না

শেষ উদাহরণ §২.৬-এর দুই Pearson \(\chi^2\) — প্রথমে goodness-of-fit (এক চলক), পরে independence (দুই চলক)।

অংশ ক — Goodness-of-fit: ছক্কা ন্যায্য কি? একটা ছক্কা \(n=120\) বার গড়িয়ে প্রতিটি মুখ যতবার এল:

মুখ (\(i\)) 1 2 3 4 5 6 মোট
\(O_i\) (observed) 16 18 25 17 22 22 120
\(E_i\) (expected) 20 20 20 20 20 20 120

\(H_0\): ছক্কা ন্যায্য, প্রতিটি মুখের \(p_i^{(0)}=1/6\), তাই \(E_i=n p_i^{(0)}=120\times\frac16=20\) (সব শ্রেণিতে সমান)। Pearson statistic:

\[ X^2=\sum_{i=1}^6\frac{(O_i-E_i)^2}{E_i} =\frac{(16-20)^2+(18-20)^2+(25-20)^2+(17-20)^2+(22-20)^2+(22-20)^2}{20}. \]

লব গুনি: \((-4)^2+(-2)^2+5^2+(-3)^2+2^2+2^2 = 16+4+25+9+4+4 = 62\)। তাই

\[ X^2=\frac{62}{20}=3.1 . \]

df ও সিদ্ধান্ত। কোনো parameter অনুমান করতে হয়নি (\(p_i^{(0)}\) সম্পূর্ণ নির্দিষ্ট), তাই \(\mathrm{df}=c-1=6-1=5\)। সংকট-মান \(\chi^2_{5,\,0.05}=11.07\)। যেহেতু \(3.1 < 11.07\), আমরা \(H_0\) বাতিল করি না — এই data ছক্কা-অন্যায্যতার পক্ষে যথেষ্ট প্রমাণ দেয় না (এই পরিমাণ বিচ্যুতি একটা ন্যায্য ছক্কাতেও স্বাভাবিক)। (p-value \(=P(\chi^2_5>3.1)\approx 0.68\) — মোটেও ছোট নয়।)

অংশ খ — Independence: চিকিৎসা ও আরোগ্য কি স্বাধীন? \(n=200\) রোগীকে দুই দলে (ওষুধ / placebo) ভাগ করে ফল (সুস্থ / অসুস্থ) লিপিবদ্ধ — একটা \(2\times 2\) contingency table:

সুস্থ অসুস্থ সারি-মোট
ওষুধ \(O_{11}=50\) \(O_{12}=30\) \(80\)
placebo \(O_{21}=40\) \(O_{22}=80\) \(120\)
কলাম-মোট \(90\) \(110\) \(n=200\)

\(H_0\): চিকিৎসা ও ফল স্বাধীন। §২.৬-এর সূত্রে প্রতিটি \(E_{ij}=\dfrac{(\text{সারি-মোট})(\text{কলাম-মোট})}{n}\):

\[ E_{11}=\frac{80\times 90}{200}=36,\quad E_{12}=\frac{80\times 110}{200}=44,\quad E_{21}=\frac{120\times 90}{200}=54,\quad E_{22}=\frac{120\times 110}{200}=66 . \]

Pearson statistic:

\[ X^2=\frac{(50-36)^2}{36}+\frac{(30-44)^2}{44}+\frac{(40-54)^2}{54}+\frac{(80-66)^2}{66}. \]

প্রতিটি পদ (লক্ষ করুন প্রতিটি লব \(14^2=196\), যেহেতু \(2\times2\)-তে চারটি residual সমান-মাপের):

\[ \frac{196}{36}+\frac{196}{44}+\frac{196}{54}+\frac{196}{66} \approx 5.444+4.455+3.630+2.970 \approx 16.50 . \]

df ও সিদ্ধান্ত। \(r=2,\ c=2\), তাই \(\mathrm{df}=(r-1)(c-1)=1\times 1=1\)। সংকট-মান \(\chi^2_{1,\,0.05}=3.84\)। যেহেতু \(16.50 \gg 3.84\), আমরা \(H_0\) জোরালোভাবে বাতিল করি — চিকিৎসা ও ফল স্বাধীন নয়; ওষুধের সঙ্গে সুস্থ-হওয়ার একটা স্পষ্ট সম্পর্ক আছে। (p-value \(\approx 0.00005\) — অত্যন্ত ছোট।)

§৩-এর সার: E1–E3 দেখাল কীভাবে একই \(H_0:p=0.5\) তিন যন্ত্রে — LRT (উচ্চতার ফারাক, \(-2\log\Lambda=4.02\)), Wald (চূড়ার দূরত্ব, \(W=4.17\)), score (\(\theta_0\)-তে ঢাল, \(U=4.00\)) — পরীক্ষা করা যায়, আর তিনটি প্রায় একই মানে (≈4) মিলে একই \(\chi^2_1\)-সিদ্ধান্ত দেয় (asymptotic equivalence)। E4 দেখাল Pearson \(\chi^2=\sum(O-E)^2/E\) কীভাবে মডেল-আকৃতি যাচাই করে — ছক্কার ন্যায্যতা (goodness-of-fit, df \(=c-1=5\), বাতিল হয় না) ও দুই চলকের স্বাধীনতা (independence, df \(=(r-1)(c-1)=1\), জোরালোভাবে বাতিল)। সর্বত্র এক সুর: একটা statistic গণনা করো, তার \(\chi^2\) null-বণ্টন থেকে সংকট-মান নাও, সিদ্ধান্ত দাও।


৪ · প্রমাণ ও উৎপাদন

§১–৩-এ আমরা এই অধ্যায়ের কেন্দ্রীয় তিনটে test — likelihood ratio test (LRT), Wald test, ও score test (Rao test) — এবং Pearson-এর \(\chi^2\) goodness-of-fit (GOF) ও independence test-এর সংজ্ঞা ও স্বজ্ঞা পেয়েছি। এবার এই অংশে scratch থেকে সেই test-গুলোর পেছনের ফলগুলো উৎপাদন করব — কোথা থেকে \(-2\log\Lambda\) আসে আর কেন তা \(\chi^2_k\) হয় (Wilks), Wald ও score statistic কীভাবে MLE-র asymptotic normality (4.5) থেকে স্বাভাবিকভাবে গজায়, কেন তিনটে test বড় নমুনায় একই, আর Pearson-এর \(\chi^2\) আসলে LRT-রই একটা approximation। কোনো ধাপ লুকানো হবে না; প্রতিটি সমান-চিহ্নের পেছনে বাংলায় কারণ থাকবে। কাজটা পাঁচটে অংশে ভাগ করেছি, প্রতিটি কঠিনতা অনুযায়ী ট্যাগ করা (★ = সরাসরি · ★★ = কিছু বীজগণিত/কৌশল লাগে · ★★★ = পূর্ণ rigor এই পর্যায়ের বাইরে, sketch দিই):

  • (a) LRT-এর নির্মাণ (\(\Lambda=\frac{\sup_{\Theta_0}L}{\sup_\Theta L}\), \(-2\log\Lambda\)) আর Wilks-এর উপপাদ্য — কেন \(H_0\)-র অধীনে \(-2\log\Lambda\xrightarrow{d}\chi^2_k\) (df = restriction-সংখ্যা), log-likelihood-এর MLE-র চারপাশে দ্বিতীয়-ক্রম Taylor expansion থেকে অন্তর্দৃষ্টি। ★★★
  • (b) Wald statistic — MLE-র asymptotic normality (4.5) থেকে: \(W=\dfrac{(\hat\theta-\theta_0)^2}{1/(nI)}\xrightarrow{d}\chi^2_1\)। ★★
  • (c) Score (Rao) test — সত্য মানে score-এর asymptotic normality থেকে, কোনো MLE না খুঁজেই \(H_0\)-তে। ★★
  • (d) তিনটে test (LRT, Wald, score) asymptotically সমতুল্য — তিনটেই একই quadratic approximation-এর তিন মুখ। ★★
  • (e) Pearson-এর \(\chi^2=\sum_i (O_i-E_i)^2/E_i\) — multinomial likelihood থেকে LRT-র approximation হিসেবে, আর df-এর নিয়ম (GOF বনাম independence)। ★★

পুরোটা জুড়ে চারটে running example ব্যবহার করব: E1 LRT (Normal mean, \(\sigma\) জানা), E2 Wald, E3 score, আর E4 Pearson \(\chi^2\) GOF + independence।

একটা সাধারণ পরিভাষা আগে স্থির করি, কারণ পুরো §৪ এর ওপর দাঁড়িয়ে। আমাদের কাছে \(n\)টি i.i.d. পর্যবেক্ষণ \(X_1,\dots,X_n\), প্রতিটির density/pmf \(f(x;\theta)\), আর parameter \(\theta\) একটা প্যারামিটার-জগৎ \(\Theta\)-তে থাকে। দুটো hypothesis:

  • null \(H_0:\theta\in\Theta_0\) — একটা ছোট (restricted) উপ-জগৎ \(\Theta_0\subset\Theta\) (যেমন \(\Theta_0=\{\theta_0\}\), একটিমাত্র বিন্দু);
  • alternative \(H_1:\theta\in\Theta\setminus\Theta_0\) — বাকিটা।

আর likelihood ও log-likelihood (4.3 থেকে): $$ L(\theta)=\prod_{i=1}^n f(X_i;\theta),\qquad \ell(\theta)=\log L(\theta)=\sum_{i=1}^n \log f(X_i;\theta). $$ এখানে \(\sup_{\Theta_0}L\) মানে "\(\Theta_0\)-র ভেতরে \(L\)-কে যতটা বড় করা যায়" (অর্থাৎ restricted MLE-তে likelihood-এর মান), আর \(\sup_\Theta L\) মানে "পুরো \(\Theta\)-জুড়ে \(L\)-এর সর্বোচ্চ" (unrestricted MLE-তে)।

এক নজরে যা মনে রাখবেন। এই গোটা অংশের প্রাণ একটাই বস্তু — log-likelihood-এর চূড়ার আকার (4.5-এর Fisher information যা মাপে)। তিনটে test আসলে একই প্রশ্ন তিন দিক থেকে জিজ্ঞেস করে: "\(\theta_0\) চূড়া থেকে কতটা দূরে?" — LRT মাপে উচ্চতার ব্যবধান (\(\theta_0\)-তে likelihood চূড়ার চেয়ে কতটা নিচে), Wald মাপে অনুভূমিক দূরত্ব (\(\hat\theta\) থেকে \(\theta_0\) কত দূর), আর score মাপে ঢাল (\(\theta_0\)-তে log-likelihood কতটা খাড়া — চূড়ায় ঢাল শূন্য বলে \(\theta_0\)-তে বড় ঢাল মানে \(\theta_0\) চূড়া থেকে দূরে)। চূড়াটা প্রায়-প্যারাবোলা (Taylor-এর দ্বিতীয় ক্রম) হওয়ায় তিন মাপ একে অপরের সাথে বাঁধা — তাই তিনটে test বড় নমুনায় একই সংখ্যা, আর সেই সংখ্যার বণ্টন \(\chi^2_k\)। মূল মন্ত্র: "তিন test = একই প্যারাবোলিক চূড়ার উচ্চতা/দূরত্ব/ঢাল; df = কতগুলো parameter \(H_0\) আটকে রাখে।"


৪.১ · (a) LRT-এর নির্মাণ ও Wilks-এর উপপাদ্য — ★★★

৪.১.১ · Likelihood ratio statistic কেন এই রূপ

স্বজ্ঞা থেকে শুরু (যা §১–৩-এ এসেছে)। data হাতে এলে আমরা জানতে চাই — \(H_0\) (সীমিত মডেল) কি data-কে প্রায় ততটাই ভালো ব্যাখ্যা করে যতটা পূর্ণ মডেল করে? "ভালো ব্যাখ্যা" মাপার সবচেয়ে স্বাভাবিক মাপকাঠি likelihood (4.3): যে \(\theta\)-তে likelihood বড়, সে data-কে বেশি সম্ভাব্য করে তোলে। তাই দুটো সর্বোচ্চ likelihood-এর অনুপাত নিই:

\[ \boxed{\;\Lambda \;=\; \frac{\displaystyle\sup_{\theta\in\Theta_0} L(\theta)}{\displaystyle\sup_{\theta\in\Theta} L(\theta)}\;} \]

প্রতিটি অংশ খুলি:

  • লব \(\sup_{\Theta_0}L\)\(H_0\) মানলে likelihood সর্বোচ্চ যতটা হতে পারে (restricted MLE \(\hat\theta_0\)-তে \(L\)-এর মান)।
  • হর \(\sup_\Theta L\) — কোনো বাধা ছাড়াই likelihood-এর সর্বোচ্চ (unrestricted MLE \(\hat\theta\)-তে \(L\)-এর মান)।

দুটো মৌলিক ধর্ম এখনই চোখে পড়ে। প্রথমত, \(\Theta_0\subset\Theta\) হওয়ায় হরের sup লবের sup-এর চেয়ে ছোট হতে পারে না (বড় সেট-এ সর্বোচ্চ আরও বড়/সমান), তাই \(0\le\Lambda\le 1\)। দ্বিতীয়ত, \(\Lambda\) \(1\)-এর কাছে মানে — \(H_0\) মেনেও প্রায় একই likelihood পাওয়া যায়, অর্থাৎ data \(H_0\)-র সাথে মানানসই; আর \(\Lambda\) ছোট (০-র দিকে) মানে — বাধা আরোপ করলে likelihood হুড়মুড় করে পড়ে, অর্থাৎ data \(H_0\)-র বিরুদ্ধে সাক্ষ্য দিচ্ছে। তাই সিদ্ধান্ত-নিয়ম: \(\Lambda\) যথেষ্ট ছোট হলে \(H_0\) বাতিল।

৪.১.২ · কেন \(-2\log\Lambda\) — আর কেন তার বণ্টন জানা দরকার

\(\Lambda\) দিয়ে সরাসরি কাজ করার দুটো অসুবিধা: (i) এর বণ্টন (sampling distribution) জটিল, তাই "কত ছোট হলে যথেষ্ট ছোট" বলা কঠিন; (ii) likelihood-গুলো গুণফল, তাই log নিলে যোগফলে ভাঙে (4.3-এর মতোই সুবিধা)। তাই আমরা একটা monotone রূপান্তর নিই:

\[ \boxed{\;\lambda \;=\; -2\log\Lambda \;=\; 2\big[\,\ell(\hat\theta) - \ell(\hat\theta_0)\,\big]\;} \]

যেখানে \(\hat\theta\) unrestricted MLE আর \(\hat\theta_0\) restricted MLE (অর্থাৎ \(\ell(\hat\theta)=\log\sup_\Theta L\), \(\ell(\hat\theta_0)=\log\sup_{\Theta_0}L\))। দুটো কথা লক্ষ করুন: যেহেতু \(\Lambda\le1\), তাই \(\log\Lambda\le0\), তাই \(-2\log\Lambda\ge0\) — একটা অঋণাত্মক রাশি। আর \(\Lambda\) ছোট \(\Leftrightarrow\) \(-2\log\Lambda\) বড়; তাই সিদ্ধান্ত-নিয়ম উল্টে দাঁড়ায়: \(-2\log\Lambda\) যথেষ্ট বড় হলে \(H_0\) বাতিল। আর \(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\hat\theta_0)]\) রূপটা সরাসরি বলে — এটা log-likelihood-এর চূড়ার উচ্চতা আর \(H_0\)-তে সর্বোচ্চ উচ্চতার ব্যবধান, দ্বিগুণ। (\(2\)-গুণটা কেন, তা ৪.১.৪-এ পরিষ্কার হবে — ঠিক ওই গুণকেই বণ্টন \(\chi^2\) হয়।)

এখন একমাত্র যে জিনিসটা বাকি — "যথেষ্ট বড়" মানে কী, তা ঠিক করতে হলে \(H_0\)-র অধীনে \(-2\log\Lambda\)-র বণ্টন চাই। সেটাই Wilks-এর উপপাদ্য দেয়।

৪.১.৩ · Wilks-এর উপপাদ্য (statement)

Wilks' Theorem. "মসৃণ" (regular) parametric মডেলে, যদি \(H_0:\theta\in\Theta_0\) সত্য হয়, তবে \(n\to\infty\)-তে $$ \boxed{\;-2\log\Lambda \;\xrightarrow{\ d\ }\; \chi^2_k\;} $$ যেখানে \(k\) = restriction-সংখ্যা = (পূর্ণ মডেলে free parameter-সংখ্যা) \(-\) (\(H_0\)-র অধীনে free parameter-সংখ্যা) = \(\dim(\Theta)-\dim(\Theta_0)\)

এখানে \(\xrightarrow{d}\) মানে "converges in distribution" (3.4), আর \(\chi^2_k\) হলো \(k\) degrees of freedom-যুক্ত chi-square বণ্টন। df-এর নিয়মটা মনে রাখার সহজ উপায়: \(H_0\) পূর্ণ মডেলের কতগুলো স্বাধীন parameter "আটকে" (fix করে) দিচ্ছে — ঠিক ততগুলোই \(k\)

df-এর তিনটে দৃষ্টান্ত। (১) Normal mean (E1): পূর্ণ মডেলে \(\mu\) একটাই free parameter (\(\sigma\) জানা), \(H_0:\mu=\mu_0\) সেটিকে আটকায় — তাই \(k=1-0=1\), বণ্টন \(\chi^2_1\)। (২) যদি \(\theta=(\mu_1,\mu_2)\) আর \(H_0:\mu_1=\mu_2\) (একটা সমতা-শর্ত), তাহলে \(\dim\Theta=2\), \(\dim\Theta_0=1\) — তাই \(k=1\)। (৩) Multinomial-এ \(m\)টা category (\(m-1\) free probability), GOF \(H_0\) সবগুলো ঠিক করে দিলে \(\dim\Theta_0=0\) — তাই \(k=(m-1)-0=m-1\) (E4-এ দেখব)।

লক্ষণীয় — Wilks-এর সৌন্দর্য হলো ডানপাশের বণ্টন \(\chi^2_k\) কোনো অজানা parameter-এর উপর নির্ভর করে না (শুধু \(k\)-র উপর)। তাই critical value একবার \(\chi^2_k\)-টেবিল থেকে নিলেই হয় — সত্য \(\theta\) না জেনেও। (\(\alpha\)-স্তরে test: \(-2\log\Lambda>\chi^2_{k,\,1-\alpha}\) হলে \(H_0\) বাতিল।)

৪.১.৪ · কেন \(\chi^2_k\) — দ্বিতীয়-ক্রম Taylor expansion থেকে অন্তর্দৃষ্টি (★★★)

পূর্ণ প্রমাণ এই পর্যায়ের বাইরে, কিন্তু মূল যন্ত্রটা চমৎকার সরল — log-likelihood-কে MLE-র চারপাশে প্যারাবোলা দিয়ে আনুমানিক করা — আর তা সরাসরি (b)/(c)-র Wald/score-এর সাথে যুক্ত। সরলতার জন্য একটা scalar parameter \(\theta\) আর \(H_0:\theta=\theta_0\) ধরি (তখন \(k=1\))।

ধাপ ১ — চূড়ার চারপাশে log-likelihood-কে Taylor expand করি। unrestricted MLE \(\hat\theta\)-তে log-likelihood-এর ঢাল শূন্য (\(\ell'(\hat\theta)=0\), কারণ ওটাই চূড়া)। তাই \(\ell(\theta)\)-কে \(\hat\theta\)-র চারপাশে দ্বিতীয় ক্রম পর্যন্ত খুলি:

\[ \ell(\theta)\;\approx\;\ell(\hat\theta)\;+\;\underbrace{\ell'(\hat\theta)}_{=\,0}\,(\theta-\hat\theta)\;+\;\tfrac12\,\ell''(\hat\theta)\,(\theta-\hat\theta)^2 \;=\;\ell(\hat\theta)\;+\;\tfrac12\,\ell''(\hat\theta)\,(\theta-\hat\theta)^2 . \]

মাঝের পদ বাদ পড়ল কারণ চূড়ায় ঢাল শূন্য — এটাই MLE ব্যবহারের মূল সুবিধা। ফলে চূড়ার কাছে log-likelihood একটা উল্টানো প্যারাবোলা, যার "প্রস্থ" নির্ধারণ করে curvature \(\ell''(\hat\theta)\)

ধাপ ২ — \(H_0\)-তে (অর্থাৎ \(\theta=\theta_0\)-তে) উচ্চতার ব্যবধান। এখানে scalar \(H_0:\theta=\theta_0\) হলে restricted MLE নিজেই \(\hat\theta_0=\theta_0\) (কারণ \(\Theta_0\) একটিমাত্র বিন্দু)। উপরের approximation-এ \(\theta=\theta_0\) বসাই:

\[ \ell(\theta_0)\;\approx\;\ell(\hat\theta)\;+\;\tfrac12\,\ell''(\hat\theta)\,(\theta_0-\hat\theta)^2 \quad\Longrightarrow\quad \ell(\hat\theta)-\ell(\theta_0)\;\approx\;-\tfrac12\,\ell''(\hat\theta)\,(\hat\theta-\theta_0)^2 . \]

দ্বিগুণ করি (LRT-র সংজ্ঞা মতো):

\[ -2\log\Lambda \;=\; 2\big[\ell(\hat\theta)-\ell(\theta_0)\big] \;\approx\; \big(-\ell''(\hat\theta)\big)\,(\hat\theta-\theta_0)^2 . \]

(এখানেই দেখা গেল কেন সংজ্ঞায় ঠিক \(2\)-গুণ — তাতে \(\tfrac12\) কেটে গিয়ে পরিষ্কার quadratic form দাঁড়ায়।)

ধাপ ৩ — curvature-কে Fisher information দিয়ে বদলাই (4.5)। 4.5 থেকে জানি, observed curvature \(-\ell''(\hat\theta)\) বড় নমুনায় expected curvature-এ স্থির হয়: \(-\ell''(\hat\theta)\approx nI(\theta_0)\) (LLN, কারণ \(-\ell''=\sum_i(-\partial_\theta^2\log f)\) আর প্রতিটির গড় \(I(\theta_0)\))। বসাই:

\[ -2\log\Lambda \;\approx\; nI(\theta_0)\,(\hat\theta-\theta_0)^2 \;=\; \Big[\underbrace{\sqrt{nI(\theta_0)}\,(\hat\theta-\theta_0)}_{=:\,Z_n}\Big]^2 . \]

ধাপ ৪ — এখানেই \(\chi^2_1\) জন্মায়। কিন্তু 4.5-এর MLE asymptotic normality ঠিক বলে যে \(\sqrt n(\hat\theta-\theta_0)\xrightarrow{d}\mathcal N(0,1/I(\theta_0))\), অর্থাৎ \(\sqrt{nI(\theta_0)}\,(\hat\theta-\theta_0)\xrightarrow{d}\mathcal N(0,1)\) — তাই \(Z_n\xrightarrow{d}\mathcal N(0,1)\)। আর একটা standard Normal-এর বর্গ হলো সংজ্ঞা-অনুসারে \(\chi^2_1\) (3.x-এ দেখা: \(Z\sim\mathcal N(0,1)\Rightarrow Z^2\sim\chi^2_1\))। তাই

\[ -2\log\Lambda \;\approx\; Z_n^2 \;\xrightarrow{d}\; \chi^2_1 . \qquad\blacksquare\ (\text{sketch}) \]

এক বাক্যে কেন। log-likelihood চূড়ার কাছে প্যারাবোলা; LRT মাপে চূড়া আর \(\theta_0\)-র উচ্চতা-ব্যবধান, যা প্যারাবোলার জ্যামিতিতে হয় \((\text{curvature})\times(\hat\theta-\theta_0)^2\); curvature \(\to nI\), আর \(\sqrt{nI}(\hat\theta-\theta_0)\to\mathcal N(0,1)\) — তাই উচ্চতা-ব্যবধানের দ্বিগুণ \(\to\) এক standard-Normal-এর বর্গ \(=\chi^2_1\)\(k\) restriction হলে একই যুক্তি \(k\) মাত্রায় চলে: \(k\)টা স্বাধীন standard-Normal-এর বর্গের যোগফল, যা সংজ্ঞা-অনুসারে \(\chi^2_k\) — তাই df ঠিক restriction-সংখ্যা। (যা skip করলাম ★★★: multi-parameter \(\hat\theta_0\ne\theta_0\) ক্ষেত্রে restricted/unrestricted MLE দুটোর যৌথ Taylor, আর Taylor-অবশিষ্ট নগণ্য দেখানো — Wasserman §10.6.)

সতর্কতা — কখন df গোনায় ভুল হয়। Wilks-এ df free parameter-এর সংখ্যার পার্থক্য, প্রতীকের সংখ্যা নয়। আর শর্তটা "interior" হতে হবে — \(\theta_0\) যদি প্যারামিটার-জগতের সীমানায় থাকে (যেমন variance \(=0\) test), Wilks ভেঙে যায় এবং বণ্টন \(\chi^2\)-এর mixture হয়; এই সূক্ষ্মতা পরের অধ্যায়/উন্নত কোর্সে।


৪.২ · (b) Wald statistic — MLE-র asymptotic normality থেকে — ★★

LRT-তে দুটো MLE (restricted ও unrestricted) দরকার হয়। Wald test একটা শর্টকাট: শুধু unrestricted MLE \(\hat\theta\) আর তার estimated variance দিয়ে কাজ সারে — restricted মডেল fit করার দরকারই পড়ে না।

ধাপ ১ — 4.5-এর asymptotic normality স্মরণ। 4.5-এ প্রমাণিত হয়েছিল, regular মডেলে MLE বড় নমুনায় Normal:

\[ \sqrt n\,(\hat\theta-\theta)\;\xrightarrow{d}\;\mathcal N\!\Big(0,\ \frac{1}{I(\theta)}\Big) \quad\Longleftrightarrow\quad \hat\theta \;\approx\; \mathcal N\!\Big(\theta,\ \frac{1}{nI(\theta)}\Big), \]

যেখানে \(I(\theta)\) এক-পর্যবেক্ষণের Fisher information, আর \(\frac{1}{nI(\theta)}\) হলো MLE-র asymptotic variance (= CRLB মেঝে)।

ধাপ ২ — \(H_0:\theta=\theta_0\) ধরে standardize করি। যদি \(H_0\) সত্য হয় (সত্য \(\theta=\theta_0\)), তবে উপরের statement-এ \(\theta=\theta_0\) বসিয়ে \(\hat\theta\approx\mathcal N(\theta_0,\,\frac{1}{nI(\theta_0)})\)। তাই একে standardize করলে (mean বিয়োগ, sd দিয়ে ভাগ — 2.4):

\[ \frac{\hat\theta-\theta_0}{\sqrt{1/(nI(\theta_0))}}\;\xrightarrow{d}\;\mathcal N(0,1). \]

ধাপ ৩ — variance-এ plug-in, আর বর্গ করি। বাস্তবে \(I(\theta_0)\)-এর জায়গায় আমরা একটা estimate বসাই — সবচেয়ে সাধারণ পছন্দ \(\widehat{\mathrm{Var}}=\frac{1}{nI(\hat\theta)}\) (MLE-তে মূল্যায়িত Fisher info) বা observed information \(-1/\ell''(\hat\theta)\)। যেহেতু \(\hat\theta\xrightarrow{P}\theta_0\) (consistency), Slutsky (3.2) বলে এই বদল asymptotic বণ্টন নষ্ট করে না, অনুপাত এখনও \(\mathcal N(0,1)\)। এবার বর্গ করি (যাতে দুই-দিকের বিচ্যুতি এক ধনাত্মক রাশিতে আসে এবং \(\chi^2\) পাই):

\[ \boxed{\;W \;=\; \frac{(\hat\theta-\theta_0)^2}{\widehat{\mathrm{Var}}}\;=\;\frac{(\hat\theta-\theta_0)^2}{1/(nI(\hat\theta))}\;\xrightarrow{d}\;\chi^2_1\;} \]

কারণ ধাপ ২-৩-এ ভেতরের রাশি \(\to\mathcal N(0,1)\), আর তার বর্গ \(\to\chi^2_1\) (ঠিক ৪.১.৪-এর ধাপ ৪-এর মতো)।

স্বজ্ঞা — Wald মাপে "অনুভূমিক দূরত্ব"। \(W\) আসলে "MLE \(\hat\theta\) থেকে null-মান \(\theta_0\) কত standard-error দূরে" — তার বর্গ। \(\hat\theta\) যদি \(\theta_0\)-র কাছে (কম SE দূরত্ব) হয়, \(W\) ছোট, \(H_0\) মানানসই; অনেক দূরে হলে \(W\) বড়, \(H_0\) বাতিল। ৪.১.৪-এর ছবিতে: Wald মাপছে প্যারাবোলার অক্ষ থেকে \(\theta_0\)-র অনুভূমিক দূরত্ব, curvature দিয়ে ওজন করে।

E2 — Normal mean (\(\sigma\) জানা), সংখ্যায় (§৫ PART 1)। এখানে \(I(\mu)=1/\sigma^2\) (4.5 E2), তাই \(\widehat{\mathrm{Var}}=\frac{1}{n\cdot(1/\sigma^2)}=\sigma^2/n\) — যা \(\hat\mu=\bar X\)-এর সঠিক variance, কোনো approximation ছাড়াই। তাই $$ W=\frac{(\bar X-\mu_0)^2}{\sigma^2/n}=\frac{n(\bar X-\mu_0)^2}{\sigma^2}=\Big(\frac{\bar X-\mu_0}{\sigma/\sqrt n}\Big)^2=Z^2, $$ অর্থাৎ Wald statistic ঠিক পরিচিত \(z\)-statistic-এর বর্গ — §৫ PART 1 দেখাবে এটা LRT ও score-এর সাথে হুবহু মেলে (\(W=Z^2=4.928\))। সতর্কতা ★★: Wald variance \(\hat\theta\)-তে মূল্যায়িত (null-এ নয়), তাই \(\hat\theta\) সীমানার কাছে হলে বা মডেল reparametrize করলে Wald-এর মান বদলায় — এটাই Wald-এর পরিচিত দুর্বলতা (LRT এই সমস্যায় ভোগে না)।


৪.৩ · (c) Score (Rao) test — null-এ score-এর asymptotic normality থেকে — ★★

তৃতীয় test আরও বড় শর্টকাট: এটা কোনো MLE-ই খোঁজে না। শুধু null-মান \(\theta_0\)-তে log-likelihood-এর ঢাল (score) আর Fisher information দিয়ে কাজ সারে — তাই যখন restricted মডেল fit করা সহজ কিন্তু full মডেল কঠিন, score test সবচেয়ে সুবিধাজনক।

ধাপ ১ — score-এর মৌলিক ধর্ম (4.5)। এক-পর্যবেক্ষণ-score \(\partial_\theta\log f(X_i;\theta)\)-এর সত্য \(\theta\)-তে গড় শূন্য আর variance \(I(\theta)\) (4.5-এ প্রমাণিত)। মোট score \(U(\theta)=\ell'(\theta)=\sum_{i=1}^n\partial_\theta\log f(X_i;\theta)\) তাই \(n\)টা i.i.d., mean-শূন্য রাশির যোগফল, যার

\[ \mathbb{E}[U(\theta)]=0,\qquad \mathrm{Var}\big(U(\theta)\big)=nI(\theta). \]

ধাপ ২ — CLT প্রয়োগ, \(H_0\)-তে মূল্যায়ন। যেহেতু \(U(\theta_0)\) i.i.d. mean-শূন্য পদের যোগফল, Central Limit Theorem (3.4) অনুযায়ী \(H_0\) সত্য হলে (সত্য \(\theta=\theta_0\)):

\[ \frac{U(\theta_0)}{\sqrt{nI(\theta_0)}}\;\xrightarrow{d}\;\mathcal N(0,1). \]

লক্ষ করুন — এই রাশিটা পুরোপুরি \(\theta_0\)-তে গণনাযোগ্য (\(U(\theta_0)\) আর \(I(\theta_0)\) দুটোই null-মানে, কোনো MLE লাগে না)।

ধাপ ৩ — বর্গ করি। ঠিক আগের মতোই, \(\mathcal N(0,1)\)-এর বর্গ \(\chi^2_1\):

\[ \boxed{\;U_{\text{score}} \;=\; \frac{\big(U(\theta_0)\big)^2}{nI(\theta_0)} \;=\; \frac{\big(\ell'(\theta_0)\big)^2}{nI(\theta_0)}\;\xrightarrow{d}\;\chi^2_1\;} \]

স্বজ্ঞা — score মাপে "ঢাল"। চূড়ায় (MLE-তে) log-likelihood-এর ঢাল শূন্য। তাই \(\theta_0\)-তে ঢাল \(\ell'(\theta_0)\) যত বড় (শূন্য থেকে যত দূর), \(\theta_0\) চূড়া থেকে তত দূরে — তত বেশি \(H_0\)-বিরোধী সাক্ষ্য। score statistic ঠিক এই ঢালকেই বর্গ করে, তার "স্বাভাবিক স্কেল" \(nI(\theta_0)\) দিয়ে normalize করে। ৪.১.৪-এর ছবিতে: score মাপছে প্যারাবোলার \(\theta_0\)-বিন্দুতে স্পর্শকের খাড়াই

E3 — Normal mean (\(\sigma\) জানা), সংখ্যায় (§৫ PART 1)। \(\log f=-\frac{(x-\mu)^2}{2\sigma^2}+c\), তাই score \(\ell'(\mu)=\sum_i\frac{X_i-\mu}{\sigma^2}=\frac{n(\bar X-\mu)}{\sigma^2}\)\(\mu_0\)-তে: \(U(\mu_0)=\frac{n(\bar X-\mu_0)}{\sigma^2}\), আর \(nI(\mu_0)=n/\sigma^2\)। তাই $$ U_{\text{score}}=\frac{\big(n(\bar X-\mu_0)/\sigma^2\big)^2}{n/\sigma^2}=\frac{n(\bar X-\mu_0)^2}{\sigma^2}=Z^2, $$ আবার সেই একই \(Z^2\)! তিনটে test এখানে হুবহু মেলে — §৫ PART 1-এ সংখ্যায় (\(U_{\text{score}}=4.928\))। এই কাকতালীয়তা Normal-known-\(\sigma\)-র বিশেষত্ব (নিচে (d)); সাধারণভাবে তিনটে সামান্য আলাদা।


৪.৪ · (d) তিন test asymptotically সমতুল্য — একই quadratic approximation — ★★

এবার দেখাই কেন LRT, Wald, ও score বড় নমুনায় একই সিদ্ধান্ত দেয় — তিনটেই log-likelihood-এর একই প্যারাবোলিক approximation থেকে আসে। scalar \(\theta\), \(H_0:\theta=\theta_0\) ধরি।

৪.১.৪-এর Taylor approximation-টাই কেন্দ্র। তিনটে statistic-কে সেই একই প্যারাবোলার ভাষায় লিখি — সবগুলোতে curvature \(-\ell''\approx nI\) ব্যবহার করে (\(I\) মানে \(I(\theta_0)\), আর \(\hat\theta\approx\theta_0\) বলে \(I(\hat\theta)\approx I(\theta_0)\) asymptotically):

\[ \underbrace{-2\log\Lambda \approx nI\,(\hat\theta-\theta_0)^2}_{\text{LRT — উচ্চতা-ব্যবধান (৪.১.৪)}}, \qquad \underbrace{W = nI(\hat\theta)\,(\hat\theta-\theta_0)^2}_{\text{Wald — অনুভূমিক দূরত্ব}}, \qquad \underbrace{U_{\text{score}} = \frac{\ell'(\theta_0)^2}{nI}}_{\text{score — ঢাল}} . \]

প্রথম দুটোর সমতা সরাসরি — দুটোই \(nI\,(\hat\theta-\theta_0)^2\) (asymptotically \(I(\hat\theta)\approx I\))। তৃতীয়টা মেলানোর জন্য score-কে Taylor করি: চূড়ায় \(\ell'(\hat\theta)=0\), তাই \(\theta_0\)-তে ঢাল

\[ \ell'(\theta_0)\;\approx\;\ell'(\hat\theta)+\ell''(\hat\theta)(\theta_0-\hat\theta)\;=\;\ell''(\hat\theta)(\theta_0-\hat\theta)\;\approx\;-nI\,(\theta_0-\hat\theta)=nI\,(\hat\theta-\theta_0). \]

এটা \(U_{\text{score}}\)-তে বসাই:

\[ U_{\text{score}}=\frac{\ell'(\theta_0)^2}{nI}\;\approx\;\frac{\big(nI(\hat\theta-\theta_0)\big)^2}{nI}\;=\;nI\,(\hat\theta-\theta_0)^2 . \]

তিনটেই একই রাশি \(nI\,(\hat\theta-\theta_0)^2\)-তে গিয়ে মিলল — তাই

\[ \boxed{\;-2\log\Lambda \;\approx\; W \;\approx\; U_{\text{score}} \quad(\text{বড় } n\text{-এ})\;} \]

আর তিনটেরই সীমান্ত-বণ্টন একই \(\chi^2_1\) (scalar; সাধারণভাবে \(\chi^2_k\))।

এক বাক্যে গল্প। তিন test = একই প্যারাবোলিক চূড়াকে তিন দিক থেকে দেখা — LRT উচ্চতা-ব্যবধান, Wald অনুভূমিক দূরত্ব (\(\hat\theta\to\theta_0\)), score ঢাল (\(\theta_0\)-তে)। প্যারাবোলায় উচ্চতা \(=\tfrac12\times\)curvature\(\times\)দূরত্ব\(^2\), আর ঢাল \(=\) curvature\(\times\)দূরত্ব — তাই তিন মাপ বীজগণিতে একে অপরের সমান হয়ে যায়। পার্থক্য কোথায়: ছোট/মাঝারি নমুনায় তিনটে সামান্য আলাদা সংখ্যা দেয়, কারণ Wald curvature মাপে \(\hat\theta\)-তে, score মাপে \(\theta_0\)-তে, আর LRT পুরো ব্যবধান নেয় (কোনো এক বিন্দুর curvature নয়) — তাই LRT-কে প্রায়ই সবচেয়ে নির্ভরযোগ্য ধরা হয়। কিন্তু Normal-known-\(\sigma\)-তে log-likelihood ঠিক প্যারাবোলা (approximation নয়), curvature সর্বত্র সমান \(n/\sigma^2\) — তাই সেখানে তিনটে হুবহু সমান (\(=Z^2\)), যা §৫ PART 1 সংখ্যায় দেখাবে।

কোনটা কখন। তিনটেই asymptotically সমান, তাই পছন্দ সুবিধার উপর নির্ভরশীল: score — যখন শুধু restricted মডেল fit সহজ (\(\hat\theta\) লাগে না); Wald — যখন unrestricted MLE ও তার SE হাতে আছে (CI-র সাথে সরাসরি যুক্ত, 4.6); LRT — যখন দুটো MLE-ই পাওয়া যায় এবং সবচেয়ে ভালো ছোট-নমুনা আচরণ চাই।


৪.৫ · (e) Pearson-এর \(\chi^2\) — multinomial LRT-র approximation — ★★

এতক্ষণ continuous parameter দেখলাম। এবার categorical data: \(n\)টা পর্যবেক্ষণ \(m\)টা category-তে পড়ে, observed count \(O_1,\dots,O_m\) (যোগফল \(n\))। প্রশ্ন: এগুলো কি নির্দিষ্ট সম্ভাবনা \(p_1,\dots,p_m\) (যেমন "সব মুখ সমান", die-fairness) মেনে এসেছে? এই goodness-of-fit প্রশ্নের ক্লাসিক উত্তর Pearson-এর statistic — দেখাই এটাও আসলে LRT-রই একটা approximation।

ধাপ ১ — multinomial likelihood ও দুটো hypothesis। count-গুলোর যৌথ বণ্টন multinomial; তার log-likelihood (ধ্রুবক বাদে)

\[ \ell(p)=\sum_{i=1}^m O_i\log p_i,\qquad \sum_i p_i=1 . \]

\(H_0\): \(p_i=p_i^0\) (নির্দিষ্ট, যেমন die-তে \(p_i^0=1/6\)); \(H_1\): \(p_i\) মুক্ত। expected count সংজ্ঞায়িত করি \(E_i:=n\,p_i^0\) ("\(H_0\) সত্য হলে গড়ে কতটা পড়ার কথা")। unrestricted MLE হলো \(\hat p_i=O_i/n\) (observed অনুপাত — গণনা করলেই পাওয়া যায়)।

ধাপ ২ — LRT statistic লিখি। restricted sup-এ \(p_i=p_i^0\), unrestricted sup-এ \(p_i=O_i/n\) বসাই:

\[ -2\log\Lambda \;=\; 2\big[\ell(\hat p)-\ell(p^0)\big] \;=\; 2\sum_{i=1}^m O_i\log\frac{\hat p_i}{p_i^0} \;=\; 2\sum_{i=1}^m O_i\log\frac{O_i}{E_i}, \]

কারণ \(\frac{\hat p_i}{p_i^0}=\frac{O_i/n}{E_i/n}=\frac{O_i}{E_i}\)। এটাই \(G\)-statistic (likelihood-ratio GOF) — সঠিক, কিন্তু log-এর জন্য হাতে-হিসাবে কষ্টকর।

ধাপ ৩ — log-কে Taylor approximate করে Pearson-এ পৌঁছাই। লিখি \(O_i=E_i+\delta_i\), যেখানে \(\delta_i=O_i-E_i\) হলো "observed বনাম expected"-এর ব্যবধান (বড় \(n\)-এ \(E_i\)-র তুলনায় ছোট)। তাহলে \(\frac{O_i}{E_i}=1+\frac{\delta_i}{E_i}\), আর \(\log(1+u)\approx u-\frac{u^2}{2}\) (ছোট \(u\)-র Taylor):

\[ O_i\log\frac{O_i}{E_i}=(E_i+\delta_i)\log\Big(1+\frac{\delta_i}{E_i}\Big) \;\approx\;(E_i+\delta_i)\Big(\frac{\delta_i}{E_i}-\frac{\delta_i^2}{2E_i^2}\Big). \]

গুণ করে শুধু \(\delta_i\)-তে দ্বিতীয় ক্রম পর্যন্ত রাখি (উচ্চতর পদ ফেলে):

\[ \approx\;\delta_i+\frac{\delta_i^2}{E_i}-\frac{\delta_i^2}{2E_i} \;=\;\delta_i+\frac{\delta_i^2}{2E_i}. \]

এবার \(2\sum_i\) নিই। মূল কথা \(\sum_i\delta_i=\sum_i(O_i-E_i)=n-n=0\) (দুই দিকেই মোট \(n\)) — তাই প্রথম পদ মুছে যায়:

\[ -2\log\Lambda \;\approx\; 2\sum_{i=1}^m\Big(\delta_i+\frac{\delta_i^2}{2E_i}\Big) \;=\;\sum_{i=1}^m\frac{\delta_i^2}{E_i} \;=\;\boxed{\;\sum_{i=1}^m\frac{(O_i-E_i)^2}{E_i}\;=\;\chi^2_{\text{Pearson}}\;} \]

অর্থাৎ Pearson-এর \(\chi^2\) হলো multinomial LRT-র দ্বিতীয়-ক্রম Taylor approximation — তাই তারা একই সীমান্ত-বণ্টন \(\chi^2_k\)-এ যায় (Wilks), আর বড় \(n\)-এ সংখ্যাতেও কাছাকাছি। Pearson-রূপটাই জনপ্রিয় কারণ এতে log নেই — শুধু গুণ-ভাগ-যোগ।

ধাপ ৪ — df-এর নিয়ম। Wilks অনুযায়ী df \(=\dim\Theta-\dim\Theta_0\):

  • Goodness-of-fit (\(m\) category): পূর্ণ মডেলে free parameter \(m-1\) (যেহেতু \(\sum p_i=1\) একটা constraint)। \(H_0\) সব \(p_i\) ঠিক করে দিলে \(\dim\Theta_0=0\)। তাই $$ \boxed{\;\mathrm{df}=(m-1)-0=m-1\;} $$ (die: \(m=6\), df \(=5\) — E4/§৫ PART 3 দেখাবে।) যদি \(H_0\)-র অধীনে \(q\)টা parameter data থেকে estimate করতে হয় (যেমন Poisson fit-এ \(\hat\lambda\)), তখন df \(=(m-1)-q\) — প্রতিটি estimated parameter একটা df খরচ করে।
  • Independence (\(r\times c\) contingency table): এখানে \(E_{ij}=\frac{(\text{row}_i\ \text{total})(\text{col}_j\ \text{total})}{n}\), আর row/column marginal probability data থেকে estimate করতে হয় — হিসাব করলে $$ \boxed{\;\mathrm{df}=(r-1)(c-1)\;} $$ (\(2\times3\) table: df \(=(2-1)(3-1)=2\) — E4/§৫ PART 4 দেখাবে)।

E4 — Pearson \(\chi^2\) স্বজ্ঞা। \(\frac{(O_i-E_i)^2}{E_i}\) পদটা পড়ুন এভাবে: প্রতিটি cell-এ "observed কত দূরে expected থেকে" (\(O_i-E_i\)), বর্গ করে (চিহ্ন মুছে), আর \(E_i\) দিয়ে ভাগ করে স্কেল করা (কারণ বড় \(E_i\)-তে স্বাভাবিক ওঠানামাও বড়, তাই ভাগ করে ন্যায্য তুলনা)। মোট statistic বড় \(\Rightarrow\) observed সামগ্রিকভাবে expected থেকে অনেক দূরে \(\Rightarrow\) \(H_0\) বাতিল। সিদ্ধান্ত: \(\chi^2_{\text{Pearson}}>\chi^2_{\mathrm{df},\,1-\alpha}\) হলে \(H_0\) বাতিল। শর্ত ★★: approximation ভালো কাজ করে যদি সব \(E_i\) যথেষ্ট বড় (বুড়ো-আঙুলের নিয়ম \(E_i\ge5\)); ছোট \(E_i\)-তে category মেলানো বা exact test দরকার। (Figure 4-8-chi2-gof-এ এই \(O\) বনাম \(E\) তুলনা চোখে দেখানো হয়েছে।)


§৪-এর সার (Figure 4-8-three-tests, 4-8-wilks, 4-8-test-equivalence দেখাবে)। তিনটে test একই log-likelihood-চূড়ার তিন মাপ — LRT উচ্চতা-ব্যবধান (\(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\hat\theta_0)]\)), Wald অনুভূমিক দূরত্ব (\(W=(\hat\theta-\theta_0)^2/\widehat{\mathrm{Var}}\)), score ঢাল (\(U(\theta_0)^2/nI\)); চূড়া প্রায়-প্যারাবোলা বলে তিনটে asymptotically সমান, সীমান্ত-বণ্টন \(\chi^2_k\) (\(k=\) restriction-সংখ্যা, Wilks)। categorical data-য় একই LRT multinomial-এ Pearson-এর \(\sum(O_i-E_i)^2/E_i\)-তে রূপ নেয় (df: GOF \(m-1\), independence \((r-1)(c-1)\))। পরের §৫-এ এই সব ফল সংখ্যায় যাচাই করব।


৫ · কোড ল্যাব (Python)

এই ল্যাবে §৪-এর ফলগুলো আমরা সংখ্যায় যাচাই করব — যাতে তিন test-এর সমতা, Wilks-এর \(\chi^2_k\), আর Pearson-এর GOF/independence কাগজে নয় শুধু, computer-এও বিশ্বাসযোগ্য হয়। চারটে অংশ, §৪-এর কাঠামো অনুসরণ করে:

  1. PART 1 — তিন statistic এক নমুনায় (§৪.১–৪.৪)। একটা Normal নমুনায় (\(\sigma\) জানা, \(H_0:\mu=\mu_0\)) LRT \(-2\log\Lambda\), Wald \(W\), ও score \(U\) হিসাব করব, \(\chi^2_1\) critical value-র সাথে তুলনা করব, আর দেখব এই বিশেষ ক্ষেত্রে তিনটে হুবহু \(Z^2\)-এ মেলে — (d)-র সমতার সরাসরি সংখ্যা।
  2. PART 2 — Wilks (§৪.১)। \(H_0\) সত্য রেখে হাজার-হাজার নমুনায় \(-2\log\Lambda\) সিমুলেট করব, তার বণ্টনকে \(\chi^2_k\) (\(k=1\))-এর সাথে মেলাব (mean, variance, quantile), আর দেখব \(H_0\) সত্য হলে test ঠিক \(\alpha\approx5\%\) বার বাতিল করে।
  3. PART 3 — Pearson \(\chi^2\) GOF, die-fairness (§৪.৫)। একটা সামান্য-পক্ষপাতী die ছুঁড়ে \(\sum(O_i-E_i)^2/E_i\) হাতে হিসাব করব, scipy.stats.chisquare-এর সাথে মিলিয়ে p-value নেব, আর \(\chi^2_5\) critical-এর সাথে তুলনা করব।
  4. PART 4 — contingency-table independence (§৪.৫)। একটা \(2\times3\) table-এ \(E_{ij}=\frac{\text{row}\cdot\text{col}}{n}\) আর \(\chi^2=\sum(O-E)^2/E\) হাতে হিসাব করব, scipy.stats.chi2_contingency-র সাথে মিলিয়ে \(\chi^2_2\)-এ সিদ্ধান্ত নেব।

সব এলোমেলোতা আসে numpy-র আধুনিক generator default_rng থেকে, একটা স্থির seed (20260619) বসিয়ে — তাই ফলাফল পুনরুৎপাদনযোগ্য (reproducible): যে যতবার চালাবে হুবহু একই সংখ্যা পাবে। critical value ও p-value আসে scipy.stats থেকে। (নিচে ছাপানো সব সংখ্যা স্ক্রিপ্টটা সত্যিই চালিয়ে পাওয়া, হাতে-বানানো নয়।)

৫.১ · সম্পূর্ণ স্ক্রিপ্ট

# Chapter 4.8 — Likelihood Ratio, Wald & Score Tests; Goodness-of-Fit : Code Lab
# Numerically illustrates / verifies (sections 4 & 5):
#   PART 1 — Compute LRT (-2 log Lambda), Wald, and Score statistics on ONE
#            sample (Normal mean, sigma known) and compare to chi2_1 critical
#            value; show all three coincide here and give the same decision.
#   PART 2 — Wilks' theorem: simulate -2 log Lambda under H0 many times and show
#            its sampling distribution matches chi2_k  (here k = 1).
#   PART 3 — Pearson chi-square GOODNESS-OF-FIT: test a die for fairness
#            (sum (O-E)^2 / E) with a p-value via scipy.stats.chisquare.
#   PART 4 — Contingency-table INDEPENDENCE chi-square (Pearson) on a 2x3 table.
# Reproducible: numpy default_rng with a fixed seed; criticals from scipy.stats.

import numpy as np
from scipy import stats

SEED = 20260619
rng  = np.random.default_rng(SEED)            # fixed seed => fully reproducible
np.set_printoptions(precision=6, suppress=True)

# ===========================================================================
# PART 1 — LRT / WALD / SCORE on ONE sample, then compare to chi2_1 critical.
#   Model: X_1..X_n ~ Normal(mu, sigma^2), sigma KNOWN.  Test H0: mu = mu0.
#   Closed forms (all functions of Z = (xbar - mu0)/(sigma/sqrt(n))):
#     -2 log Lambda = n (xbar - mu0)^2 / sigma^2  = Z^2
#     Wald  W       = (muhat - mu0)^2 / Var_hat   = Z^2   (Var_hat = sigma^2/n)
#     Score U       = [score(mu0)]^2 / (n I)      = Z^2
#   => in this Normal-known-sigma case the three are ALGEBRAICALLY identical.
# ===========================================================================
print("=" * 74)
print("PART 1 - LRT / Wald / Score statistics on ONE sample, vs chi2_1 critical")
print("         Model: Normal(mu, sigma^2), sigma known.  H0: mu = mu0")
print("=" * 74)

mu_true, sigma = 5.0, 2.0
mu0 = 4.0                       # null value (deliberately != mu_true so H0 is FALSE)
n1  = 40
alpha = 0.05
crit1 = stats.chi2.ppf(1 - alpha, df=1)        # chi2_1 critical value (=3.8415)

x1   = rng.normal(mu_true, sigma, size=n1)
xbar = x1.mean()
muhat = xbar                                   # MLE of mu (sigma known)

# (a) Likelihood ratio:  -2 log Lambda = n (xbar - mu0)^2 / sigma^2
lrt = n1 * (xbar - mu0)**2 / sigma**2

# (b) Wald:  W = (muhat - mu0)^2 / Var_hat,  Var_hat = sigma^2 / n  (= 1/(nI))
var_hat = sigma**2 / n1
wald    = (muhat - mu0)**2 / var_hat

# (c) Score (Rao):  U = [U(mu0)]^2 / (n I),   score U(mu0) = sum(x - mu0)/sigma^2,
#     Fisher info I(mu) = 1/sigma^2, so n I = n/sigma^2.
score_at_mu0 = np.sum(x1 - mu0) / sigma**2
nI    = n1 / sigma**2
score = score_at_mu0**2 / nI

zval  = (xbar - mu0) / (sigma / np.sqrt(n1))    # the common Z; all stats = Z^2

print(f"\n  n={n1}, sigma={sigma} (known), mu0={mu0}, true mu={mu_true}, alpha={alpha}")
print(f"  xbar = {xbar:.5f}     Z=(xbar-mu0)/(sigma/sqrt n) = {zval:.5f}   Z^2 = {zval**2:.5f}")
print(f"\n  {'statistic':<26}{'value':>12}{'crit chi2_1':>14}{'reject H0?':>12}")
print("  " + "-" * 62)
for name, val in [("-2 log Lambda (LRT)", lrt), ("Wald  W", wald), ("Score U (Rao)", score)]:
    print(f"  {name:<26}{val:>12.5f}{crit1:>14.5f}{str(val > crit1):>12}")
# p-values (all from chi2_1 survival function)
print(f"\n  p-values (chi2_1 sf):  LRT={stats.chi2.sf(lrt,1):.5f}  "
      f"Wald={stats.chi2.sf(wald,1):.5f}  Score={stats.chi2.sf(score,1):.5f}")
print("  Read-off: for Normal mean with sigma known the three statistics are")
print("  ALGEBRAICALLY equal (all = Z^2); each exceeds chi2_1=3.84, so H0: mu=4")
print("  is rejected.  In general the three differ but agree asymptotically.")

# ===========================================================================
# PART 2 — WILKS' THEOREM:  under H0,  -2 log Lambda  -> chi2_k  (here k = 1).
#   Simulate many samples WITH H0 TRUE (mu = mu0), recompute -2 log Lambda each
#   time, and compare the empirical distribution to chi2_1 (quantiles + tail).
# ===========================================================================
print("\n" + "=" * 74)
print("PART 2 - Wilks' theorem: distribution of -2 log Lambda under H0 vs chi2_k")
print(f"         k = 1 restriction;  H0 TRUE (mu = mu0 = {mu0})")
print("=" * 74)
REP = 200_000
nW  = 40
# Under H0 the data ARE generated with mu = mu0:
samp = rng.normal(mu0, sigma, size=(REP, nW))
xbarW = samp.mean(axis=1)
lam2  = nW * (xbarW - mu0)**2 / sigma**2        # -2 log Lambda for each sample
k = 1

print(f"\n  REP={REP}, n={nW}, sigma={sigma} known.")
print(f"  empirical mean of -2logLambda = {lam2.mean():.4f}   (chi2_{k} mean  = {k})")
print(f"  empirical var  of -2logLambda = {lam2.var(ddof=1):.4f}   (chi2_{k} var   = {2*k})")
print(f"\n  {'quantile':>9}{'empirical':>12}{'chi2_1 theory':>16}")
print("  " + "-" * 37)
for q in [0.50, 0.90, 0.95, 0.99]:
    print(f"  {q:>9.2f}{np.quantile(lam2, q):>12.4f}{stats.chi2.ppf(q, k):>16.4f}")
rej = np.mean(lam2 > crit1)
print(f"\n  rejection rate at alpha={alpha} (i.e. P(-2logLambda > {crit1:.4f})) = {rej:.4f}")
print("  Read-off: mean ~ 1, var ~ 2, quantiles match chi2_1, and the test rejects")
print("  H0 about alpha=5% of the time when H0 is TRUE -> Wilks' chi2_k holds.")

# ===========================================================================
# PART 3 — PEARSON chi-square GOODNESS-OF-FIT:  is a die fair?
#   chi2 = sum (O_i - E_i)^2 / E_i,  df = (#categories - 1) = 5 for a 6-faced die.
#   We roll a SLIGHTLY loaded die, then test H0: all faces equally likely (1/6).
# ===========================================================================
print("\n" + "=" * 74)
print("PART 3 - Pearson chi-square goodness-of-fit: testing a die for fairness")
print("=" * 74)
n_rolls = 600
# A slightly loaded die: face 6 a bit more likely, face 1 a bit less.
p_loaded = np.array([0.13, 0.17, 0.17, 0.17, 0.17, 0.19])
faces    = rng.choice(np.arange(1, 7), size=n_rolls, p=p_loaded)
O = np.array([np.sum(faces == f) for f in range(1, 7)])     # observed counts O_i
E = np.full(6, n_rolls / 6.0)                               # expected under fairness
chi2_gof = np.sum((O - E)**2 / E)                           # Pearson statistic
df_gof   = 6 - 1
crit_gof = stats.chi2.ppf(1 - alpha, df_gof)
# scipy cross-check (same statistic + p-value):
chi2_sp, p_sp = stats.chisquare(f_obs=O, f_exp=E)

print(f"\n  rolls = {n_rolls};  H0: every face has probability 1/6  (E_i = {E[0]:.1f})")
print(f"  {'face':>5}{'O_i':>7}{'E_i':>8}{'(O-E)^2/E':>12}")
print("  " + "-" * 32)
for f in range(6):
    print(f"  {f+1:>5}{O[f]:>7}{E[f]:>8.1f}{(O[f]-E[f])**2/E[f]:>12.4f}")
print("  " + "-" * 32)
print(f"  Pearson chi2 (by hand) = {chi2_gof:.4f}   df = {df_gof}")
print(f"  scipy.stats.chisquare  : chi2 = {chi2_sp:.4f},  p-value = {p_sp:.4f}")
print(f"  chi2_{df_gof} critical (alpha={alpha}) = {crit_gof:.4f}   "
      f"=> reject H0? {chi2_gof > crit_gof}")
print("  Read-off: by-hand statistic equals scipy's exactly; compare to chi2_5 and")
print("  to the p-value to decide whether the observed counts are 'too far' from fair.")

# ===========================================================================
# PART 4 — CONTINGENCY-TABLE INDEPENDENCE (Pearson chi-square).
#   2x3 table.  H0: row and column variables are independent.
#   E_ij = (row_i total)(col_j total) / grand total;  chi2 = sum (O-E)^2/E;
#   df = (r-1)(c-1).  Cross-checked with scipy.stats.chi2_contingency.
# ===========================================================================
print("\n" + "=" * 74)
print("PART 4 - Contingency-table independence: Pearson chi-square on a 2x3 table")
print("=" * 74)
# Observed counts (e.g. treatment {A,B} x outcome {worse, same, better}); a real
# (non-independent) association is baked in.
Otab = np.array([[30, 40, 50],
                 [50, 35, 20]], dtype=float)
row = Otab.sum(axis=1, keepdims=True)         # row totals
col = Otab.sum(axis=0, keepdims=True)         # column totals
N   = Otab.sum()                              # grand total
Etab = row @ col / N                          # expected counts under independence
chi2_ind = np.sum((Otab - Etab)**2 / Etab)
r, c = Otab.shape
df_ind = (r - 1) * (c - 1)
crit_ind = stats.chi2.ppf(1 - alpha, df_ind)
chi2_c, p_c, dof_c, exp_c = stats.chi2_contingency(Otab, correction=False)

print("\n  Observed O_ij:")
print("   ", str(Otab.astype(int)).replace("\n", "\n    "))
print("  Expected E_ij under independence (row*col/N):")
print("   ", np.array2string(Etab, precision=3).replace("\n", "\n    "))
print(f"\n  Pearson chi2 (by hand) = {chi2_ind:.4f}   df = (r-1)(c-1) = {df_ind}")
print(f"  scipy.chi2_contingency : chi2 = {chi2_c:.4f},  p = {p_c:.6f},  dof = {dof_c}")
print(f"  chi2_{df_ind} critical (alpha={alpha}) = {crit_ind:.4f}   "
      f"=> reject independence? {chi2_ind > crit_ind}")
print("  Read-off: by-hand chi2 matches scipy; small p-value => reject H0, i.e. the")
print("  row and column variables are NOT independent (there is an association).")
print("\n[done] all parts ran.")

৫.২ · বাস্তব আউটপুট ও পাঠোদ্ধার

স্ক্রিপ্টটা চালালে নিচের আউটপুট পাওয়া যায় (হুবহু, seed 20260619):

==========================================================================
PART 1 - LRT / Wald / Score statistics on ONE sample, vs chi2_1 critical
         Model: Normal(mu, sigma^2), sigma known.  H0: mu = mu0
==========================================================================

  n=40, sigma=2.0 (known), mu0=4.0, true mu=5.0, alpha=0.05
  xbar = 4.70200     Z=(xbar-mu0)/(sigma/sqrt n) = 2.21991   Z^2 = 4.92800

  statistic                        value   crit chi2_1  reject H0?
  --------------------------------------------------------------
  -2 log Lambda (LRT)            4.92800       3.84146        True
  Wald  W                        4.92800       3.84146        True
  Score U (Rao)                  4.92800       3.84146        True

  p-values (chi2_1 sf):  LRT=0.02642  Wald=0.02642  Score=0.02642
  Read-off: for Normal mean with sigma known the three statistics are
  ALGEBRAICALLY equal (all = Z^2); each exceeds chi2_1=3.84, so H0: mu=4
  is rejected.  In general the three differ but agree asymptotically.

==========================================================================
PART 2 - Wilks' theorem: distribution of -2 log Lambda under H0 vs chi2_k
         k = 1 restriction;  H0 TRUE (mu = mu0 = 4.0)
==========================================================================

  REP=200000, n=40, sigma=2.0 known.
  empirical mean of -2logLambda = 0.9951   (chi2_1 mean  = 1)
  empirical var  of -2logLambda = 1.9834   (chi2_1 var   = 2)

   quantile   empirical   chi2_1 theory
  -------------------------------------
       0.50      0.4524          0.4549
       0.90      2.6920          2.7055
       0.95      3.8286          3.8415
       0.99      6.6281          6.6349

  rejection rate at alpha=0.05 (i.e. P(-2logLambda > 3.8415)) = 0.0495
  Read-off: mean ~ 1, var ~ 2, quantiles match chi2_1, and the test rejects
  H0 about alpha=5% of the time when H0 is TRUE -> Wilks' chi2_k holds.

==========================================================================
PART 3 - Pearson chi-square goodness-of-fit: testing a die for fairness
==========================================================================

  rolls = 600;  H0: every face has probability 1/6  (E_i = 100.0)
   face    O_i     E_i   (O-E)^2/E
  --------------------------------
      1     76   100.0      5.7600
      2    103   100.0      0.0900
      3    103   100.0      0.0900
      4    100   100.0      0.0000
      5    111   100.0      1.2100
      6    107   100.0      0.4900
  --------------------------------
  Pearson chi2 (by hand) = 7.6400   df = 5
  scipy.stats.chisquare  : chi2 = 7.6400,  p-value = 0.1772
  chi2_5 critical (alpha=0.05) = 11.0705   => reject H0? False
  Read-off: by-hand statistic equals scipy's exactly; compare to chi2_5 and
  to the p-value to decide whether the observed counts are 'too far' from fair.

==========================================================================
PART 4 - Contingency-table independence: Pearson chi-square on a 2x3 table
==========================================================================

  Observed O_ij:
    [[30 40 50]
     [50 35 20]]
  Expected E_ij under independence (row*col/N):
    [[42.667 40.    37.333]
     [37.333 35.    32.667]]

  Pearson chi2 (by hand) = 17.2672   df = (r-1)(c-1) = 2
  scipy.chi2_contingency : chi2 = 17.2672,  p = 0.000178,  dof = 2
  chi2_2 critical (alpha=0.05) = 5.9915   => reject independence? True
  Read-off: by-hand chi2 matches scipy; small p-value => reject H0, i.e. the
  row and column variables are NOT independent (there is an association).

[done] all parts ran.

পাঠোদ্ধার — কী শিখলাম।

  • PART 1 (তিন test এক নমুনায়, §৪.১–৪.৪ যাচাই)। এই নমুনায় \(\bar X=4.702\), তাই \(Z=(4.702-4)/(2/\sqrt{40})=2.220\), আর \(Z^2=4.928\)। তিনটে statistic — LRT \(-2\log\Lambda\), Wald \(W\), score \(U\)তিনটেই হুবহু \(4.92800\), এবং তিনটেরই p-value \(=0.02642\)। এটাই §৪.৪-এর সমতার সবচেয়ে পরিষ্কার দৃষ্টান্ত: Normal-known-\(\sigma\)-তে log-likelihood ঠিক প্যারাবোলা, তাই Taylor approximation নিখুঁত হয়ে যায় এবং তিন test বীজগণিতে অভিন্ন (\(=Z^2\))। তিনটেই \(\chi^2_1\) critical \(3.841\) ছাড়িয়ে গেছে, তাই \(H_0:\mu=4\) বাতিল — যা সঠিক, কারণ সত্য \(\mu=5\)। (সাধারণ মডেলে তিনটে সামান্য আলাদা সংখ্যা দিত, কিন্তু একই সিদ্ধান্তে আসত।)

  • PART 2 (Wilks, §৪.১ যাচাই)। \(H_0\) সত্য রেখে (\(\mu=\mu_0=4\)) \(200{,}000\) বার \(-2\log\Lambda\) সিমুলেট করায়: empirical mean \(0.9951\) (\(\chi^2_1\)-এর তাত্ত্বিক mean \(=k=1\)), variance \(1.9834\) (\(\chi^2_1\)-এর variance \(=2k=2\)) — মিলে গেছে। quantile-গুলোও কাছাকাছি: median \(0.4524\) বনাম \(0.4549\), \(95\)-তম percentile \(3.8286\) বনাম \(3.8415\)। সবচেয়ে গুরুত্বপূর্ণ — \(\alpha=0.05\)-এ rejection rate \(0.0495\), অর্থাৎ \(H_0\) সত্য হলে test ঠিক \(\approx5\%\) বার ভুল করে বাতিল করে (Type I error nominal-এর গায়ে)। এটাই §৪.১.৩-এর \(-2\log\Lambda\xrightarrow{d}\chi^2_k\)-এর সংখ্যাগত প্রমাণ। (Figure 4-8-wilks-এ এই histogram-এর উপর \(\chi^2_1\) curve overlay করা হয়েছে।)

  • PART 3 (Pearson GOF, die-fairness, §৪.৫ যাচাই)। \(600\) বার ছোঁড়ায় observed count \([76,103,103,100,111,107]\), expected সব \(100\)। হাতে-হিসাব \(\chi^2=\sum(O_i-E_i)^2/E_i=5.76+0.09+0.09+0+1.21+0.49=7.64\), আর scipy.stats.chisquare হুবহু একই \(7.6400\) (p \(=0.1772\)) — অর্থাৎ §৪.৫-এর সূত্রটাই scipy ভেতরে চালায়। df \(=6-1=5\), critical \(11.07\); \(7.64<11.07\) (p \(>0.05\)), তাই \(H_0\) বাতিল হয় না। শিক্ষণীয় বিন্দু: die আসলে সামান্য পক্ষপাতী ছিল (face 1 কম, face 6 বেশি), কিন্তু \(n=600\)-এ সেই ছোট পক্ষপাত ধরা পড়ার মতো যথেষ্ট শক্তিশালী সাক্ষ্য জমেনি — test বাতিল-না-করা মানে "\(H_0\) প্রমাণিত" নয়, কেবল "যথেষ্ট সাক্ষ্য নেই" (power-এর প্রশ্ন, 4.7/4.9)।

  • PART 4 (contingency-table independence, §৪.৫ যাচাই)। \(2\times3\) table-এ \(E_{ij}=\frac{\text{row}_i\cdot\text{col}_j}{n}\) সূত্রে expected বের করে (যেমন cell \((1,1)\): \(\frac{120\times80}{225}=42.667\)), হাতে-হিসাব \(\chi^2=17.2672\), আর scipy.stats.chi2_contingency হুবহু একই (\(17.2672\), p \(=0.000178\), dof \(=2\))। df \(=(2-1)(3-1)=2\), critical \(5.99\); \(17.27\gg5.99\) (p অতি ছোট), তাই independence বাতিল — row ও column চলকের মধ্যে স্পষ্ট সম্পর্ক আছে। (correction=False দিলাম যাতে scipy Yates-সংশোধন ছাড়া ঠিক আমাদের raw Pearson-সূত্রই ব্যবহার করে — তাই সংখ্যা হুবহু মেলে।)

চারটে PART একসাথে §৪-এর পুরো শৃঙ্খল সংখ্যায় বেঁধে দেয়: তিন test একই \(Z^2\)-এ মেলে (PART 1, §৪.৪) → \(H_0\)-র অধীনে \(-2\log\Lambda\)-এর বণ্টন ঠিক \(\chi^2_k\) (PART 2, §৪.১, Wilks) → আর categorical data-য় সেই একই \(\chi^2\)-যন্ত্র Pearson-এর \(\sum(O_i-E_i)^2/E_i\) রূপে GOF (PART 3) ও independence (PART 4) test চালায়, df যথাক্রমে \(m-1\)\((r-1)(c-1)\)

৬ · ভিজ্যুয়ালাইজেশন

চারটি ছবি একটি স্ক্রিপ্ট _code/figs_4-8.py-তে তৈরি; PNG _assets/-এ (prefix 4-8, dpi=150)। in-figure লেখা সব ইংরেজিতে (Bengali-font সমস্যা এড়াতে), আর প্রতিটি ছবির ক্যাপশনে কী লক্ষ করতে হবে আলাদা করে বলা — beginner-এর জন্য এটাই আসল শেখার সূত্র। চলমান উদাহরণ: E1 LRT; E2 Wald; E3 score; E4 Pearson \(\chi^2\) goodness-of-fit ও independence।

এই অধ্যায়ের গোটা গল্পটা চারটা প্রশ্নে ধরা যায়, আর প্রতিটার একটা ছবি আছে। (১) likelihood ratio, Wald আর score — এই তিনটা test আসলে একই log-likelihood পাহাড়ের তিনটা ভিন্ন দিক থেকে মাপ; কোনটা কী মাপে তা জ্যামিতিকভাবে দেখতে কেমন (Figure 1)? (২) LRT-এর statistic \(-2\log\Lambda\) কেন \(H_0\)-র অধীনে একটা \(\chi^2_k\) বণ্টন মেনে চলে — অর্থাৎ Wilks' theorem-টা সিমুলেশনে কেমন দেখায় (Figure 2)? (৩) categorical data-য় observed গণনা \(O_i\) আর প্রত্যাশিত গণনা \(E_i\)-এর তফাত কীভাবে একটা Pearson \(\chi^2\) goodness-of-fit statistic-এ রূপ নেয়, আর সেটা \(\chi^2\)-table-এর সাথে তুলনা করলে কী সিদ্ধান্ত আসে (Figure 3)? (৪) তিনটা test (LRT, Wald, score) ছোট নমুনায় আলাদা মান দিলেও বড় নমুনায় কেন একই জায়গায় মিলে যায় (Figure 4)? প্রথম ছবিটা জ্যামিতি (তিন test-এর ছবি), দ্বিতীয়টা কেন \(\chi^2\) (Wilks), তৃতীয়টা categorical \(\chi^2\) (GOF-এর প্রয়োগ), আর চতুর্থটা তিন test-এর সমতা (asymptotic equivalence)।

Figure 1 — একই পাহাড়ের তিন দৃষ্টি: LRT, Wald, score

এই অধ্যায়ের কেন্দ্রীয় অন্তর্দৃষ্টি একটাই ছবিতে: তিনটা test একই log-likelihood বক্ররেখা \(\ell(\theta)\)-র ওপর তিনটা ভিন্ন দূরত্ব মাপে — কিন্তু সবাই একই প্রশ্নের উত্তর খোঁজে: null মান \(\theta_0\) কি পাহাড়ের চূড়া (MLE \(\hat\theta\)) থেকে অনেক দূরে? নীল বক্ররেখাটা log-likelihood (এখানে normal mean, \(\sigma\) জানা, তাই একটা মসৃণ উল্টানো parabola); চূড়ায় নীল বিন্দু MLE \(\hat\theta\), আর \(\theta_0\)-তে লাল বিন্দু। সবুজ (LRT): \(\theta_0\)-তে বক্ররেখা চূড়া থেকে কতটা নিচে নেমেছে — উল্লম্ব ড্রপ \(\ell(\hat\theta)-\ell(\theta_0)\); এই ড্রপ-ই \(\tfrac12(-2\log\Lambda)\)কমলা (Wald): চূড়ার \(\theta\)-অবস্থান আর \(\theta_0\)-এর মধ্যে অনুভূমিক দূরত্ব \(\hat\theta-\theta_0\) (পরে variance দিয়ে scale করা হয়)। বেগুনি (score): \(\theta_0\)-তে বক্ররেখার ঢাল (tangent), \(U(\theta_0)=\ell'(\theta_0)\) — চূড়ায় ঢাল \(0\), তাই \(\theta_0\)-তে ঢাল যত খাড়া, \(\theta_0\) চূড়া থেকে তত দূরে।

যা লক্ষ করতে হবে: (ক) তিনটা রঙিন চিহ্ন তিন দিক থেকে একই ফাঁক মাপছে — উল্লম্ব (উচ্চতার তফাত), অনুভূমিক (অবস্থানের তফাত), আর ঢাল (চূড়ার দিকে কত জোরে টানছে)। ছোট ফাঁক ⇒ তিনটাই ছোট ⇒ \(H_0\) গ্রহণযোগ্য; বড় ফাঁক ⇒ তিনটাই বড় ⇒ \(H_0\) প্রত্যাখ্যান। (খ) LRT-এর দুই প্রান্তে fit লাগে (চূড়া \(\hat\theta\) আর \(\theta_0\) — দুটোতেই log-lik হিসাব), Wald-এর শুধু চূড়ায় (\(\hat\theta\) ও সেখানকার curvature), score-এর শুধু \(\theta_0\)-তে (null-এ ঢাল ও information — MLE বের করাই লাগে না)। এই "কোথায় হিসাব করতে হয়" পার্থক্যটাই কোন test কখন সুবিধাজনক তা ঠিক করে। (গ) চূড়াটা মসৃণ ও গোলাকার বলেই তিনটা মাপ পরস্পর সম্পর্কিত: একটা quadratic approximation-এ উল্লম্ব ড্রপ, অনুভূমিক দূরত্বের বর্গ, আর ঢাল — সবাই একই curvature (Fisher information) দিয়ে বাঁধা, আর সেখান থেকেই Figure 4-এর সমতা আসে।

A single log-likelihood curve plotted against the parameter theta, shaped like a smooth downward-opening parabola ("a hill"), used to show the geometry of the likelihood-ratio, Wald, and score tests at once. The blue curve is the log-likelihood ell(theta); a blue dot at its summit marks the maximum-likelihood estimate theta-hat (labelled "top of hill") and a red dot lower on the curve marks the null value theta-0. Three coloured annotations mark three different distances. A green double-headed vertical arrow runs from the summit height down to the curve's height at theta-0, labelled "LRT: vertical drop, ell(theta-hat) minus ell(theta-0)". An orange double-headed horizontal arrow runs along a low horizontal level from theta-0 across to theta-hat, labelled "Wald: horizontal distance, theta-hat minus theta-0". A purple straight tangent line touches the curve at theta-0 showing its slope there, labelled "score: slope of ell at theta-0, U(theta-0) equals ell-prime(theta-0)". Dotted vertical guide lines drop from theta-0 and theta-hat to the axis. The title reads "Three views of one hill: LRT (vertical), Wald (horizontal), score (slope) - all measure how far the null theta-0 sits from the peak theta-hat". The viewer should notice that all three coloured marks gauge the same gap between theta-0 and the peak from three directions (height difference, horizontal position, and steepness of slope), that a small gap makes all three statistics small while a large gap makes all three large, and that the LRT uses the fit at both theta-hat and theta-0, the Wald uses only the peak, and the score uses only the null point.

Figure 2 — Wilks' theorem: \(-2\log\Lambda\) কেন \(\chi^2_k\)

Figure 1 দেখাল LRT হলো log-likelihood-এর উল্লম্ব ড্রপ; এই ছবি দেখায় সেই ড্রপ থেকে বানানো statistic \(-2\log\Lambda\) \(H_0\)-র অধীনে কোন বণ্টন মেনে চলে — এটাই Wilks' theorem: বড় নমুনায় \(-2\log\Lambda \xrightarrow{d} \chi^2_k\), যেখানে \(k\) = কতগুলো প্যারামিটার \(H_0\) আটকে রাখে (restrictions বা degrees of freedom)। দুটো প্যানেল। বাঁ (k = 1): একটা প্যারামিটার আটকানো (\(H_0:\theta=\theta_0\)); \(H_0\) সত্য ধরে ৩০,০০০ বার নমুনা টেনে প্রতিবার \(-2\log\Lambda\) হিসাব করে নীল histogram বানানো, আর তার ওপর লাল \(\chi^2_1\) density বসানো — দুটো প্রায় হুবহু মিলে যায়ডান (k = 2): দুটো প্যারামিটার আটকানো; এবার histogram \(\chi^2_2\) density-র সাথে মেলে। প্রতিটিতে সবুজ ভাঙা রেখা \(95\%\) critical value (\(\chi^2_{1,0.95}=3.84\), \(\chi^2_{2,0.95}=5.99\)) — যার ডানে \(5\%\) rejection region।

যা লক্ষ করতে হবে: (ক) histogram (সিমুলেটেড সত্য) আর লাল curve (তত্ত্বের \(\chi^2_k\)) একে অপরের ওপর বসে যায় — অর্থাৎ Wilks' theorem-টা শুধু সূত্র নয়, সিমুলেশনে সত্যিই খাটে। এটাই LRT-কে practical করে তোলে: \(-2\log\Lambda\) বের করে সরাসরি \(\chi^2_k\)-table-এ দেখলেই p-value পাওয়া যায়, আলাদা করে কঠিন বণ্টন বের করতে হয় না। (খ) \(k\) বদলালে আকার বদলায়: \(\chi^2_1\) শূন্যের কাছে আকাশছোঁয়া (চূড়াহীন, ডানে দ্রুত নামে), \(\chi^2_2\) একটা মসৃণ ক্ষয়িষ্ণু (exponential-আকৃতি) — তাই সঠিক \(k\) (df) গোনা জরুরি, নইলে ভুল critical value আসবে। (গ) critical value-র ডানে যে \(5\%\) অঞ্চল, \(H_0\) সত্য হলেও statistic ঘটনাক্রমে সেখানে পড়তে পারে — এটাই test-এর type I error rate \(\alpha=0.05\), পদ্ধতির অনিবার্য অংশ (4.7-এর ধারণা)। (ঘ) এই approximation বড় নমুনার; ছোট \(n\)-এ histogram \(\chi^2\) থেকে একটু সরে যেতে পারে — তখন exact বা simulation-ভিত্তিক পদ্ধতি (4.9) লাগে।

A two-panel figure demonstrating Wilks' theorem by overlaying a simulated histogram of the statistic minus-two-log-Lambda under the null hypothesis with the corresponding chi-square density. The overall title reads "Wilks' theorem: under H0, minus two log Lambda converges to chi-square with k degrees of freedom (k equals number of restrictions)". The LEFT panel, titled "k equals 1: one restricted parameter, histogram matches chi-square 1", shows a blue density histogram of thirty thousand simulated values of minus-two-log-Lambda computed under the null, which rises sharply near zero and falls off quickly; a red curve for the chi-square-1 density lies almost exactly on top of the histogram; a dashed green vertical line marks the ninety-five percent critical value chi-square-1,0.95 equals 3.84 with a label noting the five percent reject region lies to its right. The RIGHT panel, titled "k equals 2: two restricted parameters, histogram matches chi-square 2", shows the analogous blue histogram, now a smooth decaying exponential-like shape, with the red chi-square-2 density lying on top of it, and a dashed green line at the critical value chi-square-2,0.95 equals 5.99. The viewer should notice that in each panel the simulated histogram and the theoretical chi-square density coincide, confirming Wilks' theorem empirically, that the shape of the limiting distribution depends on k (the number of restrictions or degrees of freedom), and that the area beyond the green critical value is the five percent rejection region that the test tolerates even when the null is true.

Figure 3 — Pearson \(\chi^2\) goodness-of-fit: observed বনাম expected

এবার categorical data-র জন্য সবচেয়ে চেনা test (E4): একটা ঝোঁকহীন (fair) ছক্কা কি সত্যিই ঝোঁকহীন? \(n=120\) বার গড়ানো হলো; \(H_0\) (fair) সত্য হলে প্রতিটা মুখ আশা করি \(E_i=120/6=20\) বার। বাঁ প্যানেল: নীল দণ্ড observed গণনা \(O_i\) (মুখপিছু সত্যিকারের ফল: \(16,25,18,14,29,18\)), কমলা দণ্ড expected \(E_i=20\) (কমলা ডটেড রেখায় সমান উচ্চতা)। ওপরের বাক্সে Pearson statistic \(\chi^2=\sum_i\frac{(O_i-E_i)^2}{E_i}=8.30\) (\(df=k-1=5\))। ডান প্যানেল: বেগুনি \(\chi^2_5\) reference density; লাল ভাঙা রেখা ও ছায়া \(95\%\) critical value \(\chi^2_{5,0.95}=11.07\)-এর ডানে \(5\%\) rejection region; নীল মোটা রেখা আমাদের observed statistic \(8.30\) — যা critical value-এর বাঁয়ে (rejection region-এর বাইরে)।

যা লক্ষ করতে হবে: (ক) প্রতিটা \(\frac{(O_i-E_i)^2}{E_i}\) আসলে একটা scaled squared mismatch — দণ্ড-জোড়ার উচ্চতার তফাত যত বড়, সেই মুখের অবদান তত বড় (এখানে মুখ "৫": \(O=29\) বনাম \(E=20\), অবদান \(\frac{81}{20}=4.05\) — সবচেয়ে বড়)। সব অবদান যোগ করে মোট \(\chi^2=8.30\)। তফাত যত বড়, statistic তত বড়, \(H_0\) তত অবিশ্বাস্য। (খ) সিদ্ধান্তের নিয়ম: observed $8.30 < 11.07 = $ critical value (p \(=0.14 > 0.05\)), তাই \(H_0\) প্রত্যাখ্যান করা যায় না — এই ওঠানামা \(120\) বার গড়ানোয় কেবল randomness দিয়েই ব্যাখ্যা করা যায়, ছক্কাটা ঝোঁকওয়ালা বলার যথেষ্ট প্রমাণ নেই। (গ) \(df=k-1=5\) (৬টা মুখ, ১টা constraint: গণনাগুলোর যোগফল \(n\)-এ স্থির), \(6\) নয় — এই df-গোনা না-পারলে ভুল critical value আসবে। (ঘ) একই \(\chi^2\) যন্ত্র test of independence-এও খাটে: তখন \(E_i\) আসে row-total × column-total ÷ grand-total থেকে, আর \(df=(r-1)(c-1)\) — observed বনাম "independence ধরলে যা হতো" তার তফাত মাপা।

A two-panel figure for a Pearson chi-square goodness-of-fit test on a die. The LEFT panel, titled "Goodness-of-fit: observed vs expected counts, n equals 120 rolls, H0 fair die (E_i equals 20)", is a grouped bar chart over the six die faces 1 through 6; for each face a blue bar shows the observed count O_i (16, 25, 18, 14, 29, 18, with the numbers printed above the bars) next to an orange bar fixed at the expected count E_i equals 20, with a dotted orange reference line across at height 20. A boxed annotation gives the Pearson statistic chi-square equals sum over i of (O_i minus E_i) squared over E_i, equals 8.30, with degrees of freedom equals 5. The RIGHT panel, titled "Compare statistic to chi-square 5: chi-square equals 8.30 is less than 11.07 (p equals 0.14): do not reject", plots the chi-square-5 reference density as a purple curve, shades the upper five percent reject region in red beyond a dashed red line at the critical value chi-square-5,0.95 equals 11.07, and draws a solid blue vertical line at the observed statistic 8.30, which falls to the left of the critical value, outside the reject region. The viewer should notice that each face's contribution to the statistic is a scaled squared gap between its blue observed bar and the orange expected bar (face 5, observed 29 versus expected 20, contributes the most), that the total statistic 8.30 is smaller than the critical value 11.07 so the null fair-die hypothesis is not rejected, and that the degrees of freedom are k minus 1 equals 5 because the counts are constrained to sum to n.

Figure 4 — তিন test-এর সমতা: \(n\) বাড়লে এক বিন্দুতে মিলন

শেষ ছবি Figure 1-এর তিন test-কে আবার একসাথে আনে, কিন্তু এবার প্রশ্ন: এরা কি একই উত্তর দেয়? ছোট নমুনায় LRT, Wald, score তিনটা আলাদা সংখ্যা দিতে পারে (কারণ তারা পাহাড়ের ভিন্ন জায়গায় হিসাব করে — Figure 1), কিন্তু বড় নমুনায় তিনটাই একই মানে মিলে যায় — এটাই তাদের asymptotic equivalence। উদাহরণ: Bernoulli\((p)\), \(H_0:p=0.5\), আর data এমন যে \(\hat p_n=p_0+c/\sqrt n\) (একটা "local alternative", যা \(n\) বাড়লে \(p_0\)-এর দিকে আসে)। বাঁ প্যানেল: অনুভূমিক অক্ষ \(n\) (log-scale); সবুজ LRT, কমলা Wald, বেগুনি score তিনটা curve — ছোট \(n\)-এ স্পষ্ট আলাদা (Wald সবার ওপরে), \(n\) বাড়লে একটা সাধারণ মানে (~\(10.2\)) গুটিয়ে আসে; ধূসর রেখা \(\chi^2_{1,0.95}=3.84\)ডান প্যানেল: LRT-এর সাপেক্ষে অনুপাত — কমলা Wald/LRT উপর থেকে, বেগুনি score/LRT নিচ থেকে, দুটোই \(n\) বাড়লে \(1\)-এ মিলে যায় (সবুজ রেখা)।

যা লক্ষ করতে হবে: (ক) ছোট \(n\)-এ তিনটা curve আলাদা — তাই ছোট নমুনায় কোন test বাছছেন তা সিদ্ধান্ত বদলে দিতে পারে (Wald এখানে সবচেয়ে বড়, একটু liberal)। কিন্তু বড় \(n\)-এ পার্থক্য মুছে যায়। (খ) ডান প্যানেলে অনুপাত \(\to 1\): \(n=30\)-এ Wald/LRT \(\approx 1.42\), score/LRT \(\approx 0.94\) (বেশ আলাদা); \(n\) কয়েক হাজার হলে দুটোই \(1.00\)-এর গায়ে — অর্থাৎ তিন test কার্যত একই। এই সমতার কারণ Figure 1-এর জ্যামিতি: বড় নমুনায় log-likelihood চূড়ার কাছে প্রায়-নিখুঁত parabola (quadratic), আর parabola-র জন্য উল্লম্ব ড্রপ, অনুভূমিক দূরত্বের বর্গ, আর ঢাল-ভিত্তিক মাপ — তিনটাই একই curvature (Fisher information) দিয়ে হুবহু মিলে যায়। (গ) তাহলে কোনটা ব্যবহার করব? বড় নমুনায় যেটা সুবিধাজনক: score (MLE বের করা লাগে না, শুধু \(\theta_0\)-তে হিসাব), Wald (CI বানানো সহজ, MLE ও তার se থেকে), LRT (প্রায়ই সবচেয়ে নির্ভরযোগ্য ছোট-নমুনা আচরণ)। তিনটাই বৈধ; শুধু ছোট নমুনায় ফল আলাদা হতে পারে।

A two-panel figure showing that the likelihood-ratio, Wald, and score test statistics converge to the same value as the sample size grows. The LEFT panel, titled "Three statistics close in on one value (p-hat sub n equals p-0 plus c over root n, approaching p-0 equals 0.5)", plots the three statistics against sample size n on a logarithmic horizontal axis: a green curve for the LRT statistic minus-two-log-Lambda, an orange curve for the Wald statistic W, and a purple curve for the score statistic U. At small n the three curves are clearly separated, with Wald highest, but as n grows they all draw together toward a common value near ten; a dashed grey horizontal line marks the critical value chi-square-1,0.95 equals 3.84. The RIGHT panel, titled "Ratios converge to 1: the tests become equivalent as n grows (asymptotic equivalence)", plots the ratio of each statistic to the LRT statistic against n on a log axis: the orange Wald-over-LRT ratio descends from about 1.42 at small n toward 1, and the purple score-over-LRT ratio rises from about 0.94 toward 1, both meeting a dashed green reference line at ratio equals 1. The viewer should notice that the three statistics differ noticeably for small samples (so the choice of test can matter then), that all pairwise ratios converge to one as n grows so the tests become practically identical, and that this equivalence arises because for large n the log-likelihood near its peak is nearly a perfect parabola whose vertical drop, squared horizontal distance, and slope are all tied to the same curvature.


৭ · অনুশীলনী

প্রতিটি প্রশ্নে difficulty tag (★ সহজ · ★★ মাঝারি · ★★★ চ্যালেঞ্জিং) ও একটি hint। পূর্ণ সমাধান _solutions/04-08-likelihood-ratio-wald-score-gof-solutions.md-এ। চেষ্টা না করে সমাধান দেখবেন না — হোঁচট খাওয়াটাই শেখার অংশ। (স্মারক: likelihood ratio \(\Lambda=\dfrac{\sup_{\theta\in\Theta_0}L(\theta)}{\sup_{\theta\in\Theta}L(\theta)}=\dfrac{L(\theta_0)}{L(\hat\theta)}\) [simple null]; LRT statistic \(-2\log\Lambda \xrightarrow{d}\chi^2_k\) (Wilks); Wald \(W=\dfrac{(\hat\theta-\theta_0)^2}{\widehat{\mathrm{se}}^{\,2}}\); score \(U(\theta_0)=\ell'(\theta_0)\), score statistic \(\dfrac{U(\theta_0)^2}{I(\theta_0)}\xrightarrow{d}\chi^2_1\); Pearson \(\chi^2=\sum_i\dfrac{(O_i-E_i)^2}{E_i}\), GOF df \(=k-1-(\text{আঁচ-করা প্যারামিটার})\), independence df \(=(r-1)(c-1)\)। চলমান উদাহরণ: E1 LRT; E2 Wald; E3 score; E4 Pearson \(\chi^2\) GOF + independence।)

ক · ধারণাগত (conceptual)

প্রশ্ন ১ (★). নিজের ভাষায় বলুন likelihood ratio \(\Lambda\), \(-2\log\Lambda\), আর Wilks' theorem কী। \(\Lambda\) সবসময় \(0\) আর \(1\)-এর মধ্যে থাকে কেন, আর \(\Lambda\) ছোট হওয়া মানে \(H_0\)-এর পক্ষে না বিপক্ষে প্রমাণ? Hint: \(\Lambda=L(\theta_0)/L(\hat\theta)\); লব হলো null-এ best likelihood, হর হলো সর্বত্র best (MLE)-এ — তাই লব \(\le\) হর, মানে \(0\le\Lambda\le1\) (Figure 1-এ \(\ell(\theta_0)\le\ell(\hat\theta)\))। \(\Lambda\) ছোট ⇒ null model অনেক খারাপ fit করে ⇒ \(H_0\)-এর বিপক্ষে প্রমাণ। Wilks: \(H_0\)-র অধীনে \(-2\log\Lambda\xrightarrow{d}\chi^2_k\)

প্রশ্ন ২ (★★) — [তিন test-এর তুলনা]. LRT, Wald, আর score test — তিনটা কোথায় (কোন \(\theta\)-মানে) likelihood-এর হিসাব করে, আর প্রতিটার সুবিধা কী? Figure 1 থেকে ব্যাখ্যা করুন কোনটা MLE \(\hat\theta\) বের না করেও চালানো যায়। Hint: LRT: \(\hat\theta\) আর \(\theta_0\) দুটোতেই (উল্লম্ব ড্রপ)। Wald: শুধু \(\hat\theta\)-তে (অনুভূমিক দূরত্ব + সেখানকার curvature)। score: শুধু \(\theta_0\)-তে (ঢাল ও information) — তাই score-এ MLE বের করা লাগে না, \(H_0\) যখন simple ও MLE বের করা কঠিন তখন সুবিধাজনক।

প্রশ্ন ৩ (★★). Pearson goodness-of-fit test-এ \(O_i\)\(E_i\) কী, আর statistic \(\chi^2=\sum_i\frac{(O_i-E_i)^2}{E_i}\)-এ ভাগফলে \(E_i\) থাকে কেন (শুধু \((O_i-E_i)^2\) নয়)? Figure 3 থেকে বলুন কোন category সবচেয়ে বেশি অবদান রাখল ও কেন। Hint: \(O_i\) = সত্যিকারের গণনা, \(E_i=n p_i^{(0)}\) = \(H_0\) সত্য হলে প্রত্যাশিত গণনা। \(E_i\) দিয়ে ভাগ করায় তফাতটা আপেক্ষিক হয় (বড় \(E_i\)-তে বড় ওঠানামা স্বাভাবিক, তাই কম শাস্তি — এটি Poisson-style variance scaling)। Figure 3-এ মুখ "৫": \((29-20)^2/20=4.05\) সবচেয়ে বড়।

প্রশ্ন ৪ (★★). "তিনটা test বড় নমুনায় equivalent" — এই কথার মানে কী, আর Figure 4 অনুসারে ছোট নমুনায় কী ঘটে? equivalence-এর পেছনে log-likelihood-এর কোন আকৃতিগত (geometric) কারণ আছে (Figure 1-এর সাথে যোগ করুন)? Hint: asymptotic equivalence = \(n\to\infty\)-এ তিন statistic-এর অনুপাত \(\to1\) (একই \(\chi^2_k\) limit)। ছোট \(n\)-এ তিনটা আলাদা সংখ্যা (Figure 4-বাঁ, অনুপাত \(\ne1\))। কারণ: বড় নমুনায় log-lik চূড়ার কাছে প্রায়-নিখুঁত parabola (quadratic), যেখানে উল্লম্ব/অনুভূমিক/ঢাল-মাপ একই Fisher information দিয়ে মেলে।

খ · গাণনিক (computational)

প্রশ্ন ৫ (★) — E1 (LRT)। একটা মুদ্রা \(n=100\) বার ছুঁড়ে \(x=62\) বার head এলো। \(H_0:p=0.5\) বনাম \(H_1:p\ne0.5\) টেস্ট করতে \(-2\log\Lambda\) বের করুন এবং \(\chi^2_{1,0.95}=3.84\)-এর সাথে তুলনা করে সিদ্ধান্ত নিন। (সূত্র: \(-2\log\Lambda=2n\big[\hat p\log\frac{\hat p}{p_0}+(1-\hat p)\log\frac{1-\hat p}{1-p_0}\big]\), \(\hat p=0.62\)।) Hint: \(2\times100\big[0.62\ln\frac{0.62}{0.5}+0.38\ln\frac{0.38}{0.5}\big]=200[0.62(0.2151)+0.38(-0.2744)]=200(0.02909)=5.82\)\(5.82>3.84\)\(H_0\) প্রত্যাখ্যান (p \(\approx0.016\))।

প্রশ্ন ৬ (★★) — E2 (Wald)। একই data (\(n=100\), \(\hat p=0.62\), \(H_0:p=0.5\))। Wald statistic \(W=\frac{(\hat p-p_0)^2}{\hat p(1-\hat p)/n}\) বের করুন, \(\chi^2_{1,0.95}\)-এর সাথে তুলনা করুন, এবং প্রশ্ন ৫-এর LRT মানের সাথে মিলিয়ে দেখুন — কাছাকাছি কি? Hint: \(\widehat{\mathrm{var}}=\hat p(1-\hat p)/n=0.62\times0.38/100=0.002356\); \(W=(0.12)^2/0.002356=0.0144/0.002356=6.11\)\(6.11>3.84\) ⇒ প্রত্যাখ্যান। LRT \(5.82\)-র কাছাকাছি (Wald একটু বড়, Figure 4-এর মতো) — \(n=100\)-এ এখনও পুরো মিল নয়।

প্রশ্ন ৭ (★★) — E3 (score)। একই data। score statistic \(S=\frac{(\hat p-p_0)^2}{p_0(1-p_0)/n}\) বের করুন (লক্ষ করুন variance এখন \(p_0\)-তে হিসাব, \(\hat p\)-তে নয়)। তিনটা মান (LRT \(5.82\), Wald \(6.11\), score) পাশাপাশি রাখুন — কোনটা সবচেয়ে ছোট/বড়? Hint: \(p_0(1-p_0)/n=0.5\times0.5/100=0.0025\); \(S=(0.12)^2/0.0025=0.0144/0.0025=5.76\)। ক্রম: score \(5.76<\) LRT \(5.82<\) Wald \(6.11\) — তিনটাই \(>3.84\), একই সিদ্ধান্ত, মানে কাছাকাছি (এটাই Figure 4-এর ছোট-\(n\) ছবি; এখানে score = Pearson \(\chi^2\)-এর সমতুল্য)।

প্রশ্ন ৮ (★★) — E4 (Pearson \(\chi^2\) GOF)। একটা ছক্কা \(n=60\) বার গড়ানো: মুখ ১–৬-এর গণনা \(O=(8,10,9,12,7,14)\)। ছক্কাটা fair কিনা (\(H_0:p_i=1/6\)) Pearson \(\chi^2\) দিয়ে টেস্ট করুন। \(E_i\), \(\chi^2\), df ও সিদ্ধান্ত দিন (\(\chi^2_{5,0.95}=11.07\))। Hint: \(E_i=60/6=10\) সবার। \(\chi^2=\frac{(8\!-\!10)^2+(10\!-\!10)^2+(9\!-\!10)^2+(12\!-\!10)^2+(7\!-\!10)^2+(14\!-\!10)^2}{10}=\frac{4+0+1+4+9+16}{10}=\frac{34}{10}=3.4\)। df \(=6-1=5\); \(3.4<11.07\) ⇒ fair প্রত্যাখ্যান করা যায় না (p \(\approx0.64\))।

গ · প্রমাণভিত্তিক (proof-based)

প্রশ্ন ৯ (★★) — score = Pearson \(\chi^2\) (multinomial)। \(k\)-শ্রেণির multinomial-এ \(H_0:p_i=p_i^{(0)}\) টেস্টে দেখান যে score statistic-টি ঠিক Pearson \(\chi^2=\sum_i\frac{(O_i-E_i)^2}{E_i}\)-এ পরিণত হয় (যেখানে \(O_i\) = observed গণনা, \(E_i=np_i^{(0)}\))। অর্থাৎ E3 (score) আর E4 (Pearson GOF) আসলে একই জিনিসHint: multinomial log-lik \(\ell(p)=\sum_i O_i\log p_i\) (constraint \(\sum p_i=1\)); \(\theta_0=p^{(0)}\)-তে score vector ও Fisher information বের করে quadratic form \(U^\top I^{-1}U\) গঠন করুন। বীজগণিতে সরলীকরণে \(\sum_i\frac{(O_i-np_i^{(0)})^2}{np_i^{(0)}}\) পড়ে — ঠিক Pearson \(\chi^2\) (df \(=k-1\), constraint-এর জন্য)।

প্রশ্ন ১০ (★★) — Wilks (normal mean ক্ষেত্রে exact)। \(X_1,\dots,X_n\overset{iid}{\sim}\mathcal{N}(\theta,\sigma^2)\), \(\sigma\) জানা; \(H_0:\theta=\theta_0\)। দেখান যে এখানে \(-2\log\Lambda=\frac{n(\bar X-\theta_0)^2}{\sigma^2}\), এবং \(H_0\)-র অধীনে এটি ঠিক (asymptotic নয়) \(\chi^2_1\) — অর্থাৎ এই বিশেষ ক্ষেত্রে Wilks' theorem হুবহু খাটে। Hint: \(\ell(\theta)=-\frac{1}{2\sigma^2}\sum(X_i-\theta)^2+\)const; MLE \(\hat\theta=\bar X\)\(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\theta_0)]=\frac{1}{\sigma^2}[\sum(X_i-\theta_0)^2-\sum(X_i-\bar X)^2]=\frac{n(\bar X-\theta_0)^2}{\sigma^2}\)\(H_0\)-তে \(\frac{\bar X-\theta_0}{\sigma/\sqrt n}\sim\mathcal{N}(0,1)\), তাই তার বর্গ \(\sim\chi^2_1\) exactly। (এটাই Figure 1-এর উল্লম্ব ড্রপ, আর Figure 2-বাঁয়ের \(k=1\) histogram-এর তাত্ত্বিক ভিত্তি।)

প্রশ্ন ১১ (★★★) — তিন test-এর asymptotic equivalence। smooth log-likelihood-এ \(\theta_0\)-র কাছে দ্বিতীয়-ক্রম (Taylor) প্রসারণ ব্যবহার করে দেখান যে LRT statistic \(-2\log\Lambda\), Wald \(W\), আর score statistic \(S\) — তিনটাই বড় নমুনায় একই limit-এ যায় (\(\xrightarrow{d}\chi^2_k\)), অর্থাৎ Figure 4-এর অনুপাত-অভিসরণ। (single-parameter ক্ষেত্রে যথেষ্ট।) Hint: \(\ell(\theta)\approx\ell(\hat\theta)-\frac12 I(\hat\theta)(\theta-\hat\theta)^2\) (চূড়ায় ঢাল \(0\), curvature \(\approx I\))। এখান থেকে: \(-2\log\Lambda\approx I(\hat\theta)(\hat\theta-\theta_0)^2\) (উল্লম্ব ড্রপ); \(W=(\hat\theta-\theta_0)^2 I(\hat\theta)\) (একই!); score \(U(\theta_0)\approx I(\hat\theta)(\hat\theta-\theta_0)\), তাই \(S=U^2/I\approx I(\hat\theta)(\hat\theta-\theta_0)^2\)। তিনটাই \(\approx I\cdot(\hat\theta-\theta_0)^2\), পার্থক্য শুধু \(I\) কোথায় হিসাব (\(\hat\theta\) না \(\theta_0\)) — যা \(\hat\theta\xrightarrow{P}\theta_0\) হওয়ায় মুছে যায়।

ঘ · কোডিং (coding)

প্রশ্ন ১২ (★★) — Wilks সিমুলেশন (Figure 2 পুনর্নির্মাণ)। \(\mathcal{N}(\theta_0=0,1)\) থেকে \(n=40\)-এর নমুনা \(20{,}000\) বার টেনে প্রতিবার \(H_0:\theta=0\)-এর জন্য \(-2\log\Lambda=n\bar x^2\) হিসাব করুন। (ক) histogram আর \(\chi^2_1\) density পাশাপাশি প্লট করুন — মেলে কি? (খ) সিমুলেটেড statistic-এর কত ভাগ \(\chi^2_{1,0.95}=3.84\) ছাড়িয়ে যায় — \(\approx0.05\) কি (type I error)? Hint:

import numpy as np
from scipy import stats
rng = np.random.default_rng(0)
n, R = 40, 20000
xbar = rng.normal(0, 1/np.sqrt(n), size=R)
lr = n * xbar**2                       # -2 log Lambda, exact chi^2_1 under H0
print("reject rate:", (lr > stats.chi2.ppf(0.95, 1)).mean())   # ~0.05
\(\sigma\) জানা ও normal হওয়ায় \(-2\log\Lambda\) ঠিক \(\chi^2_1\) (প্রশ্ন ১০), তাই reject rate \(\approx0.05\), histogram density-র সাথে মেলে।

প্রশ্ন ১৩ (★★) — তিন test পাশাপাশি (Bernoulli)। Bernoulli\((p)\), \(H_0:p=0.5\)। একটা ফাংশন লিখুন যা \(n\) ও observed \(\hat p\) নিয়ে LRT, Wald, score তিনটা statistic ফেরত দেয়। \(n=100,\hat p=0.62\)-তে চালিয়ে প্রশ্ন ৫–৭-এর হাতে-হিসাব (\(5.82,6.11,5.76\)) যাচাই করুন; তারপর \(n\) বড় করে (একই \(\hat p\)) দেখান তিনটা মান কাছাকাছি আসে। Hint:

import numpy as np
def three_tests(n, phat, p0=0.5):
    lrt = 2*n*(phat*np.log(phat/p0) + (1-phat)*np.log((1-phat)/(1-p0)))
    wald = n*(phat-p0)**2 / (phat*(1-phat))      # var at MLE
    score = n*(phat-p0)**2 / (p0*(1-p0))         # var at p0
    return lrt, wald, score
print(three_tests(100, 0.62))   # ~ (5.82, 6.11, 5.76)
তিনটাই \(>3.84\), একই সিদ্ধান্ত। (নোট: ঠিক equivalence দেখতে \(\hat p\)-কেও \(p_0\)-র দিকে আনতে হয় — Figure 4-এর local alternative; না হলে অনুপাত একটা constant-এ আটকায়, \(1\)-এ নয়।)

প্রশ্ন ১৪ (★★★) — \(\chi^2\) test of independence (E4-এর দ্বিতীয় রূপ)। একটা \(2\times2\) contingency table ([[30, 20], [25, 45]], যেমন treatment×outcome) থেকে \(H_0:\) row ও column স্বাধীন টেস্ট করুন। (ক) row/column total থেকে \(E_{ij}=\frac{\text{row}_i\times\text{col}_j}{n}\) হিসাব করে Pearson \(\chi^2\) ও df \(=(r-1)(c-1)=1\) বের করুন; (খ) scipy.stats.chi2_contingency-র ফলের সাথে মিলিয়ে দেখুন। Hint:

import numpy as np
from scipy import stats
O = np.array([[30, 20], [25, 45]])
chi2, p, dof, E = stats.chi2_contingency(O, correction=False)
print(f"chi2={chi2:.3f}, df={dof}, p={p:.4f}")   # df=1
# হাতে: E = row_totals[:,None]*col_totals[None,:]/n; sum((O-E)**2/E)
\(E_{ij}\) = "independence ধরলে যা হতো"; observed তা থেকে যত দূরে, \(\chi^2\) তত বড়। df \(=(2-1)(2-1)=1\)। একই \(\chi^2\)-যন্ত্র, শুধু \(E_i\) আসে independence-অনুমান থেকে (GOF-এ আসত নির্দিষ্ট \(p_i^{(0)}\) থেকে)।


৮ · সারসংক্ষেপ ও সংযোগ

মূল পয়েন্ট (recap):

  • এক পাহাড়, তিন test (Figure 1)। likelihood ratio, Wald, আর score — তিনটাই একই log-likelihood বক্ররেখায় "\(\theta_0\) চূড়া থেকে কত দূরে" মাপে, তিন ভিন্ন দিক থেকে: LRT = উল্লম্ব ড্রপ \(-2\log\Lambda=2[\ell(\hat\theta)-\ell(\theta_0)]\) (\(\hat\theta\)\(\theta_0\) দুটোতেই fit); Wald \(W=(\hat\theta-\theta_0)^2/\widehat{\mathrm{se}}^{\,2}\) (শুধু MLE-তে); score \(S=U(\theta_0)^2/I(\theta_0)\) (শুধু \(\theta_0\)-তে, MLE বের না করেই)।
  • Wilks' theorem (Figure 2)। বড় নমুনায় \(H_0\)-র অধীনে \(-2\log\Lambda\xrightarrow{d}\chi^2_k\), যেখানে \(k\) = \(H_0\) যতগুলো প্যারামিটার আটকায় (restrictions/df)। এটাই LRT-কে practical করে: statistic বের করে সরাসরি \(\chi^2_k\)-table-এ দেখলেই p-value। সিমুলেশনে histogram ঠিক \(\chi^2_k\)-এ বসে (§৭ Q10, Q12)।
  • Pearson \(\chi^2\) goodness-of-fit (Figure 3)। categorical data-য় \(\chi^2=\sum_i\frac{(O_i-E_i)^2}{E_i}\) — observed \(O_i\) বনাম \(H_0\)-প্রত্যাশিত \(E_i=np_i^{(0)}\)-এর scaled squared mismatch-এর যোগফল; বড় হলে \(H_0\) খারিজ। GOF df \(=k-1-(\text{আঁচ-করা প্যারামিটার সংখ্যা})\); test of independence-এ \(E_{ij}=\frac{\text{row}_i\,\text{col}_j}{n}\), df \(=(r-1)(c-1)\) — একই যন্ত্র, ভিন্ন \(E\) (§৭ Q8, Q14)।
  • score = Pearson (§৭ Q9)। multinomial-এ score statistic বীজগণিতে ঠিক Pearson \(\chi^2\)-এ পরিণত হয় — অর্থাৎ E3 আর E4 গভীরভাবে এক; Pearson \(\chi^2\) আসলে multinomial-এর score test।
  • তিন test-এর সমতা (Figure 4)। ছোট নমুনায় LRT, Wald, score আলাদা সংখ্যা দিতে পারে, কিন্তু বড় নমুনায় তিনটাই একই \(\chi^2_k\) limit-এ মিলে যায় (অনুপাত \(\to1\))। কারণ: বড় \(n\)-এ log-lik চূড়ার কাছে প্রায়-নিখুঁত parabola, যেখানে উল্লম্ব/অনুভূমিক/ঢাল-মাপ একই Fisher information দিয়ে বাঁধা (§৭ Q11)। তাই কোনটা ব্যবহার করবেন তা সুবিধার প্রশ্ন: score (MLE লাগে না), Wald (CI-র সাথে সুসংগত), LRT (প্রায়ই সেরা ছোট-নমুনা আচরণ)।
  • CI ↔ test দ্বৈততা (4.6 থেকে)। Wald statistic-এর \(\sqrt{}\) ঠিক 4.6-এর Wald CI-র z-অনুপাত; একটা \((1-\alpha)\) Wald CI হলো সেই সব \(\theta_0\)-এর সংগ্রহ যাদের Wald test \(\alpha\)-level-এ প্রত্যাখ্যান করে না।

পূর্ববর্তী সংযোগ (← 4.7 Hypothesis Testing; এবং 4.3, 4.5): 4.7-এ আমরা hypothesis testing-এর কাঠামো গড়েছি — \(H_0\) বনাম \(H_1\), type I/II error, p-value, power, আর Neyman–Pearson lemma যা বলে simple বনাম simple ক্ষেত্রে likelihood ratio-ই সবচেয়ে শক্তিশালী (most powerful) test। এই অধ্যায় সেই likelihood-ratio ধারণাকে composite ও বহুমাত্রিক ক্ষেত্রে সাধারণীকরণ করল (\(\Lambda=\sup_{\Theta_0}L/\sup_{\Theta}L\), \(-2\log\Lambda\sim\chi^2_k\)) আর তার সাথে দুটো সহগামী test (Wald, score) যোগ করল। ভিত্তিগত উপাদান এসেছে আগে থেকে: 4.3-এর MLE ও log-likelihood (\(\hat\theta\), \(\ell(\theta)\) — Figure 1-এর পাহাড়), আর 4.5-এর Fisher information \(I(\theta)\) ও MLE-র asymptotic normality — যেখান থেকে Wald-এর \(\widehat{\mathrm{se}}\), score-এর \(I(\theta_0)\), আর তিন test-এর \(\chi^2\)-limit সবই আসে। অর্থাৎ 4.7 ছিল testing-এর সাধারণ নীতি; 4.8 হলো সেই নীতি প্রয়োগের তিনটা সর্বজনীন পদ্ধতি এবং categorical data-র \(\chi^2\) পরিবার।

পরবর্তী সংযোগ (→ 4.9 — Bootstrap: simulation-ভিত্তিক inference): এই অধ্যায়ের পুরো শক্তি একটা সূত্রের ওপর দাঁড়িয়ে — "\(-2\log\Lambda\) বা Wald বা \(\chi^2\) statistic-এর বণ্টন (asymptotically) \(\chi^2_k\)।" কিন্তু এই \(\chi^2\) approximation বড় নমুনার, আর অনেক বাস্তব সমস্যায় (ছোট \(n\), জটিল estimator, অদ্ভুত statistic) এমন কোনো সুন্দর সূত্র জানাই থাকে না বা ভালো খাটে না। পরের অধ্যায় উল্টো পথে যায়: যখন formula কঠিন বা অজানা, তখন data থেকেই বারবার resample করে (bootstrap) statistic-এর sampling distribution সিমুলেশনে বানিয়ে নেওয়া — standard error, confidence interval, এমনকি p-value পর্যন্ত। যেমন Figure 2-তে আমরা সিমুলেশনে \(-2\log\Lambda\)-এর বণ্টন দেখলাম (কিন্তু সেখানে সত্য \(H_0\) জানা ছিল), bootstrap সেই simulation-ভিত্তিক চিন্তাকে হাতের data দিয়ে করে যখন তত্ত্ব নীরব। এটি এই অধ্যায়ের চমৎকার পরিপূরক: classical theory দেয় ঝকঝকে সূত্র যেখানে সেগুলো খাটে, bootstrap দেয় সাধারণ-উদ্দেশ্য হাতিয়ার যেখানে সূত্র নেই।

বৃহত্তর স্থান (where this sits): 4.8 হলো Part IV-এর শেষ "classical/parametric inference" অধ্যায় — point estimation (4.1–4.5), confidence intervals (4.6), hypothesis testing (4.7), আর testing-এর তিন মহাপদ্ধতি + \(\chi^2\) (4.8) মিলে frequentist parametric inference-এর কাঠামো সম্পূর্ণ। এর পরে দৃষ্টিভঙ্গি বদলায়: 4.9 (bootstrap) নিয়ে আসে resampling/simulation-ভিত্তিক inference, এবং তারপর Bayesian দৃষ্টিভঙ্গি — যেখানে অনিশ্চয়তা আঁকা হয় formula-নির্ভরতা কমিয়ে, computation দিয়ে। অর্থাৎ এই অধ্যায়ের সাথে এক যুগ (closed-form, large-sample \(\chi^2\) তত্ত্ব) শেষ, আর পরের অধ্যায় থেকে computation-চালিত inference-এর যুগ শুরু।

সূত্র (sources): L. Wasserman, All of Statistics, Ch. 10 (Hypothesis Testing and p-values — §10.5 Wald test, §10.6 likelihood ratio test ও Wilks' theorem, §10.7 multinomial ও goodness-of-fit, §10.8 Pearson \(\chi^2\) ও test of independence); J. A. Rice, Mathematical Statistics and Data Analysis, Ch. 9 (Testing Hypotheses — §9.4–9.5 likelihood ratio tests ও generalized LRT, §9.5 Pearson's chi-square statistic, goodness-of-fit ও independence)।