مقالات

5.3: اختبار جودة الملاءمة - الرياضيات


في هذا النوع من اختبار الفرضية ، يمكنك تحديد ما إذا كانت البيانات "تناسب" توزيعًا معينًا أم لا. يمكنك استخدام اختبار مربع كاي (بمعنى أن توزيع اختبار الفرضية هو مربع كاي) لتحديد ما إذا كان هناك توافق أم لا. يمكن كتابة الفرضيات الفارغة والبديلة لهذا الاختبار في جمل أو يمكن ذكرها كمعادلات أو عدم مساواة.

إحصائية الاختبار لاختبار جودة الملاءمة هي:

أين:

  • (O = ) القيم المرصودة (البيانات)
  • (E = ) القيم المتوقعة (من الناحية النظرية)
  • (k = ) عدد خلايا أو فئات البيانات المختلفة

القيم المرصودة هي قيم البيانات والقيم المتوقعة هي القيم التي تتوقع الحصول عليها إذا كانت الفرضية الصفرية صحيحة. هناك (n ) مصطلحات من النموذج ( frac {(O - E) ^ {2}} {E} ).

عدد درجات الحرية (df = ( text {عدد الفئات} - 1) ).

دائمًا ما يكون اختبار جودة الملاءمة هو اختبار الذيل الأيمن. إذا لم تكن القيم المرصودة والقيم المتوقعة المقابلة قريبة من بعضها البعض ، فيمكن أن تصبح إحصائية الاختبار كبيرة جدًا وستكون بعيدة في الذيل الأيمن لمنحنى كاي سكوير.

يجب أن تكون القيمة المتوقعة لكل خلية خمسة على الأقل حتى تتمكن من استخدام هذا الاختبار.

مثال 11.3.1

يعد تغيب طلاب الجامعات عن فصول الرياضيات مصدر قلق كبير لمعلمي الرياضيات لأن الغياب عن الفصل يبدو أنه يزيد من معدل الانخفاض. افترض أنه تم إجراء دراسة لتحديد ما إذا كان معدل تغيب الطلاب الفعلي يتبع تصورات أعضاء هيئة التدريس. توقعت هيئة التدريس أن تغيب مجموعة من 100 طالب عن الفصل وفقًا للجدول.

عدد الغيابات لكل فصل دراسيالعدد المتوقع للطلاب
0–250
3–530
6–812
9–116
12+2

ثم تم إجراء مسح عشوائي عبر جميع دورات الرياضيات لتحديد العدد الفعلي (ملاحظ) من الغياب في الدورة. يعرض المخطط في الجدول نتائج هذا الاستطلاع.

عدد الغيابات لكل فصل دراسيالعدد الفعلي للطلاب
0–235
3–540
6–820
9–111
12+4

تحديد الفرضيات الصفرية والبديلة اللازمة لإجراء اختبار ملاءمة الجودة.

  • (ح_ {0} ): تغيب الطلاب تناسبها تصور أعضاء هيئة التدريس.

الفرضية البديلة هي عكس الفرضية الصفرية.

  • (ح_ {أ} ): تغيب الطلاب لا يتناسب تصور أعضاء هيئة التدريس.

تمرين ( PageIndex {1} ). 1

أ. هل يمكنك استخدام المعلومات كما تظهر في الرسوم البيانية لإجراء اختبار ملاءمة الجودة؟

إجابه

أ. لا. لاحظ أن عدد الغيابات المتوقعة للدخول "+12" أقل من خمسة (وهو اثنان). ادمج هذه المجموعة مع مجموعة "9-11" لإنشاء جداول جديدة حيث يكون عدد الطلاب لكل إدخال خمسة على الأقل. النتائج الجديدة في الجدول والجدول.

عدد الغيابات لكل فصل دراسيالعدد المتوقع للطلاب
0–250
3–530
6–812
9+8
عدد الغيابات لكل فصل دراسيالعدد الفعلي للطلاب
0–235
3–540
6–820
9+5

تمرين ( PageIndex {1} ). 2

ب. ما هو عدد درجات الحرية ( (df ))؟

إجابه

ب. توجد أربع "خلايا" أو فئات في كل من الجداول الجديدة.

(df = text {عدد الخلايا} - 1 = 4-1 = 3 )

تمرين ( PageIndex {1} )

كم يتم إنتاجها. يتم سرد عدد العيوب المتوقعة في الجدول.

تم إنتاج العددرقم معيب
0–1005
101–2006
201–3007
301–4008
401–50010

تم أخذ عينة عشوائية لتحديد العدد الفعلي للعيوب. يظهر الجدول نتائج الاستطلاع.

تم إنتاج العددرقم معيب
0–1005
101–2007
201–3008
301–4009
401–50011

اذكر الفرضيات اللاغية والبديلة اللازمة لإجراء اختبار حسن الملاءمة ، وحدد درجات الحرية.

إجابه

(H_ {0} ): عدد الإعدادات الافتراضية يناسب التوقعات.

(H_ {a} ): عدد الافتراضات لا يتناسب مع التوقعات.

(مدافع = 4 )

مثال 11.3.2

يريد أرباب العمل معرفة أيام الأسبوع التي يتغيب الموظفون عنها في أسبوع العمل المكون من خمسة أيام. يود معظم أصحاب العمل الاعتقاد بأن الموظفين يتغيبون بالتساوي خلال الأسبوع. لنفترض أن عينة عشوائية مكونة من 60 مديرًا تم سؤالهم في أي يوم من أيام الأسبوع لديهم أكبر عدد من حالات غياب الموظفين. تم توزيع النتائج كما في الجدول. بالنسبة لسكان الموظفين ، هل تحدث أيام أكبر عدد من حالات الغياب بتواتر متساوية خلال أسبوع العمل المكون من خمسة أيام؟ اختبر عند مستوى أهمية 5٪.

كان موظفو يوم من الأسبوع الغائبين
الاثنينيوم الثلاثاءالأربعاءيوم الخميسجمعة
عدد الغياب15129915

إجابه

الفرضيات الفارغة والبديلة هي:

  • (H_ {0} ): تحدث الأيام الغائبة بترددات متساوية أي أنها تتناسب مع توزيع منتظم.
  • (H_ {a} ): تحدث الأيام الغائبة بترددات غير متساوية ، أي أنها لا تتناسب مع توزيع موحد.

إذا حدثت أيام الغياب بترددات متساوية ، إذن ، من بين 60 يومًا غائبًا (المجموع في العينة: (15 + 12 + 9 + 9 + 15 = 60 )) ، سيكون هناك 12 حالة غياب يوم الاثنين ، 12 يوم الثلاثاء ، 12 يوم الأربعاء ، و 12 يوم الخميس ، و 12 يوم الجمعة. هذه الأرقام هي متوقع ( (E )) القيم. القيم الموجودة في الجدول هي ملاحظ ( (O )) القيم أو البيانات.

هذه المرة ، احسب إحصاء الاختبار ( chi ^ {2} ) يدويًا. قم بعمل مخطط بالعناوين التالية واملأ الأعمدة:

  • المتوقع ( (E )) القيم ((12 ، 12 ، 12 ، 12 ، 12) )
  • القيم المرصودة ( (س )) ((15 ، 12 ، 9 ، 9 ، 15) )
  • ((O - E) )
  • ((O - E) ^ {2} )
  • ( frac {(O - E) ^ {2}} {E} )

الآن أضف (مجموع) العمود الأخير. المجموع ثلاثة. هذه هي إحصائية الاختبار ( chi ^ {2} ).

لتجد ال ص-القيمة ، احسب (P ( chi ^ {2}> 3) ). هذا الاختبار ذو الطرف الأيمن. (استخدم جهاز كمبيوتر أو آلة حاسبة للعثور على ملف ص-القيمة. يجب أن تحصل على (p text {-value} = 0.5578 ).)

(dfs ) هي ( نص {عدد الخلايا} - 1 = 5-1 = 4 )

صحافةالحي الثاني. السهم لأسفل إلى ( chi ^ {2} ) cdf. صحافةأدخل. يدخل(3,10^99,4). عند تقريبه إلى أربع منازل عشرية ، يجب أن تشاهد 0.5578 ، وهو (p text {-value} ).

بعد ذلك ، أكمل رسمًا بيانيًا مثل الرسم التالي بالتسمية والتظليل المناسبين. (يجب تظليل الذيل الأيمن).

الشكل ( PageIndex {1} ).

القرار هو عدم رفض فرضية العدم.

استنتاج: عند مستوى أهمية 5٪ ، من بيانات العينة ، لا توجد أدلة كافية لاستنتاج أن أيام الغياب لا تحدث بترددات متساوية.

لا تحتوي TI-83 + وبعض الآلات الحاسبة TI-84 على برنامج خاص لإحصاء الاختبار لاختبار جودة الملاءمة. المثال التالي يحتوي على إرشادات الآلة الحاسبة. أحدث الآلات الحاسبة TI-84 بهااختبارات STATالاختبارChi2 GOF. لإجراء الاختبار ، ضع القيم الملاحظة (البيانات) في القائمة الأولى والقيم المتوقعة (القيم التي تتوقعها إذا كانت الفرضية الصفرية صحيحة) في قائمة ثانية. صحافةاختبارات STATوChi2 GOF. أدخل أسماء القائمة لقائمة المرصود والقائمة المتوقعة. أدخل درجات الحرية والصحافةاحسبأورسم. تأكد من مسح أي قوائم قبل أن تبدأ. لمسح القوائم في الآلات الحاسبة: اذهب داخلSTAT EDITوالسهم لأعلى إلى منطقة اسم القائمة لقائمة معينة. صحافةصافيثم سهم لأسفل. سيتم مسح القائمة. بدلاً من ذلك ، يمكنك الضغط علىSTATواضغط 4 (لـClrList). أدخل اسم القائمة واضغطأدخل.

تمرين ( PageIndex {2} )

يريد المعلمون معرفة أي ليلة كل أسبوع يقوم فيها طلابهم بمعظم واجباتهم المدرسية. يعتقد معظم المعلمين أن الطلاب يؤدون واجباتهم المدرسية بالتساوي على مدار الأسبوع. لنفترض أن عينة عشوائية من 49 طالبًا قد سُئلت في أي ليلة من الأسبوع قاموا فيها بأكبر عدد من الواجبات المنزلية. تم توزيع النتائج كما في الجدول.

الأحدالاثنينيوم الثلاثاءالأربعاءيوم الخميسجمعةالسبت
عدد الطلاب1181071055

من مجموع الطلاب ، هل الليالي لأكبر عدد من الطلاب الذين يؤدون غالبية واجباتهم المدرسية تحدث مع تواتر متساوي خلال الأسبوع؟ ما نوع اختبار الفرضية الذي يجب عليك استخدامه؟

إجابه

(مدافع = 6 )

(p text {-value} = 0.6093 )

نحن نرفض رفض فرضية العدم. لا توجد أدلة كافية تدعم أن الطلاب لا يؤدون معظم واجباتهم المدرسية بالتساوي على مدار الأسبوع.

مثال 11.3.3

تشير إحدى الدراسات إلى أن عدد أجهزة التلفزيون التي توزعها العائلات الأمريكية (هذا هو معطى التوزيع للسكان الأمريكيين) كما في الجدول.

عدد التليفزيوناتنسبه مئويه
010
116
255
311
4+8

يحتوي الجدول على النسب المئوية المتوقعة ( (E )).

أسفرت عينة عشوائية من 600 عائلة في أقصى غرب الولايات المتحدة عن البيانات في الجدول.

عدد التليفزيوناتتكرر
المجموع = 600
066
1119
2340
360
4+15

يحتوي الجدول على قيم التردد المرصودة ( (O )).

تمرين ( PageIndex {3} ). 1

عند مستوى أهمية 1٪ ، هل يبدو أن توزيع "عدد أجهزة التلفزيون" لعائلات أقصى غرب الولايات المتحدة يختلف عن التوزيع بالنسبة للسكان الأمريكيين ككل؟

إجابه

تطلب منك هذه المشكلة اختبار ما إذا كان توزيع العائلات في أقصى غرب الولايات المتحدة يناسب توزيع العائلات الأمريكية. يتم إجراء هذا الاختبار دائمًا على الطرف الأيمن.

يحتوي الجدول الأول على النسب المئوية المتوقعة. للحصول على توقع (ه) الترددات ، اضرب النسبة المئوية في 600. الترددات المتوقعة موضحة في الجدول.

عدد التليفزيوناتنسبه مئويهالتردد المتوقع
010(0.10)(600) = 60
116(0.16)(600) = 96
255(0.55)(600) = 330
311(0.11)(600) = 66
أكثر من 38(0.08)(600) = 48

لذلك ، فإن الترددات المتوقعة هي 60 و 96 و 330 و 66 و 48. في حاسبات TI ، يمكنك ترك الآلة الحاسبة تقوم بالحسابات. على سبيل المثال ، بدلاً من 60 ، أدخل (0.10 * 600 ).

(H_ {0} ): توزيع "عدد أجهزة التلفزيون" لعائلات أقصى غرب الولايات المتحدة هو نفس توزيع "عدد أجهزة التلفزيون" للسكان الأمريكيين.

(H_ {a} ): يختلف توزيع "عدد أجهزة التلفزيون" لعائلات أقصى غرب الولايات المتحدة عن توزيع "عدد أجهزة التلفزيون" للسكان الأمريكيين.

توزيع الاختبار: ( chi ^ {2} _ {4} ) حيث (df = ( text {عدد الخلايا}) - 1 = 5 - 1 = 4 ).

الملاحظة 11.3.3.1

(df neq 600-1 )

احسب إحصائية الاختبار: ( تشي ^ {2} = 29.65 )

رسم بياني:

الشكل ( PageIndex {2} ).

بيان الاحتمالية: (p text {-value} = P ( chi ^ {2}> 29.65) = 0.000006 )

قارن α و ال ص-القيمة:

(ألفا = 0.01 )

(p text {-value} = 0.000006 )

إذًا ، ( alpha> p text {-value} ).

اصنع قرار: منذ ( alpha> p text {-value} ) ، ارفض (H_ {0} ).

هذا يعني أنك ترفض الاعتقاد بأن التوزيع للولايات الغربية البعيدة هو نفس التوزيع للسكان الأمريكيين ككل.

استنتاج: عند مستوى أهمية 1٪ ، من البيانات ، هناك أدلة كافية لاستنتاج أن توزيع "عدد أجهزة التلفزيون" لأقصى غرب الولايات المتحدة يختلف عن توزيع "عدد أجهزة التلفزيون" للسكان الأمريكيين ككل.

صحافةSTATوأدخل. تأكد من مسح القوائمL1,L2، وL3إذا كانت لديهم بيانات بداخلهم (انظر الملاحظة في نهاية المثال). داخلL1، ضع الترددات المرصودة66,119,349,60,15. داخلL2ضع الترددات المتوقعة.10*600, .16*600,.55*600,.11*600,.08*600. السهم إلى القائمةL3وحتى منطقة الاسم"L3". يدخل(L1-L2) ^ 2 / L2وأدخل. صحافة2 استقال. صحافةالقائمة الثانيةوالسهم إلىرياضيات. صحافة5. يجب أن ترى"مجموع" (أدخل L3). مقربًا إلى منزلتين عشريتين ، يجب أن تشاهد29.65. صحافةالحي الثاني. صحافة7أو السهم لأسفل إلى7: χ2cdfو اضغطأدخل. يدخل(29.65،1E99،4). تقريب إلى أربعة أماكن ، يجب أن ترى5.77E-6 = .000006(مقربًا إلى ستة منازل عشرية) ، وهي القيمة p.

أحدث الآلات الحاسبة TI-84 بهااختبارات STATالاختبارChi2 GOF. تأكد من مسح أي قوائم قبل أن تبدأ.

تمرين ( PageIndex {3} )

يتم توزيع النسبة المئوية المتوقعة لعدد الحيوانات الأليفة التي يمتلكها الطلاب في منازلهم (هذا هو التوزيع المعطى لعدد الطلاب في الولايات المتحدة) كما في الجدول.

عدد من الحيوانات الأليفةنسبه مئويه
018
125
230
318
4+9

أسفرت عينة عشوائية من 1000 طالب من شرق الولايات المتحدة عن البيانات الموجودة في الجدول.

عدد من الحيوانات الأليفةتكرر
0210
1240
2320
3140
4+90

عند مستوى الدلالة 1٪ ، هل يبدو أن توزيع "عدد الحيوانات الأليفة" للطلاب في شرق الولايات المتحدة يختلف عن توزيع الطلاب الأمريكيين ككل؟ ما هو (p text {-value} )؟

إجابه

(p text {-value} = 0.0036 )

نحن نرفض الفرضية الصفرية بأن التوزيعات هي نفسها. هناك أدلة كافية لاستنتاج أن توزيع "عدد الحيوانات الأليفة" للطلاب في شرق الولايات المتحدة يختلف عن توزيع الطلاب في الولايات المتحدة ككل.

مثال 11.3.4

لنفترض أنك قلبت عملتين 100 مرة. النتائج 20 ح ح, 27 HT, 30 العاشرو 23 TT. هل العملات عادلة؟ اختبر عند مستوى أهمية 5٪.

إجابه

يمكن إعداد هذه المشكلة على أنها مشكلة تتعلق بالصلاحية. مساحة العينة لقلب عملتين عاديتين هي ({HH، HT، TH، TT} ). من بين 100 تقلب ، تتوقع 25 ح ح, 25 HT, 25 العاشرو 25 TT. هذا هو التوزيع المتوقع. السؤال: هل العملات عادلة؟ هو نفس القول ، "هل توزيع العملات المعدنية ( (20 HH ، 27 HT ، 30 TH ، 23 TT )) يتناسب مع التوزيع المتوقع؟

متغير عشوائي: لنفترض (X = ) عدد الرؤوس في قلب واحد للقطعتين. (X ) يأخذ القيم 0 ، 1 ، 2. (هناك 0 ، 1 ، أو 2 رأس في قلب عملتين.) لذلك ، عدد الخلايا ثلاثة. نظرًا لأن (X = ) عدد الرؤوس ، فإن الترددات المرصودة هي 20 (لرأسين) ، و 57 (لرأس واحد) ، و 23 (للصفر أو كلا الطرفين) الترددات المتوقعة هي 25 (لرأسين) و 50 (لرأس واحد) و 25 (لصفر رأس أو كلا الطرفين). هذا الاختبار ذو الطرف الأيمن.

(H_ {0} ): العملات المعدنية عادلة.

(H_ {a} ): العملات المعدنية ليست عادلة.

توزيع الاختبار: ( chi ^ {2} _ {2} ) حيث (df = 3 - 1 = 2 ).

احسب إحصائية الاختبار: ( تشي ^ {2} = 2.14 )

رسم بياني:

الشكل ( PageIndex {3} ).

بيان الاحتمالية: (p text {-value} = P ( chi ^ {2}> 2.14) = 0.3430 )

قارن α و ال ص-القيمة:

( ألفا = 0.05 )

(p text {-value} = 0.3430 )

( alpha

اصنع قرار: منذ ( alpha

استنتاج: لا توجد أدلة كافية لاستنتاج أن العملات المعدنية ليست عادلة.

صحافةSTATوأدخل. تأكد من مسح القوائمL1,L2، وL3إذا كانت لديهم بيانات بداخلهم. داخلL1، ضع الترددات المرصودة20,57,23. داخلL2ضع الترددات المتوقعة25,50,25. يجب أن ترى"مجموع".أدخل L3. مقربًا إلى منزلتين عشريتين ، يجب أن تشاهد2.14. السهم لأسفل إلى7: χ2cdf(أو اضغط7). يدخل2.14،1E99،2). تقريب إلى أربعة أماكن ، يجب أن ترى.3430، وهي القيمة الاحتمالية.

أحدث الآلات الحاسبة TI-84 بهااختبارات STATالاختبارChi2 GOF. تأكد من مسح أي قوائم قبل أن تبدأ.

تمرين ( PageIndex {4} )

يفترض الطلاب في فصل الدراسات الاجتماعية أن معدلات معرفة القراءة والكتابة في جميع أنحاء العالم لكل منطقة تبلغ 82٪. يوضح الجدول معدلات معرفة القراءة والكتابة الفعلية في جميع أنحاء العالم مقسمة حسب المنطقة. ما هي احصاء الاختبار ودرجات الحرية؟

منطقة الأهداف الإنمائية للألفيةمعدل محو أمية الكبار (٪)
المناطق المتقدمة99.0
رابطة الدول المستقلة99.5
شمال أفريقيا67.3
أفريقيا جنوب الصحراء الكبرى62.5
أمريكا اللاتينية ومنطقة البحر الكاريبي91.0
شرق اسيا93.8
آسيا الجنوبية61.9
جنوب شرق آسيا91.9
آسيا الغربية84.5
أوقيانوسيا66.4

إجابه

(مدافع = 9 )

( chi ^ {2} text {test statistic} = 26.38 )

الشكل ( PageIndex {4} ).

صحافةSTATوأدخل. تأكد من مسح القوائمL1 ، L2 ،وL3إذا كانت لديهم بيانات بداخلهم. في L1 ، ضع الترددات المرصودة99, 99.5, 67.3, 62.5, 91, 93.8, 61.9, 91.9, 84.5, 66.4. داخلL2ضع الترددات المتوقعة82, 82, 82, 82, 82, 82, 82, 82, 82, 82. مقربًا إلى منزلتين عشريتين ، يجب أن تشاهد26.38. يدخل26.38،1E99،9). تقريب إلى أربعة أماكن ، يجب أن ترى.0018، وهو ص-القيمة.

أحدث الآلات الحاسبة TI-84 بهااختبارات STATالاختبارChi2 GOF. تأكد من مسح أي قوائم قبل أن تبدأ.

مراجع

  1. بيانات من مكتب الإحصاء الأمريكي
  2. بيانات من مجلس الكلية. متاح على الإنترنت في http://www.collegeboard.com.
  3. بيانات من مكتب الإحصاء الأمريكي ، تقارير السكان الحالية.
  4. Ma ، Y. ، ER Bertone ، E.J. ستانيك الثالث ، جي دبليو. ريد ، جيه آر هيبيرت ، ن. كوهين ، ب. ميريام ، إ. Ockene ، "الرابطة بين أنماط الأكل والسمنة في السكان البالغين في الولايات المتحدة الذين يعيشون بحرية." المجلة الأمريكية لعلم الأوبئة المجلد 158 ، لا. 1 ، الصفحات 85-92.
  5. Ogden، Cynthia L.، Margaret D. Carroll، Brian K. Kit، Katherine M. Flegal، "انتشار السمنة في الولايات المتحدة ، 2009-2010." NCHS موجز البيانات رقم. 82 ، يناير / كانون الثاني 2012. متاح على الإنترنت على: http://www.cdc.gov/nchs/data/databriefs/db82.pdf (تمت الزيارة في 24 مايو / أيار 2013).
  6. باربرا جيه ستيفنز ، "مسح النفايات الصلبة وإعادة التدوير التجاري متعدد العائلات." كونت أرلينغتون ، فيرجينيا. متاح على الإنترنت على www.arlingtonva.us/department.../file84429.pdf (تم الوصول إليه في 24 مايو 2013).

إعادة النظر

لتقييم ما إذا كانت مجموعة البيانات تناسب توزيعًا معينًا ، يمكنك تطبيق اختبار فرضية الملاءمة التي تستخدم توزيع مربع كاي. تنص الفرضية الصفرية لهذا الاختبار على أن البيانات تأتي من التوزيع المفترض. يقارن الاختبار القيم الملاحظة بالقيم التي تتوقعها إذا اتبعت بياناتك التوزيع المفترض. يكون الاختبار ذو الطرف الأيمن دائمًا تقريبًا. يجب أن يكون لكل ملاحظة أو فئة خلية قيمة متوقعة لا تقل عن خمسة.

مراجعة الصيغة

( sum_k frac {(O - E) ^ {2}} {E} ) إحصائية اختبار جودة التوافق حيث:

(س ): القيم المرصودة

(E ): القيمة المتوقعة

(k ): عدد خلايا أو فئات البيانات المختلفة

(df = k - 1 ) درجات الحرية

حدد الاختبار المناسب لاستخدامه في التدريبات الثلاثة التالية.

تمرين ( PageIndex {5} )

عالمة آثار تحسب تواتر عدد القطع الأثرية التي تجدها في موقع الحفر. بناءً على الحفريات السابقة ، ينشئ عالم الآثار توزيعًا متوقعًا مقسمًا حسب أقسام الشبكة في موقع الحفر. بمجرد الانتهاء من التنقيب في الموقع بالكامل ، تقارن العدد الفعلي للقطع الأثرية التي تم العثور عليها في كل قسم من أقسام الشبكة لمعرفة ما إذا كانت توقعاتها دقيقة.

تمرين ( PageIndex {6} )

يقوم خبير اقتصادي باشتقاق نموذج للتنبؤ بالنتائج في سوق الأسهم. قام بإنشاء قائمة بالنقاط المتوقعة على مؤشر سوق الأسهم للأسبوعين المقبلين. في ختام تداول كل يوم ، يسجل النقاط الفعلية على المؤشر. إنه يريد أن يرى مدى مطابقة نموذجه مع ما حدث بالفعل.

إجابه

اختبار جودة الملاءمة

تمرين ( PageIndex {7} )

تقوم المدربة الشخصية بوضع برنامج لرفع الأثقال لعملائها. بالنسبة لبرنامج مدته 90 يومًا ، تتوقع أن يرفع كل عميل حدًا أقصى لوزن معين كل أسبوع. مع تقدمها ، تسجل الحد الأقصى الفعلي للأوزان التي رفعها عملاؤها. إنها تريد أن تعرف مدى توافق توقعاتها مع ما لوحظ.

استخدم المعلومات التالية للإجابة على التدريبات الخمسة التالية: يتوقع المعلم أن يتم توزيع الدرجات على الامتحان النهائي ويتم تسجيلها في الجدول.

رتبةحجم
أ0.25
ب0.30
ج0.35
د0.10

التوزيع الفعلي لفئة 20 موجود في الجدول.

رتبةتكرر
أ7
ب7
ج5
د1

تمرين ( PageIndex {8} )

(df = ) ______

إجابه

3

تمرين ( PageIndex {9} )

اذكر الفرضيات الباطلة والبديلة.

تمرين ( PageIndex {10} )

( chi ^ {2} text {test statistic} = ) ______

إجابه

2.04

تمرين ( PageIndex {11} )

(p text {-value} = ) ______

تمرين ( PageIndex {12} )

عند مستوى الأهمية 5٪ ، ماذا يمكنك أن تستنتج؟

إجابه

نحن نرفض رفض فرضية العدم. لا توجد أدلة كافية تشير إلى أن درجات الاختبار التي تمت ملاحظتها تختلف اختلافًا كبيرًا عن درجات الاختبار المتوقعة.

استخدم المعلومات التالية للإجابة على التدريبات التسعة التالية: البيانات التالية حقيقية. يتم تقسيم العدد التراكمي لحالات الإيدز المبلغ عنها في مقاطعة سانتا كلارا حسب العرق كما في الجدول.

عرقعدد القضايا
أبيض2,229
أصل اسباني1,157
أسود / أمريكي من أصل أفريقي457
آسيا ، جزر المحيط الهادئ232
المجموع = 4075

النسبة المئوية لكل مجموعة عرقية في مقاطعة سانتا كلارا كما في الجدول.

عرقالنسبة المئوية لإجمالي عدد سكان المقاطعةالعدد المتوقع (تقريب لأقرب منزلتين عشريتين)
أبيض42.9%1748.18
أصل اسباني26.7%
أسود / أمريكي من أصل أفريقي2.6%
آسيا ، جزر المحيط الهادئ27.8%
المجموع = 100٪

تمرين ( PageIndex {13} )

إذا كانت إثنيات ضحايا الإيدز تتبع الأعراق لإجمالي سكان المقاطعة ، فقم بملء العدد المتوقع للحالات لكل مجموعة عرقية.

قم بإجراء اختبار مدى الملاءمة لتحديد ما إذا كان حدوث حالات الإيدز يتبع الأعراق العامة للسكان في مقاطعة سانتا كلارا.

تمرين ( PageIndex {14} )

(ح_ {0} ): _______

إجابه

(H_ {0} ): يتم توزيع حالات الإيدز وفقًا لأعراق عامة السكان في مقاطعة سانتا كلارا.

تمرين ( PageIndex {15} )

(ح_ {أ} ): _______

تمرين ( PageIndex {16} )

هل هذا اختبار ذيل أيمن أم أيسر أم ذيلان؟

إجابه

الذيل الأيمن

تمرين ( PageIndex {17} )

درجات الحرية = _______

تمرين ( PageIndex {18} )

( chi ^ {2} text {test statistic} ) = _______

إجابه

88,621

تمرين ( PageIndex {19} )

(p text {-value} = ) _______

تمرين ( PageIndex {20} )

رسم بيانيًا للوضع. قم بتسمية وقياس المحور الأفقي. ضع علامة على المتوسط ​​واختبار الإحصاء. الظل في المنطقة المقابلة لـ (p text {-value} ).

الشكل ( PageIndex {5} ).

دع ( ألفا = 0.05 )

قرار: ________________

سبب القرار: ________________

خاتمة (اكتب جمل كاملة): ________________

إجابه

الرسم البياني: تحقق من حل الطالب.

القرار: رفض الفرضية الصفرية.

سبب القرار: (p text {-value} < alpha )

الخلاصة (اكتب في جمل كاملة): تكوين حالات الإيدز لا يتناسب مع الأعراق لدى عامة السكان في مقاطعة سانتا كلارا.

تمرين ( PageIndex {21} )

هل يبدو أن نمط حالات الإيدز في مقاطعة سانتا كلارا يتوافق مع توزيع المجموعات العرقية في هذه المقاطعة؟ لما و لما لا؟


5.3: اختبار جودة الملاءمة - الرياضيات

في هذا النوع من اختبار الفرضية ، يمكنك تحديد ما إذا كانت البيانات & # 8220fit & # 8221 توزيعًا معينًا أم لا. على سبيل المثال ، قد تشك في أن بياناتك غير المعروفة تناسب التوزيع ذي الحدين. يمكنك استخدام اختبار مربع كاي (بمعنى أن توزيع اختبار الفرضية هو مربع كاي) لتحديد ما إذا كان هناك توافق أم لا. يمكن كتابة الفرضيات الفارغة والبديلة لهذا الاختبار في جمل أو يمكن ذكرها كمعادلات أو عدم مساواة.

إحصائية الاختبار لاختبار جودة الملاءمة هي: [اللاتكس] displaystyle < sum_> فارك << (-)>^<<2>>><> [/ لاتكس]

  • ا = القيم المرصودة (البيانات)
  • ه = القيم المتوقعة (من الناحية النظرية)
  • ك = عدد خلايا أو فئات البيانات المختلفة

القيم المرصودة هي قيم البيانات والقيم المتوقعة هي القيم التي تتوقع الحصول عليها إذا كانت الفرضية الصفرية صحيحة. يوجد ن شروط النموذج [اللاتكس] displaystyle frac << (-)>^<<2>>><> [/ لاتكس].

عدد درجات الحرية مدافع = (عدد الفئات - 1).

دائمًا ما يكون اختبار جودة الملاءمة هو اختبار الذيل الأيمن. إذا لم تكن القيم المرصودة والقيم المتوقعة المقابلة قريبة من بعضها البعض ، فيمكن أن تصبح إحصائية الاختبار كبيرة جدًا وستكون بعيدة في الذيل الأيمن لمنحنى كاي سكوير.

ملحوظة: يجب أن تكون القيمة المتوقعة لكل خلية خمسة على الأقل حتى تتمكن من استخدام هذا الاختبار.


11.2 اختبار الملاءمة

في هذا النوع من اختبار الفرضية ، يمكنك تحديد ما إذا كانت البيانات أم لا "نحيف" توزيع معين أم لا. على سبيل المثال ، قد تشك في أن بياناتك غير المعروفة تناسب التوزيع ذي الحدين. يمكنك استخدام اختبار مربع كاي (بمعنى أن توزيع اختبار الفرضية هو مربع كاي) لتحديد ما إذا كان هناك توافق أم لا. يمكن كتابة الفرضيات الفارغة والبديلة لهذا الاختبار في جمل أو يمكن ذكرها كمعادلات أو عدم مساواة.

إحصائية الاختبار لاختبار جودة الملاءمة هي:

  • ا = القيم المرصودة (البيانات)
  • ه = القيم المتوقعة (من الناحية النظرية)
  • ك = عدد خلايا أو فئات البيانات المختلفة

القيم المرصودة هي قيم البيانات والقيم المتوقعة هي القيم التي تتوقع الحصول عليها إذا كانت الفرضية الصفرية صحيحة. يوجد ن شروط النموذج (O - E) 2 E (O - E) 2 E.

عدد درجات الحرية مدافع = (عدد الفئات - 1).

دائمًا ما يكون اختبار جودة الملاءمة هو اختبار الذيل الأيمن. إذا لم تكن القيم المرصودة والقيم المتوقعة المقابلة قريبة من بعضها البعض ، فيمكن أن تصبح إحصائية الاختبار كبيرة جدًا وستكون بعيدة في الذيل الأيمن لمنحنى كاي سكوير.

يجب أن تكون القيمة المتوقعة لكل خلية خمسة على الأقل حتى تتمكن من استخدام هذا الاختبار.

مثال 11.1

يعد تغيب طلاب الجامعات عن فصول الرياضيات مصدر قلق كبير لمعلمي الرياضيات لأن الغياب عن الفصل يبدو أنه يزيد من معدل الانخفاض. افترض أنه تم إجراء دراسة لتحديد ما إذا كان معدل تغيب الطلاب الفعلي يتبع تصورات أعضاء هيئة التدريس. توقعت هيئة التدريس أن تغيب مجموعة من 100 طالب عن الفصل وفقًا للجدول 11.1.

ثم تم إجراء مسح عشوائي عبر جميع دورات الرياضيات لتحديد العدد الفعلي (ملاحظ) من الغياب في الدورة. يعرض الرسم البياني في الجدول 11.2 نتائج هذا الاستطلاع.


تحديد الفرضيات الصفرية والبديلة اللازمة لإجراء اختبار مدى ملاءمة.

ح0: تغيب الطلاب تناسبها تصور أعضاء هيئة التدريس.


الفرضية البديلة هي عكس الفرضية الصفرية.

حأ: تغيب الطلاب لا يتناسب تصور أعضاء هيئة التدريس.

أ. هل يمكنك استخدام المعلومات كما تظهر في الرسوم البيانية لإجراء اختبار ملاءمة الجودة؟

الحل 1

أ. لا. لاحظ أن عدد الغيابات المتوقعة للدخول "+12" أقل من خمسة (وهو اثنان). ادمج هذه المجموعة مع مجموعة "9-11" لإنشاء جداول جديدة حيث يكون عدد الطلاب لكل إدخال خمسة على الأقل. النتائج الجديدة في الجدول 11.3 والجدول 11.4.

عدد الغيابات لكل فصل دراسي العدد المتوقع للطلاب
0–2 50
3–5 30
6–8 12
9+ 8

ب. ما هو عدد درجات الحرية (مدافع)?

الحل 2

ب. توجد أربع "خلايا" أو فئات في كل من الجداول الجديدة.

مدافع = عدد الخلايا - 1 = 4-1 = 3

يحتاج مدير المصنع إلى فهم عدد المنتجات المعيبة مقابل عدد المنتجات التي يتم إنتاجها. يتم سرد عدد العيوب المتوقعة في الجدول 11.5.

تم أخذ عينة عشوائية لتحديد العدد الفعلي للعيوب. يوضح الجدول 11.6 نتائج المسح.

اذكر الفرضيات اللاغية والبديلة اللازمة لإجراء اختبار حسن الملاءمة ، وحدد درجات الحرية.

مثال 11.2

يريد أرباب العمل معرفة أيام الأسبوع التي يتغيب الموظفون عنها في أسبوع العمل المكون من خمسة أيام. يود معظم أصحاب العمل الاعتقاد بأن الموظفين يتغيبون بالتساوي خلال الأسبوع. لنفترض أن عينة عشوائية من 60 مديرًا تم سؤالهم في أي يوم من أيام الأسبوع كان لديهم فيه أكبر عدد من حالات غياب الموظفين. تم توزيع النتائج كما في الجدول 11.7. بالنسبة لسكان الموظفين ، هل تحدث أيام أكبر عدد من حالات الغياب بتواتر متساوية خلال أسبوع العمل المكون من خمسة أيام؟ اختبر عند مستوى أهمية 5٪.

الحل 1

الفرضيات الفارغة والبديلة هي:

  • ح0: أيام الغياب تحدث بترددات متساوية أي أنها تتناسب مع توزيع منتظم.
  • حأ: أيام الغياب تحدث بترددات غير متكافئة ، أي أنها لا تتناسب مع توزيع منتظم.

إذا حدثت أيام الغياب بتواتر متساوية ، إذن ، من بين 60 يومًا غائبًا (المجموع في العينة: 15 + 12 + 9 + 9 + 15 = 60) ، سيكون هناك 12 حالة غياب يوم الاثنين ، 12 يوم الثلاثاء ، 12 يوم الأربعاء ، 12 يوم الخميس ، و 12 يوم الجمعة. هذه الأرقام هي متوقع (ه) القيم. القيم الموجودة في الجدول هي ملاحظ (ا) القيم أو البيانات.

هذه المرة ، احسب χ 2 اختبار الإحصاء باليد. قم بعمل مخطط بالعناوين التالية واملأ الأعمدة:

  • متوقع (ه) القيم (12 ، 12 ، 12 ، 12 ، 12)
  • ملاحظ (ا) القيم (15 ، 12 ، 9 ، 9 ، 15)
  • (اه)
  • (اه) 2
  • (س - ه) 2 خ (س - ه) 2 هـ

الآن أضف (مجموع) العمود الأخير. المجموع ثلاثة. هذا ال χ 2 اختبار الإحصائية.

لتجد ال ص-قيمة ، احسب ص(χ 2 & GT 3). هذا الاختبار ذو الطرف الأيمن. (استخدم جهاز كمبيوتر أو آلة حاسبة للعثور على ملف ص-القيمة. يجب ان تحصل على ص- القيمة = 0.5578.)

ال مدافع عدد الخلايا - 1 = 5-1 = 4

استخدام الآلة الحاسبة TI-83 و 83+ و 84 و 84+

اضغط على 2nd DISTR. ارسم السهم لأسفل إلى χ 2 cdf. اضغط دخول . أدخل (3،10 ^ 99،4). بالتقريب إلى أربع منازل عشرية ، يجب أن ترى 0.5578 ، وهي القيمة p.

بعد ذلك ، أكمل رسمًا بيانيًا مثل الرسم التالي بالتسمية والتظليل المناسبين. (يجب تظليل الذيل الأيمن).

القرار هو عدم رفض فرضية العدم.

استنتاج: عند مستوى أهمية 5٪ ، من بيانات العينة ، لا توجد أدلة كافية لاستنتاج أن أيام الغياب لا تحدث بترددات متساوية.

استخدام الآلة الحاسبة TI-83 و 83+ و 84 و 84+

لا تحتوي TI-83 + وبعض الآلات الحاسبة TI-84 على برنامج خاص لإحصاء الاختبار لاختبار جودة الملاءمة. يحتوي المثال التالي المثال 11.3 على إرشادات الآلة الحاسبة. تحتوي الآلات الحاسبة الأحدث TI-84 في STAT TESTS على اختبار Chi2 GOF. لإجراء الاختبار ، ضع القيم الملاحظة (البيانات) في القائمة الأولى والقيم المتوقعة (القيم التي تتوقعها إذا كانت الفرضية الصفرية صحيحة) في قائمة ثانية. اضغط على STAT TESTS و Chi2 GOF. أدخل أسماء القائمة لقائمة المرصود والقائمة المتوقعة. ادخل درجات الحرية واضغط احسب او ارسم. تأكد من مسح أي قوائم قبل أن تبدأ. لمسح القوائم في الآلات الحاسبة: انتقل إلى STAT EDIT واسهم لأعلى إلى منطقة اسم القائمة في القائمة المعينة. اضغط على CLEAR ثم السهم لأسفل. سيتم مسح القائمة. بدلاً من ذلك ، يمكنك الضغط على STAT والضغط على 4 (لـ ClrList). أدخل اسم القائمة واضغط على ENTER.

يريد المعلمون معرفة أي ليلة كل أسبوع يقوم فيها طلابهم بمعظم واجباتهم المدرسية. يعتقد معظم المعلمين أن الطلاب يؤدون واجباتهم المدرسية بالتساوي على مدار الأسبوع. لنفترض أن عينة عشوائية مكونة من 56 طالبًا قد سُئلت في أي ليلة من الأسبوع قاموا فيها بأكبر عدد من الواجبات المنزلية. تم توزيع النتائج كما في الجدول 11.8.

من مجموع الطلاب ، هل الليالي لأكبر عدد من الطلاب الذين يؤدون غالبية واجباتهم المدرسية تحدث مع تواتر متساوي خلال الأسبوع؟ ما نوع اختبار الفرضية الذي يجب عليك استخدامه؟

مثال 11.3

تشير إحدى الدراسات إلى أن عدد أجهزة التلفزيون التي توزعها العائلات الأمريكية (هذا هو معطى التوزيع للسكان الأمريكيين) كما في الجدول 11.9.

يحتوي الجدول على المتوقع (ه) النسب المئوية.

أسفرت عينة عشوائية من 600 عائلة في أقصى غرب الولايات المتحدة عن البيانات الواردة في الجدول 11.10.

يحتوي الجدول على (ا) قيم التردد.

عند مستوى أهمية 1٪ ، هل يبدو أن توزيع "عدد أجهزة التلفزيون" لعائلات أقصى غرب الولايات المتحدة يختلف عن التوزيع بالنسبة للسكان الأمريكيين ككل؟

الحل 1

تطلب منك هذه المشكلة اختبار ما إذا كان توزيع العائلات في أقصى غرب الولايات المتحدة يناسب توزيع العائلات الأمريكية. يتم إجراء هذا الاختبار دائمًا على الطرف الأيمن.

يحتوي الجدول الأول على النسب المئوية المتوقعة. للحصول على توقع (ه) الترددات ، اضرب النسبة المئوية في 600. الترددات المتوقعة موضحة في الجدول 11.11.

عدد التليفزيونات نسبه مئويه التردد المتوقع
0 10 (0.10)(600) = 60
1 16 (0.16)(600) = 96
2 55 (0.55)(600) = 330
3 11 (0.11)(600) = 66
أكثر من 3 8 (0.08)(600) = 48

وبالتالي ، فإن الترددات المتوقعة هي 60 و 96 و 330 و 66 و 48. في حاسبات TI ، يمكنك ترك الآلة الحاسبة تقوم بالحسابات. على سبيل المثال ، بدلاً من 60 ، أدخل 0.10 * 600.

ح0: توزيع "عدد أجهزة التلفزيون" لعائلات أقصى غرب الولايات المتحدة هو نفس توزيع "عدد أجهزة التلفزيون" للسكان الأمريكيين.

حأ: يختلف توزيع "عدد أجهزة التلفزيون" لعائلات أقصى غرب الولايات المتحدة عن توزيع "عدد أجهزة التلفزيون" للسكان الأمريكيين.

احسب إحصائية الاختبار: χ2 = 29.65

بيان الاحتمالية: ص-القيمة = ص(χ 2 & GT 29.65) = 0.000006

قارن α و ال ص-القيمة:

اصنع قرار: حيث α & GT ص-قيمة ، رفض حا.

هذا يعني أنك ترفض الاعتقاد بأن التوزيع للولايات الغربية البعيدة هو نفس التوزيع للسكان الأمريكيين ككل.

استنتاج: عند مستوى أهمية 1٪ ، من البيانات ، هناك أدلة كافية لاستنتاج أن توزيع "عدد أجهزة التلفزيون" لأقصى غرب الولايات المتحدة يختلف عن توزيع "عدد أجهزة التلفزيون" للسكان الأمريكيين ككل.

استخدام الآلة الحاسبة TI-83 و 83+ و 84 و 84+

اضغط على STAT و ENTER. تأكد من مسح القوائم L1 و L2 و L3 إذا كانت تحتوي على بيانات (انظر الملاحظة في نهاية المثال 11.2). ضع في L1 الترددات المرصودة 66 ، 119 ، 340 ، 60 ، 15. ضع في L2 الترددات المتوقعة .10 * 600 ، .16 * 600 ، .55 * 600 ، .11 * 600 ، .08 * 600. مرر السهم للقائمة L3 وحتى منطقة الاسم "L3". أدخل (L1-L2) ^ 2 / L2 ثم أدخل. اضغط على 2 QUIT. اضغط على 2nd LIST والسهم إلى MATH. اضغط 5. يجب أن ترى "مجموع" (أدخل L3). عند تقريبه لأقرب منزلتين عشريتين ، يجب أن تشاهد 29.65. اضغط على 2nd DISTR. اضغط 7 أو السهم لأسفل حتى 7: χ2cdf واضغط على ENTER. أدخل (29.65،1E99،4). بالتقريب إلى أربعة أماكن ، يجب أن ترى 5.77E-6 = .000006 (مقربًا إلى ستة منازل عشرية) ، وهي القيمة p.

تحتوي الآلات الحاسبة الأحدث TI-84 في STAT TESTS على اختبار Chi2 GOF. لإجراء الاختبار ، ضع القيم الملاحظة (البيانات) في القائمة الأولى والقيم المتوقعة (القيم التي تتوقعها إذا كانت الفرضية الصفرية صحيحة) في قائمة ثانية. اضغط على STAT TESTS و Chi2 GOF. أدخل أسماء القائمة لقائمة المرصود والقائمة المتوقعة. ادخل درجات الحرية واضغط احسب او ارسم. تأكد من مسح أي قوائم قبل أن تبدأ.


5.3: اختبار جودة الملاءمة - الرياضيات

يسمح توزيع مربع كاي بإجراء اختبارات إحصائية للبيانات الفئوية. من بين هذه الاختبارات اختبارات جودة الملاءمة والاستقلالية.

12.1 توزيع كاي تربيع

ثم c 2 لها توزيع مربع كاي مع n من درجات الحرية.

يعتمد شكل التوزيع على درجات الحرية. توضح هذه المخططات (الشكلان 48 و 49) 100 عينة عشوائية لمدة 5 د. و 50 د.

لاحظ أن عددًا قليلاً من درجات الحرية منحرف جدًا. ومع ذلك ، مع زيادة العدد ، يبدأ التوزيع في الظهور بشكل طبيعي. (هل يمكنك تخمين المتوسط ​​والانحراف المعياري؟)

12.2 جودة مربع كاي لاختبارات الملائمة

تتحقق جودة اختبار الملاءمة لمعرفة ما إذا كانت البيانات تأتي من بعض السكان المحددين. تسمح جودة مربع كاي لاختبار الملاءمة للشخص باختبار ما إذا كانت البيانات الفئوية تتوافق مع نموذج يتم فيه اختيار البيانات من الفئات وفقًا لبعض مجموعة الاحتمالات المحددة. بالنسبة لرمي النرد ، يُفترض أن الفئات الست (الوجوه) متساوية في الاحتمال. For a letter distribution, the assumption would be that some categories are more likely than other.

Of course, you suspect that if the die is fair, the probability of each face should be the same or 1/6. In 150 rolls then you would expect each face to have about 25 appearances. Yet the 6 appears 36 times. Is this coincidence or perhaps something else?

The key to answering this question is to look at how far off the data is from the expected. If we call f i the frequency of category i , and e i the expected count of category i , then the c 2 statistic is defined to be

Intuitively this is large if there is a big discrepancy between the actual frequencies and the expected frequencies, and small if not.
Statistical inference is based on the assumption that none of the expected counts is smaller than 1 and most (80%) are bigger than 5. As well, the data must be independent and identically distributed -- that is multinomial with some specified probability distribution.
If these assumptions are satisfied, then the c 2 statistic is approximately c 2 distributed with n -1 degrees of freedom. The null hypothesis is that the probabilities are as specified, against the alternative that some are not.

Notice for our data, the categories all have enough entries and the assumption that the individual entries are multinomial follows from the dice rolls being independent.

R has a built in test for this type of problem. To use it we need to specify the actual frequencies, the assumed probabilities and the necessary language to get the result we want. In this case -- goodness of fit -- the usage is very simple The formal hypothesis test assumes the null hypothesis is that each category i has probability p i (in our example each p i = 1/6) against the alternative that at least one category doesn't have this specified probability.

As we see, the value of c 2 is 6.72 and the degrees of freedom are 6-1=5. The calculated p -value is 0.2423 so we have no reason to reject the hypothesis that the die is fair.

Do a chi-square goodness of fit hypothesis test to see if the letter proportions for this text are p E =.29, p T =.21, p N =.17, p R =.17, p O =.16 or are different.

The solution is just slightly more difficult, as the probabilities need to be specified. Since the assumptions of the chi-squared test require independence of each letter, this is not quite appropriate, but supposing it is we get This indicates that this text is unlikely to be written in English.

Some Extra Insight: Why the c s ?
What makes the statistic have the c 2 distribution? If we assume that f i - e i = Z i
( e i )
1/2
. That is the error is somewhat proportional to the square root of the expected number, then if Z i are normal with mean 0 and variance 1, then the statistic is exactly c 2 . For the multinomial distribution, one needs to verify, that asymptotically, the differences from the expected counts are roughly this large.

12.3 Chi-squared tests of independence

The same statistic can also be used to study if two rows in a contingency table are ``independent''. That is, the null hypothesis is that the rows are independent and the alternative hypothesis is that they are not independent.

For example, suppose you find the following data on the severity of a crash tabulated for the cases where the passenger had a seat belt, or did not:

which is estimated by the proportion of ``none'' (the column sum divided by n ) and the proportion of ``yes: (the row sum divided by n). The expected frequency for this cell is then this product times n . Or after simplifying, the row sum times the column sum divided by n . We need to do this for each entry. Better to let the computer do so. Here it is quite simple. This tests the null hypothesis that the two rows are independent against the alternative that they are not. In this example, the extremely small p -value leads us to believe the two rows are not independent (we reject).

Notice, we needed to make a data frame of the two values. Alternatively, one can just combine the two vectors as rows using rbind .

12.4 Chi-squared tests for homogeneity

The test for independence checked to see if the rows are independent, a test for homogeneity, tests to see if the rows come from the same distribution or appear to come from different distributions. Intuitively, the proportions in each category should be about the same if the rows are from the same distribution. The chi-square statistic will again help us decide what it means to be ``close'' to the same.

Example: A difference in distributions?
The test for homogeneity tests categorical data to see if the rows come from different distributions. How good is it? Let's see by taking data from different distributions and seeing how it does.

We can easily roll a die using the sample command. Let's roll a fair one, and a biased one and see if the chi-square test can decide the difference.

First to roll the fair die 200 times and the biased one 100 times and then tabulate:

Do these appear to be from the same distribution? We see that the biased coin has more sixes and far fewer twos than we should expect. So it clearly doesn't look so. The chi-square test for homogeneity does a similar analysis as the chi-square test for independence. For each cell it computes an expected amount and then uses this to compare to the frequency. What should be expected numbers be?

Consider how many 2's the fair die should roll in 200 rolls. The expected number would be 200 times the probability of rolling a 1. This we don't know, but if we assume that the two rows of numbers are from the same distribution, then the marginal proportions give an estimate. The marginal total is 30/300 = (26 + 4)/300 = 1/10. So we expect 200(1/10) = 20. And we had 26.

As before, we add up all of these differences squared and scale by the expected number to get a statistic:

Under the null hypothesis that both sets of data come from the same distribution (homogeneity) and a proper sample, this has the chi-squared distribution with (2-1)(6-1)=5 degrees of freedom. That is the number of rows minus 1 times the number of columns minus 1.

The heavy lifting is done for us as follows with the chisq.test function. Notice the small p -value, but by some standards we still accept the null in this numeric example.
If you wish to see some of the intermediate steps you may. The result of the test contains more information than is printed. As an illustration, if we wanted just the expected counts we can ask with the exp value of the test

12.5 Problems

Do a test of hypothesis to decide if there is a difference between the two types of programs in terms of retention.

12.2 A survey of drivers was taken to see if they had been in an accident during the previous year, and if so was it a minor or major accident. The results are tabulated by age group:


Accident Type
AGE لا أحد تحت السن القانوني رائد
تحت 18 67 10 5
18-25 42 6 5
26-40 75 8 4
40-65 56 4 6
over 65 57 15 1

Do a chi-squared hypothesis test of homogeneity to see if there is difference in distributions based on age.

12.3 A fish survey is done to see if the proportion of fish types is consistent with previous years. Suppose, the 3 types of fish recorded: parrotfish, grouper, tang are historically in a 5:3:4 proportion and in a survey the following counts are found

Do a test of hypothesis to see if this survey of fish has the same proportions as historically.

12.4 The R dataset UCBAdmissions contains data on admission to UC Berkeley by gender. We wish to investigate if the distribution of males admitted is similar to that of females.

To do so, we need to first do some spade work as the data set is presented in a complex contingency table. The ftable (flatten table) command is needed. To use it try We want to compare rows 1 and 2. Treating x as a matrix, we can access these with x[1:2,] .

Do a test for homogeneity between the two rows. What do you conclude? Repeat for the rejected group.

قسم الرياضيات
College of Staten Island
جامعة مدينة نيويورك
1S-215, 2800 Victory Boulevard, Staten Island, NY 10314
(718) 982-3600
This website was created using Twitter Bootstrap, Blosxom, and Glyphicons Free.


5.3: Goodness-of-Fit Test - Mathematics

The graph below is a plot of the empirical distribution function with a normal cumulative distribution function for 100 normal random numbers. The K-S test is based on the maximum distance between these two curves.

  1. It only applies to continuous distributions.
  2. It tends to be more sensitive near the center of the distribution than at the tails.
  3. Perhaps the most serious limitation is that the distribution must be fully specified. That is, if location, scale, and shape parameters are estimated from the data, the critical region of the K-S test is no longer valid. It typically must be determined by simulation.

Several goodness-of-fit tests, such as the Anderson-Darling test and the Cramer Von-Mises test, are refinements of the K-S test. As these refined tests are generally considered to be more powerful than the original K-S test, many analysts prefer them. Also, the advantage for the K-S test of having the critical values be indpendendent of the underlying distribution is not as much of an advantage as first appears. This is due to limitation 3 above (i.e., the distribution parameters are typically not known and have to be estimated from the data). So in practice, the critical values for the K-S test have to be determined by simulation just as for the Anderson-Darling and Cramer Von-Mises (and related) tests.

  • Are the data from a normal distribution?
  • Are the data from a log-normal distribution?
  • Are the data from a Weibull distribution?
  • Are the data from an exponential distribution?
  • Are the data from a logistic distribution?

There are many non-parametric and robust techniques that are not based on strong distributional assumptions. By non-parametric, we mean a technique, such as the sign test, that is not based on a specific distributional assumption. By robust, we mean a statistical technique that performs well under a wide range of distributional assumptions. However, techniques based on specific distributional assumptions are in general more powerful than these non-parametric and robust techniques. By power, we mean the ability to detect a difference when that difference actually exists. Therefore, if the distributional assumptions can be confirmed, the parametric techniques are generally preferred.


Goodness-of-fit test

العديد goodness-of-fit tests, such as the Anderson-Darling test and the Cramer Von-Mises test, are refinements of the K-S test. As these refined tests are generally considered to be more powerful than the original K-S test, many analysts prefer them.

Pearson's Goodness-of-Fit Test uses the following test statistic.
In this formula, $O_i$ is a count of the number of observed items in category $i$, and $E_i$ is the number of expected items in category $i$.

An Empirical Likelihood Goodness-of-Fit Test for Diffusions
The analysis and prediction of diffusion processes plays a fundamental role in the statistical analysis of financial markets. The techniques applied rely on the actual model assumed for the drift and diffusion coefficient functions.

: A statistical test in which the validity of one hypothesis is tested without specification of an alternative hypothesis. It is usually used to describe how well a model fits the data.

s assume that the individual observations are independent, meaning that the value of one observation does not influence the value of other observations. To give an example, let's say you want to know what color flowers bees like.

is used to test if an observed distribution conforms to any particular distribution. Calculation of this goodness of fit test is by comparison of observed data with data expected based on the particular distribution.
Weibull .

- A statistical test used to analyze probabilities of multinomial distribution trials along a single dimension compares expected, or theoretical, frequencies of categories from a populations distribution to the observed, or actual, frequencies from a distribution.

requires that the data is divided into k bins and the test statistic is defined as
,
where Oi is the observed frequency and Ei is the expected frequency for bin . The expected counts may often be calculated by .

s for Discrete Null Distributions" (PDF). The R Journal 3 (2): 34-39.
^ a b c Table of critical values for the two-sample test
^ Mehta, S. (2014) Statistics Topics ISBN 978-1499273533
^ Justel, A. Peña, D. Zamar, R. (1997).

Significance test: Hosmer and Lemeshow chi-square test is used to test the overall model of

. It is the modified chi-square test, which is better than the traditional chi-square test. Significant p value shows the goodness-of- fit model.

of whether an observed sample distribution is consistent with normality.

is used to test whether a frequency distribution fits an expected distribution.
The test is used in a multinomial experiment to determine whether the number of results in each category fits the null hypothesis:
: The distribution fits the proposed proportions .

s that go beyond the specific quantile-of-loss a VaR measure purports to calculate and more fully assess the quality of the 1P or 1L distributions the VaR measure characterizes.

I would much appreciate it, if you could answer e this question. I am doing

in SPSS and it's only related to one nominal variable - I want to see whether two distributions are statistically different or not. The test shows p-value .

Chi Square
A statistic used when testing for associations between categorical, or non-numeric, variables. It is also used as a

to determine whether data from a sample come form a population with a specific distribution.

The chi distribution
The noncentral chi distribution
The chi-square distribution, which is the sum of the squares of n independent Gaussian random variables. It is a special case of the Gamma distribution, and it is used in

The chi-square goodness of fit test is that it can be applied to any univariate distribution for which you can calculate the cumulative distribution function. The chi-square

can be applied to discrete distributions such as the binomial and the Poisson.


5.3: Goodness-of-Fit Test - Mathematics

An attractive feature of the chi-square goodness-of-fit test is that it can be applied to any univariate distribution for which you can calculate the cumulative distribution function. The chi-square goodness-of-fit test is applied to binned data (i.e., data put into classes). This is actually not a restriction since for non-binned data you can simply calculate a histogram or frequency table before generating the chi-square test. However, the value of the chi-square test statistic are dependent on how the data is binned. Another disadvantage of the chi-square test is that it requires a sufficient sample size in order for the chi-square approximation to be valid.

The chi-square test is an alternative to the Anderson-Darling and Kolmogorov-Smirnov goodness-of-fit tests. The chi-square goodness-of-fit test can be applied to discrete distributions such as the binomial and the Poisson. The Kolmogorov-Smirnov and Anderson-Darling tests are restricted to continuous distributions.

  • Are the data from a normal distribution?
  • Are the data from a log-normal distribution?
  • Are the data from a Weibull distribution?
  • Are the data from an exponential distribution?
  • Are the data from a logistic distribution?
  • Are the data from a binomial distribution?

There are many non-parametric and robust techniques that are not based on strong distributional assumptions. By non-parametric, we mean a technique, such as the sign test, that is not based on a specific distributional assumption. By robust, we mean a statistical technique that performs well under a wide range of distributional assumptions. However, techniques based on specific distributional assumptions are in general more powerful than these non-parametric and robust techniques. By power, we mean the ability to detect a difference when that difference actually exists. Therefore, if the distributional assumption can be confirmed, the parametric techniques are generally preferred.


محتويات

The Kolmogorov–Smirnov statistic for a given cumulative distribution function F(x) هو

where supx is the supremum of the set of distances. Intuitively, the statistic takes the largest absolute difference between the two distribution functions across all x القيم.

In practice, the statistic requires a relatively large number of data points (in comparison to other goodness of fit criteria such as the Anderson–Darling test statistic) to properly reject the null hypothesis.

The Kolmogorov distribution is the distribution of the random variable

أين ب(ر) is the Brownian bridge. The cumulative distribution function of ك is given by [3]

which can also be expressed by the Jacobi theta function ϑ 01 ( z = 0 τ = 2 i x 2 / π ) (z=0 au =2ix^<2>/pi )> . Both the form of the Kolmogorov–Smirnov test statistic and its asymptotic distribution under the null hypothesis were published by Andrey Kolmogorov, [4] while a table of the distribution was published by Nikolai Smirnov. [5] Recurrence relations for the distribution of the test statistic in finite samples are available. [4]

Under null hypothesis that the sample comes from the hypothesized distribution F(x),

ال goodness-of-fit test or the Kolmogorov–Smirnov test can be constructed by using the critical values of the Kolmogorov distribution. This test is asymptotically valid when n → ∞ . It rejects the null hypothesis at level α if

أين كα is found from

The asymptotic power of this test is 1.

  • [7] and [8] for continuous null distributions with code in C and Java to be found in. [7]
  • [9] for purely discrete, mixed or continuous null distribution implemented in the KSgeneral package [10] of the R project for statistical computing, which for a given sample also computes the KS test statistic and its p-value. Alternative C++ implementation is available from. [9]

Test with estimated parameters Edit

If either the form or the parameters of F(x) are determined from the data Xأنا the critical values determined in this way are invalid. In such cases, Monte Carlo or other methods may be required, but tables have been prepared for some cases. Details for the required modifications to the test statistic and for the critical values for the normal distribution and the exponential distribution have been published, [11] and later publications also include the Gumbel distribution. [12] The Lilliefors test represents a special case of this for the normal distribution. The logarithm transformation may help to overcome cases where the Kolmogorov test data does not seem to fit the assumption that it came from the normal distribution.

Using estimated parameters, the question arises which estimation method should be used. Usually this would be the maximum likelihood method, but e.g. for the normal distribution MLE has a large bias error on sigma. Using a moment fit or KS minimization instead has a large impact on the critical values, and also some impact on test power. If we need to decide for Student-T data with df = 2 via KS test whether the data could be normal or not, then a ML estimate based on H0 (data is normal, so using the standard deviation for scale) would give much larger KS distance, than a fit with minimum KS. In this case we should reject H0, which is often the case with MLE, because the sample standard deviation might be very large for T-2 data, but with KS minimization we may get still a too low KS to reject H0. In the Student-T case, a modified KS test with KS estimate instead of MLE, makes the KS test indeed slightly worse. However, in other cases, such a modified KS test leads to slightly better test power.

Discrete and mixed null distribution Edit

From the right-continuity of F ( x ) , it follows that F ( F − 1 ( t ) ) ≥ t (t))geq t> and F − 1 ( F ( x ) ) ≤ x (F(x))leq x> and hence, the distribution of D n > depends on the null distribution F ( x ) , i.e., is no longer distribution-free as in the continuous case. Therefore, a fast and accurate method has been developed to compute the exact and asymptotic distribution of D n > when F ( x ) is purely discrete or mixed, [9] implemented in C++ and in the KSgeneral package [10] of the R language. The functions disc_ks_test() , mixed_ks_test() and cont_ks_test() compute also the KS test statistic and p-values for purely discrete, mixed or continuous null distributions and arbitrary sample sizes. The KS test and its p-values for discrete null distributions and small sample sizes are also computed in [13] as part of the dgof package of the R language. Major statistical packages among which SAS PROC NPAR1WAY , [14] Stata ksmirnov [15] implement the KS test under the assumption that F ( x ) is continuous, which is more conservative if the null distribution is actually not continuous (see [16] [17] [18] ).

The Kolmogorov–Smirnov test may also be used to test whether two underlying one-dimensional probability distributions differ. In this case, the Kolmogorov–Smirnov statistic is

For large samples, the null hypothesis is rejected at level α if

so that the condition reads

Here, again, the larger the sample sizes, the more sensitive the minimal bound: For a given ratio of sample sizes (e.g. m = n ), the minimal bound scales in the size of either of the samples according to its inverse square root.

Note that the two-sample test checks whether the two data samples come from the same distribution. This does not specify what that common distribution is (e.g. whether it's normal or not normal). Again, tables of critical values have been published. A shortcoming of the univariate Kolmogorov–Smirnov test is that it is not very powerful because it is devised to be sensitive against all possible types of differences between two distribution functions. Some argue [20] [21] that the Cucconi test, originally proposed for simultaneously comparing location and scale, can be much more powerful than the Kolmogorov–Smirnov test when comparing two distribution functions.

In 2021, Michael Naaman extended the one-sample and two-sample KS test to the multivariate case including dependent data. [1]

While the Kolmogorov–Smirnov test is usually used to test whether a given F(x) is the underlying probability distribution of Fن(x), the procedure may be inverted to give confidence limits on F(x) itself. If one chooses a critical value of the test statistic دα such that P(دن & GT دα) = α, then a band of width ±دα حول Fن(x) will entirely contain F(x) with probability 1 − α.

A distribution-free multivariate Kolmogorov–Smirnov goodness of fit test has been proposed by Justel, Peña and Zamar (1997). [22] The test uses a statistic which is built using Rosenblatt's transformation, and an algorithm is developed to compute it in the bivariate case. An approximate test that can be easily computed in any dimension is also presented.

The Kolmogorov–Smirnov test statistic needs to be modified if a similar test is to be applied to multivariate data. This is not straightforward because the maximum difference between two joint cumulative distribution functions is not generally the same as the maximum difference of any of the complementary distribution functions. Thus the maximum difference will differ depending on which of Pr ( x < X ∧ y < Y ) or Pr ( X < x ∧ Y > y ) or any of the other two possible arrangements is used. One might require that the result of the test used should not depend on which choice is made.

One approach to generalizing the Kolmogorov–Smirnov statistic to higher dimensions which meets the above concern is to compare the cdfs of the two samples with all possible orderings, and take the largest of the set of resulting K–S statistics. في د dimensions, there are 2 د −1 such orderings. One such variation is due to Peacock [23] (see also Gosset [24] for a 3D version) and another to Fasano and Franceschini [25] (see Lopes et al. for a comparison and computational details). [26] Critical values for the test statistic can be obtained by simulations, but depend on the dependence structure in the joint distribution.

In one dimension, the Kolmogorov–Smirnov statistic is identical to the so-called star discrepancy D, so another native KS extension to higher dimensions would be simply to use D also for higher dimensions. Unfortunately, the star discrepancy is hard to calculate in high dimensions.

In 2021 the functional form of the multivariate KS test statistic was discovered, which simplified the problem of estimating the tail probabilities of the multivariate KS test statistic, which is needed for the statistical test. For the multivariate case, if Fأنا هل أناth continuous marginal from a probability distribution with ك variables, then

so the limiting distribution does not depend on the marginal distributions. [1]

The Kolmogorov-Smirnov test (one or two sampled test verifies the equality of distributions) is implemented in many software programs:


Example of a Goodness-of-Fit Test

For example, a small community gym might be operating under the assumption that it has its highest attendance on Mondays, Tuesdays and Saturdays, average attendance on Wednesdays, and Thursdays, and lowest attendance on Fridays and Sundays. Based on these assumptions, the gym employs a certain number of staff members each day to check in members, clean facilities, offer training services, and teach classes.

However, the gym is not performing well financially and the owner wants to know if these attendance assumptions and staffing levels are correct. The owner decides to count the number of gym attendees each day for six weeks. He can then compare the gym's assumed attendance with its observed attendance using a chi-square goodness-of-fit test for example. With the new data, he can determine how to best manage the gym and improve profitability.


أنظر أيضا

Factor analysis is a form of exploratory multivariate analysis that is used to either reduce the number of variables in a model or to detect relationships among variables. All variables involved in the factor analysis need to be continuous and are assumed to be normally distributed. The goal of the analysis is to try to identify factors which underlie the variables. There may be fewer factors than variables, but there may not be more factors than variables. For our example, let’s suppose that we think that there are some common factors underlying the various test scores. We will first use the principal components method of extraction (by using the كمبيوتر option) and then the principal components factor method of extraction (by using the pcf اختيار). This parallels the output produced by SAS and SPSS.

Now let’s rerun the factor analysis with a principal component factors extraction method and retain factors with eigenvalues of .5 or greater. Then we will use a varimax rotation on the solution.

Note that by default, Stata will retain all factors with positive eigenvalues hence the use of the mineigen option or the factors(#) اختيار. ال factors(#) option does not specify the number of solutions to retain, but rather the largest number of solutions to retain. From the table of factor loadings, we can see that all five of the test scores load onto the first factor, while all five tend to load not so heavily on the second factor. Uniqueness (which is the opposite of commonality) is the proportion of variance of the variable (i.e., اقرأ) that is not accounted for by all of the factors taken together, and a very high uniqueness can indicate that a variable may not belong with any of the factors. Factor loadings are often rotated in an attempt to make them more interpretable. Stata performs both varimax and promax rotations.

The purpose of rotating the factors is to get the variables to load either very high or very low on each factor. In this example, because all of the variables loaded onto factor 1 and not on factor 2, the rotation did not aid in the interpretation. Instead, it made the results even more difficult to interpret.

To obtain a scree plot of the eigenvalues, you can use the greigen أمر. We have included a reference line on the y-axis at one to aid in determining how many factors should be retained.


شاهد الفيديو: قابلية القسمة على أي رقم على 0 و1 و2 و3 و4 و5 و6 و7 و8 و9 و10 و11 و12 و13 و14 و15 و18 (شهر نوفمبر 2021).