מה זה p-value? הסבר פשוט עם דוגמה אמיתית

רגע לפני שנתחיל, בואו נודה באמת הפשוטה: רוב הסטודנטים שמגישים עבודת תזה לא באמת מבינים מה ה-p-value אומר. הם יודעים שצריך שהוא יהיה קטן מ-0.05, הם יודעים שזה קשור למובהקות, והם יודעים שהמנחה מסתכל על זה. אבל מה המספר הזה באמת מייצג? שם דברים נעשים מעורפלים.

זה לא בגלל שזה מושג קשה. זה בגלל שרוב ההסברים קופצים ישר לנוסחאות, או נשארים ברמה של "הסיכוי שהתוצאה מקרית" בלי לתת לך אינטואיציה אמיתית. אז בואו ננסה אחרת. בואו נלך דרך דוגמה אחת, מתחילתה ועד סופה, ונראה איך p-value נולד.

התרחיש

נניח שאת חוקרת אם תרגול מיינדפולנס מפחית רמות חרדה. לקחת 6 סטודנטים, חילקת אותם לשתי קבוצות: שלושה עברו תוכנית מיינדפולנס בת שמונה שבועות, ושלושה לא. בסוף מדדת את רמת החרדה של כולם בשאלון סטנדרטי.

קבוצת מיינדפולנס	קבוצת ביקורת
32	41
28	38
35	44
ממוצע: 31.7	ממוצע: 41.0

יש הבדל של כמעט 10 נקודות. קבוצת המיינדפולנס דיווחה על פחות חרדה. זה נראה מבטיח. אבל פה בדיוק מתחילה הבעיה: יש לך רק שלושה אנשים בכל קבוצה. אולי שלושת האנשים בקבוצת המיינדפולנס פשוט היו רגועים מלכתחילה. אולי ההבדל הזה לא אומר כלום.

וזו השאלה המרכזית של כל מבחן סטטיסטי: האם ההבדל שאני רואה בנתונים הוא אמיתי, או שזה רק רעש?

השאלה שה-p-value עונה עליה

ה-p-value לא אומר לך אם ההשערה שלך נכונה. הוא גם לא אומר לך כמה חזק האפקט. מה שהוא כן עושה זה לענות על שאלה אחת, מאוד ספציפית:

אם נניח לרגע שאין שום הבדל אמיתי בין הקבוצות, ושמיינדפולנס לא עושה כלום בכלל, מה הסיכוי לראות הבדל כזה גדול (או יותר) במדגם שלי?

שימו לב למבנה. אנחנו לא שואלים "מה הסיכוי שמיינדפולנס עובד". אנחנו שואלים את ההפך: אנחנו מניחים שהוא לא עובד, ובודקים כמה סביר שנראה את מה שראינו. אם התשובה היא "ממש לא סביר", זה אומר שההנחה שלנו כנראה לא נכונה, ומשהו אמיתי קורה פה.

מאיפה המספר מגיע

בפועל, המבחן הסטטיסטי (במקרה שלנו t-test) עושה שני דברים. קודם כל הוא מחשב ערך t: לוקח את ההבדל בין הממוצעים ומחלק אותו בשגיאת התקן. זה בעצם שואל "כמה ההבדל גדול ביחס לרעש שיש בנתונים?". במקרה שלנו יצא t = 2.5.

ואז הוא שואל: אם באמת אין הבדל, איפה הערך הזה נופל?

העקום הכחול הוא כל התוצאות האפשריות בעולם שבו אין שום אפקט. רוב התוצאות מתרכזות סביב אפס, כי אם אין הבדל אמיתי, רוב הפעמים גם לא נראה הבדל גדול. התוצאה שלנו (t = 2.5) נמצאת בקצה, שם שהתוצאות נדירות.

השטח האדום, זה שנשאר מעבר לקו האדום, הוא ה-p-value: 6.7%.

ה-p-value הוא גודל השטח הזה. הוא אומר: "מתוך כל התוצאות האפשריות בעולם שבו אין אפקט, 6.7% מהן היו קיצוניות כמו שלך או יותר."

ככל שהתוצאה רחוקה יותר מהמרכז, השטח קטן יותר, וה-p-value נמוך יותר. תוצאה שנמצאת ממש בקצה העקום? p-value זעיר. תוצאה קרובה למרכז? p-value גדול. זה כל הסיפור.

אז למה התוצאה שלנו "לא מובהקת"?

בעולם האקדמי הסף המקובל הוא p < 0.05, כלומר 5%. התוצאה שלנו (p = 0.067) לא עוברת את הסף. ולכן, בשפה הסטטיסטית, נגיד שההבדל "לא מובהק".

אבל חשוב להבין מה זה לא אומר. זה לא אומר שמיינדפולנס לא עובד. זה לא אומר שאין הבדל. זה אומר דבר אחד פשוט: עם שלושה אנשים בכל קבוצה, אין לנו מספיק ראיות כדי לקבוע. הנתונים לא מספיק חד-משמעיים.

וזה מוביל אותנו לנקודה שבאמת שווה לזכור.

אותו הבדל, תשובה אחרת לגמרי

בואו ניקח את אותו הבדל בדיוק, 10 נקודות בין הקבוצות, אבל הפעם עם 30 אנשים בכל קבוצה במקום 3.

בצד שמאל, המצב שלנו: מדגם קטן, p = 0.067, לא מובהק. בצד ימין, אותו ההבדל בדיוק, אבל עם מדגם גדול: p < 0.001. מובהק לגמרי.

למה? כי כשיש 30 אנשים בכל קבוצה, הרבה יותר קשה להסביר הבדל של 10 נקודות כמקרה. עם 3 אנשים, אולי במקרה בחרת 3 אנשים רגועים. עם 30? הסיכוי שזה מקרי הוא אפסי. הנתונים מדברים בצורה ברורה יותר.

זו אולי התובנה הכי חשובה שאפשר לקחת מהמאמר הזה: ה-p-value לא מודד את גודל האפקט. הוא מודד כמה ברור האות ביחס לרעש. אפקט גדול עם מדגם קטן עדיין יכול לתת p-value גבוה. ואפקט זעיר עם מדגם ענק ייתן p-value נמוך מאוד.

מה לקחת מפה לעבודה שלך

כשאת מסתכלת על טבלת התוצאות בפרק הממצאים, ורואה p = 0.032 ליד אחת ההשערות, עכשיו את יודעת מה המספר הזה מייצג. הוא לא אומר שההשערה שלך "נכונה". הוא אומר שהנתונים מספיק חד-משמעיים כדי שיהיה קשה להסביר אותם כרעש אקראי.

ואם ה-p-value גבוה? זה לא כישלון. זה פשוט אומר שאין מספיק ראיות. לפעמים צריך מדגם גדול יותר. לפעמים האפקט באמת לא קיים. ה-p-value לא מכריע. הוא נותן לך פיסת מידע אחת, חשובה, שצריך לקרוא אותה בהקשר של כל שאר המחקר.

דבר אחרון: תמיד דווחו את הערך המדויק. כתבו p = 0.032 ולא רק "p < 0.05". כתבו p = 0.067 ולא רק "לא מובהק". המספר המדויק מספר הרבה יותר מהתווית.