سطح معنی داری ( p value) یا مقدار p عددی است که از یک آزمون آماری محاسبه میشود و نشان میدهد که اگر فرضیه صفر درست باشد، چقدر احتمال دارد که مجموعهای از مشاهدات را پیدا کنید.
مقادیر P در آزمون فرضیه برای کمک به تصمیم گیری در مورد رد فرضیه صفر استفاده می شود. هرچه مقدار p کوچکتر باشد، احتمال رد فرضیه صفر بیشتر است.
مقدار p یا مقدار احتمال به شما می گوید که چقدر احتمال دارد داده های شما تحت فرضیه صفر رخ داده باشند. این کار را با محاسبه احتمال آمار آزمون شما انجام می دهد، که عددی است که توسط یک آزمون آماری با استفاده از داده های شما محاسبه می شود.
سطح معنی داری به شما می گوید که اگر فرضیه صفر آن آزمون درست باشد، چقدر انتظار دارید که یک آمار آزمون را شدیدتر یا شدیدتر از آمار محاسبه شده توسط آزمون آماری خود ببینید. سطح معنی داری کوچکتر می شود زیرا آمار آزمون محاسبه شده از داده های شما از محدوده آمار آزمون پیش بینی شده توسط فرضیه صفر دورتر می شود.
سطح معنی داری یک نسبت است: اگر مقدار p شما ۰.۰۵ باشد، به این معنی است که در ۵٪ مواقع یک آمار آزمون حداقل به اندازه آماری که پیدا کردید در صورتی که فرضیه صفر درست باشد، مشاهده خواهید کرد.
به عنوان مثال، اگر موشها در هر یک از رژیمهای غذایی به همان اندازه عمر کنند، آمار آزمون t تست شما با آمار آزمون فرضیه صفر (که تفاوتی بین گروهها وجود ندارد) مطابقت دارد و مقدار p حاصل نزدیک به ۱ خواهد بود. احتمالاً دقیقاً به ۱ نمی رسد، زیرا در زندگی واقعی احتمالاً گروه ها کاملاً برابر نخواهند بود.
با این حال، اگر میانگین طول عمر بین دو گروه تفاوت وجود داشته باشد، آمار آزمون شما از مقادیر پیشبینیشده توسط فرضیه صفر دورتر میشود و سطح معنی داری کوچکتر میشود. مقدار p هرگز به صفر نمی رسد، زیرا همیشه این احتمال وجود دارد، حتی اگر بسیار بعید باشد، که الگوهای موجود در داده های شما به طور تصادفی رخ داده باشند.
تمامی آزمون های آماری دارای فرضیه صفر هستند. برای اکثر آزمون ها، فرض صفر این است که بین متغیرهای مورد علاقه شما رابطه ای وجود ندارد یا بین گروه ها تفاوتی وجود ندارد.
به عنوان مثال، در آزمون t دو دنباله، فرض صفر این است که تفاوت بین دو گروه صفر است.
به عنوان مثال: می خواهید بدانید که آیا تفاوتی در طول عمر بین دو گروه از موش های تغذیه شده با رژیم های مختلف رژیم غذایی A و رژیم B وجود دارد یا خیر.
فرضیه صفر (H0): هیچ تفاوتی در طول عمر بین دو گروه وجود ندارد.
فرضیه جایگزین (HA یا H1): در طول عمر بین دو گروه تفاوت وجود دارد.
سطح معنی داری معمولاً به طور خودکار توسط برنامه آماری شما (R، SPSS و SMARTPLS و دیگر نرم افزارهای آماری) محاسبه می شود. همچنین می توانید جداول تخمین مقدار p آمار آزمون خود را به صورت آنلاین پیدا کنید. این جداول بر اساس آمار آزمون و درجات آزادی (تعداد مشاهدات منهای تعداد متغیرهای مستقل) آزمون شما نشان میدهند که انتظار دارید آن آمار آزمون را تحت فرضیه صفر مشاهده کنید.
محاسبه مقدار p به آزمون آماری که برای آزمایش فرضیه خود استفاده می کنید بستگی دارد:
آزمون های آماری مختلف مفروضات متفاوتی دارند و آمار آزمون های متفاوتی را تولید می کنند. شما باید آزمون آماری را انتخاب کنید که به بهترین وجه با داده های شما مطابقت دارد و با اثر یا رابطه ای که می خواهید آزمایش کنید مطابقت دارد.
تعداد متغیرهای مستقلی که در آزمون خود وارد می کنید، میزان بزرگ یا کوچک بودن آماره آزمون را برای تولید همان مقدار p تغییر می دهد.
به عنوان مثال اگر فقط دو رژیم غذایی متفاوت را با هم مقایسه می کنید، آزمون t مستقل روش خوبی برای مقایسه گروه ها است. برای مقایسه سه رژیم غذایی مختلف، به جای آن از یک ANOVA استفاده کنید – انجام چندین مقایسه زوجی منجر به سطح معنی داریبه طور مصنوعی پایین می شود و به شما امکان می دهد اهمیت تفاوت بین گروه ها را بیش از حد تخمین بزنید.
سطح معنی داری اغلب توسط محققان برای بیان اینکه آیا الگوی خاصی که اندازه گیری کرده اند از نظر آماری معنادار است یا خیر استفاده می شود. معنیداری آماری روش دیگری برای بیان این نکته است که مقدار P یک آزمون آماری به اندازهای کوچک است که فرضیه صفر آزمون را رد کند.
چقدر کوچک به اندازه کافی کوچک است؟ رایج ترین آستانه p <0.05 است. یعنی زمانی که انتظار دارید آمار آزمونی به اندازه آماری که تنها در ۵ درصد مواقع توسط آزمون شما محاسبه میشود، بیابید. اما آستانه بستگی به رشته تحصیلی شما دارد – برخی از رشته ها آستانه های ۰.۰۱ یا حتی ۰.۰۰۱ را ترجیح می دهند.
مقدار آستانه برای تعیین اهمیت آماری به عنوان مقدار آلفا نیز شناخته می شود.
سطوح معنی داری آزمونهای آماری معمولاً در بخش نتایج یک مقاله تحقیقاتی به همراه اطلاعات کلیدی مورد نیاز برای خوانندگان در متن گزارش میشوند. به عنوان مثال، ضریب همبستگی در یک رگرسیون خطی، یا میانگین تفاوت بین گروه های درمانی در آزمون t.
سطح معنی داری اغلب به عنوان خطر رد فرضیه صفر آزمون شما تفسیر می شود، در حالی که فرضیه صفر واقعاً درست است.
در واقع، خطر رد فرضیه صفر اغلب بیشتر از مقدار p است، به ویژه هنگامی که به یک مطالعه نگاه می کنیم یا هنگام استفاده از حجم نمونه کوچک. این به این دلیل است که هرچه چارچوب مرجع شما کوچکتر باشد، احتمال اینکه به طور تصادفی با یک الگوی آماری معنی دار برخورد کنید بیشتر است.
سطح معنی داری نیز اغلب به عنوان پشتیبان یا رد فرضیه جایگزین تفسیر می شوند. این مورد نیست. سطح معنی داری فقط می تواند به شما بگوید که آیا فرضیه صفر پشتیبانی می شود یا خیر. نمی تواند به شما بگوید که آیا فرضیه جایگزین شما درست است یا چرا.