همبستگی و علیت (Correlation and Causation) دو ایده مرتبط هستند، به این صورت که همبستگی دلالت بر علیت ندارد، اما علیت همیشه دلالت بر هبستگی دارد. درک تفاوتهای آنها به ارزیابی انتقادی و تفسیر تحقیقات علمی کمک میکند. همبستگی یعنی ارتباط آماری بین متغیرها وجود دارد. علیت به این معناست که تغییر در یک متغیر باعث تغییر در متغیر دیگر می شود. به عنوان مثال زمانی که یک رابطه خطی مانند همبستگی پیرسون، همبستگی اسپیرمن یا کندال بین دو متغیر الف و ب برقرار است، دلیل بر این نیست که این دو متغیر یکدیگر را ایجاد می کنند. در یک مقطع زمانی و مکانی این دو با یکدیگر رابطه داشتند.
همبستگی ارتباط بین انواع متغیرها را توصیف می کند: وقتی یک متغیر تغییر می کند، متغیر دیگر نیز تغییر می کند. همبستگی یک شاخص آماری از رابطه بین متغیرها است. این متغیرها با هم تغییر میکنند: آنها متغیر هستند. اما این همواری لزوماً به دلیل پیوند علی مستقیم یا غیرمستقیم نیست.
علیت به این معناست که تغییرات در یک متغیر باعث ایجاد تغییرات در متغیر دیگر می شود. بین متغیرها رابطه علت و معلولی وجود دارد. این دو متغیر با یکدیگر همبستگی دارند و همچنین رابطه علی بین آنها وجود دارد. بنابراین از نظر تعریف نیز تفات همبستگی و علیت واضح است.
در بررسی تفاوت همبستگی و علیت دو دلیل اصلی وجود دارد که چرا همبستگی علیت نیست. شناسایی این مشکلات برای نتیجه گیری علمی معتبر از تحقیقات مهم است.
مشکل متغیر سوم در تفاوت همبستگی و علیت به این معنی است که یک متغیر مخدوش کننده بر هر دو متغیر تأثیر می گذارد تا آنها را به طور علّی مرتبط کند در حالی که با هم مرتبط نیستند. به عنوان مثال، میزان فروش بستنی و میزان جرم و جنایت خشونت آمیز ارتباط نزدیکی با یکدیگر دارند، اما ارتباط علّی با یکدیگر ندارند. در عوض، دمای گرم، متغیر سوم، هر دو متغیر را به طور جداگانه تحت تاثیر قرار می دهد. عدم در نظر گرفتن متغیرهای سوم می تواند باعث شود که سوگیری های تحقیقاتی به کار شما نفوذ کند.
مشکل جهتگیری در بررسی تفاوت همبستگی و علیت زمانی رخ میدهد که دو متغیر با هم ارتباط داشته باشند و ممکن است در واقع یک رابطه علی داشته باشند، اما نمیتوان نتیجهگیری کرد که کدام متغیر باعث تغییر در دیگری میشود. به عنوان مثال، سطح ویتامین D با افسردگی مرتبط است، اما مشخص نیست که آیا ویتامین D کم باعث افسردگی می شود یا اینکه آیا افسردگی باعث کاهش مصرف ویتامین D می شود.
برای تمایز بین روابط همبستگی و علیت، باید از یک طرح تحقیقی مناسب استفاده کنید:
طرح های تحقیقاتی همبستگی تنها می توانند پیوندهای همبستگی بین متغیرها را نشان دهند.
طرح های تجربی می توانند علیت را آزمایش کنند.
در یک طرح تحقیق همبستگی، شما دادههای مربوط به متغیرهای خود را بدون دستکاری در آنها جمعآوری میکنید. به عنوان مثال شما داده های نظرسنجی را جمع آوری می کنید تا بررسی کنید که آیا بین سطح فعالیت بدنی و عزت نفس رابطه وجود دارد یا خیر. شما از شرکت کنندگان در مورد سطوح فعلی ورزششان می پرسید و عزت نفس آنها را با استفاده از فهرستی اندازه گیری می کنید.
متوجه میشوید که سطح فعالیت بدنی با عزت نفس همبستگی مثبت دارد: سطوح پایینتر فعالیت بدنی با عزت نفس پایینتر مرتبط است، در حالی که سطوح بالاتر فعالیت بدنی با عزت نفس بالاتر مرتبط است.
تحقیقات همبستگی معمولاً از اعتبار بیرونی بالایی برخوردار است، بنابراین می توانید یافته های خود را به تنظیمات زندگی واقعی تعمیم دهید. اما این مطالعات از اعتبار درونی پایینی برخوردار هستند که ارتباط علی تغییرات در یک متغیر را به تغییرات متغیر دیگر دشوار می کند.
این طرحهای تحقیقاتی معمولاً زمانی استفاده میشوند که انجام آزمایشهای کنترلشده غیراخلاقی، بسیار پرهزینه یا بسیار دشوار باشد. آنها همچنین برای مطالعه روابطی استفاده می شوند که انتظار نمی رود علت و معلولی باشند. بنابراین تشخیص همبستگی و علیت آسان نیست
بدون آزمایشهای کنترلشده، نمیتوان گفت که آیا این متغیری است که شما به آن علاقه دارید که باعث تغییرات در متغیر دیگری شده است یا خیر. متغیرهای خارجی هر متغیر سومی یا حذف شده غیر از متغیرهای مورد علاقه شما هستند که می توانند بر نتایج شما تأثیر بگذارند.
کنترل محدود در تحقیقات همبستگی به این معنی است که متغیرهای خارجی یا مخدوش کننده به عنوان توضیحات جایگزین برای نتایج عمل می کنند. متغیرهای مخدوش کننده می توانند به نظر برسد که یک رابطه همبستگی علی است در حالی که اینطور نیست.
وقتی دو متغیر با هم مرتبط هستند، تنها چیزی که می توانید بگویید این است که تغییرات در یک متغیر در کنار تغییرات در متغیر دیگر رخ می دهد.
رگرسیون به میانگین زمانی مشاهده میشود که متغیرهایی که در اندازهگیری اول بسیار بالاتر یا بسیار پایینتر از میانگین هستند به میانگین اندازهگیری دوم نزدیکتر شوند. به ویژه در تحقیقاتی که عمداً بر شدیدترین موارد یا رویدادها تمرکز می کنند، RTM باید همیشه به عنوان یک علت احتمالی تغییر مشاهده شده در نظر گرفته شود.
مثال: رگرسیون به میانگین
رگرسیون به میانگین می تواند به اصطلاح “Sports Illustrated Jinx” را توضیح دهد. این افسانه شهری مدعی است که ورزشکاران یا تیم هایی که روی جلد مجله ورزشی ظاهر می شوند در بازی بعدی خود عملکرد ضعیفی خواهند داشت.
بازیکنان یا تیمهایی که روی جلد SI حضور دارند با عملکرد فوقالعاده خوب جایگاه خود را به دست آوردهاند. اما موفقیت ورزشی ترکیبی از مهارت و شانس است و حتی بهترین بازیکنان همیشه برنده نمی شوند.
این احتمال وجود دارد که بخت و اقبال به طور نامحدود ادامه پیدا نکند و موفقیت استثنایی نیز نمی تواند.
به عبارت دیگر، با توجه به RTM، یک عملکرد عالی بیشتر با یک عملکرد متوسط به دنبال دارد تا یک عملکرد عالی دیگر، و این تصور را ایجاد می کند که ظاهر شدن روی جلد باعث بدشانسی می شود.
همبستگی کاذب زمانی است که به نظر می رسد دو متغیر از طریق متغیرهای سوم پنهان یا به طور تصادفی به هم مرتبط هستند.
مثال: همبستگی کاذب
در آلمان و دانمارک، شواهد آماری یک همبستگی مثبت واضح بین جمعیت لک لک ها و نرخ زاد و ولد طی دهه ها را نشان می دهد. با نوسانات جمعیت لک لک، تعداد نوزادان نیز تغییر می کند. این الگو را چگونه به حساب می آورید؟
نظریه لک لک یک پیوند علّی ساده بین متغیرها ترسیم می کند تا استدلال کند که لک لک ها به طور فیزیکی بچه به دنیا می آورند. این مطالعه طنز نشان می دهد که چرا نمی توانید به تنهایی از تحقیقات همبستگی نتیجه گیری کنید.
در واقعیت، این همبستگی ممکن است با متغیرهای سوم (مانند الگوهای آب و هوا، تحولات محیطی و غیره) توضیح داده شود که باعث افزایش جمعیت لک لک و انسان شده است، یا این پیوند ممکن است کاملاً تصادفی باشد.
هنگامی که همبستگی ها را در یک مجموعه داده بزرگ با متغیرهای زیادی تجزیه و تحلیل می کنید، شانس یافتن حداقل یک نتیجه آماری معنی دار زیاد است. در این حالت، احتمال خطای نوع I بیشتر است. این به این معنی است که به اشتباه نتیجه گیری شود که یک همبستگی واقعی بین متغیرها در جامعه بر اساس داده های نمونه کج وجود دارد.
برای نشان دادن علیت، باید یک رابطه جهت دار را بدون توضیح جایگزین نشان دهید. این رابطه می تواند یک طرفه باشد که یک متغیر بر دیگری تأثیر می گذارد یا دو طرفه باشد که هر دو متغیر بر یکدیگر تأثیر می گذارند.
یک طرح همبستگی نمی تواند بین هیچ یک از این احتمالات تمایز قائل شود، اما یک طرح آزمایشی می تواند هر جهت ممکن را در یک زمان آزمایش کند.
مثال: مسئله جهت گیری
متغیرهای فعالیت بدنی و عزت نفس را می توان از سه طریق به صورت علّی مرتبط دانست:
فعالیت بدنی ممکن است بر عزت نفس تأثیر بگذارد
عزت نفس ممکن است بر فعالیت بدنی تأثیر بگذارد
فعالیت بدنی و عزت نفس هر دو ممکن است بر یکدیگر تأثیر بگذارند
در تحقیقات همبستگی، جهت گیری یک رابطه نامشخص است زیرا کنترل محقق محدودی وجود دارد. ممکن است در خطر نتیجه گیری علیت معکوس، جهت اشتباه رابطه باشید.
پیوندهای علّی بین متغیرها را تنها با آزمایش های کنترل شده می توان به طور واقعی نشان داد. آزمایشها پیشبینیهای رسمی را که فرضیه نامیده میشوند، آزمایش میکنند تا علیت را در یک جهت در یک زمان مشخص کنند. یک تحلیل علیت مانند مدل ساختاری تفسیری عمل می کند.
آزمایش ها از اعتبار درونی بالایی برخوردار هستند، بنابراین روابط علت و معلولی را می توان با اطمینان معقول نشان داد.
شما می توانید جهت را در یک جهت ایجاد کنید زیرا قبل از اندازه گیری تغییر در یک متغیر وابسته، یک متغیر مستقل را دستکاری می کنید.
مثال: تست جهت گیری در یک طرح آزمایشی
شما معتقدید که سطح فعالیت بدنی بر عزت نفس تأثیر می گذارد، بنابراین این فرضیه را در یک آزمایش بررسی می کنید. شما یک مداخله فعالیت بدنی را اعمال می کنید و تغییرات در عزت نفس را اندازه می گیرید. برای ایجاد جهتگیری، مداخله فعالیت بدنی شما باید قبل از هرگونه تغییر مشاهده شده در عزت نفس باشد.
برای آزمایش دو طرفه بودن این رابطه، باید آزمایش جدیدی طراحی کنید که ارزیابی کند آیا عزت نفس می تواند بر سطح فعالیت بدنی تأثیر بگذارد یا خیر.
در یک آزمایش کنترلشده، میتوانید با استفاده از تخصیص تصادفی و گروههای کنترل، تأثیر متغیرهای سوم را از بین ببرید.
تخصیص تصادفی کمک می کند تا ویژگی های شرکت کننده به طور مساوی بین گروه ها توزیع شود تا آنها مشابه و قابل مقایسه باشند. یک گروه کنترل به شما امکان می دهد دستکاری تجربی را با یک درمان مشابه یا بدون درمان (یا یک دارونما، برای کنترل اثر دارونما) مقایسه کنید.
مثال: کنترل متغیرهای سوم در یک طرح آزمایشی
شما به طور تصادفی هر شرکت کننده را در یک گروه کنترل یا یک گروه آزمایشی قرار می دهید. تخصیص تصادفی اثرات ویژگی های متغیر سوم شرکت کننده مانند سن یا وضعیت سلامت روان را که ممکن است بر نتایج شما تأثیر بگذارد، حذف می کند.
گروه کنترل یک مداخله غیرمرتبط و قابل مقایسه دریافت می کند، در حالی که گروه آزمایش مداخله فعالیت بدنی را دریافت می کند. با ثابت نگه داشتن همه متغیرها بین گروه ها، به جز درمان متغیر مستقل شما، هر گونه تفاوت بین گروه ها را می توان به مداخله شما نسبت داد.