نمودار Q-Q یا نمودار چندک-چندک، نقش بسیار حیاتی در تجزیه و تحلیل گرافیکی و مقایسه دو توزیع احتمال با ترسیم چندک های آنها در برابر یکدیگر دارند. نموداری از چندک های مجموعه داده اول در برابر چندک های مجموعه داده دوم است. منظور ما از یک چندک، کسر (یا درصد) نقاط زیر مقدار داده شده است. یعنی کمیک ۰.۳ (یا ۳۰%) نقطهای است که در آن ۳۰ درصد از دادهها به زیر و ۷۰ درصد بالاتر از آن مقدار میافتند. نمودارهای Q-Q برای یافتن نوع توزیع برای یک متغیر تصادفی استفاده می شود، اعم از توزیع گاوسی، توزیع یکنواخت، توزیع نمایی یا حتی توزیع پارتو و غیره. این روش گرافیکی تشخیص نرمال بودن داده ها است. روش های احتمالی نیز آزمون کولموگروف اسمیرنوف و آزمون شاپیرو ویلک است.
شما می توانید نوع توزیع را با استفاده از توان نمودار Q-Q فقط با نگاه کردن به آن بفهمید. در طرح به طور کلی، ما در مورد توزیع های نرمال صحبت می کنیم فقط به این دلیل که مفهوم بسیار زیبایی از قانون ۶۸-۹۵-۹۹.۷ داریم که کاملاً با توزیع نرمال مطابقت دارد، بنابراین می دانیم که چه مقدار از داده ها در محدوده انحراف استاندارد اول، استاندارد دوم قرار دارند.
انحراف و سومین انحراف معیار از میانگین. بنابراین، دانستن اینکه آیا یک توزیع نرمال است یا نه، درهای جدیدی را به روی ما باز می کند تا داده ها را به راحتی آزمایش کنیم. ثانیاً، توزیعهای نرمال در اغلب رویدادهای طبیعی که دامنه وسیعی دارند، بسیار مکرر اتفاق میافتد.
ما چندکهای نظری یا بهعنوان متغیر نرمال استاندارد (توزیع نرمال با میانگین=۰ و انحراف استاندارد=۱) را روی محور x و مقادیر مرتب شده برای متغیر تصادفی رسم میکنیم که میخواهیم بفهمیم آیا توزیع گاوسی است یا خیر. یا نه، در محور y. که یک ساختار بسیار زیبا و صاف مانند خط مستقیم از هر نقطه در نمودار نشان می دهد.
حالا باید روی انتهای خط مستقیم تمرکز کنیم. اگر نقاط انتهای منحنی که از نقاط تشکیل شده اند روی یک خط مستقیم قرار نگیرند، اما در واقع به طور قابل توجهی از موقعیت ها پراکنده شده باشند، نمی توانیم رابطه ای بین محورهای x و y نتیجه گیری کنیم که به وضوح نشان می دهد که مقادیر مرتب شده ما که می خواستیم. برای محاسبه به طور نرمال توزیع نمی شود
اگر تمام نقاط رسم شده روی نمودار کاملاً روی یک خط مستقیم قرار بگیرند، به وضوح میتوان گفت که این توزیع توزیع نرمال است زیرا به طور مساوی با متغیر نرمال استاندارد که مفهوم ساده نمودار Q-Q است تراز است.
نمودارهای Q-Q همچنین برای یافتن چولگی (معیار “عدم تقارن”) یک توزیع استفاده می شود. وقتی چندکهای نظری را روی محور x و چندکهای نمونهای که میخواهیم توزیع آنها را روی محور y بدانیم رسم میکنیم، شکل بسیار عجیبی از نمودار Q-Q با توزیع نرمال برای چولگی میبینیم. اگر انتهای پایین نمودار Q-Q از خط مستقیم منحرف شود اما انتهای بالایی منحرف شود، به وضوح می توانیم بگوییم که توزیع دنباله بلندتری در سمت چپ خود دارد یا به سادگی دارای انحراف به چپ (یا منحنی منفی) است، اما زمانی که ما انتهای بالای نمودار Q-Q را ببینید تا از خط مستقیم منحرف شود و پایین تر و یک خط مستقیم را دنبال کند، سپس منحنی تا سمت راست آن بلندتر است و به راست (یا دارای انحراف مثبت) است.
به طور مشابه، ما می توانیم در مورد Kurtosis (معیار “Tailedness”) توزیع با صرف نگاه کردن به نمودار Q-Q آن صحبت کنیم. توزیع با دم چربی هر دو انتهای نمودار Q-Q را برای انحراف از خط مستقیم خواهد داشت و مرکز آن از یک خط مستقیم پیروی می کند، در حالی که توزیع دم نازک یک نمودار Q-Q با انحراف بسیار کمتر یا ناچیز در انتها تشکیل می دهد. بنابراین آن را برای توزیع عادی مناسب می کند.
توجه داشته باشید که وقتی نقاط داده بسیار کمتر است، نمودار Q-Q خیلی دقیق عمل نمی کند و نمی تواند پاسخ قاطعی بدهد، اما وقتی تعداد نقاط داده کافی داریم و سپس یک نمودار Q-Q را با استفاده از یک مجموعه داده بزرگ رسم می کنیم، به ما می دهد. یک نتیجه قابل توجه برای نتیجه گیری هر گونه نتیجه در مورد نوع توزیع.
برای انجام این کار در نرمافزار SPSS از مسیر زیر استفاده میکنیم.
هنگامی که به مسیر بالا در نرمافزار SPSS میرویم، پنجره زیر با نام Q-Q Plots برای ما باز میشود.
در Variables، متغیرهایی را که میخواهیم نمودار Q-Q آنها را رسم کنیم، قرار میدهیم. به عنوان مثال من میخواهم برای Beginning Salary نمودار چندک رسم کنم. بنابراین آن را در کادر Variables قرار میدهم.
بخش Test Distribution همان جایی است که انتخاب میکنیم که میخواهیم کدام توزیع آماری را بر دادههای خود، تست کنیم. در تصویر زیر میتوانید این کادر بازشو و انواع توزیعهای آماری موجود در آن را ببینید
از آنجایی که میخواهیم نمودار چندک نرمال یعنی Normal Q-Q Plot را بر دادههای Beginning Salary رسم کنیم، بنابراین گزینه Normal را انتخاب می کنیم.
در قسمت Distribution parameters نرمافزار از ما پارامترهای توزیع انتخابی را میخواهد. به صورت پیشفرض گزینه Estimate from data انتخاب شده است. این به معنای آن است که نرمافزار جهت رسم نمودار چندک توزیع انتخاب شده، از همان دادههای کمیت قرار داده شده در بخش Variables استفاده میکند.
در اینجا به معنای این است که نرمافزار جهت رسم نمودار چندک نرمال برای دادههای Beginning Salary از میانگین و انحراف معیار همین دادهها استفاده خواهد کرد. چنانچه نخواهیم از دادههای خودمان استفاده کنیم، میتوانیم تیک این گزینه را برداریم و پارامترهای دلخواه خود را قرار دهیم.
شاید بخواهیم باشیم به جای رسم نمودار Q-Q بر روی دادههای واقعی و نوشته شده در فایل دیتا، از دادههای تبدیل شده استفاده کنیم. در این صورت در بخش Transform میتوانیم یکی از گزینههای Natural log transform (به معنای اینکه دادهها را به LN خودشان تبدیل میکند) یا گزینه Standardize values (که دادهها را استاندارد میکند، یعنی میانگین دادهها صفر و انحراف معیار آنها یک میشود. این گزینه در دادههای سری زمانی کاربرد دارد.) و یا گزینه Difference (که از دادهها تفاضل میگیرد، عدد مرتبه تفاضل را میتوان در کادر روبهرو نوشت)، انتخاب کنیم.
ر بخش Proportion estimation formula میتوانید انواع فرمولهای براورد نسبت که در محاسبه و رسم نمودار Q-Q مورد استفاده قرار میگیرد را مشاهده کنید. نرمافزار SPSS به صورت پیشفرض گزینه Blom’s را انتخاب کرده است، ما نیز همین گزینه را قرار میدهیم.
در بخش Rank assigned to ties میتوانید روشهای مختلف تبدیل گرهها (یعنی اعداد مساوی با هم) به رتبهها را مشخص کنید.
هنگامی که OK میکنیم، در پنجره Output میتوانیم خروجی و نتایج نرمافزار را مشاهده کنیم. در ابتدا جدول Estimated Distribution Parameters مشاهده میشود.
در محور افقی که با نام Observed Value قرار دارد، اندازهها و اعداد مشاهده شده حقوق اولیه به ترتیب از کوچک به بزرگ رتبهبندی شدهاند. آنها از کوچکترین عدد تا بزرگترین عدد در محور X قرار گرفتهاند. در واقع نرمافزار برای محاسبه این بخش، همه دادههای مشاهده شده (یعنی اعداد ستون Beginning Salary) را از کوچک به بزرگ مرتب میکند. سپس محاسبه میکند که کوچکترین عدد، چندک Quantile شماره چند است. به همین ترتیب برای هر عدد، چندک متناظر با آن را به دست می آورد و آن را در محور افقی قرار میدهد.
حال در محور عمودی که با نام Expected Value قرار دارد، اعداد مورد انتظار (یعنی اگر قرار باشد دادهها دارای توزیع نرمال باشند) به دست میآید. این کار نیز بر مبنای محاسبه چندکها با فرض وجود توزیع نرمال بر دادهها به دست میآید. به همین دلیل به این نمودار Q-Q و یا Quantile-Quantile گفته میشود.
هر دایره در نمودار Q-Q در چندک بالا، به معنای اعداد محور X یعنی اعداد مشاهده شده و محور Y یعنی اندازههای مورد انتظار، به ازای هر کدام از مقادیر و اعداد ستون Beginning Salary است.
خب واضح است که اگر قرار باشد، دادهها دارای توزیع آماری خاصی باشند (در اینجا مثلاً توزیع نرمال داشته باشند) باید اعداد محور X و Y در نمودار چندک با هم برابر باشند. به عبارت سادهتر باید دایرهها در اطراف و نزدیک به خط پررنگ نیمساز، قرار گرفته باشند.
هر چقدر که نقاط و دایرهها به خط نیمساز نزدیک باشند، به معنای نزدیک بودن دادهها، به توزیع مورد بررسی است و هر چقدر که از خط نیمساز فاصله داشته و از آن دور باشند، به معنای این است که دادهها فاقد آن توزیع هستند. در این مثال، به نظر میرسد که نقاط در اطراف خط نیمساز قرار دارند. بنابراین میتوان دادههای ستون Beginning Salary را دارای توزیع مورد انتظار یعنی توزیع نرمال دانست.