نمودار Q-Q

نمودار Q-Q یا نمودار چندک-چندک، نقش بسیار حیاتی در تجزیه و تحلیل گرافیکی و مقایسه دو توزیع احتمال با ترسیم چندک های آنها در برابر یکدیگر دارند. نموداری از چندک های مجموعه داده اول در برابر چندک های مجموعه داده دوم است. منظور ما از یک چندک، کسر (یا درصد) نقاط زیر مقدار داده شده است. یعنی کمیک ۰.۳ (یا ۳۰%) نقطه‌ای است که در آن ۳۰ درصد از داده‌ها به زیر و ۷۰ درصد بالاتر از آن مقدار می‌افتند. نمودارهای Q-Q برای یافتن نوع توزیع برای یک متغیر تصادفی استفاده می شود، اعم از توزیع گاوسی، توزیع یکنواخت، توزیع نمایی یا حتی توزیع پارتو و غیره. این روش گرافیکی تشخیص نرمال بودن داده ها است. روش های احتمالی نیز آزمون کولموگروف اسمیرنوف و آزمون شاپیرو ویلک است.

کاربرد نمودار Q-Q

شما می توانید نوع توزیع را با استفاده از توان نمودار Q-Q فقط با نگاه کردن به آن بفهمید. در طرح به طور کلی، ما در مورد توزیع های نرمال صحبت می کنیم فقط به این دلیل که مفهوم بسیار زیبایی از قانون ۶۸-۹۵-۹۹.۷ داریم که کاملاً با توزیع نرمال مطابقت دارد، بنابراین می دانیم که چه مقدار از داده ها در محدوده انحراف استاندارد اول، استاندارد دوم قرار دارند.

انحراف و سومین انحراف معیار از میانگین. بنابراین، دانستن اینکه آیا یک توزیع نرمال است یا نه، درهای جدیدی را به روی ما باز می کند تا داده ها را به راحتی آزمایش کنیم. ثانیاً، توزیع‌های نرمال در اغلب رویدادهای طبیعی که دامنه وسیعی دارند، بسیار مکرر اتفاق می‌افتد.

نحوه ترسیم نمودار Q-Q

ما چندک‌های نظری یا به‌عنوان متغیر نرمال استاندارد (توزیع نرمال با میانگین=۰ و انحراف استاندارد=۱) را روی محور x و مقادیر مرتب شده برای متغیر تصادفی رسم می‌کنیم که می‌خواهیم بفهمیم آیا توزیع گاوسی است یا خیر. یا نه، در محور y. که یک ساختار بسیار زیبا و صاف مانند خط مستقیم از هر نقطه در نمودار نشان می دهد.

حالا باید روی انتهای خط مستقیم تمرکز کنیم. اگر نقاط انتهای منحنی که از نقاط تشکیل شده اند روی یک خط مستقیم قرار نگیرند، اما در واقع به طور قابل توجهی از موقعیت ها پراکنده شده باشند، نمی توانیم رابطه ای بین محورهای x و y نتیجه گیری کنیم که به وضوح نشان می دهد که مقادیر مرتب شده ما که می خواستیم. برای محاسبه به طور نرمال توزیع نمی شود

اگر تمام نقاط رسم شده روی نمودار کاملاً روی یک خط مستقیم قرار بگیرند، به وضوح می‌توان گفت که این توزیع توزیع نرمال است زیرا به طور مساوی با متغیر نرمال استاندارد که مفهوم ساده نمودار Q-Q است تراز است.

نمودارهای Q-Q اریب

نمودارهای Q-Q همچنین برای یافتن چولگی (معیار “عدم تقارن”) یک توزیع استفاده می شود. وقتی چندک‌های نظری را روی محور x و چندک‌های نمونه‌ای که می‌خواهیم توزیع آن‌ها را روی محور y بدانیم رسم می‌کنیم، شکل بسیار عجیبی از نمودار Q-Q با توزیع نرمال برای چولگی می‌بینیم. اگر انتهای پایین نمودار Q-Q از خط مستقیم منحرف شود اما انتهای بالایی منحرف شود، به وضوح می توانیم بگوییم که توزیع دنباله بلندتری در سمت چپ خود دارد یا به سادگی دارای انحراف به چپ (یا منحنی منفی) است، اما زمانی که ما انتهای بالای نمودار Q-Q را ببینید تا از خط مستقیم منحرف شود و پایین تر و یک خط مستقیم را دنبال کند، سپس منحنی تا سمت راست آن بلندتر است و به راست (یا دارای انحراف مثبت) است.

نمودارهای Q-Q دنباله دار

به طور مشابه، ما می توانیم در مورد Kurtosis (معیار “Tailedness”) توزیع با صرف نگاه کردن به نمودار Q-Q آن صحبت کنیم. توزیع با دم چربی هر دو انتهای نمودار Q-Q را برای انحراف از خط مستقیم خواهد داشت و مرکز آن از یک خط مستقیم پیروی می کند، در حالی که توزیع دم نازک یک نمودار Q-Q با انحراف بسیار کمتر یا ناچیز در انتها تشکیل می دهد. بنابراین آن را برای توزیع عادی مناسب می کند.

تعداد مورد نیاز داده برای رسم نمودار Q-Q

توجه داشته باشید که وقتی نقاط داده بسیار کمتر است، نمودار Q-Q خیلی دقیق عمل نمی کند و نمی تواند پاسخ قاطعی بدهد، اما وقتی تعداد نقاط داده کافی داریم و سپس یک نمودار Q-Q را با استفاده از یک مجموعه داده بزرگ رسم می کنیم، به ما می دهد. یک نتیجه قابل توجه برای نتیجه گیری هر گونه نتیجه در مورد نوع توزیع.

آموزش نمودار Q-Q در SPSS

برای انجام این کار در نرم‌افزار SPSS از مسیر زیر استفاده می‌کنیم.

Analyze → Descriptive Statistics → Q-Q Plots

هنگامی که به مسیر بالا در نرم‌افزار SPSS می‌رویم، پنجره زیر با نام Q-Q Plots برای ما باز می‌شود.

در Variables، متغیرهایی را که می‌خواهیم نمودار Q-Q آن‌ها را رسم کنیم، قرار می‌دهیم. به عنوان مثال من می‌خواهم برای Beginning Salary نمودار چندک رسم کنم. بنابراین آن را در کادر Variables قرار می‌دهم.

بخش Test Distribution همان جایی است که انتخاب می‌کنیم که می‌خواهیم کدام توزیع آماری را بر داده‌های خود، تست کنیم. در تصویر زیر می‌توانید این کادر بازشو و انواع توزیع‌های آماری موجود در آن را ببینید

از آن‌جایی که می‌خواهیم نمودار چندک نرمال یعنی Normal Q-Q Plot را بر داده‌های Beginning Salary رسم کنیم، بنابراین گزینه Normal را انتخاب می کنیم.

در قسمت Distribution parameters نرم‌افزار از ما پارامترهای توزیع انتخابی را می‌خواهد. به صورت پیش‌فرض گزینه Estimate from data انتخاب شده است. این به معنای آن است که نرم‌افزار جهت رسم نمودار چندک توزیع انتخاب شده، از همان داده‌های کمیت قرار داده شده در بخش Variables استفاده می‌کند.

در اینجا به معنای این است که نرم‌افزار جهت رسم نمودار چندک نرمال برای داده‌های Beginning Salary از میانگین و انحراف معیار همین داده‌ها استفاده خواهد کرد. چنانچه نخواهیم از داده‌های خودمان استفاده کنیم، می‌توانیم تیک این گزینه را برداریم و پارامترهای دلخواه خود را قرار دهیم.

شاید بخواهیم باشیم به جای رسم نمودار Q-Q بر روی داده‌های واقعی و نوشته شده در فایل دیتا، از داده‌های تبدیل شده استفاده کنیم. در این صورت در بخش Transform می‌توانیم یکی از گزینه‌های Natural log transform (به معنای اینکه داده‌ها را به LN خودشان تبدیل می‌کند) یا گزینه Standardize values (که داده‌ها را استاندارد می‌کند، یعنی میانگین داده‌ها صفر و انحراف معیار آن‌ها یک می‌شود. این گزینه در داده‌های سری زمانی کاربرد دارد.) و یا گزینه Difference (که از داده‌ها تفاضل می‌گیرد، عدد مرتبه تفاضل را می‌توان در کادر روبه‌رو نوشت)، انتخاب کنیم.

ر بخش Proportion estimation formula می‌توانید انواع فرمول‌های براورد نسبت که در محاسبه و رسم نمودار Q-Q مورد استفاده قرار می‌گیرد را مشاهده کنید. نرم‌افزار SPSS به صورت پیش‌فرض گزینه Blom’s را انتخاب کرده است، ما نیز همین گزینه را قرار می‌دهیم.

در بخش Rank assigned to ties می‌توانید روش‌های مختلف تبدیل گره‌ها (یعنی اعداد مساوی با هم) به رتبه‌ها را مشخص کنید.

هنگامی که OK می‌کنیم، در پنجره Output می‌توانیم خروجی و نتایج نرم‌افزار را مشاهده کنیم. در ابتدا جدول Estimated Distribution Parameters مشاهده می‌شود.

تفسیر نمودار Q-Q در SPSS

در محور افقی که با نام Observed Value قرار دارد، اندازه‌ها و اعداد مشاهده شده حقوق اولیه به ترتیب از کوچک به بزرگ رتبه‌بندی شده‌اند. آن‌ها از کوچکترین عدد تا بزرگترین عدد در محور X قرار گرفته‌اند. در واقع نرم‌افزار برای محاسبه این بخش، همه داده‌های مشاهده شده (یعنی اعداد ستون Beginning Salary) را از کوچک به بزرگ مرتب می‌کند. سپس محاسبه می‌کند که کوچکترین عدد، چندک Quantile شماره چند است. به همین ترتیب برای هر عدد، چندک متناظر با آن را به دست می آورد و آن را در محور افقی قرار می‌دهد.

حال در محور عمودی که با نام Expected Value قرار دارد، اعداد مورد انتظار (یعنی اگر قرار باشد داده‌ها دارای توزیع نرمال باشند) به دست می‌آید. این کار نیز بر مبنای محاسبه چندک‌ها با فرض وجود توزیع نرمال بر داده‌ها به دست می‌آید. به همین دلیل به این نمودار Q-Q و یا Quantile-Quantile گفته می‌شود.

هر دایره در نمودار Q-Q در چندک بالا، به معنای اعداد محور X یعنی اعداد مشاهده شده و محور Y یعنی اندازه‌های مورد انتظار، به ازای هر کدام از مقادیر و اعداد ستون Beginning Salary است.

خب واضح است که اگر قرار باشد، داده‌ها دارای توزیع آماری خاصی باشند (در اینجا مثلاً توزیع نرمال داشته باشند) باید اعداد محور X و Y در نمودار چندک با هم برابر باشند. به عبارت ساده‌تر باید دایره‌ها در اطراف و نزدیک به خط پررنگ نیمساز، قرار گرفته باشند.

هر چقدر که نقاط و دایره‌ها به خط نیمساز نزدیک باشند، به معنای نزدیک بودن داده‌ها، به توزیع مورد بررسی است و هر چقدر که از خط نیمساز فاصله داشته و از آن دور باشند، به معنای این است که داده‌ها فاقد آن توزیع هستند. در این مثال، به نظر می‌رسد که نقاط در اطراف خط نیمساز قرار دارند. بنابراین می‌توان داده‌های ستون Beginning Salary را دارای توزیع مورد انتظار یعنی توزیع نرمال دانست.