آمار توصیفی

آمار توصیفی (Descriptive statistics) بخش مهمی از تحلیل داده هاست که برای توصیف ویژگی های اساسی داده ها در مطالعه و تحلیل آماری استفاده می شود. آنها خلاصه های ساده ای در مورد نمونه و اقدامات ارائه می دهند. آمار که علم جمع آوری، تجزیه و تحلیل، ارائه و تفسیر داده ها است، دارای دو شاخه اصلی است، آمار توصیفی و آمار استنباطی.

معیارهای خلاصه یا آمار خلاصه یا آمار توصیفی برای خلاصه کردن مجموعه‌ای از مشاهدات استفاده می‌شود تا بیشترین حجم اطلاعات را به ساده‌ترین شکل ممکن منتقل کند. آمار توصیفی نوع اطلاعاتی است که تنها در چند کلمه برای توصیف ویژگی های اساسی داده ها در یک مطالعه مانند میانگین و انحراف معیار (SD) ارائه می شود. مورد دیگر آمار استنباطی است که از داده هایی که در معرض تغییرات تصادفی هستند (به عنوان مثال، خطاهای مشاهده و تنوع نمونه گیری) نتیجه گیری می کند. در تحلیل های معادلات ساختاری و تحلیل کوواریانس و دیگر تحلیل های آماری، آمار توصیفی کاربرد فراوانی دارد.

مفهوم آمار توصیفی

مجموعه داده مجموعه ای از داده های جمعی یا تک موضوعی است. معمولاً ارائه چنین داده‌هایی به‌صورت جداگانه بی‌معنی است، زیرا نتیجه‌گیری مهمی حاصل نمی‌شود. به جای ارائه موارد جزئی، ما آمار خلاصه ای از مجموعه داده های خود را با یا بدون فرم تحلیلی ارائه می کنیم که می تواند به راحتی برای مخاطب قابل جذب باشد. سه نوع عمده آمار توصیفی وجود دارد:

اندازه‌گیری‌های فراوانی (فراوانی، درصد)،

اندازه‌گیری‌های گرایش مرکزی (میانگین، میانه و حالت)،

و اندازه‌گیری‌های پراکندگی یا تغییرات (واریانس، SD، خطای استاندارد، چارک، محدوده بین چارکی، صدک، محدوده و ضریب تغییرات).

یک اندازه گیری فراوانی معمولاً برای داده های طبقه بندی شده استفاده می شود در حالی که سایر معیارها برای داده های کمی استفاده می شوند.

اندازه‌گیری‌های فراوانی در آمار توصیفی

آمار فراوانی به سادگی تعداد دفعاتی را که در هر متغیر رخ می‌دهد، می‌شمارد، مانند تعداد مردان و زنان در نمونه یا جمعیت. تجزیه و تحلیل فراوانی یک حوزه مهم از آمار است که با تعداد وقوع (فرکانس) و درصد سروکار دارد. به عنوان مثال، طبق جدول ۱، از ۱۵ بیمار، فراوانی مردان و زنان به ترتیب ۸ (۵۳.۳%) و ۷ (۴۶.۷%) بود.

اندازه‌گیری‌های گرایش مرکزی در آمار توصیفی

داده‌ها معمولاً مشاهدات را توصیف می‌کنند در یک معیار تمایل مرکزی، که به آن معیارهای مکان مرکزی نیز گفته می‌شود، برای یافتن ارزش نماینده یک مجموعه داده استفاده می‌شود. میانگین، میانه و حالت سه نوع معیار گرایش مرکزی هستند. معیارهای گرایش مرکزی به ما یک مقدار (میانگین یا میانه) برای توزیع می دهند و این مقدار کل توزیع را نشان می دهد. برای مقایسه بین دو یا چند گروه، مقادیر نماینده این توزیع ها مقایسه می شوند. این به تجزیه و تحلیل آماری بیشتر کمک می کند زیرا بسیاری از تکنیک های تجزیه و تحلیل آماری مانند اندازه گیری های پراکندگی، چولگی، همبستگی، آزمون t و آزمون ANOVA با استفاده از ارزش معیارهای گرایش مرکزی محاسبه می شوند. به همین دلیل است که معیارهای گرایش مرکزی را معیارهای درجه اول نیز می نامند. یک مقدار معرف (اندازه‌های گرایش مرکزی) زمانی خوب در نظر گرفته می‌شود که با استفاده از همه مشاهدات محاسبه شود و تحت تأثیر مقادیر شدید قرار نگیرد، زیرا این مقادیر برای محاسبه برای اندازه‌گیری‌های بعدی استفاده می‌شوند.

محاسبه معیارهای گرایش مرکزی

میانگین

میانگین مقدار متوسط ریاضی مجموعه ای از داده ها است. میانگین را می توان با استفاده از جمع مشاهدات تقسیم بر تعداد مشاهدات محاسبه کرد. این معیار محبوب ترین و محاسبه آن بسیار آسان است. این یک مقدار منحصر به فرد برای یک گروه است، یعنی فقط یک پاسخ وجود دارد که هنگام مقایسه بین گروه ها مفید است. در محاسبه میانگین از تمام مشاهدات استفاده می شود. یکی از معایب میانگین این است که تحت تأثیر مقادیر شدید (فرج) قرار می گیرد.

میانه

اگر داده ها به ترتیب افزایش یا کاهش مرتب شوند، میانه به عنوان متوسط ترین مشاهده تعریف می شود. بنابراین، یکی از مشاهدات است که جایگاه مرکزی را در توزیع (داده) به خود اختصاص می دهد. به این میانگین موقعیتی نیز می گویند. مقادیر شدید (پرت) بر میانه تأثیر نمی گذارد. منحصر به فرد است، یعنی فقط بین گروه ها وجود دارد. یک نقطه ضعف میانه نسبت به میانگین وجود دارد که به اندازه متوسط محبوب نیست.

نما

نما مقداری است که اغلب در مجموعه ای از مشاهدات رخ می دهد، یعنی مشاهده ای که حداکثر فرکانس را دارد نما نامیده می شود. در یک مجموعه داده، این امکان وجود دارد که نماهای متعددی داشته باشد یا حالتی وجود نداشته باشد. به دلیل امکان چند نما برای یک مجموعه داده، برای مقایسه بین گروه ها استفاده نمی شود.

اندازه‌گیری‌های پراکندگی یا تغییرات در آمار توصیفی

اندازه‌گیری‌های پراکندگی معیار دیگری است که برای نشان دادن میزان پراکندگی (تغییر) در یک مجموعه داده استفاده می‌شود. از نظر کمی درجه تنوع یا پراکندگی مقادیر در یک جامعه یا در یک نمونه است. به طور خاص، عدم نمایش معیارهای گرایش مرکزی معمولاً برای میانگین / میانه را نشان می دهد. اینها شاخص هایی هستند که به ما ایده ای در مورد همگنی یا ناهمگنی داده ها می دهند.معیارهای پراکندگی مرسوم عبارتند از: واریانس، انحراف معیار، خطای استاندارد، چارک، محدوده بین چارکی، صدک، محدوده و CV

انحراف معیار و واریانس

انحراف معیار معیاری است که نشان می‌دهد چقدر مقادیر پراکنده از مقدار میانگین آن است. نماد آن σ (حرف یونانی سیگما) یا s است. SD نامیده می شود زیرا ما یک مقدار استاندارد (میانگین) برای اندازه گیری پراکندگی گرفته ایم. جایی که xi مقدار فردی است، x مقدار متوسط است.

خطای استاندارد

خطای استاندارد تفاوت تقریبی بین میانگین نمونه و میانگین جامعه است. هنگامی که نمونه های زیادی را از یک جامعه با حجم نمونه یکسان به روش نمونه گیری تصادفی می گیریم، آنگاه انحراف معیار در میان میانگین های نمونه، خطای استاندارد نامیده می شود.

چارک ها و محدوده بین چارکی

چارک ها سه نقطه ای هستند که مجموعه داده ها را به چهار گروه مساوی تقسیم می کنند که هر گروه یک چهارم داده ها را شامل می شود، برای مجموعه ای از مقادیر داده ها که به ترتیب صعودی یا نزولی مرتب شده اند.

دامنه

تفاوت بین بزرگترین و کوچکترین مشاهده را محدوده می گویند. اگر A و B کوچکترین و بزرگترین مشاهدات در یک مجموعه داده باشند، محدوده (R) برابر است با اختلاف بزرگترین و کوچکترین مشاهدات، یعنی R = A-B.