داده گمشده

داده گمشده

داده گمشده

داده گمشده (Mising data)، در آمار، زمانی اتفاق می افتد که هیچ مقدار داده ای برای متغیر در یک مشاهده ذخیره نمی شود. داده های از دست رفته یک اتفاق رایج است و می تواند تأثیر قابل توجهی بر نتایجی که می توان از داده ها گرفت. داده های از دست رفته ممکن است به دلیل عدم پاسخگویی رخ دهد: هیچ اطلاعاتی برای یک یا چند مورد یا برای یک واحد کامل (“موضوع”) ارائه نمی شود. برخی از آیتم ها بیشتر از سایرین بی پاسخ می گویند: به عنوان مثال مواردی در مورد موضوعات خصوصی مانند درآمد.

داده‌ها اغلب در تحقیقات اقتصاد، جامعه‌شناسی و علوم سیاسی وجود ندارند، زیرا دولت‌ها یا نهادهای خصوصی تصمیم می‌گیرند که آمارهای مهم را گزارش نکنند، یا به این دلیل که اطلاعات در دسترس نیست. گاهی اوقات مقادیر از دست رفته توسط محقق ایجاد می شود – به عنوان مثال، زمانی که جمع آوری داده ها به درستی انجام می شود یا اشتباهاتی در ورود داده ها انجام می شود. در تحلیل های آماری  با نرم افزار SPSS، پردازش و تصحیح داده های گمشده اهمیت دارند. در تحلیل با نرم افزار LISREL، داده های گمشده از اجرای مدل جلوگیری می کنند.

انواع داده گمشده

این اشکال داده گمشده انواع مختلفی دارند و تأثیرات متفاوتی بر اعتبار نتیجه‌گیری‌های حاصل از تحقیق دارند: گم شدن به طور تصادفی، گم شدن غیرتصادفی. داده های از دست رفته را می توان به طور مشابه با داده های سانسور شده مدیریت کرد. داده های از دست رفته خطا هستند زیرا داده های شما مقادیر واقعی آنچه را که برای اندازه گیری تعیین کرده اید نشان نمی دهد. دلیل گم شدن داده ها مهم است که در نظر گرفته شود، زیرا به شما کمک می کند تا نوع داده های از دست رفته و آنچه باید در مورد آن انجام دهید را تعیین کنید. سه نوع اصلی از داده های از دست رفته وجود دارد.

۱-کاملاً تصادفی از دست رفته (MCAR): داده های از دست رفته به طور تصادفی در بین متغیرها توزیع می شوند و با سایر متغیرها ارتباطی ندارند.

۲-گمشده به صورت تصادفی (MAR): داده های از دست رفته به طور تصادفی توزیع نمی شوند، اما آنها توسط سایر متغیرهای مشاهده شده محاسبه می شوند.

۳-گمشده غیر تضادفی (MNAR): داده های از دست رفته به طور سیستماتیک با مقادیر مشاهده شده متفاوت است.

دلایل از دست رفتن داده ها

در مطالعات طولی، سوگیری فرسایشی می تواند شکلی از داده گمشده باشد. سوگیری فرسایشی به این معنی است که برخی از شرکت کنندگان بیشتر از سایرین انصراف می دهند. به عنوان مثال، در مطالعات طولانی مدت پزشکی، برخی از شرکت کنندگان ممکن است ترک تحصیل کنند زیرا با ادامه مطالعه بیشتر و بیشتر ناخوشایند می شوند. داده‌های آن‌ها MNAR هستند زیرا پیامدهای سلامتی آن‌ها بدتر است، بنابراین مجموعه داده نهایی شما ممکن است فقط افراد سالم را شامل شود و شما داده‌های مهم را از دست بدهید.

در مطالعات طولی، سوگیری فرسایشی می تواند شکلی از داده گمشده باشد. سوگیری فرسایشی به این معنی است که برخی از شرکت کنندگان بیشتر از سایرین انصراف می دهند. به عنوان مثال، در مطالعات طولانی مدت پزشکی، برخی از شرکت کنندگان ممکن است ترک تحصیل کنند زیرا با ادامه مطالعه بیشتر و بیشتر ناخوشایند می شوند. داده‌های آن‌ها داده گمشده هستند زیرا پیامدهای سلامتی آن‌ها بدتر است، بنابراین مجموعه داده نهایی شما ممکن است فقط افراد سالم را شامل شود و شما داده‌های مهم را از دست بدهید.

کاهش داده گمشده

داده های از دست رفته اغلب ناشی از فرسایش، عدم پاسخگویی یا پروتکل های تحقیقاتی با طراحی ضعیف است. هنگام طراحی مطالعه خود، تمرین خوبی است که ارائه داده ها را برای شرکت کنندگان آسان کنید. در اینجا چند نکته وجود دارد که به شما کمک می کند تا داده های از دست رفته را به حداقل برسانید:

تعداد پیگیری ها را محدود کنید
حجم داده های جمع آوری شده را به حداقل برسانید
فرم های جمع آوری داده ها را کاربر پسند کنید
از تکنیک های اعتبارسنجی داده ها استفاده کنید
مشوق ها را ارائه دهید.

پس از جمع‌آوری داده‌ها، مهم است که آنها را به دقت و با پشتیبان‌گیری‌های متعدد ذخیره کنید.

برای مرتب کردن داده های خود، گزینه های شما معمولاً شامل پذیرش، حذف یا ایجاد مجدد داده های از دست رفته است. شما باید نحوه برخورد با هر مورد از داده های از دست رفته را بر اساس ارزیابی خود از علت گم شدن داده ها در نظر بگیرید.

آیا این داده ها به دلایل تصادفی یا غیر تصادفی از دست رفته اند؟
آیا داده ها از دست رفته اند زیرا آنها مقادیر صفر یا صفر را نشان می دهند؟
آیا سوال یا اندازه گیری ضعیف طراحی شده بود؟
اگر MCAR یا MAR باشد، داده‌های شما را می‌توان پذیرفت، یا همان‌طور که هست رها کرد. با این حال، داده های MNAR ممکن است به درمان پیچیده تری نیاز داشته باشد.

پذیرش داده های گمشده

محافظه کارانه ترین گزینه شامل پذیرش داده های از دست رفته شماست: شما به سادگی این سلول ها را خالی می گذارید.

زمانی که فکر می کنید با مقادیر MCAR یا MAR سروکار دارید، بهتر است این کار را انجام دهید. هنگامی که یک نمونه کوچک دارید، می خواهید تا حد امکان داده ها را حفظ کنید زیرا هر گونه حذف داده می تواند بر قدرت آماری شما تأثیر بگذارد.

همچنین می‌توانید همه مقادیر از دست رفته را با برچسب‌های «N/A» (مخفف «غیر قابل اجرا») دوباره کدنویسی کنید تا آنها را در کل مجموعه داده‌تان ثابت کنید.

این اقدامات به شما کمک می‌کند تا داده‌های مربوط به بسیاری از موضوعات تحقیقاتی را با تغییرات کم یا بدون تغییر حفظ کنید.

حذف داده گمشده

می‌توانید داده‌های گمشده را از تجزیه و تحلیل‌ها با استفاده از حذف به‌صورت فهرستی یا جفتی حذف کنید.

حذف فهرستی

حذف لیست به معنای حذف داده‌ها از همه موارد (شرکت‌کنندگان) است که داده‌ای برای هر متغیری در مجموعه داده شما وجود ندارد. شما مجموعه داده ای خواهید داشت که برای همه شرکت کنندگان موجود در آن کامل است. نقطه ضعف این تکنیک این است که ممکن است در نهایت با یک نمونه بسیار کوچکتر و/یا یک نمونه مغرضانه کار کنید. اگر مقادیر قابل‌توجهی از داده‌ها در برخی از متغیرها یا معیارهای خاص وجود نداشته باشد، شرکت‌کنندگانی که این داده‌ها را ارائه می‌کنند ممکن است به طور قابل‌توجهی با افرادی که ارائه نمی‌دهند متفاوت باشند. نمونه شما می تواند مغرضانه باشد زیرا به اندازه کافی جامعه را نشان نمی دهد.

حذف دوتایی

حذف دو به دو به شما امکان می دهد اطلاعات بیشتری را تنها با حذف نقاط داده ای که در هر تحلیلی وجود ندارد، نگه دارید. بیشتر از داده های شما ذخیره می شود زیرا همه داده های موجود از موارد گنجانده شده است. همچنین به این معنی است که شما برای هر یک از متغیرهای خود یک حجم نمونه ناهموار دارید. اما زمانی که شما یک نمونه کوچک یا نسبت زیادی از مقادیر گم شده برای برخی از متغیرها دارید مفید است. وقتی تجزیه و تحلیل هایی را با متغیرهای متعدد انجام می دهید، مانند همبستگی، فقط موارد (شرکت کنندگان) با داده های کامل برای هر متغیر گنجانده می شود.

جایگزینی داده گمشده

جایگزینی به معنای انتساب یک مقدار گمشده با مقدار دیگری بر اساس یک برآورد معقول است. شما از داده های دیگری برای ایجاد مجدد مقدار گمشده برای مجموعه داده کامل تر استفاده می کنید. شما می توانید از چندین روش انتساب انتخاب کنید. ساده‌ترین روش انتساب شامل جایگزینی مقادیر گمشده با مقدار میانگین یا میانه آن متغیر است.

جایگزینی هات دک یا عرشه داغ

در انتساب هات دک، هر مقدار گم شده را با یک مقدار موجود از یک مورد مشابه یا شرکت کننده در مجموعه داده خود جایگزین می کنید. برای هر مورد با مقادیر از دست رفته، مقدار از دست رفته با مقداری از یک به اصطلاح “بخشنده” جایگزین می شود که بر اساس داده های سایر متغیرها مشابه آن مورد است.

جایگزینی کلد دک عرشه سرد

روش دیگر، در انتساب عرشه سرد، مقادیر از دست رفته را با مقادیر موجود از موارد مشابه از مجموعه داده های دیگر جایگزین می کنید. مقادیر جدید از یک نمونه نامرتبط می آیند.

انتساب یک کار پیچیده است زیرا باید جوانب مثبت و منفی را بسنجید.
اگرچه تمام داده های خود را حفظ می کنید، این روش می تواند سوگیری ایجاد کند و منجر به نتایج نادرست شود. شما هرگز نمی توانید با اطمینان بدانید که آیا مقدار جایگزین شده دقیقاً منعکس کننده چیزی است که مشاهده شده یا پاسخ داده می شود. به همین دلیل است که بهتر است انتساب را با احتیاط اعمال کنید.

منبع

www.scribbr.com/statistics

ارسال نظر

آدرس ایمیل شما منتشر نخواهد شد.

مدیر آماری