داده گمشده (Mising data)، در آمار، زمانی اتفاق می افتد که هیچ مقدار داده ای برای متغیر در یک مشاهده ذخیره نمی شود. داده های از دست رفته یک اتفاق رایج است و می تواند تأثیر قابل توجهی بر نتایجی که می توان از داده ها گرفت. داده های از دست رفته ممکن است به دلیل عدم پاسخگویی رخ دهد: هیچ اطلاعاتی برای یک یا چند مورد یا برای یک واحد کامل (“موضوع”) ارائه نمی شود. برخی از آیتم ها بیشتر از سایرین بی پاسخ می گویند: به عنوان مثال مواردی در مورد موضوعات خصوصی مانند درآمد.
دادهها اغلب در تحقیقات اقتصاد، جامعهشناسی و علوم سیاسی وجود ندارند، زیرا دولتها یا نهادهای خصوصی تصمیم میگیرند که آمارهای مهم را گزارش نکنند، یا به این دلیل که اطلاعات در دسترس نیست. گاهی اوقات مقادیر از دست رفته توسط محقق ایجاد می شود – به عنوان مثال، زمانی که جمع آوری داده ها به درستی انجام می شود یا اشتباهاتی در ورود داده ها انجام می شود. در تحلیل های آماری با نرم افزار SPSS، پردازش و تصحیح داده های گمشده اهمیت دارند. در تحلیل با نرم افزار LISREL، داده های گمشده از اجرای مدل جلوگیری می کنند.
این اشکال داده گمشده انواع مختلفی دارند و تأثیرات متفاوتی بر اعتبار نتیجهگیریهای حاصل از تحقیق دارند: گم شدن به طور تصادفی، گم شدن غیرتصادفی. داده های از دست رفته را می توان به طور مشابه با داده های سانسور شده مدیریت کرد. داده های از دست رفته خطا هستند زیرا داده های شما مقادیر واقعی آنچه را که برای اندازه گیری تعیین کرده اید نشان نمی دهد. دلیل گم شدن داده ها مهم است که در نظر گرفته شود، زیرا به شما کمک می کند تا نوع داده های از دست رفته و آنچه باید در مورد آن انجام دهید را تعیین کنید. سه نوع اصلی از داده های از دست رفته وجود دارد.
۱-کاملاً تصادفی از دست رفته (MCAR): داده های از دست رفته به طور تصادفی در بین متغیرها توزیع می شوند و با سایر متغیرها ارتباطی ندارند.
۲-گمشده به صورت تصادفی (MAR): داده های از دست رفته به طور تصادفی توزیع نمی شوند، اما آنها توسط سایر متغیرهای مشاهده شده محاسبه می شوند.
۳-گمشده غیر تضادفی (MNAR): داده های از دست رفته به طور سیستماتیک با مقادیر مشاهده شده متفاوت است.
در مطالعات طولی، سوگیری فرسایشی می تواند شکلی از داده گمشده باشد. سوگیری فرسایشی به این معنی است که برخی از شرکت کنندگان بیشتر از سایرین انصراف می دهند. به عنوان مثال، در مطالعات طولانی مدت پزشکی، برخی از شرکت کنندگان ممکن است ترک تحصیل کنند زیرا با ادامه مطالعه بیشتر و بیشتر ناخوشایند می شوند. دادههای آنها MNAR هستند زیرا پیامدهای سلامتی آنها بدتر است، بنابراین مجموعه داده نهایی شما ممکن است فقط افراد سالم را شامل شود و شما دادههای مهم را از دست بدهید.
در مطالعات طولی، سوگیری فرسایشی می تواند شکلی از داده گمشده باشد. سوگیری فرسایشی به این معنی است که برخی از شرکت کنندگان بیشتر از سایرین انصراف می دهند. به عنوان مثال، در مطالعات طولانی مدت پزشکی، برخی از شرکت کنندگان ممکن است ترک تحصیل کنند زیرا با ادامه مطالعه بیشتر و بیشتر ناخوشایند می شوند. دادههای آنها داده گمشده هستند زیرا پیامدهای سلامتی آنها بدتر است، بنابراین مجموعه داده نهایی شما ممکن است فقط افراد سالم را شامل شود و شما دادههای مهم را از دست بدهید.
داده های از دست رفته اغلب ناشی از فرسایش، عدم پاسخگویی یا پروتکل های تحقیقاتی با طراحی ضعیف است. هنگام طراحی مطالعه خود، تمرین خوبی است که ارائه داده ها را برای شرکت کنندگان آسان کنید. در اینجا چند نکته وجود دارد که به شما کمک می کند تا داده های از دست رفته را به حداقل برسانید:
تعداد پیگیری ها را محدود کنید
حجم داده های جمع آوری شده را به حداقل برسانید
فرم های جمع آوری داده ها را کاربر پسند کنید
از تکنیک های اعتبارسنجی داده ها استفاده کنید
مشوق ها را ارائه دهید.
پس از جمعآوری دادهها، مهم است که آنها را به دقت و با پشتیبانگیریهای متعدد ذخیره کنید.
برای مرتب کردن داده های خود، گزینه های شما معمولاً شامل پذیرش، حذف یا ایجاد مجدد داده های از دست رفته است. شما باید نحوه برخورد با هر مورد از داده های از دست رفته را بر اساس ارزیابی خود از علت گم شدن داده ها در نظر بگیرید.
آیا این داده ها به دلایل تصادفی یا غیر تصادفی از دست رفته اند؟
آیا داده ها از دست رفته اند زیرا آنها مقادیر صفر یا صفر را نشان می دهند؟
آیا سوال یا اندازه گیری ضعیف طراحی شده بود؟
اگر MCAR یا MAR باشد، دادههای شما را میتوان پذیرفت، یا همانطور که هست رها کرد. با این حال، داده های MNAR ممکن است به درمان پیچیده تری نیاز داشته باشد.
محافظه کارانه ترین گزینه شامل پذیرش داده های از دست رفته شماست: شما به سادگی این سلول ها را خالی می گذارید.
زمانی که فکر می کنید با مقادیر MCAR یا MAR سروکار دارید، بهتر است این کار را انجام دهید. هنگامی که یک نمونه کوچک دارید، می خواهید تا حد امکان داده ها را حفظ کنید زیرا هر گونه حذف داده می تواند بر قدرت آماری شما تأثیر بگذارد.
همچنین میتوانید همه مقادیر از دست رفته را با برچسبهای «N/A» (مخفف «غیر قابل اجرا») دوباره کدنویسی کنید تا آنها را در کل مجموعه دادهتان ثابت کنید.
این اقدامات به شما کمک میکند تا دادههای مربوط به بسیاری از موضوعات تحقیقاتی را با تغییرات کم یا بدون تغییر حفظ کنید.
میتوانید دادههای گمشده را از تجزیه و تحلیلها با استفاده از حذف بهصورت فهرستی یا جفتی حذف کنید.
حذف لیست به معنای حذف دادهها از همه موارد (شرکتکنندگان) است که دادهای برای هر متغیری در مجموعه داده شما وجود ندارد. شما مجموعه داده ای خواهید داشت که برای همه شرکت کنندگان موجود در آن کامل است. نقطه ضعف این تکنیک این است که ممکن است در نهایت با یک نمونه بسیار کوچکتر و/یا یک نمونه مغرضانه کار کنید. اگر مقادیر قابلتوجهی از دادهها در برخی از متغیرها یا معیارهای خاص وجود نداشته باشد، شرکتکنندگانی که این دادهها را ارائه میکنند ممکن است به طور قابلتوجهی با افرادی که ارائه نمیدهند متفاوت باشند. نمونه شما می تواند مغرضانه باشد زیرا به اندازه کافی جامعه را نشان نمی دهد.
حذف دو به دو به شما امکان می دهد اطلاعات بیشتری را تنها با حذف نقاط داده ای که در هر تحلیلی وجود ندارد، نگه دارید. بیشتر از داده های شما ذخیره می شود زیرا همه داده های موجود از موارد گنجانده شده است. همچنین به این معنی است که شما برای هر یک از متغیرهای خود یک حجم نمونه ناهموار دارید. اما زمانی که شما یک نمونه کوچک یا نسبت زیادی از مقادیر گم شده برای برخی از متغیرها دارید مفید است. وقتی تجزیه و تحلیل هایی را با متغیرهای متعدد انجام می دهید، مانند همبستگی، فقط موارد (شرکت کنندگان) با داده های کامل برای هر متغیر گنجانده می شود.
جایگزینی به معنای انتساب یک مقدار گمشده با مقدار دیگری بر اساس یک برآورد معقول است. شما از داده های دیگری برای ایجاد مجدد مقدار گمشده برای مجموعه داده کامل تر استفاده می کنید. شما می توانید از چندین روش انتساب انتخاب کنید. سادهترین روش انتساب شامل جایگزینی مقادیر گمشده با مقدار میانگین یا میانه آن متغیر است.
در انتساب هات دک، هر مقدار گم شده را با یک مقدار موجود از یک مورد مشابه یا شرکت کننده در مجموعه داده خود جایگزین می کنید. برای هر مورد با مقادیر از دست رفته، مقدار از دست رفته با مقداری از یک به اصطلاح “بخشنده” جایگزین می شود که بر اساس داده های سایر متغیرها مشابه آن مورد است.
روش دیگر، در انتساب عرشه سرد، مقادیر از دست رفته را با مقادیر موجود از موارد مشابه از مجموعه داده های دیگر جایگزین می کنید. مقادیر جدید از یک نمونه نامرتبط می آیند.
انتساب یک کار پیچیده است زیرا باید جوانب مثبت و منفی را بسنجید.
اگرچه تمام داده های خود را حفظ می کنید، این روش می تواند سوگیری ایجاد کند و منجر به نتایج نادرست شود. شما هرگز نمی توانید با اطمینان بدانید که آیا مقدار جایگزین شده دقیقاً منعکس کننده چیزی است که مشاهده شده یا پاسخ داده می شود. به همین دلیل است که بهتر است انتساب را با احتیاط اعمال کنید.