متغیر ابزاری (IV) Instrumental Variables یک روش آماری برای کاهش اریبی و ناسازگاری های مدل براساس یک متغیر مسقل درون زا در مدل رگرسیونی است. بنابراین می توان از IV برای مقابله با تهدیدهای مهم زیر برای اعتبار داخلی استفاده کرد:
۱-سوگیری متغیر حذف شده از متغیری که با X همبستگی دارد اما مشاهده نشده است، بنابراین نمی توان آن را در رگرسیون گنجاند.
۲. سوگیری خطاها در متغیرها (X با خطا اندازه گیری می شود)
۳. سوگیری علیت همزمان (متغیرهای توضیحی درون زا؛ X باعث Y و Y باعث X می شود.
بنابرایت رگرسیون متغیرهای ابزاری می تواند سوگیری را از این منابع حذف کند
منابع سوگیری، متغیر حذف شده، خطای اندازه گیری، رابطه همزمان (مانند VIF) و متغیر حذف شده
شناسایی اثر علّی پیشبینیکننده ۲ x بر متغیر پیامد y اغلب چالش برانگیز است. یک رگرسیون ساده معادله را در نظر بگیرید. ، که β۰ عبارت ثابت است، β۱ ضریب x است، و ε عبارت خطا است (که به عنوان عبارت اختلال نیز نامیده میشود) که همه عوامل مؤثر بر y را به غیر از تغییرات قابل انتساب به x نشان میدهد.
یک فرض اصلی تحلیل رگرسیون این است که پیشبینیکننده x برونزا است، به این معنی که x با عبارت خطای معادله y همبستگی ندارد. اگر پیشبینیکننده x با عبارت خطای ε همبستگی داشته باشد، گفته میشود که درونزا است (به این معنی که cov (x, ε) ≠ ۰ است)، به این معنی که ضریب تخمینی پیشبینیکننده x بایاس و ناسازگار است.
محققان منابع مختلف احتمالی درون زایی را شناسایی کرده اند، مانند متغیرهای حذف شده (از جمله واریانس روش رایج)، انتخاب حذف شده، خطای اندازه گیری، و همزمانی یا علیت معکوس.
مکانیزم متغیر ابزاری (IV) نسبتا ساده است. هنگامی که x درون زا است، می توانیم یک متغیر ابزاری (IV) z را برای تخمین اثر علی x بر y با اعمال IV در دو مرحله معرفی کنیم. در مرحله اول ، متغیر پیش بینی x را روی z رگرسیون می کنیم. بر اساس این رگرسیون، ما x را بر اساس مقادیر IV z خود پیشبینی میکنیم، که اساساً قسمت برونزا و «پاک» تغییر در x را تجزیه میکنیم. در مرحله دوم ، برای پیشبینی y از تغییرات برونزا در x، x̂ استفاده میکنیم.
نکته مهم این است که انجام این دو مرحله با استفاده از یک رویه کنسرو شده موجود در اکثر بستههای آماری اصلی (به عنوان مثال Stata، R) بسیار مهم است زیرا انجام این دو مرحله به صورت دستی (یعنی در واقع انجام یک رگرسیون OLS با استفاده از x به عنوان پیشبینیکننده در مرحله دوم) خطاهای استاندارد نادرست را به همراه خواهد داشت. این متغیر با تکنیک ۲SLS محاسبه می شود.
متغیر ابزاری (IV) کمی انعطاف پذیری به مدل رگرسیونی می دهد. می توان آن را با یک یا چند ساز در مرحله اول استفاده کرد. همچنین در مواردی که x پیوسته یا گسسته است و یا زمانی که ابزارها پیوسته یا گسسته هستند نیز قابل استفاده است. علاوه بر این، محققان میتوانند متغیرهای کنترلی را اضافه کنند که باید در هر دو مرحله گنجانده شوند. به طور خاص، کنترلهای برونزا ممکن است با خیال راحت اضافه شوند تا زمانی که واریانس زیادی با ابزار z نداشته باشند. اگر همپوشانی بیش از حد در واریانس بین z و کنترلها وجود داشته باشد، تغییرپذیری در x کاهش مییابد، که خطاهای استاندارد را افزایش میدهد و در نتیجه دقت برآورد را کاهش میدهد. اگر کنترلها خودشان درونزا هستند، فقط زمانی اضافه میشوند که با z متغیر ابزاری (IV)همبستگی نداشته باشند. در غیر این صورت، آنها – برخلاف تمام مقاصد متغیر ابزاری (IV)- دوباره سوگیری را در اثر تخمینی x روی y وارد خواهند کرد.
هنگام تفسیر نتایج متغیر ابزاری (IV)، محققان باید بدانند که برآوردهای IV تأثیر x را بر y برای نمونه کامل منعکس نمیکنند. در عوض، آنها یک به اصطلاح «اثر درمان متوسط موضعی» (LATE) را منعکس میکنند، یعنی تأثیر پیشبینیکننده بر نتیجه افراد تحتتأثیر IV (یعنی کسانی که به IV z بر حسب میزان مقدار پیشبینیکننده x خود واکنش نشان دادند.
مفروضیات متغیر ابزاری (IV)
اول و مهمتر از همه، تکرار این نکته ضروری است که متغیر ابزاری (IV) باید مفروضات بی طرفی یک رگرسیون OLS معمولی را از نظر خطی بودن در پارامترها، نمونه گیری تصادفی و عدم وجود چند خطی کامل، آزمون سارگان برآورده کند. علاوه بر این الزامات اساسی، یک IV z باید سه شرط را نیز برای واجد شرایط بودن به عنوان یک ابزار معتبر برآورده کند:
(۱) ارتباط،
(۲) (گویا) تصادفی، و
(۳) شروط مدل
Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–۲۹۳.