معیار اطلاعات آکائیک

معیار اطلاعات آکائیک

معیار اطلاعات آکائیک

معیار اطلاعات آکائیک (Akaike Information Criterion)یک روش ریاضی برای ارزیابی میزان تناسب یک مدل با داده هایی است که از آن تولید شده است. در آمار، AIC برای مقایسه مدل‌های مختلف ممکن و تعیین اینکه کدام یک برای داده‌ها مناسب است، استفاده می‌شود. AIC به صورت زیر محاسبه می شود:

-تعداد متغیرهای مستقل مورد استفاده برای ساخت مدل.
-برآورد حداکثر احتمال مدل (مدل چقدر داده ها را بازتولید می کند).
بهترین مدل مطابق با AIC مدلی است که بیشترین مقدار تغییرات را با استفاده از کمترین متغیرهای مستقل ممکن توضیح می دهد. به نوعی برای تعیین پارامتر و آماره اصلی استفاده می شود.

مثال معیار اطلاعات آکائیک

می خواهید بدانید که آیا نوشیدن نوشیدنی های شیرین شده با شکر بر وزن بدن تأثیر می گذارد یا خیر. شما داده‌های ثانویه را از یک نظرسنجی سلامت ملی جمع‌آوری کرده‌اید که شامل مشاهداتی در مورد مصرف نوشیدنی‌های شیرین شده با قند، سن، جنس و BMI (شاخص توده بدن) است.
برای اینکه بفهمید کدام یک از این متغیرها برای پیش بینی رابطه بین مصرف نوشیدنی شیرین شده با قند و وزن بدن مهم هستند، چندین مدل ممکن ایجاد کرده و با استفاده از AIC آنها را مقایسه می کنید.

زمان استفاده از AIC

در آمار، معیار اطلاعات آکائیک اغلب برای انتخاب مدل استفاده می شود. با محاسبه و مقایسه نمرات AIC چندین مدل ممکن، می توانید بهترین مدل را انتخاب کنید که برای داده ها مناسب است.

هنگام آزمایش یک فرضیه، ممکن است داده هایی را در مورد متغیرهایی که در مورد آنها مطمئن نیستید جمع آوری کنید، به خصوص اگر در حال بررسی یک ایده جدید هستید. می خواهید بدانید کدام یک از متغیرهای مستقلی که اندازه گیری کرده اید، تغییرات متغیر وابسته شما را توضیح می دهد.

یک راه خوب برای پیدا کردن این موضوع این است که مجموعه‌ای از مدل‌ها ایجاد کنید که هر کدام شامل ترکیب متفاوتی از متغیرهای مستقلی است که اندازه‌گیری کرده‌اید. این ترکیب ها باید بر اساس موارد زیر باشد:

دانش شما از سیستم مطالعه – از استفاده از پارامترهایی که به طور منطقی به هم مرتبط نیستند اجتناب کنید، زیرا می توانید تقریباً بین هر چیزی همبستگی های جعلی پیدا کنید!
طرح آزمایشی شما – برای مثال، اگر دو درمان را بین افراد مورد آزمایش تقسیم کرده باشید، احتمالاً دلیلی برای آزمایش تعامل بین دو درمان وجود ندارد.
هنگامی که چندین مدل ممکن را ایجاد کردید، می توانید از AIC برای مقایسه آنها استفاده کنید. نمرات AIC کمتر بهتر است و معیار اطلاعات آکائیک مدل هایی را که از پارامترهای بیشتری استفاده می کنند جریمه می کند. بنابراین اگر دو مدل مقدار یکسانی از تغییرات را توضیح دهند، مدلی که پارامترهای کمتری دارد امتیاز AIC کمتری خواهد داشت و مدل مناسب‌تر خواهد بود.

نمونه انتخاب مدل

در مطالعه ای در مورد اینکه چگونه ساعت های صرف شده برای مطالعه و فرمت آزمون (چند گزینه ای در مقابل پاسخ های کتبی) بر نمرات آزمون تأثیر می گذارد، دو مدل ایجاد می کنید:
نمره نهایی آزمون در پاسخ به ساعت های صرف شده برای مطالعه
نمره نهایی آزمون در پاسخ به ساعات مطالعه + فرمت آزمون
شما یک ضریب تعیین ۰.۴۵ با مقدار سطح معناداری کمتر از ۰.۰۵ برای مدل ۱، و r2 از ۰.۴۶ با مقدار p کمتر از ۰.۰۵ برای مدل ۲ پیدا می کنید. این افزایش اندک در تناسب مدل را دریافت کنید؟

شما یک تست AIC را اجرا می کنید تا متوجه شوید که نشان می دهد که مدل ۱ امتیاز AIC پایین تری دارد زیرا به اطلاعات کمتری برای پیش بینی تقریباً با همان سطح دقت نیاز دارد. راه دیگری برای فکر کردن به این موضوع این است که افزایش دقت در مدل ۲ ممکن است به طور تصادفی اتفاق افتاده باشد.

از آزمون معیار اطلاعات آکائیک، شما تصمیم می گیرید که مدل ۱ بهترین مدل برای مطالعه شما است.

نحوه مقایسه مدل ها با استفاده از AIC

معیار اطلاعات آکائیک مقدار اطلاعات نسبی مدل را با استفاده از برآورد حداکثر درستنمایی و تعداد پارامترها (متغیرهای مستقل) در مدل تعیین می کند. فرمول AIC این است:

معیار اطلاعات آکائیک- فرمول
معیار اطلاعات آکائیک- فرمول

K تعداد متغیرهای مستقل مورد استفاده و L تخمین log-likelihood است (مثلاً احتمال اینکه مدل بتواند مقادیر y مشاهده شده شما را تولید کند). K پیش فرض همیشه ۲ است، بنابراین اگر مدل شما از یک متغیر مستقل استفاده می کند K شما ۳ می شود، اگر از دو متغیر مستقل استفاده می کند K شما ۴ خواهد بود و غیره.

برای مقایسه مدل ها با استفاده از معیار اطلاعات آکائیک، باید معیار اطلاعات آکائیک هر مدل را محاسبه کنید. اگر یک مدل بیش از ۲ واحد معیار اطلاعات آکائیک کمتر از مدل دیگر باشد، به طور قابل توجهی بهتر از آن مدل در نظر گرفته می شود.

اگر لاگ احتمال مدل خود را داشته باشید، می توانید به راحتی معیار اطلاعات آکائیک را با دست محاسبه کنید، اما محاسبه log-likelihood پیچیده است! اکثر نرم افزارهای آماری دارای تابعی برای محاسبه AIC هستند. ما از R برای اجرای آنالیز معیار اطلاعات آکائیک خود استفاده خواهیم کرد.

محاسبه معیار اطلاعات آکائیک در R

برای مقایسه چندین مدل، ابتدا می‌توانید مجموعه کامل مدل‌هایی را که می‌خواهید مقایسه کنید ایجاد کنید و سپس aictab() را روی مجموعه اجرا کنید.

برای داده‌های نوشیدنی شیرین شده با شکر، مجموعه‌ای از مدل‌ها را ایجاد می‌کنیم که شامل سه متغیر پیش‌بینی‌کننده (سن، جنس، و مصرف نوشیدنی) در ترکیب‌های مختلف است. مجموعه داده را دانلود کنید و خطوط کد معیار اطلاعات آکائیک را در R اجرا کنید تا خودتان آن را امتحان کنید.

age.mod <- lm(bmi ~ age, data = bmi.data)

sex.mod <- lm(bmi ~ sex, data = bmi.data)

consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

منبع

Bevans, R. (2023, June 22). Akaike Information Criterion | When & How to Use I (Example). Scribbr. Retrieved October 30, 2023, from

ارسال نظر

آدرس ایمیل شما منتشر نخواهد شد.

مدیر آماری