چکیدهرگرسیون چندکی توسط Koenker و Bassett در سال 1978 معرفی شد. پس از آن، این روش به یک روش مهم و پرکاربرد برای مطالعه توزیع شرطی کامل متغیر پاسخ و همچنین ابزاری مهم در آمار کاربردی، تبدیل شده است.انتخاب متغیر در مدلبندی آماری مدلهایی که دارای بعد بالا هستند، مسئلهی اساسی است. پرکاربردترین روشها، روشهای انتخاب گامبهگام است. این روشها از نظر محاسباتی پرهزینه هستند و همچنین خطای تصادفی در فرآیند انتخاب متغیر را در نظر نمیگیرند.در این پایاننامه روی جنبهی انتخاب متغیر رگرسیون چندکی تاوانیده، متمرکز میشویم. تحت شرایطی، خواص پیشگویی رگرسیون چندکی SCAD تاوانیده و adaptive-LASSOتاوانیده را نشان میدهیم. کلید واژه : انتخاب متغیر، خواص پیشگویی، رگرسیون چندکی، adaptive-LASSO، SCAD فهرست مطالبعنوان صفحه فصل اول: مقدمه 1-1- تاریخچه.......... 3 فصل دوم: رگرسیون چندکی2-1- چندکها و چندکهای شرطی ............................................................................................... 72-2- از رگرسیون میانگین تا رگرسیون چندکی .......................................................................... 82-3- از برآورد کمترین مربعات تا check function .................................................................. 122-4- از توزیعهای شرطی چوله تا رگرسیون چندکی ............................................................... 132-5- روش برآوردیابی ......................................................................................................................... 15فصل سوم: رگرسیون چندکی خطی تاوانیده3-1- رگرسیون چندکی خطی تاوانیده .......................................................................................... 183-2- رگرسیون چندکی خطی تاوانیده با تاوانLASSO........................................................... 203-3- رگرسیون چندکی خطی تاوانیده با تاوان LASSO انطباقی ........................................ 203-4- رگرسیون چندکی خطی تاوانیده با تاوان SCAD ........................................................... 21عنوان صفحه فصل چهارم: خواص مجانبی4-1- خواص مجانبی ............................................................................................................................ 244-2- خواص مجانبی تاوان SCAD ................................................................................................. 254-3- خواص مجانبی تاوان LASSO انطباقی .............................................................................. 264-4- خطاهای تصادفی مستقل و ناهمتوزیع ................................................................................. 27 فصل پنجم: مثال کاربردیمثال ........................................................................................................................................................... 30 فهرست منابع ومآخذ .............................................................................................................................. 35 پیوستپیوست 1 ................................................................................................................................................. 40پیوست 2 ................................................................................................................................................. 49پیوست 3 ................................................................................................................................................. 54پیوست 4 ................................................................................................................................................. 55فهرست جدول ها عنوان صفحه جدول-1: نتایج شبیهسازی برای سه روش مورد نظر با 1=λ و 1=و 10000=n................... 31جدول-2: نتایج شبیهسازی برای سه روش مورد نظر با 1=λ و 3=و 10000=n................... 32جدول-3: نتایج شبیهسازی برای سه روش موردنظر با 8=λو1=و 10000=n.................... 32جدول-4: نتایج شبیهسازی برای سه روش موردنظر با 8=λو3=و 10000=n.................... 33جدول-5: نتایج شبیهسازی برای سه روش موردنظر با 20=λو1=و 10000=n................. 33جدول-6: نتایج شبیهسازی برای سه روش موردنظر با 20=λو3=و 10000=n.................. 34فهرست نمودارها عنوان صفحه نمودار1: 459 داده مربوط به حقوق استادان آمار آمریکا به عنوان تابعی ازسالهای استادی، به همراه نمودار رگرسیونی درجه دوم برازش داده شده................................. 10نمودار 2: 459 داده مربوط به حقوق استادان آمار آمریکا به عنوان تابعی ازسالهای استادی، به همراه سه نمودار رگرسیونی چندکی................................................................ 11نمودار 3: وزن در برابر سن 4011 دختر آمریکایی.............................................................................. 13نمودار4: وزن در برابر سن 4011 دختر آمریکایی به همراه هفت نموداررگرسیونی چندکی........................................................................................................................................ 14نمودار 5: نمونهای از نمودار تابع SCAD برای7/3= و 2= ....................................................... 22نمودار 6: نمودار تابع LASSO.................................................................................................................. 22فصل اولمقدمهرگرسیون (regression) در قلب آمار جای دارد.رگرسیون کمترین مربعات عادی (ordinary least square regression) (OLSR)میانگین متغیر پاسخ (response) را به عنوان تابعی از متغیرهای پیشبینیکننده (predictors)، برآورد میکند. رگرسیون کمترین انحراف قدرمطلق (least absolute deviation regression) (LADR)، تابع میانهی شرطی (به شرط متغیرهای پیشبینیکننده) را به عنوان تابعی از متغیرهای پیشبینیکننده، برآورد میکند. رگرسیون کمترین انحراف قدرمطلق، نسبت به مشاهدات پرت، پایاتر از رگرسیون کمترین مربعات است. Koenker و Bassett در سال 1978 ایدهی مربوط به رگرسیون کمترین انحراف قدر مطلق را تعمیم دادند و رگرسیون چندکی (quantile regression) را مطرح کردند. رگرسیون چندکی، توابع چندکی شرطی (به شرط متغیرهای پیشبینیکننده) را به عنوان توابعی از متغیرهای پیشبینیکننده، برآورد میکند. رگرسیون چندکی اطلاعات بیشتری از توزیع شرطی متغیر پاسخ ارائه میدهد و رگرسیون کمترین انحراف قدر مطلق را به عنوان یک حالت خاص در بر میگیرد. رگرسیون چندکی پس از معرفی توجه زیادی را به خود جلب کرده است و در زمینههای گوناگون به کار برده شده است از جمله: اقتصاد (Koenker و Hendricks (1992)، Koenker و Hallock (2001))، آنالیز بقاء (Yang (1999)، Koenker و Geling (2001)) مطالعات ریزآرایه (microarray)(Wang و He (2007))، نمودار رشد (Wei و همکاران (2006)، Wei و He (2006)).1-1- تاریخچهانتخاب متغیر (variable selection) نقش اساسی در فرآیند ساختمان مدل ایفا میکند. در عمل، به طور معمول تعداد زیادی متغیر پیشبینیکنندهی کاندید وجود دارد. این متغیرها در مرحلهی ابتدائی مدلبندی، به حساب آورده میشوند. همان طور که Fanو Liدر سال 2001 مورد بررسی قرار دادند این کار به سبب جلوگیری از انحراف از مدل اصلی صورت میگیرد (اگر تعداد متغیرهای پیشبینیکنندهی کمتری از آنچه در واقعیت وجود دارد، در مدلبندی در نظر بگیریم، برآوردهای اریب حاصل میشوند). اما نگه داشتن متغیرهای بیربط در مدل نهایی، نامطلوب است. چون این کار تفسیر مدل نهایی را مشکل مینماید و ممکن است قدرت پیشبینی آن را کاهش دهد. به این دلیل آماردانان معمولأ از روش انتخاب بهترین زیرمجموعه (best-subset selection) برای انتخاب متغیر استفاده میکنند. با این حال به روش انتخاب بهترین زیرمجموعه چند اشکال وارد است. شدیدترین آنها همانطور که Breimanدر سال 1996 مورد بررسی قرار داد، عدم پایایی(stability) است. منظور از پایایی در این زمینه، این است که با تغییر اندک در متغیرهای پیشبینیکننده، در انتخاب بهترین زیرمجموعه تغییر زیادی صورت نگیرد. دیگر اینکه زمانی که تعداد متغیرها زیاد است از نظر محاسباتی غیر عملی است. انتخاب گام به گام (stepwise-selection)جانشین محاسباتی برای انتخاب بهترین زیر مجموعه است. معذلک، انتخاب گام به گام بسیار متغیر است و اغلب اوقات به جواب بهینهی موضعی میانجامد. به علاوه همانطور که Fan و Liدرسال2001 و همچنین Shen و Ye در سال 2002 مورد بررسی قراردادند، این دستورالعملهای انتخاب، خطای تصادفی را در مرحلهی انتخاب متغیر در نظر نمیگیرند.برای انجام انتخاب متغیر، تاوانهای (penalties) گوناگونی معرفی شدهاند. تاوان که در LASSOمورد استفاده قرار میگیرد، توسط Tibshirani در سال 1990 برای رسیدن به انتخاب متغیر معرفی شد. Fan و Li در سال 2001 یک روش متحد از طریق رگرسیون کمترین مربعات غیر مقعر، پیشنهاد کردند که بهطور همزمان عمل انتخاب متغیر و برآورد پارامترها را انجام میدهد. این روش، جواب تنک (sparse) تولید میکند، پایایی انتخاب متغیر را تضمین میکند، و برآوردهای نااریب برای ضرائب بزرگ ارائه میدهد. منظور از جواب تنک، ارائه برآورد صفر برای ضرائبی است که در واقعیت، تأثیرگذار نیستند. این سه خاصیت پسندیده یک تاوان خوب است که توسط Fan و Li در سال 2001 مورد بررسی قرار گرفت. یک نمونه از تاوان غیر محدب، تابع انحراف قدرمطلق به طور هموار بریده شده (smoothly clipped absolute deviation) (SCAD) است که اولین بار توسط Fan در سال 1997 معرفی شد، و سپس توسط Fan و Li در سال 2001 مورد مطالعه بیشتر قرار گرفت تا خواص پیشگویی (oracle properties) آن در زمینه درستنمایی تاوانیده (penalized likelihood) نشان داده شود. پس از آن، یک سری مقالات توسط Fan و Li در سال 2002 و 2004، Fan و Peng در سال 2004، Hunter و Li در سال 2005 نوشته شده و خواص دیگر آن مورد مطالعه قرار گرفته و الگوریتمهای جدیدی ارائه شده است.Zou در سال 2006 با به کار بردن وزنهای انطباقی برای تاوانیدن ضرائب مختلف، در تاوان LASSO، تاوان LASSO انطباقی (adaptive-LASSO) را معرفی کرد و خواص پیشگویی آن را نشان داد. نتایج مشابه در مقالههایی که توسط Yuan و Lin در سال 2007، Zhao و Yu در سال 2006 نوشته شده است، ساخته شد. Zhang و Lu در سال 2007 LASSO انطباقی را در مدلهای خطر متناسب (proportional hazard models) مورد مطالعه قرار دادند. Candes و Tao در سال 2007 همچنین Fan و Lv در سال 2006 انتخاب متغیر را در زمینههایی که از نظر بعدی بزرگتر از اندازه نمونه هستند، مورد مطالعه قرار دادند. Koenker در سال 2004 تاوان LASSO را برای مدل رگرسیون چندکی با اثرات آمیخته (mixed-effect quantile regression model) برای دادههای طولی به کار برد. Li و Zhu در سال 2005 راه حلی برای رگرسیون چندکی تاوانیده شده ( penalized quantile regression) ارائه کردند. Wang، Li و Jiang در سال 2007 رگرسیون کمترین انحراف قدر مطلق را با تاوان LASSO انطباقی در نظر گرفتند.در این پایاننامه به انتخاب متغیر در رگرسیون چندکی تاوانیده میپردازیم. توجه داشته باشید تابع زیانی که در رگرسیون چندکی مورد استفاده قرار میگیرد در مبدأ مشتق پذیر نیست، در نتیجه خواص پیشگویی کلی برای درستنمایی تاوانیده غیر مقعر که توسط Fan و Li در سال 2001 مورد مطالعه قرار گرفت، به طور مستقیم قابل اجرا نیست. در این پایاننامه خواص پیشگویی تاوانهای SCAD و LASSO انطباقی در زمینهی رگرسیون چندکی تاوانیده، که شامل رگرسیون کمترین انحراف قدرمطلق به عنوان یک حالت خاص میباشد، تعمیم داده میشود.
انتخاب متغیر در رگرسیون چندکی word
چکیدهرگرسیون چندکی توسط Koenker و Bassett در سال 1978 معرفی شد. پس از آن، این روش به یک روش مهم و پرکاربرد برای مطالعه توزیع شرطی کامل متغیر پاسخ و همچنین ابزاری مهم در آمار کاربردی، تبدیل شده است.انتخاب متغیر در مدلبندی آماری مدلهایی که دارای بعد بالا هستند، مسئلهی اساسی است. پرکاربردترین روشها، روشهای انتخاب گامبهگام است. این روشها از نظر محاسباتی پرهزینه هستند و همچنین خطای تصادفی در فرآیند انتخاب متغیر را در نظر نمیگیرند.در این پایاننامه روی جنبهی انتخاب متغیر رگرسیون چندکی تاوانیده، متمرکز میشویم. تحت شرایطی، خواص پیشگویی رگرسیون چندکی SCAD تاوانیده و adaptive-LASSOتاوانیده را نشان میدهیم. کلید واژه : انتخاب متغیر، خواص پیشگویی، رگرسیون چندکی، adaptive-LASSO، SCAD فهرست مطالبعنوان صفحه فصل اول: مقدمه 1-1- تاریخچه.......... 3 فصل دوم: رگرسیون چندکی2-1- چندکها و چندکهای شرطی ............................................................................................... 72-2- از رگرسیون میانگین تا رگرسیون چندکی .......................................................................... 82-3- از برآورد کمترین مربعات تا check function .................................................................. 122-4- از توزیعهای شرطی چوله تا رگرسیون چندکی ............................................................... 132-5- روش برآوردیابی ......................................................................................................................... 15فصل سوم: رگرسیون چندکی خطی تاوانیده3-1- رگرسیون چندکی خطی تاوانیده .......................................................................................... 183-2- رگرسیون چندکی خطی تاوانیده با تاوانLASSO........................................................... 203-3- رگرسیون چندکی خطی تاوانیده با تاوان LASSO انطباقی ........................................ 203-4- رگرسیون چندکی خطی تاوانیده با تاوان SCAD ........................................................... 21عنوان صفحه فصل چهارم: خواص مجانبی4-1- خواص مجانبی ............................................................................................................................ 244-2- خواص مجانبی تاوان SCAD ................................................................................................. 254-3- خواص مجانبی تاوان LASSO انطباقی .............................................................................. 264-4- خطاهای تصادفی مستقل و ناهمتوزیع ................................................................................. 27 فصل پنجم: مثال کاربردیمثال ........................................................................................................................................................... 30 فهرست منابع ومآخذ .............................................................................................................................. 35 پیوستپیوست 1 ................................................................................................................................................. 40پیوست 2 ................................................................................................................................................. 49پیوست 3 ................................................................................................................................................. 54پیوست 4 ................................................................................................................................................. 55فهرست جدول ها عنوان صفحه جدول-1: نتایج شبیهسازی برای سه روش مورد نظر با 1=λ و 1=و 10000=n................... 31جدول-2: نتایج شبیهسازی برای سه روش مورد نظر با 1=λ و 3=و 10000=n................... 32جدول-3: نتایج شبیهسازی برای سه روش موردنظر با 8=λو1=و 10000=n.................... 32جدول-4: نتایج شبیهسازی برای سه روش موردنظر با 8=λو3=و 10000=n.................... 33جدول-5: نتایج شبیهسازی برای سه روش موردنظر با 20=λو1=و 10000=n................. 33جدول-6: نتایج شبیهسازی برای سه روش موردنظر با 20=λو3=و 10000=n.................. 34فهرست نمودارها عنوان صفحه نمودار1: 459 داده مربوط به حقوق استادان آمار آمریکا به عنوان تابعی ازسالهای استادی، به همراه نمودار رگرسیونی درجه دوم برازش داده شده................................. 10نمودار 2: 459 داده مربوط به حقوق استادان آمار آمریکا به عنوان تابعی ازسالهای استادی، به همراه سه نمودار رگرسیونی چندکی................................................................ 11نمودار 3: وزن در برابر سن 4011 دختر آمریکایی.............................................................................. 13نمودار4: وزن در برابر سن 4011 دختر آمریکایی به همراه هفت نموداررگرسیونی چندکی........................................................................................................................................ 14نمودار 5: نمونهای از نمودار تابع SCAD برای7/3= و 2= ....................................................... 22نمودار 6: نمودار تابع LASSO.................................................................................................................. 22فصل اولمقدمهرگرسیون (regression) در قلب آمار جای دارد.رگرسیون کمترین مربعات عادی (ordinary least square regression) (OLSR)میانگین متغیر پاسخ (response) را به عنوان تابعی از متغیرهای پیشبینیکننده (predictors)، برآورد میکند. رگرسیون کمترین انحراف قدرمطلق (least absolute deviation regression) (LADR)، تابع میانهی شرطی (به شرط متغیرهای پیشبینیکننده) را به عنوان تابعی از متغیرهای پیشبینیکننده، برآورد میکند. رگرسیون کمترین انحراف قدرمطلق، نسبت به مشاهدات پرت، پایاتر از رگرسیون کمترین مربعات است. Koenker و Bassett در سال 1978 ایدهی مربوط به رگرسیون کمترین انحراف قدر مطلق را تعمیم دادند و رگرسیون چندکی (quantile regression) را مطرح کردند. رگرسیون چندکی، توابع چندکی شرطی (به شرط متغیرهای پیشبینیکننده) را به عنوان توابعی از متغیرهای پیشبینیکننده، برآورد میکند. رگرسیون چندکی اطلاعات بیشتری از توزیع شرطی متغیر پاسخ ارائه میدهد و رگرسیون کمترین انحراف قدر مطلق را به عنوان یک حالت خاص در بر میگیرد. رگرسیون چندکی پس از معرفی توجه زیادی را به خود جلب کرده است و در زمینههای گوناگون به کار برده شده است از جمله: اقتصاد (Koenker و Hendricks (1992)، Koenker و Hallock (2001))، آنالیز بقاء (Yang (1999)، Koenker و Geling (2001)) مطالعات ریزآرایه (microarray)(Wang و He (2007))، نمودار رشد (Wei و همکاران (2006)، Wei و He (2006)).1-1- تاریخچهانتخاب متغیر (variable selection) نقش اساسی در فرآیند ساختمان مدل ایفا میکند. در عمل، به طور معمول تعداد زیادی متغیر پیشبینیکنندهی کاندید وجود دارد. این متغیرها در مرحلهی ابتدائی مدلبندی، به حساب آورده میشوند. همان طور که Fanو Liدر سال 2001 مورد بررسی قرار دادند این کار به سبب جلوگیری از انحراف از مدل اصلی صورت میگیرد (اگر تعداد متغیرهای پیشبینیکنندهی کمتری از آنچه در واقعیت وجود دارد، در مدلبندی در نظر بگیریم، برآوردهای اریب حاصل میشوند). اما نگه داشتن متغیرهای بیربط در مدل نهایی، نامطلوب است. چون این کار تفسیر مدل نهایی را مشکل مینماید و ممکن است قدرت پیشبینی آن را کاهش دهد. به این دلیل آماردانان معمولأ از روش انتخاب بهترین زیرمجموعه (best-subset selection) برای انتخاب متغیر استفاده میکنند. با این حال به روش انتخاب بهترین زیرمجموعه چند اشکال وارد است. شدیدترین آنها همانطور که Breimanدر سال 1996 مورد بررسی قرار داد، عدم پایایی(stability) است. منظور از پایایی در این زمینه، این است که با تغییر اندک در متغیرهای پیشبینیکننده، در انتخاب بهترین زیرمجموعه تغییر زیادی صورت نگیرد. دیگر اینکه زمانی که تعداد متغیرها زیاد است از نظر محاسباتی غیر عملی است. انتخاب گام به گام (stepwise-selection)جانشین محاسباتی برای انتخاب بهترین زیر مجموعه است. معذلک، انتخاب گام به گام بسیار متغیر است و اغلب اوقات به جواب بهینهی موضعی میانجامد. به علاوه همانطور که Fan و Liدرسال2001 و همچنین Shen و Ye در سال 2002 مورد بررسی قراردادند، این دستورالعملهای انتخاب، خطای تصادفی را در مرحلهی انتخاب متغیر در نظر نمیگیرند.برای انجام انتخاب متغیر، تاوانهای (penalties) گوناگونی معرفی شدهاند. تاوان که در LASSOمورد استفاده قرار میگیرد، توسط Tibshirani در سال 1990 برای رسیدن به انتخاب متغیر معرفی شد. Fan و Li در سال 2001 یک روش متحد از طریق رگرسیون کمترین مربعات غیر مقعر، پیشنهاد کردند که بهطور همزمان عمل انتخاب متغیر و برآورد پارامترها را انجام میدهد. این روش، جواب تنک (sparse) تولید میکند، پایایی انتخاب متغیر را تضمین میکند، و برآوردهای نااریب برای ضرائب بزرگ ارائه میدهد. منظور از جواب تنک، ارائه برآورد صفر برای ضرائبی است که در واقعیت، تأثیرگذار نیستند. این سه خاصیت پسندیده یک تاوان خوب است که توسط Fan و Li در سال 2001 مورد بررسی قرار گرفت. یک نمونه از تاوان غیر محدب، تابع انحراف قدرمطلق به طور هموار بریده شده (smoothly clipped absolute deviation) (SCAD) است که اولین بار توسط Fan در سال 1997 معرفی شد، و سپس توسط Fan و Li در سال 2001 مورد مطالعه بیشتر قرار گرفت تا خواص پیشگویی (oracle properties) آن در زمینه درستنمایی تاوانیده (penalized likelihood) نشان داده شود. پس از آن، یک سری مقالات توسط Fan و Li در سال 2002 و 2004، Fan و Peng در سال 2004، Hunter و Li در سال 2005 نوشته شده و خواص دیگر آن مورد مطالعه قرار گرفته و الگوریتمهای جدیدی ارائه شده است.Zou در سال 2006 با به کار بردن وزنهای انطباقی برای تاوانیدن ضرائب مختلف، در تاوان LASSO، تاوان LASSO انطباقی (adaptive-LASSO) را معرفی کرد و خواص پیشگویی آن را نشان داد. نتایج مشابه در مقالههایی که توسط Yuan و Lin در سال 2007، Zhao و Yu در سال 2006 نوشته شده است، ساخته شد. Zhang و Lu در سال 2007 LASSO انطباقی را در مدلهای خطر متناسب (proportional hazard models) مورد مطالعه قرار دادند. Candes و Tao در سال 2007 همچنین Fan و Lv در سال 2006 انتخاب متغیر را در زمینههایی که از نظر بعدی بزرگتر از اندازه نمونه هستند، مورد مطالعه قرار دادند. Koenker در سال 2004 تاوان LASSO را برای مدل رگرسیون چندکی با اثرات آمیخته (mixed-effect quantile regression model) برای دادههای طولی به کار برد. Li و Zhu در سال 2005 راه حلی برای رگرسیون چندکی تاوانیده شده ( penalized quantile regression) ارائه کردند. Wang، Li و Jiang در سال 2007 رگرسیون کمترین انحراف قدر مطلق را با تاوان LASSO انطباقی در نظر گرفتند.در این پایاننامه به انتخاب متغیر در رگرسیون چندکی تاوانیده میپردازیم. توجه داشته باشید تابع زیانی که در رگرسیون چندکی مورد استفاده قرار میگیرد در مبدأ مشتق پذیر نیست، در نتیجه خواص پیشگویی کلی برای درستنمایی تاوانیده غیر مقعر که توسط Fan و Li در سال 2001 مورد مطالعه قرار گرفت، به طور مستقیم قابل اجرا نیست. در این پایاننامه خواص پیشگویی تاوانهای SCAD و LASSO انطباقی در زمینهی رگرسیون چندکی تاوانیده، که شامل رگرسیون کمترین انحراف قدرمطلق به عنوان یک حالت خاص میباشد، تعمیم داده میشود.