عنوان تحقیق: بررسی سيستمهای چند عامله با استفاده از تئوری بازیهافرمت فایل: wordتعداد صفحات: 128شرح مختصر:در اين رساله، روش مناسبي جهت محاسبه نقطه تعادل نش در الگوريتمهاي يادگيري تقويتي چندعاملي با تعداد زياد عاملها مطرح شدهاست، كه قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ايجاد مصالحه بين اكتشاف- استخراج، محاسبات را به صورت بهينه كاهش دهند. تركيب يادگيري تقويتي تك- عاملي و تئوري بازي ايده اصلي اكثر روشهاي يادگيري چندعاملي است. اين روشها سعي دارند تا كل فرآيند يادگيري را به تعدادي متناهي از حالتهاي تصميمگيري چندعاملي با خاصيت ماركوف تقسيم كرده و با انتخاب نقطه تعادل نش در هر كدام از اين مراحل به تدبير بهينه براي هر عامل همگرا شوند. بنابراين محاسبه نقطه تعادل نش مسئله مهمي است كه در حال حاضر مشكلاتي شامل پيچيدگي محاسبات در روشهاي شناخته شده محاسبه نقطه تعادل نش، چندگانگي نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده كه اكثر روشهاي پيشنهادي يادگيري تقويتي چندعاملي جايگاه مناسبي در حل مسائل دنياي واقعي پيدا نكنند. ناگفته نماند كه تقريباً تمام روشهاي يادگيري تقويتي چندعاملي مطرح شده، مبتني بر روشهاي off-policy بودهاند كه نيازي به در نظر گرفتن مسئله رويه انتخاب عمل و اكتشاف در اثبات همگرايي ندارند. بنابراين در رويههاي اجرايي پيشنهاد دادهاند كه ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بين اكتشاف و استخراج برقرار شود.محاسبه نقطه تعادل ϵ-نش در بازيهاي نرمال در اين رساله به صورت يك مسئله مينيممسازي تعريف شده كه جواب آن توسط الگوريتمهاي ژنتيك بدست آمدهاست. علاوه بر كاهش پيچيدگي روش محاسبه نقطه تعادل نش، با اضافه كردن جمله مناسب در محاسبه تابع برازندگي، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه كند كه مسئله چندگانگي نقاط تعادل نش را نيز مرتفع ميسازد.فهرست مطالبچكيده. 1مقدمه 21- عامل و سيستمهای چند عامله. 41-1- مقدمه. 41-2- هوش مصنوعی توزیع شده. 41-3- حوزههاي كاري هوش مصنوعي توزيع شده. 61-4- دلايل گرايش به هوش مصنوعي توزيع شده. 91-4-1- پايه تكنولوژيكي.. 91-4-2- توزيع ذاتي.. 101-4-3- مزاياي طراحي و پيادهسازي.. 121-4-4- دلايل معرفت شناسي.. 131-4-5- بنياد اجتماعي.. 141-4-6- همجوشي (كلاسهاي جديد از مسائل). 141-5- مسائل مطرح در هوش مصنوعي توزيع شده. 141-6- تعريف عامل و عاملهاي هوشمند.. 171-6-1- تعريف عامل.. 181-7- عامل به عنوان يك سيستم نرمافزاري.. 191-8- مفهوم عامل از ديدگاه عام. 201-9- مروري برخصوصیات عامل.. 201-10- ويژگيهاي ديگر عاملها251-11- طبقه بندی عاملها291-12- مقايسه عامل با شيء. 331-13- تفاوتهاي سيستم مبتني بر عامل و سيستمهاي خبره. 351-14- انواع محيط عامل.. 351-14-1- قابل دستيابي / غير قابل دستيابي.. 361-14-2- محيط قطعي يا غير قطعي.. 371-14-3- محيط مقطعي يا غير مقطعي.. 381-14-4- محيط ايستا / پويا381-14-5- محيط گسسته يا پيوسته. 381-15- سيستمهاي چند عامله. 391-16- خصوصيات سيستمهاي چند عاملي:461-17- دلايل استفاده از سيستمهاي چندعامله. 471-17-1- نياز برخي دامنهها به سيستمهاي چندعامله:471-17-2- افزايش سرعت عمل با موازي سازي.. 481-17-3- قابليت اطمينان.. 481-17-4- توسعه پذيري.. 481-17-5- آسانتر شدن برنامهسازي.. 491-18- آزمون نظريههاي ساير رشتههاي علمي.. 491-19- معماريهاي ارايه شده براي سيستمهاي چندعامله. 491-19-1- مدل OMG501-19-2- استاندارد FIPA501-19-3- استاندارد KAOS. 501-19-4- مدل General Magic. 511-20- سازماندهي سيستمهاي چندعامله. 511-20-1- ساختار سلسله مراتبي.. 511-20-2- ساختار مسطح.. 521-20-3- ساختار جزء به كل.. 531-20-4- ساختار پيمانهاي.. 531-21- پارامترهاي مطرح در ارزيابي سيستمهاي چندعامله. 541-22- سیستمهای مقیاس وسیع(Large Scale systems):551-23- کنترل غیر متمرکز : (Decentralized Control)561-24- نتيجهگيري.. 572- تئوری بازیها و کاربردهای آنها درسيستمهای چند عامله. 602-1- مقدمه. 602-2- نظريه بازی ها چيست؟. 602-3- تفاوت ميان تصميمگيري و بازي.. 622-4- طبقهبندي نظريه بازيها632-5- برخي مفاهيم و اصطلاحات... 682-6- موارد استفاده از نظريه بازيها742-7- فرض های اساسی در نظریه بازیها752-8- شاخههاي اصلي نظريه بازيها752-9- بازيهاي ايستا772-10- نمايش بازي در فرم استراتژيك يا نرمال.. 792-11- فرم ماتريسي بازي.. 822-12- پیدا کردن جواب در بازیهای ایستا822-13- بازیهای رقابتی.. 832-14- بازیهای تصادفی.. 842-15- بازیهای پویا852-16- بازی پویا در فرم بسط یافته. 852-17- درخت بازی.. 872-18- عناصر فرم بسط یافته:882-19- پیشینه بازی:882-20- مجموعه اطلاعاتي:892-21- استراتژي.. 902-22- پیدا کردن جواب در بازیهای پویا913- بررسي روشهاي يادگيري.. 933-1- يادگيري تقويتي.. 933-1-1- خط مشي.. 943-1-2- تابع پاداش... 943-1-3- تابع مقدار. 943-1-4- مدل برگرفته شده از محيط.. 953-2- اجزاي يادگيري تقويتي.. 973-3- اهدافوپاداش.... 983-4- Q-Learning 993-5- خاصيتماركوف... 1003-6- فرآيندتصميمگيريماركوف... 1013-7- روشهاي حل فرآيندهاي تصميم گيري مارکوف... 1033-8- تابعارزش.... 1043-9- تابع ارزش بهينه:1053-10-فرايند تحليل سلسله مراتبي (AHP)1063-11- ويژگيهاي فرايند تحليل سلسله مراتبي.. 1063-12- ساختار سلسله مراتبي.. 1073-13- اصول فرايند تحليل سلسله مراتبي.. 1083-14- محاسبه وزن.. 1083-15- روشهاي محاسبه وزن.. 1093-15-1- روش حداقل مربعات ( least squares method )1093-15-2- روش حداقل مربعات لگاريتمي (logarithmic least squares method)1103-15-3- روش بردار ويژه ( Eigenvector Method ):1113-15-4- روش هاي تقريبي(Approximation Method). 1123-16- سازگاري سيستم و ماتريس سازگار. 1123-17- محاسبه نرخ ناسازگاري.. 1134- نتيجهگيري.. 1165- مراجع. 1186-ABSTRACT 121
بررسی سيستمهای چند عامله با استفاده از تئوری بازیها
عنوان تحقیق: بررسی سيستمهای چند عامله با استفاده از تئوری بازیهافرمت فایل: wordتعداد صفحات: 128شرح مختصر:در اين رساله، روش مناسبي جهت محاسبه نقطه تعادل نش در الگوريتمهاي يادگيري تقويتي چندعاملي با تعداد زياد عاملها مطرح شدهاست، كه قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ايجاد مصالحه بين اكتشاف- استخراج، محاسبات را به صورت بهينه كاهش دهند. تركيب يادگيري تقويتي تك- عاملي و تئوري بازي ايده اصلي اكثر روشهاي يادگيري چندعاملي است. اين روشها سعي دارند تا كل فرآيند يادگيري را به تعدادي متناهي از حالتهاي تصميمگيري چندعاملي با خاصيت ماركوف تقسيم كرده و با انتخاب نقطه تعادل نش در هر كدام از اين مراحل به تدبير بهينه براي هر عامل همگرا شوند. بنابراين محاسبه نقطه تعادل نش مسئله مهمي است كه در حال حاضر مشكلاتي شامل پيچيدگي محاسبات در روشهاي شناخته شده محاسبه نقطه تعادل نش، چندگانگي نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده كه اكثر روشهاي پيشنهادي يادگيري تقويتي چندعاملي جايگاه مناسبي در حل مسائل دنياي واقعي پيدا نكنند. ناگفته نماند كه تقريباً تمام روشهاي يادگيري تقويتي چندعاملي مطرح شده، مبتني بر روشهاي off-policy بودهاند كه نيازي به در نظر گرفتن مسئله رويه انتخاب عمل و اكتشاف در اثبات همگرايي ندارند. بنابراين در رويههاي اجرايي پيشنهاد دادهاند كه ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بين اكتشاف و استخراج برقرار شود.محاسبه نقطه تعادل ϵ-نش در بازيهاي نرمال در اين رساله به صورت يك مسئله مينيممسازي تعريف شده كه جواب آن توسط الگوريتمهاي ژنتيك بدست آمدهاست. علاوه بر كاهش پيچيدگي روش محاسبه نقطه تعادل نش، با اضافه كردن جمله مناسب در محاسبه تابع برازندگي، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه كند كه مسئله چندگانگي نقاط تعادل نش را نيز مرتفع ميسازد.فهرست مطالبچكيده. 1مقدمه 21- عامل و سيستمهای چند عامله. 41-1- مقدمه. 41-2- هوش مصنوعی توزیع شده. 41-3- حوزههاي كاري هوش مصنوعي توزيع شده. 61-4- دلايل گرايش به هوش مصنوعي توزيع شده. 91-4-1- پايه تكنولوژيكي.. 91-4-2- توزيع ذاتي.. 101-4-3- مزاياي طراحي و پيادهسازي.. 121-4-4- دلايل معرفت شناسي.. 131-4-5- بنياد اجتماعي.. 141-4-6- همجوشي (كلاسهاي جديد از مسائل). 141-5- مسائل مطرح در هوش مصنوعي توزيع شده. 141-6- تعريف عامل و عاملهاي هوشمند.. 171-6-1- تعريف عامل.. 181-7- عامل به عنوان يك سيستم نرمافزاري.. 191-8- مفهوم عامل از ديدگاه عام. 201-9- مروري برخصوصیات عامل.. 201-10- ويژگيهاي ديگر عاملها251-11- طبقه بندی عاملها291-12- مقايسه عامل با شيء. 331-13- تفاوتهاي سيستم مبتني بر عامل و سيستمهاي خبره. 351-14- انواع محيط عامل.. 351-14-1- قابل دستيابي / غير قابل دستيابي.. 361-14-2- محيط قطعي يا غير قطعي.. 371-14-3- محيط مقطعي يا غير مقطعي.. 381-14-4- محيط ايستا / پويا381-14-5- محيط گسسته يا پيوسته. 381-15- سيستمهاي چند عامله. 391-16- خصوصيات سيستمهاي چند عاملي:461-17- دلايل استفاده از سيستمهاي چندعامله. 471-17-1- نياز برخي دامنهها به سيستمهاي چندعامله:471-17-2- افزايش سرعت عمل با موازي سازي.. 481-17-3- قابليت اطمينان.. 481-17-4- توسعه پذيري.. 481-17-5- آسانتر شدن برنامهسازي.. 491-18- آزمون نظريههاي ساير رشتههاي علمي.. 491-19- معماريهاي ارايه شده براي سيستمهاي چندعامله. 491-19-1- مدل OMG501-19-2- استاندارد FIPA501-19-3- استاندارد KAOS. 501-19-4- مدل General Magic. 511-20- سازماندهي سيستمهاي چندعامله. 511-20-1- ساختار سلسله مراتبي.. 511-20-2- ساختار مسطح.. 521-20-3- ساختار جزء به كل.. 531-20-4- ساختار پيمانهاي.. 531-21- پارامترهاي مطرح در ارزيابي سيستمهاي چندعامله. 541-22- سیستمهای مقیاس وسیع(Large Scale systems):551-23- کنترل غیر متمرکز : (Decentralized Control)561-24- نتيجهگيري.. 572- تئوری بازیها و کاربردهای آنها درسيستمهای چند عامله. 602-1- مقدمه. 602-2- نظريه بازی ها چيست؟. 602-3- تفاوت ميان تصميمگيري و بازي.. 622-4- طبقهبندي نظريه بازيها632-5- برخي مفاهيم و اصطلاحات... 682-6- موارد استفاده از نظريه بازيها742-7- فرض های اساسی در نظریه بازیها752-8- شاخههاي اصلي نظريه بازيها752-9- بازيهاي ايستا772-10- نمايش بازي در فرم استراتژيك يا نرمال.. 792-11- فرم ماتريسي بازي.. 822-12- پیدا کردن جواب در بازیهای ایستا822-13- بازیهای رقابتی.. 832-14- بازیهای تصادفی.. 842-15- بازیهای پویا852-16- بازی پویا در فرم بسط یافته. 852-17- درخت بازی.. 872-18- عناصر فرم بسط یافته:882-19- پیشینه بازی:882-20- مجموعه اطلاعاتي:892-21- استراتژي.. 902-22- پیدا کردن جواب در بازیهای پویا913- بررسي روشهاي يادگيري.. 933-1- يادگيري تقويتي.. 933-1-1- خط مشي.. 943-1-2- تابع پاداش... 943-1-3- تابع مقدار. 943-1-4- مدل برگرفته شده از محيط.. 953-2- اجزاي يادگيري تقويتي.. 973-3- اهدافوپاداش.... 983-4- Q-Learning 993-5- خاصيتماركوف... 1003-6- فرآيندتصميمگيريماركوف... 1013-7- روشهاي حل فرآيندهاي تصميم گيري مارکوف... 1033-8- تابعارزش.... 1043-9- تابع ارزش بهينه:1053-10-فرايند تحليل سلسله مراتبي (AHP)1063-11- ويژگيهاي فرايند تحليل سلسله مراتبي.. 1063-12- ساختار سلسله مراتبي.. 1073-13- اصول فرايند تحليل سلسله مراتبي.. 1083-14- محاسبه وزن.. 1083-15- روشهاي محاسبه وزن.. 1093-15-1- روش حداقل مربعات ( least squares method )1093-15-2- روش حداقل مربعات لگاريتمي (logarithmic least squares method)1103-15-3- روش بردار ويژه ( Eigenvector Method ):1113-15-4- روش هاي تقريبي(Approximation Method). 1123-16- سازگاري سيستم و ماتريس سازگار. 1123-17- محاسبه نرخ ناسازگاري.. 1134- نتيجهگيري.. 1165- مراجع. 1186-ABSTRACT 121