دانلود فایلی با مشخصات جستجوی الگوهای نوظهور با ویژگی های جریانی word

استخراج الگوهای مفید از مجموعه داده ها، یکی از موضوعات چالش برانگیز در داده کاوی است. از طرفی در داده ها با ابعاد بالا، استخراج مجموعه کوچکی از الگوهای نوظهور با قابلیت پیش بینی قوی، از مسائل مهم در ایجاد یک کلاسه بند بر پایه الگوهای نوظهور است. در دنیای واقعی، ویژگی ها همیشه بطور کامل در دسترس نیستند؛ بر این اساس، مسئله سخت تر می شود وقتی که مجموعه ویژگی ها قبل از شروع فرآیند یادگیری ناشناخته باشد. ویژگی های جریانی عنوان ویژگی هایی است که بصورت برخط تولید می شوند و در همان زمان تولید پردازش می شوند. در این طرح، ویژگی ها یکی یکی به مرور زمان پدیدار می شوند بجای اینکه تمام ویژگی ها قبل از فرآیند یادگیری آماده باشند.
در این مطالعه، ما ساختار دینامیک از درخت الگوی مکرر پیشنهاد می دهیم تا درخت به محض ورود ویژگی های جدید ساخته شود و استخراج الگوهای نوظهور بصورت برخط صورت گیرد. DFP-SEPSF، یک روش موثر پایین به بالا ارائه می دهد تا یک درخت الگوی مکرر دینامیک نامرتب UDFP-tree و یک درخت الگوی مکرر دینامیک مرتب ODFP-tree بسازد. اولین روش ترتیب آیتم ها را در نظر نمی گیرد، در حالیکه دومین روش ترتیب آیتم ها را اعمال می کند.
بعلاوه، چارچوب پیشنهادی الگوهای نوظهور قوی را استخراج می کند تا یک کلاسه بند قوی و سریع ایجاد کند که می تواند با نویز مقابله کند.
روش پیشنهادی فضای جستجوی الگوهای نوظهور را بطور قابل توجهی کاهش می دهد و الگوهای نوظهور با قدرت تمایز قوی را با کمک حذف الگوهای بی فایده استخراج می کند.
روش ارائه شده الگوهای نوظهور را برای هر کلاس بصورت همزمان کشف می کند و بعلاوه، فرآیند تولید درخت های الگوی مکرر را بصورت کارایی در راستای کاهش محاسبات، هدایت می کند.
ارزیابی تجربیات ما بر روی محدوده وسیعی از داده ها، اثربخشی روش پیشنهادی را در مقایسه با دیگر روش های شناخته شده از نظر دقت پیش بینی، تعداد الگوهای استخراجی و زمان اجرا نشان می دهد.
واژههای کلیدی:
الگوهای نوظهور، درخت الگوی مکرر دینامیک، ترتیب آیتم ها، ویژگی های جریانی
فهرست مطالب
فصل اول .............................................. 1
1- مقدمه ............................................. 2
1-1 مقدمه ........................................ 2
1-2 مفهوم الگوهای نوظهور ......................... 3
1-3 مفهوم ویژگی های جریانی ....................... 5
1-4 چالش های موجود در استخراج الگوهای نوظهور ..... 6
1-5 الگوریتم های استخراج الگوهای نوظهور .......... 8
1-6 ایده اصلی تحقیق .............................. 11
1-7 نگاهی کلی به فصول رساله ...................... 13
فصل دوم .............................................. 14
2- پیشینه تحقیق ...................................... 15
2-1 مقدمه ........................................ 15
2-2 روش های مبتنی بر قانون ....................... 15
2-2-1 روش Classification Based on Association(CBA) ........ 15
2-2-2 روش کلاسه بندی Classification based on Multiple-class Association Rule(CMAR) 16
2-2-3 روش کلاسه بندی Classification based on Prediction Association Rule(CPAR) 16
2-3 روش های استخراج الگوها ....................... 17
2-3-1 روش مبتنی بر مرز .......................... 17
2-3-2 روش مبتنی بر محدودیت ...................... 17
2-3-3 الگوریتم استخراج درخت الگوی تقابل CP-tree .. 18
2-3-4 روش استخراج با کمک دیاگرام دودویی صفر ZBDD Miner 18
2-3-5 روش استخراج الگوهای نوظهور متمایز DP-Miner . 18
2-4 روش های کلاسه بندی مبتنی بر الگوهای نوظهور ........ 20
2-4-1 روش کلاسه بندی مبتنی بر اساس مجموع الگوهای نوظهور CAEP 20
2-4-2 الگوریتم کلاسه بندی بر پایه تئوری اطلاعات iCAEP .. 20
2-4-3 روش کلاسه بندی بر پایه الگوهای نوظهور جهشی JEPs-classifier 21
2-4-4 روش کلاسه بندی بر پایه الگوهای نوظهور جهشی قوی .. 21
2-4-5 روش تصمیم گیری مبتنی بر نمونه DeEPs ............ 21
2-4-6 روش کلاسه بندی توسط مجموعه راست نمایی PCL ....... 22
فصل سوم .............................................. 23
3- دانش اولیه ........................................ 24
3-1 الگوهای نوظهور ............................... 24
3-2 درخت الگوی مکرر دینامیک DFP-tree .............. 30
فصل چهارم ............................................ 33
4- راهکارهای ارائه شده برای استخراج الگوهای نوظهور قوی مبتنی بر ویژگی های جریانی ............................................... 34
4-1 مقدمه ........................................ 34
4-2- درخت الگوی مکرر دینامیک نامرتب Unordered Dynamic FP-tree 35
4-3 درخت الگوی مکرر دینامیک مرتب Ordered Dynamic FP-tree 44
4-4 روش استخراج الگوها SEP-Miner .................. 56
فصل پنجم ............................................. 62
5- آزمایشات تجربی .................................... 63
5-1 مقدمه ........................................ 63
5-2 کلاسه بندها ................................... 63
5-2-1 کلاسه بند درخت تصمیم C4.5 ................. 63
5-2-2 کلاسه بند SVM ............................ 64
5-2-3 کلاسه بند بیزین ساده ...................... 65
5-2-4 کلاسه بند نزدیکترین همسایه ................ 66
5-2-5الگوریتم AdaBoost.......................... 66
5-3 تست های آماری ................................ 68
5-3-1 تست آماری جفت شده t-tets .................... 68
5-3-2 تست آماری Wilcoxon ......................... 68
5-3-3 تست آماری فردمن ........................... 69
5-4 تنظیمات تجربی ................................ 71
5-5 مقایسه دقت پیش بینی .......................... 73
5-6 مقایسه تعداد الگوها .......................... 81
5-7 مقایسه زمان اجرا ............................. 83
5-8 تحلیل اثر ترتیب در ساخت درخت الگوی مکرر دینامیک 86
5-9 چگونگی تعیین کردن حداقل آستانه فراوانی نسبی .. 88
5-10 تحلیل حساسیت روی حداقل آستانه های نرخ رشد ... 89
5-11 مقایسه کارایی DFP-SEPSF بدون دانستن کل فضای ویژگی ها 90
5-12 خلاصه نتایج تجربی ............................ 94
فصل ششم .............................................. 96
6- نتیجه گیری و کارهای آینده ......................... 97
اختصارات ............................................. 99
واژه نامه فارسی به انگلیسی ........................... 100
واژه نامه انگلیسی به فارسی ........................... 108
فهرست منابع .......................................... 116
فهرست جدولها
جدول 3-1 الگوهای نوظهور کاندید از کلاس Poisonous به کلاس Edible 38
جدول 5-1 توصیف مجموعه داده ها؛ #Features تعداد ویژگی ها، #Instances تعداد نمونه ها، #Classes تعداد کلاس ها ................................. 71
جدول 5-2 مقایسه دقت پیش بینی (%): کلاسه بندهای DFP-SEPSF، EPSF، SJEP، CAEP ...................................................... 75
جدول 5-3 مقایسه دقت پیش بینی (%): کلاسه بندهای DFP-SEPSF، CBA، CMAR، CPAR 77
جدول 5-4 مقایسه دقت پیش بینی (%): کلاسه بندهای DFP-SEPSF، NB، Knn، J48، SVM، AdaBoost .............................................. 78
جدول 5-5 تعداد دفعات win/tie/loss کلاسه بند DFP-SEPSF در مقابل یازده کلاسه بند دیگر ...................................................... 80
جدول 5-6 تعداد دفعات win/tie/loss کلاسه بند DFP-SEPSF در مقابل یازده کلاسه بند دیگر؛ با استفاده از تست جفت شده t-test در سطح معنادار 95% .... 80
جدول 5-7 تعداد دفعات win/tie/loss کلاسه بند DFP-SEPSF در مقابل یازده کلاسه بند دیگر؛ با استفاده از تست Wilcoxon در سطح معنادار 95% ......... 80
جدول 5-8 تست فردمن در سطح معنادار 95% با میانگین رتبه کلاسها 81
جدول 5-9 تست Bonferroni-Dunn ............................ 81
جدول 5-10 مقایسه تعداد الگوهای استخراجی: کلاسه بندهای DFP-SEPSF، CAEP، CBA، CMAR ................................................ 83
جدول 5-11 زمان اجرا: کلاسه بندهای DFP-SEPSF، CAEP ..... 86
جدول 5-12 مقایسه درخت الگوی مکرر مرتب با درخت الگوی مکرر نامرتب 88
فهرست شکلها
شکل 3-1. یک مثال از الگوهای مکرر از مجموعه داده Balloon 25
شکل 3-2. یک مثال از درخت الگوی مکرر دینامیک ......... 32
شکل 4-1. مرحله به مرحله ساخت دینامیک درخت الگوی مکرر بدون در نظر گرفتن ترتیب آیتم ها............................................... 35
شکل 4-2. ساخت درخت الگوی مکرر دینامیک بدون در نظر گرفتن ترتیب آیتم ها 40
شکل 4-3. مقایسه ساختار درخت الگوی مکرر با و بدون در نظر گرفتن ترتیب آیتم ها ...................................................... 45
شکل 4-4. ساختن درخت الگوی مکرر بر پایه ویژگی های جریانی 45
شکل 4-5. درخت الگوی مکرر پایه ........................ 47
شکل 4-6. اضافه کردن گره های جدید به درخت الگوی مکرر و تغییر موقعیت آنان 48
شکل 4-7. فرآیند ترکیب مرحله به مرحله ................ 51
شکل 4-8. استخراج الگوهای نوظهور با استفاده از FP-tree بصورت مرحله به مرحله 57
شکل 5-1 بردار پشتیبان و صفحه جداکننده خطی............. 65
شکل 5-2 تاثیر آستانه های نرخ رشد بر روی DFP-SEPSF: دقت روش پیشنهادی بر روی سی مجموعه داده تحت آستانه های 20، 30، 40، 50 و 60 گزارش داده شده است. 90
شکل 5-3 دقت های J48، Knn، NB، SVM، AdaBoost به ترتیب 50، 50، 60، 60، و 60 هستند. ...................................................... 91
شکل 5-4 دقت های J48، Knn، NB، SVM، AdaBoost به ترتیب 70، 80، 100، 70، و 80 هستند ...................................................... 92
شکل 5-5 دقت های J48، Knn، NB، SVM، AdaBoost به ترتیب 70، 90، 70، 100، و 70 هستند ...................................................... 92
شکل 5-6 دقت های J48، Knn، NB، SVM، AdaBoost به ترتیب 50، 60، 70، 50، و 40 هستند ...................................................... 93
شکل 5-7 دقت های J48، Knn، NB، SVM، AdaBoost به ترتیب 80، 80، 100، 100، و 90 هستند ...................................................... 93
شکل 5-8 دقت های J48، Knn، NB، SVM، AdaBoost به ترتیب 90، 80، 60، 80، و 90 هستند ...................................................... 94
فصل اول
1-1- مقدمه
کلاسه بندی[1] یکی از وظایف اساسی در داده کاوی[2] است که بطور وسیعی در زمینه یادگیری ماشین[3]، شبکه های عصبی[4] و تشخیص الگو[5] مورد مطالعه واقع شده است. ورودی، مجموعه ای از نمونه های آموزشی[6] است که شامل چندین ویژگی[7] است. ویژگی ها با توجه به دامنه مقادیرشان به دو دسته ویژگی های گسسته[8] و ویژگی های پیوسته[9] قابل تفکیک هستند. در حالت کلی، یک کلاسه بند[10]، توصیف مختصر و معنادار (مدل[11]) برای هر برچسب کلاس[12] در رابطه با ویژگی ها تولید می کند. سپس، مدل برای پیش بینی برچسب کلاس نمونه های ناشناخته[13] بکار می رود. کلاسه بندی همچنین بعنوان یادگیری با ناظر[14] نیز شناخته می شود که در آن هر نمونه آموزشی دارای برچسب کلاس است. در حالی که، یادگیری بدون ناظر[15] یا خوشه بندی[16] جستجو می کند و گروه های همگن از اشیا را بر اساس مقادیر ویژگی هایشان دسته بندی می کند؛ در واقع، نمونه ها دارای برچسب کلاس نیستند. کلاسه بندی در محدوده وسیعی از کاربردها از جمله آزمایشات علمی[17]، تشخیص دارو[18]، پیش بینی آب و هوا[19]، تایید اعتبار[20]، تقسیم بندی مشتری[21]، بازاریابی هدف[22] و تشخیص تقلب[23] بطور موفقیت آمیزی بکار می رود.
کلاسه بندی بر پایه الگوها[24]، یک متدلوژی جدید محسوب می شود. کشف الگوهایی که نشاندهنده تمایز بین کلاس های مختلف هستند، یکی از موضوعات مهم در داده کاوی محسوب می شود. در این تحقیق، ما کلاسه بندی را بر اساس الگوهایی به نام الگوهای نوظهور[25] (Emerging Patterns) که تمایز بین کلاس ها را بصورت بارزی نشان می دهند، از مجموعه داده ها[26] استخراج می کنیم و سپس، بر اساس آنها، کلاسه بندی را انجام می دهیم.
1-2- مفهوم الگوهای نوظهور
مفهوم الگوهای نوظهور برای استخراج دانش از پایگاه داده ها توسط Dong و Li پیشنهاد شده است تا تغییرات قابل توجه بین کلاس ها را به تصویر بکشند [1]. یک الگوی نوظهور، ترکیب عطفی بین ویژگی هایی است که میزان احتمال حضور آن در یک کلاس نسبت به دیگر کلاس ها بطور قابل توجهی تغییر می کند [1،2]. این الگوها مفید هستند به این دلیل که قادر هستند تا وجه تمایز بین کلاس ها را بیان کنند. در صورتی که میزان فراوانی[27] هر الگو که در یک کلاس نسبت به دیگر کلاس ها قابل توجه باشد، نشاندهنده آن است که این الگو، بطور خاص به این کلاس اختصاص دارد و از طرفی این نوع الگوها برای پایگاه داده هایی که بحث محدودیت زمانی برای استخراج دانش از آنها مطرح است، اهمیت ویژه ای می یابند.
استخراج الگوهای نوظهور بدین صورت مطرح می شود: « پیدا کردن آیتم هایی که نرخ رشد[28] آن (که بصورت نسبت احتمال آن آیتم بین کلاس های مختلف تعریف می شود) از مقدار آستانه ای بیشتر باشد.» این مقدار آستانه باید بگونه ای انتخاب شود که الگوهای استخراجی ، تفاوت و تمایز بین کلاس های مختلف را نشان دهند. این الگوها در واقع مجموعه ای از آیتم ها هستند که بیان کننده ترکیب عطفی بین مقادیر ویژگی ها هستند [2].
نوعاً، تعداد الگوهای استخراجی بسیار زیاد است اما فقط شمار کمی از این الگوها برای تحلیل داده ها و کلاسه بندی مطلوب و مفید هستند. از آن جایی که مقدار زیادی از این الگوها بی ربط[29] و تکراری[30] هستند، دانش جدیدی را فراهم نمی کنند و لذا تاثیر نامطلوبی بر روی دقت کلاسه بند دارند که موجب کاهش دقت پیش بینی[31] می شوند. برای افزایش کارایی[32] و دقت، بایستی روالی را توسعه داد که الگوهای وابسته و غیر مفید حذف شوند تا شمار این الگوها کاهش یابد.
یک الگوی نوظهور با احتمال بالا در کلاس خودش و احتمال پایین در کلاس مقابلش می تواند برای تعیین یک نمونه تست بکار رود. قدرت این الگو توسط معیارهایی مثل فراوانی نسبی[33] و نرخ رشد ( نسبت احتمال الگو در یک کلاس نسبت به دیگر کلاس ها) آن بیان می شود.
در بسیاری از زمینه های کاربردی مانند کشف دانش از داده های ژنی[34] ، پردازش تصویر[35]، کشف نفوذ[36] ، کشف برون هشته[37]، کشف کلاهبرداری[38] ، داده های نامتوازن[39] ، جریان داده ها[40] ، بیوانفورماتیک[41] ، سیستم های پیشنهاد دهنده[42] ، نیاز است که تغییر ناگهانی در داده ها تشخیص داده شود. الگوهای نوظهور تغییرات ناگهانی و تفاوت های قابل توجه را از داده ها استخراج می کنند. الگوهای نوظهور، در زمینه پردازش تصویر برای قطعه بندی بدین گونه عمل می کند که سعی می کند در پیکسل هایی که تغییر ناگهانی شدت[43] بوجود می آید را بعنوان یک قطعه جدید معرفی کند. در زمینه کشف نفوذ و کلاهبرداری، رفتار داده ها پیگیری می شود، زمانی که رفتار داده ها بصورت ناگهانی تغییر کند، بعنوان نفوذ تشخیص داده می شود. در سیستم های پیشنهاد دهنده، سیستم به دنبال رفتارهای خاص و مختص هر کاربر است تا با کشف ویژگی های خاص هر کاربر، به او محصولات مطابق با علایق و استعدادهای او را پیشنهاد دهد. لذا الگوهای نوظهور در این راستا نقش بسزایی دارند.

👇 تصادفی👇

اولین ها در ایران بررسی تأثیر میزان استفاده از برنامه های تبلیغاتی تلویزیون بر یادگیری الگوی مصرف در کودکان 7 تا 10 سال اخلاق و سیاست در جامعه دانلود مجموعه مدل های ابرنقاط ( اسکن سه بعدی )Agile Professional Certification Preparation PMI.ACP (Manifesto Principles 1-6)تست برتری نیمکره های مغزی دانلود تحقیق در مورد عمليات رواني(فرمت فایل word وباقابلیت ویرایش)تعداد صفحات 45 ص Facile and low-cost method to fabricate a superhydrophobic aluminum alloy surface: towards optimum preparation conditions ✅فایل های دیگر✅

جستجوی الگوهای نوظهور با ویژگی های جریانی word

👇 تصادفی👇

#️⃣ برچسب های فایل جستجوی الگوهای نوظهور با ویژگی های جریانی word

جستجوی الگوهای نوظهور با ویژگی های جریانی word

دانلود جستجوی الگوهای نوظهور با ویژگی های جریانی word

خرید اینترنتی جستجوی الگوهای نوظهور با ویژگی های جریانی word

👇🏞 تصاویر 🏞