فهرست مطالبعنوانصفحهچکیده......... 1فصل اول....... 21-1-مقدمه........ 31-2-تعریف مسئله.......... 41-3-اهمیت و ضرورت تحقیق........ 51-4-شیوه پژوهش.... 81-5-چارچوب پایاننامه....... 8مراجع...... 10فصل دوم:.................................................................................................. 112-1-مقدمه........................................................................................................................ 122-2-مروی بر کارهای انجام شده.......................................................................... 12مراجع................................................................................................................................. 21فصل سوم:.................................................................................................. 243-1-مقدمه........................................................................................................................ 253-2-مراحل وب کاوي..................................................................................................... 263-2-1-انواع وبکاوی............................................................................................. 273-3-شخصیسازی وب......................................................................................................... 283-3-1-دلایل نیاز به شخصیسازی وب............................................................... 283-3-2-مراحل شخصی سازی وب.............................................................................. 293-3-2-1-جمعآوری داده.................................................................................... 303-3-2-2-پردازش داده....................................................................................... 313-3-2-3-کشف الگو.............................................................................................. 313-3-2-4-تحلیل دانش......................................................................................... 313-3-3-تکنیک های مدلسازی کاربر در شخصیسازی وب............................ 313-3-3-1-تکنیک tf-idf........................................................................................... 323-3-3-2-تکنیک متا مدل و ابزار OLAP................................................. 323-3-3-3-تکنیک براساس محتوای وب........................................................... 333-3-3-4-تکنیک براساس فراهم کردن دادههای موثر (ODP)......... 343-3-3-5-شخصیسازی وب با استفاده از روشهای ترکیبی................. 343-3-3-6-شخصیسازی وب براساس الگوریتم استقرایی و تکنولوژی tf-idf353-3-3-7-شخصیسازی وب با استفاده از کندوکاو الگوی ترتیبی و درخت الگو353-4-خوشهبندی برای شخصیسازی وب....................................................................... 353-4-1-خوشهبندی فازی........................................................................................... 363-4-1-1-الگوریتم پایهای خوشهبندی فازی.......................................... 363-4-1-2-الگوریتم فازی کا-مینز.............................................................. 363-4-1-3-خوشهبندی صفحات وب با استفاده از خوشهبندی فازی k-means373-4-2-الگوریتم ژنتیک........................................................................................ 393-4-2-1-بهینهسازی خوشهبندی فازی با استفاده از الگوریتم ژنتیک403-4-3-روش پیشنهادی در این تحقیق............................................................. 423-4-4-شمای کلی سیستم پیشنهادی.................................................................. 423-4-5-مثالی از سیستم پیشنهادی.................................................................. 433-4-6-شبه کد روش پیشنهادی............................................................................ 503-5-جمعبندی................................................................................................................... 51مراجع................................................................................................................................. 53فصل چهارم:.............................................................................................. 554-1-مقدمه........................................................................................................................ 564-2-مجموعه دادهها.................................................................................................... 564-2-1-دیتاست YANDEX.......................................................................................... 574-2-1-1-پیش پردازش انجام شده با مجموعه دادههای خام قبل از انتشار574-3-پارامترهای ارزیابی........................................................................................ 604-4-آزمایشات انجام شده........................................................................................ 614-4-1-سخت افزار مورد استفاده.................................................................... 624-4-2-نتایج آزمایشات........................................................................................ 624-5-جمعبندی................................................................................................................... 64مراجع:.............................................................................................................................. 65فصل پنجم:................................................................................................ 665-1-مقدمه........................................................................................................................ 675-2-نتایج و دستاوردهای پروژه.......................................................................... 685-3-پیشنهادات.............................................................................................................. 68مراجع................................................................................................................................. 70 فهرست اشکال شکل 3- 1: فرآیند شخصیسازی وب.. 29شکل 3-2: مجموعه داده پروانهای... 38شکل 3-3:خوشه بندی فازی داده... 39شکل 3-4: مراحل اصلی الگوریتم ژنتیک... 40شکل 3-5: شمای کلی سیستم پیشنهادی.. 42شکل 3-6: خوشهبندی دادههای آموزشی.. 47شکل 3-7: خوشهبندی دادههای تست.. 49شکل 4-8: مقایسه روشهای پیشنهادی با روش ارائه شده در (Varghese, & John, 2012). 64 فهرست جداول جدول4-1: نتایج آزمایشات انجام شده بر روی 100 جلسهی تصادفی.. 62جدول4-2: مقایسه نتایج سیستم پیشنهادی با سایر روشها.. 62جدول 4-3: مقایسه نتایج سیستم پیشنهادی با روش ارائه شده در (Varghese, & John, 2012)... 63 چکیدهگرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستمهای شخصیسازی وب ارائه شدهاند که محتوا و سرویسهای یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مؤلفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن محتوا و سرویسهای مورد نیاز کاربران به وسیله دانش به دست آمده از تعاملات قبلی کاربران در صفحات وب است. در حال حاضر، برای شخصیسازی وب چندین متد خوشهبندی در دسترس است. روشهایی که تاکنون ارائه شدهاند، در مواردی دارای اشکالاتی بودند. البته تکنیکهای جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیکها، مسائل افزونگی داده و مقیاسبندی بالا وجود دارد. با توجه به اینکه افزایش کاربران وب منجر به افزایش اندازهی خوشه میگرد، نیاز به بهینهسازی خوشهها اجتنابناپذیر خواهد بود. در تحقیق، یک متدولوژی بهینهسازی خوشه بر اساس سیستم فازی ارائه شده است. به منظور افزایش دقت نهایی خوشهبندی، برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شده است. نتایج حاصل از شبیهسازی نشان میدهد که روش پیشنهادی دقت خوشهبندی صفحات وب را تا حد قابل توجهی افزایش میدهد.کلید واژهها: شخصیسازی صفحات وب- خوشهبندی- کاربرد وبکاوی- الگوریتم فازی سی مینز- پایگاه داده یاندکس. فصل اولکلیات تحقیق: 1-1- مقدمهبا توسعه سيستمهاي اطلاعاتي، داده به يکي از منابع پراهميت سازمانها مبدل گشته است. بنابراين روشها و تکنيکهايي براي دستيابي کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از اين اطلاعات، مورد نياز ميباشد. با ايجاد و گسترش وب و افزايش چشمگير حجم اطلاعات، نياز به اين روشها و تکنيکها بيش از پيش احساس ميشود. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر ميکنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ 7.3 ميليون صفحه در روز افزايش مييابد. با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روشهايي نو براي مديريت آن مورد نياز است. به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:1. يافتن اطلاعات مرتبط: يافتن اطلاعات مورد نياز در وب دشوار ميباشد. روشهاي سنتي بازيابي اطلاعات که براي جستجوي اطلاعات در پايگاه دادهها به کار ميروند، قابل استفاده در وب نميباشند و کاربران معمولاً از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده ميکنند. اين موتورها، يک پرس و جوي مبتني بر کلمات کليدي از کاربر دريافت کرده و در پاسخ ليستي از اسناد مرتبط با پرس و جوي وي را که بر اساس ميزان ارتباط با اين پرس و جو مرتب شده اند، به وي ارائه ميکنند. اما موتورهاي جستجو داراي دو مشکل اصلي هستند (Baeza-Yates, 2004). اولاً دقت موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي ميکنند، در حالي که بسياري از اسناد بازيابي شده توسط آنها با نياز اطلاعاتي کاربر مرتبط نميباشند (Bharat, and et. al., 2001). ثانیاً ميزان فراخوان اين موتورها کم ميباشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه دادههاي خود نميباشند (Chakrabarti, and et. al., 1999).2. ايجاد دانش جديد با استفاده از اطلاعات موجود در وب: در حال حاضر اين سوال مطرح است که چگونه ميتوان دادههاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد. همچنين چگونه ميتوان با استفاده از دادههاي وب به اطلاعات و دانشي جديد دست يافت.
بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب word
فهرست مطالبعنوانصفحهچکیده......... 1فصل اول....... 21-1-مقدمه........ 31-2-تعریف مسئله.......... 41-3-اهمیت و ضرورت تحقیق........ 51-4-شیوه پژوهش.... 81-5-چارچوب پایاننامه....... 8مراجع...... 10فصل دوم:.................................................................................................. 112-1-مقدمه........................................................................................................................ 122-2-مروی بر کارهای انجام شده.......................................................................... 12مراجع................................................................................................................................. 21فصل سوم:.................................................................................................. 243-1-مقدمه........................................................................................................................ 253-2-مراحل وب کاوي..................................................................................................... 263-2-1-انواع وبکاوی............................................................................................. 273-3-شخصیسازی وب......................................................................................................... 283-3-1-دلایل نیاز به شخصیسازی وب............................................................... 283-3-2-مراحل شخصی سازی وب.............................................................................. 293-3-2-1-جمعآوری داده.................................................................................... 303-3-2-2-پردازش داده....................................................................................... 313-3-2-3-کشف الگو.............................................................................................. 313-3-2-4-تحلیل دانش......................................................................................... 313-3-3-تکنیک های مدلسازی کاربر در شخصیسازی وب............................ 313-3-3-1-تکنیک tf-idf........................................................................................... 323-3-3-2-تکنیک متا مدل و ابزار OLAP................................................. 323-3-3-3-تکنیک براساس محتوای وب........................................................... 333-3-3-4-تکنیک براساس فراهم کردن دادههای موثر (ODP)......... 343-3-3-5-شخصیسازی وب با استفاده از روشهای ترکیبی................. 343-3-3-6-شخصیسازی وب براساس الگوریتم استقرایی و تکنولوژی tf-idf353-3-3-7-شخصیسازی وب با استفاده از کندوکاو الگوی ترتیبی و درخت الگو353-4-خوشهبندی برای شخصیسازی وب....................................................................... 353-4-1-خوشهبندی فازی........................................................................................... 363-4-1-1-الگوریتم پایهای خوشهبندی فازی.......................................... 363-4-1-2-الگوریتم فازی کا-مینز.............................................................. 363-4-1-3-خوشهبندی صفحات وب با استفاده از خوشهبندی فازی k-means373-4-2-الگوریتم ژنتیک........................................................................................ 393-4-2-1-بهینهسازی خوشهبندی فازی با استفاده از الگوریتم ژنتیک403-4-3-روش پیشنهادی در این تحقیق............................................................. 423-4-4-شمای کلی سیستم پیشنهادی.................................................................. 423-4-5-مثالی از سیستم پیشنهادی.................................................................. 433-4-6-شبه کد روش پیشنهادی............................................................................ 503-5-جمعبندی................................................................................................................... 51مراجع................................................................................................................................. 53فصل چهارم:.............................................................................................. 554-1-مقدمه........................................................................................................................ 564-2-مجموعه دادهها.................................................................................................... 564-2-1-دیتاست YANDEX.......................................................................................... 574-2-1-1-پیش پردازش انجام شده با مجموعه دادههای خام قبل از انتشار574-3-پارامترهای ارزیابی........................................................................................ 604-4-آزمایشات انجام شده........................................................................................ 614-4-1-سخت افزار مورد استفاده.................................................................... 624-4-2-نتایج آزمایشات........................................................................................ 624-5-جمعبندی................................................................................................................... 64مراجع:.............................................................................................................................. 65فصل پنجم:................................................................................................ 665-1-مقدمه........................................................................................................................ 675-2-نتایج و دستاوردهای پروژه.......................................................................... 685-3-پیشنهادات.............................................................................................................. 68مراجع................................................................................................................................. 70 فهرست اشکال شکل 3- 1: فرآیند شخصیسازی وب.. 29شکل 3-2: مجموعه داده پروانهای... 38شکل 3-3:خوشه بندی فازی داده... 39شکل 3-4: مراحل اصلی الگوریتم ژنتیک... 40شکل 3-5: شمای کلی سیستم پیشنهادی.. 42شکل 3-6: خوشهبندی دادههای آموزشی.. 47شکل 3-7: خوشهبندی دادههای تست.. 49شکل 4-8: مقایسه روشهای پیشنهادی با روش ارائه شده در (Varghese, & John, 2012). 64 فهرست جداول جدول4-1: نتایج آزمایشات انجام شده بر روی 100 جلسهی تصادفی.. 62جدول4-2: مقایسه نتایج سیستم پیشنهادی با سایر روشها.. 62جدول 4-3: مقایسه نتایج سیستم پیشنهادی با روش ارائه شده در (Varghese, & John, 2012)... 63 چکیدهگرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستمهای شخصیسازی وب ارائه شدهاند که محتوا و سرویسهای یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مؤلفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن محتوا و سرویسهای مورد نیاز کاربران به وسیله دانش به دست آمده از تعاملات قبلی کاربران در صفحات وب است. در حال حاضر، برای شخصیسازی وب چندین متد خوشهبندی در دسترس است. روشهایی که تاکنون ارائه شدهاند، در مواردی دارای اشکالاتی بودند. البته تکنیکهای جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیکها، مسائل افزونگی داده و مقیاسبندی بالا وجود دارد. با توجه به اینکه افزایش کاربران وب منجر به افزایش اندازهی خوشه میگرد، نیاز به بهینهسازی خوشهها اجتنابناپذیر خواهد بود. در تحقیق، یک متدولوژی بهینهسازی خوشه بر اساس سیستم فازی ارائه شده است. به منظور افزایش دقت نهایی خوشهبندی، برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شده است. نتایج حاصل از شبیهسازی نشان میدهد که روش پیشنهادی دقت خوشهبندی صفحات وب را تا حد قابل توجهی افزایش میدهد.کلید واژهها: شخصیسازی صفحات وب- خوشهبندی- کاربرد وبکاوی- الگوریتم فازی سی مینز- پایگاه داده یاندکس. فصل اولکلیات تحقیق: 1-1- مقدمهبا توسعه سيستمهاي اطلاعاتي، داده به يکي از منابع پراهميت سازمانها مبدل گشته است. بنابراين روشها و تکنيکهايي براي دستيابي کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از اين اطلاعات، مورد نياز ميباشد. با ايجاد و گسترش وب و افزايش چشمگير حجم اطلاعات، نياز به اين روشها و تکنيکها بيش از پيش احساس ميشود. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر ميکنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ 7.3 ميليون صفحه در روز افزايش مييابد. با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روشهايي نو براي مديريت آن مورد نياز است. به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:1. يافتن اطلاعات مرتبط: يافتن اطلاعات مورد نياز در وب دشوار ميباشد. روشهاي سنتي بازيابي اطلاعات که براي جستجوي اطلاعات در پايگاه دادهها به کار ميروند، قابل استفاده در وب نميباشند و کاربران معمولاً از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده ميکنند. اين موتورها، يک پرس و جوي مبتني بر کلمات کليدي از کاربر دريافت کرده و در پاسخ ليستي از اسناد مرتبط با پرس و جوي وي را که بر اساس ميزان ارتباط با اين پرس و جو مرتب شده اند، به وي ارائه ميکنند. اما موتورهاي جستجو داراي دو مشکل اصلي هستند (Baeza-Yates, 2004). اولاً دقت موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي ميکنند، در حالي که بسياري از اسناد بازيابي شده توسط آنها با نياز اطلاعاتي کاربر مرتبط نميباشند (Bharat, and et. al., 2001). ثانیاً ميزان فراخوان اين موتورها کم ميباشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه دادههاي خود نميباشند (Chakrabarti, and et. al., 1999).2. ايجاد دانش جديد با استفاده از اطلاعات موجود در وب: در حال حاضر اين سوال مطرح است که چگونه ميتوان دادههاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد. همچنين چگونه ميتوان با استفاده از دادههاي وب به اطلاعات و دانشي جديد دست يافت.