فهرست مطالبچکیده.......1فصل اول(کلیات).....21-1 مقدمه......31-2 بیان مسئله و اهمیت آن......41-3 اهمیتوضرورتانجامتحقیق.....61-4 ساختار پایان نامه......71-5 فصلدوم(مبانی و مفاهیم پایه)......82-1 مقدمه.........92-2 وبکاوی........102-3 تکامل تاریخی از وبکاوی....................................................................................................................112-4 مشکلات کاربران در استفاده ازوب.......................................................................................................132-5 شباهت ها و تفاوت های وبکاوی و داده کاوی...................................................................................142-6 الگوریتم های وبکاوی........................................................................................................................152-7 دسته بندی وبکاوی...........................................................................................................................162-7-1 محتوا کاوی وب.........................................................................................................................172-7-1-1 دیدگاه های محتوا کاوی وب............................................................................................172-7-1-2 دادههای محتوا کاوی وب.............................................................................................. 172-7-1-3 رويکردها و تکنيک هاي محتواکاوی وب.......................................................................182-7-3-1 فازهای کاربرد کاوی وب.................................................................................................252-8 کاربردهای وبکاوی...........................................................................................................................292-10 موتور جستجو...................................................................................................................................312- 11 تاریخچه موتورهای جستجو..............................................................................................................312-12 موتورهايجستجوراازلحاظپشتیبانی هايمالیونیرويانسانی.....................................................322-12-1 موتورهايجستجويآزمایشی.................................................................................................322-12-2 موتورهايجستجويتجاري...................................................................................................332-13 معماريکلیموتورهايجستجووکارکردآنها.................................................................................332-13-1 درون کاو(خزنده)..................................................................................................................342-13-2 کنترلدرون کاو......................................................................................................................352-13-3 انباره يصفحات....................................................................................................................352-13-4 ماجولشاخص دهی..............................................................................................................352-13-5 ماجول ………....……….…….……………...………………..Collection Analysis362-13-6 Utility Index.....................................................................................................................362-13-7 موتورپرسوجو..................................................................................................................362-13-8 ماجولرتبه بندي..................................................................................................................372-14 اهمیتموتورهايجستجو...............................................................................................................372-15 مشکلاتموتورهايجستجودرارائهنتایج......................................................................................372-16 بهینه سازی موتور جستجو..............................................................................................................382-17 هدف SEO.....................................................................................................................................392-19 فرآیند بهینه سازی موتورهای جستجو...........................................................................................402-20 نتیجهگیري....................................................................................................................................41فصلسوم(شخصی سازی موتورهای جستجو)...........................................................................................423-1 مقدمه...............................................................................................................................................433-2 علت شخصیسازی موتور جستجو..................................................................................................433-3 تعریف شخصیسازی.................................................................................................................443-4 مراحل شخصیسازی...................................................................................................................443-4-1 شناخت کاربر........................................................................................................................453-4-1-1 روشهای کمک به کاربران در جستجو در وب............................................................453-4-1-1-1 خوشهبندی کد آماده- وب.................................................................................453-4-1-1-2 شخصیسازی فهرست رتبهبندی شده- مسطح از نتایج پرسوجو......................463-4-1-2 راه حل های مشکل خوشهبندی کد آماده وب......…………..........………………473-4-1-2-1 خوشه بندي مسطح..............................................................................................473-4-1-2-1-1 کلمات تنها و خوشه بندي مسطح................................................................473-4-1-2-1-2 جملات و خوشه بندي مسطح.....................................................................473-4-1-2-2 خوشهبندی سلسله مراتبی....................................................................................483-4-1-2-2-1 کلمات تنها و خوشهبندی سلسله مراتبی..................................................483-4-1-2-2-2 جملات و خوشهبندی سلسله مراتبی........................................................483-4-1-3 معرفی اسنکت..........................................................................................................503-4-1-4 شرح معماری اسنکت...................................................................................................513-4-1-4-1 انتخاب جمله و رتبهبندی....................................................................................523-4-1-4-2 خوشه بندي سلسله مراتبی...............................................................................553-4-1-4-3 شخصیسازی نتایج جستجو.............................................................................573-4-1-5 مرور اسناد سلسله مراتب براي استخراج اطلاعات......................................................593-4-1-6 مرور اسناد سلسله مراتب براي انتخاب نتايج..............................................................593-4-1-7 اصلاح پرسوجو.........................................................................................................593-4-1-8 رتبهبندی شخصیسازی شده.......................................................................................613-4-1-9 واسطه شخصیسازی شده وب...................................................................................623-4-1-10 نتایج تجربی .............................................................................................................633-5-1-10-1 پيمايش هاي کاربران……..……......….…….…………………………..643-4-1-10-2 مجموعه داده اسنکت و شواهد حكايتي……........…..………….…………653-4-1-10 -3 ارزیابی اسنکت……….……………….………………………………663-4-1-10 -3 - 1 مزایای استفاده از DMOZ....………….......……..…………….....673-4-1-10 -3 -2 مزایای استفاده از شاخص محکم متن…………….………….……673-4-1-10 -3 -3 مزایای استفاده از موتورهای چندگانه……...………….….………..683-4-1-10 -3 -4 مزایای استفاده از جملات فاصله داربه عنوان برچسبهای پوشه……693-4-1-10 -3 -5 تعداد کدهای آماده وب موجود در پوشهها………...……….….….703-4-2 مدل سازی کاربر………….…………...……..……………………………………...713-4-2-1 مدلسازیصريحکاربر………………..……..….……………………………..713-4-2-2 مدلسازیضمنیکاربر………….……………...…………….…...….……..…723-4-2-2-1 Caption Nemo........…...….……....……………….…………………...743-4-2-2 -1-1 فضاهای جستجوی شخصی……...….…………………………….753-4-2-2 -1-1-1 مدل شخصی بازیابی………….…...………..……..………….. 763-4-2-2 -1-1-2 سبکارائه شخصی………....…………....……….……..……. 763-4-2-2 -1-1-3 موضوع مورد نظر شخصی……………..……….………………773-4-2-2 -1-2 پیاده سازی سیستم……..…..………….………………………….793-4-2-2 -1-2-1 رتبهبندی..…...…………....……………………………….813-4-2-2 -1-2-2 طبقهبندی سلسله مراتبی صفحات وب بازيابي شده....…....……833-4-2-2 -1-3 مطالعه کاربر…….……..……..…………....…….……………… 863-4-2-2 -1-3 -1 آزمایش..….…….………......……………….…………......863-4-2-2 -1-3 -2 آزمایش 2……………………………………………......873-4-2-2 -3 شخصیسازیالگوریتمرتبهبندی صفحه….…………………..………...883-4-2-2 -4 الگوریتم LTIL.………...…….…………………………….……......893-4-2-2 -5 روش IA.…………..….…………………………….………….......893-4-3 اجرای سیستم شخصیسازی………………....….…………………………….……913-4-3-1 روشقطعی……….………...…………………………….………………….913-4-3-2 روشفازی………....……….…………………………….………………….913-4-3-3 شخصیسازی موتورهای جستجو با استفاده از شبکه های مفهومی فازی و ابزارهای داده کاوی……………………..……………………………………………………………..913-4-3-3 -1 پیش زمینه……………………....…………….……….....……………….913-5-3-3 -2 روش پیشنهادی………………...…………….…………….….………….953-4-3-3 -3 ارزیابی سیستم و بررسی نتایج بهدست آمده….…..……………..…………..973-5 نتیجه گیري…….……….…..………....………………………….…………………… 100فصل چهارم(مدل پیشنهادی برای شخصیسازی موتورجستجوونتایج بدست آمده از آزمایش ها).....1014-1 مقدمه………....….………….…………………………….……………………………1024-2 شرحآزمایشهاوتجزیهمسئله. ……...………………….…………………………….…..1024-3 نتیجه گیری………....…….….…….…………………………….……………………..154فصل پنجم(رابط کاربری موتور جستجو)………..…………....….………………………………1555-1 مقدمه……..…...…………….…………………………….……………………………1565-2 رابط کاربری موتور جستجوی شخصیسازی شده PSEFiL….………………………….....1565-3 اهمیت موتور جستجوی شخصیسازی شده PSEFiL………..…………………………...1595-4 نتیجه گیری....................................................................................................................................159فصل ششم(نتیجه گیری) …………………………….………………….........……………….1606-1 مقدمه………………………….…………………………….………………………….1616-2 مروری بر فصول گذشته…………………….…..…….....…………………….………….1616-3 موتور جستجوی پیشنهادی شخصیسازی شده PSEFiL……….………………….……….1616-4 نتیجه گیری……………..……….….…………………………….……………………. 1646-5 پیشنهادات و مطالعات آتی……………..……….….…………………………….………..164 مقالات مستخرج از پایان نامه………......………......….…………………………….………….. 165 فهرست منابع………………..……….……………………………...………………………… 166چکیده انگلیسی……..………………….………………..…………….………………....…..…172 فهرستجداولفصل اول……………..…….………….…………………….………………………………...2فصل دوم …………………………….…....………………...……….………………………..8جدول2-1.مراحل تکامل وبکاوی ……………...….…………….…………………………….12جدول2-2.مقایسه وبکاوی و داده کاوی………………….….…………...…………………… 15جدول2-3.انواع محتواکاوی وب. ………………………..……………..…………….………...20جدول2-4.فاز های کاربردکاوی وب……………………….………………..……......….……...26فصلسوم……………………….………………..…………..………………………………42جدول3-1طبقهبندی راه حل های موجود……………………………..............…….……….......50جدول 3-2مدل بازیابی شخصی…………………………......…………..…………………….82جدول 3-3نتایج آرا توسط موتورهای جستجو………………………..…………..…………….83جدول 3-4نتیجه رای های Captain nemo……………………………..………..…………....83جدول 3-5 سلسله مراتب موضوعی تعریف شده توسط کاربر و درصد نتایج پرسوجوي به درستی طبقهبندی شده…………………………….….……….…………..…………………………………....87جدول3-6.زمان تعیین صفحه وب های مربوط برای پرسوجوهای داده شده……….……….……..88جدول3-7.رتبهبندی نتایج موتور جستجوی گوگل توسط کاربران………….………………..…….98جدول3-8.رتبهبندی شخصیسازی شده نتایج موتور جستجوی گوگل توسط سیستم….……..…...…99جدول3-9.معیار ارزیابی d برای موتور جستجوی گوگل…………………………...……………..99جدول3-10.رتبهبندی نتایج موتور جستجوی یاهو توسط کاربران……..……………………….….99جدول3-11.رتبهبندی شخصیسازی شده نتایج موتور جستجوی یاهو توسط سیستم….….…….…100جدول 3-12.معیار ارزیابی d برای موتور جستجوی یاهو……….…………….….……………..100فصل چهارم…….………….…….…………………………….………………………….. 101جدول4-1.تعدادی از پرسوجوهاوموتورهايجستجويموردآزمایش…………...…..……...…103جدول 4-2 زیر طبقه های کلمه ی Data base…………..………….…………......……….....104جدول 4-3.استخراج داده فیلتر شده لینک برای پرسوجوی "Web mining"……….….…......….107جدول 4-4.استخراج داده فیلتر شده لینک برای پرسوجوی " Operated system "…….............…108جدول 4-5.استخراج داده فیلتر شده لینک برای پرسوجوی " Neural network "……..………....109جدول 4-6.استخراج داده فیلتر شده لینک برای پرسوجوی " Computer architecture"….…...…110جدول 4-7.استخراج داده فیلتر شده لینک برای پرسوجوی " Data base "………………....……111جدول 4-8.استخراج داده فیلتر شده لینک برای پرسوجوی " Jaguar"…………………....……..112جدول 4-9.استخراج داده فیلتر شده لینک برای پرسوجوی "Java".………………….…......…...113جدول 4-10.استخراج داده فیلتر شده لینک برای پرسوجوی "Beetle"………….…..……....…...114جدول 4-11.استخراج داده فیلتر شده لینک برای پرسوجوی "Puma"…….….………….……...115جدول 4-12.استخراج داده فیلتر شده لینک برای پرسوجوی "Platform"………..……………....116فصل پنجم……………...…..………….…………………………………………………… 155فصل ششم…….………………..……..………………..……………………………………160 فهرستاشکالفصل اول..……………………………….………………...………….…………………………2فصل دوم……………………………..……………...………….………………………………8شکل 2-1. مراحل وبکاوی………………..……….……………...……….……………………10شکل2-2.دسته بندی وبکاوی…………………………..…………….………………...………16شکل2-3.دادههای محتواکاوی وب………………………...………………………..………….....18شکل2-4.رویکردهای محتواکاوی وب…………….………………..…………...……….………..18شکل2-5.دسته های ساختار کاوی وب بر اساس نوع داده ساختاری…………….……..….…..…...21شکل2-6.مدل های بازنمایی ساختار کاوی وب…………………………...………...……...….…..22شکل2-7مدل هاي گراف تک گره اي…………………….……………..…………..……….…...22شکل2-8. مدل هاي گراف چند گره اي………………….……………...…………..………….…23شکل2-9.کاربردهای ساختارکاوی وب………………….…………..…………..……….………..24شکل 2-10.دادههای کاربرد کاوی وب. ……………….………………...…………..……………26شکل2-11.کاربردهای کاربردکاوی وب……………………….……………………..……….…...28شکل2-12.معماری کلی موتورهای جستجو……………….…………......……...…...……………34فصلسوم……………….………..…………..…………….………………………………..…42شکل 3-1.معماری اسنکت………………..………..………...……….…………..………….….52شکل3-2. گزارش پیچیدگی زمانياسنکت و پیچیدگی زماني موتورهای دیگر..………….....………57شکل 3-3استخراج اطلاعات برای ……………………………………………………..."jaguar"58شکل 3-4مرور سلسله مراتب برای "آلرژی……………………………………………………."60شکل 3-5 .اسنکتدر پرسوجوي "جاوا………………………………………………………"61شکل 3-6 .اسنکت شخصیسازی شده………………………………………………………….62شکل 3-7.مدت زمان (ثانیه)اسنکت برای بازیابی و خوشه بندي تعداد رو به رشد کدهای آماده بر روی "داده کاوی" پرسوجو………….…………….………...…………………………………………….67شکل 3-8. چپ:قضاوت نتایج اسنکت،راست :تنظیمات کاربر.………………………..……....……66شکل 3-9.P @ N با استفاده از شاخص DMOZ ….………………….………….........……....…67شکل3-10.P @ N با استفاده از شاخص محکم………………...…………..……….......................68شکل 3-11.تعداد سطوح پوشه بالا………………....………...……………..…….…….….....…..68شکل 3-12.توزیع-ورود جفت کلمات مرتبط…………………....………………..…….….……..69شکل 3-13.P @ N در مجموعه داده ………………...………………..…….….…...……….…70شکل3-14.تعداد پرسوجوهای تولیدکنندهN برچسب سطح بالا در مجموعه دادهها(TopLabels @ N).70شکل 3-15.P @ N روی کدهای آماده برای "divx’....…… ………………....…….………......71شکل 3-16.نتایج گروه بندی شده موضوع مورد علاقه……………….………….………………...78شکل 3-17سلسله مراتب موضوعات مورد علاقه شخصی……………….……………....…..……..79شکل 3-18معماری سیستم Captain nemo………………….………….……………………….79شکل 3-19 سلسله مراتب غنی شده…………..……….……..………………….………….…….85شکل3-20. گرافدوبخشیازارتباطمیانصفحاتوبوپرسوجوها……….……………………90شکل3-21. شبکه مفهومی فازی….……………………………………………………………...92شکل 3-22.معماری پیشنهادی برای موتور جستجوی شخصیسازی شده…..………………………95فصل چهارم……….…………………………………………….……………………………101شکل 4-1.معماری موتور جستجویپیشنهادی PSEFiL….………........………………………...105شکل4-2.نمایش درختی پرسوجوی "Web mining"…….…………………………….………117شکل4-3.نمایش درختی پرسوجوی "Operated system"……….……………………………..117شکل4-4.نمایش درختی پرسوجوی "Neural network "……....………………………………118شکل4-5.نمایش درختی پرسوجوی "Computer architecture"……….…………………….…118شکل4-6.نمایش درختی پرسوجوی "Data base "……….……………………………………118شکل4-7.نمایش درختی پرسوجوی "Jaguar"………….…………………………………...…119شکل4-.8نمایش درختی پرسوجوی "Java"…………….…………………………………..…119شکل4-.9نمایش درختی پرسوجوی "Beetle"……….……………………………………,,,…119شکل4-.10نمایش درختی پرسوجوی "Puma"……….………………………………………..120شکل4-11. نمایش درختی پرسوجوی "Platform"……….……………………………………120شکل 4-12.استخراج بخشی ازنتایج PSEFiL برای زیر طبقه "Concept "از"Web mining"…...….121شکل 4-13.استخراج بخش از نتایج PSEFiL برای زیر طبقه "Business tools "از"Web mining"...122شکل 4-14.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Web mining"….……1234-15.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Operated system"…….…124شکل 4-16.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Type "از"Operated system"….…125شکل 4-17.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Operated system"..…126شکل 4-18.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Neural network"..…128شکل 4-19.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage-Application "از"Neural network"...................................................................................................................................................128شکل 4-20.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Computer architecture"....129شکل 4-21.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage "از"Computer architecture".....130شکل 4-22.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Business "از"Computer architecture".131شکل 4-23.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Data base"………...…...132شکل 4-24.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Commerical tools "از"Data base"...…133شکل 4-25.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Data base"………..……..134شکل 4-26.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Car "از"Jaguar"…………..…….……135شکل 4-27.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Animal "از"Jaguar"……………....….136شکل 4-28.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Music tools "از"Jaguar"………....…..137شکل 4-29.استخراج بخشی از نتایج PSEFiL برای زیر طبقه " others "از"Jaguar"……………...…...137شکل 4-30.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Programing language"از"Java"….….138شکل 4-31.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage-Application-Hardware"اززیر طبقه "Programing language"از"Java"....................................................................................................................................139شکل 4-32.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept"اززیر طبقه "Programing language"از"Java"....................................................................................................................................140شکل 4-33.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course"اززیر طبقه "Programing language"از"Java"……..…......…………………………………………………………………141شکل 4-34.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Island"از"Java"………………..…142شکل 4-35.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Car"از"Beetle"………………...…143شکل 4-36.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Insect"از"Beetle"…………...……144شکل 4-37.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Game"از"Beetle"……………...…145شکل 4-38.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Music tools"از"Beetle"…………..146شکل 4-39.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Beetle"………………..146شکل 4-40.استخراج بخشی از نتایج PSEFiL برایزیر طبقه"Shoes,clothing and sport wea Company"از"Puma"………………………………………………………………………….147شکل 4-14.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Animal"از"Puma"………………..148شکل 4-42.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Web server"از"Puma"……………149شکل 4-43.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Puma"…………………149شکل 4-44.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Computer platform"از"Platform"...150شکل 4-45.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept"از"Platform"……………151شکل 4-46.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Game"از"Platform"………………152شکل 4-47.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Arts group"از"Platform"…………152شکل 4-48.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Co-operative Bank"از"Platform"…153شکل 4-49.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Platform"……………...153فصل پنجم……………………………………………………………………………………...155شکل5-1.قسمت جستجوی موتورجستجوی ……………………………………………..PSEFiL156شکل5-2. جستجوی "Web mining" توسط موتورجستجوی ……………………………PSEFiL158شکل5-3.نمایش درختی "Web mining" توسط موتورجستجوی ………………………...PSEFiL157شکل5-4.نمایش درختی "Puma" توسط موتورجستجوی ………………………………..PSEFiL158شکل5-5.لینک هاواسنیپت های طبقه "Concept" از"Web mining"توسط موتورجستجوی...PSEFiL158شکل5-6.لینک هاواسنیپت های طبقه"Shoes-Sport wear"از"Puma"توسط موتورجستجوPSEFiL......159فصل ششم…...…………………....……………………………………………………………160شکل 6-1.معماری موتور جستجویپیشنهادی …...….……………………………………PSEFiL162 چکیدهماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرسوجو با معانی مختلف، باعث نارضایتی کاربران وب شدهاست که نیاز به پاسخ های دقيق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش میکنند تا درخواست کاربران را از طریق مطالعه سابقه جستجو و یا حتی شرکت دادن کاربران در فرایند جستجو به منظور روشن ساختن آنچه که آنها واقعا نیاز دارند، دريابند. این روند بخشی از تلاش موتورهای جستجو برای شخصیسازی است.یکی از موتورهای جستجوی شخصیسازی شده ی خوش تعريف و خوش ساخت، اسنکت[1] است که از مشارکت کاربر برای فرایند شخصیسازی استفاده میکند. در این تحقیق بر اساس الگوریتم شخصیسازی شده اسنکت، یک معماری از موتور جستجوی شخصیسازی شده جديد پيشنهاد شده در اين پایان نامه به نام PSEFiL ارائه شدهاست که با دخالت دادن کاربر و فيلتر سازی لینک ها پاسخ هایی با کمترین ميزان یا عدم وجود انحراف موضوع به منظور غنی سازی مجموعه جواب، به کاربران تحویل میدهد. علاوه بر این، مجموعه جواب مستحکم است زیرا هر لینک موجود در مجموعه نتایج، يا دارای رتبه بالایی از ساير موتورهای جستجو است و یا کمترین انحراف موضوع را با یک فرایند اسکن دستی دقيق داراست. بعلاوه هر لینک به روشنی برای هر معنی ذهنی موجود از یک عبارت پرسوجو طبقهبندی شدهاست. یکی از اهداف PSEFiL، آماده سازی و تحويل پاسخ های دقیق است نه تحويل مجموعه پاسخی با لینک های بیشتر که ممکن است محتوایشان دقت کم داشته و یا دقیق نباشند. کلمات کلیدیموتور جستجو، بهینه سازی موتور جستجو، شخصیسازی موتور جستجو، ساختارکاوی وب, محتوا کاوی وب فصل اولکلیات 1-1مقدمهوب، محيطي وسيع، متنوع و پويا است که کاربران متعدد، به انتشار اسناد خود در آن مبادرت می ورزند. با توجه به حجم وسيع اطلاعات و با توسعه سيستم هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمانها بدل گشته است. از اين رو در سال های اخیر، روشها و تکنيکهاي دستيابي کارا به دادهها، به اشتراک گذاری دادهها و استخراج اطلاعات از دادهها به شدت مورد نياز جامعه ی اطلاعاتی و کاربران آن مي باشد.اهميت مديريت و دسته بندی موثر انواع گوناگون دادهها به منظور استفاده و تحليل کارآمد آنها برای کاربران عام و همچنين کارمندان دانشی[2] از کسی پوشيده نيست. در اين بين، ماهيت وب دربردارنده ی چالش های بسياری است که دسته بندی و مديریت دادهها را مشکل می سازد. از آن جمله می توان به دشوار بودن یافتن اطلاعات مورد نیاز در وب به دلیل دقت تحليلی پايين موتورهای جستجو، عدم خصوصی سازی اطلاعات، طولانی بودن زمان پاسخ درک شده توسط کاربر، عدم رضايت کاربر در کيفيت پاسخ دريافتی، گوناگونی دادههای موجود در وب و ... اشاره کرد.درموتورجستجو[3]کاربرکلیدواژهیراواردکردهوماژولجستجودربانکاطلاعاتیخودبهجستجومیپردازدوسایتهایمرتبطباموضوعشمارانمایشخواهدداد زمانیکهکاربرازیکموتورجستجوبرایبیاندرخواستخوداستفادهمیکند،نتایجارائهشدهازسویموتورجستجو،تنهابهیکلیستازنتایجمنتهینمیشودبلکهاکثرموتورهایجستجودرکنارآننتایج،امکاناتدیگریرابهکاربرارائهمیدهندکهمیتواننددررساندنکاربربهدرخواستحقیقیاشبسیارمفیدباشند.روشهایمختلفیبهمنظوربازیابیاطلاعاتمورداستفادهقرارمیگیرندکهعمدتامبتنیبرمحتواوساختارندوازالگوریتم هایمختلفیبهاینمنظوراستفادهمیکنند مطالعاتنشانمیدهندکلماتپرس وجوکوتاهومتفاوتندوهرکاربرمنظورخاصیازیکپرس وجویمشابهدارد،درواقعهمیشهنتایجارائهشدهآنچیزینیستکهکاربرانتظارآنرادارد،کاربرانسلایقمتفاوتیدارنداماموتورجستجونتیجهیکسانیرابرایهمهآنهاارائهمیدهد. اگربتوانازسلایقکاربراندرجستجواستفادهکردمطمئنانتایجرضایتبخشتریحاصلمیشود. درواقعدرچنینساختاری،دوکاربرنتایجمتفاوتیراازیکپرسوجوییکساندریافتمیکنند.یکیازمباحثمطرحوپرطرفداردرامربازیابیاطلاعات،شناخترفتارکاربر[4] واستفادهازسابقهرفتاریاودرمشاهدهصفحاتوبدرگذشتهاستتاازاینرو،نتایجحاصلازموتورجستجوهرچهبیشتربهسلایقکاربرنزدیکباشدوباعثرضایتمندیبیشترکاربرانشوددرواقعفرایندشخصیسازی[5]موتورجستجووبهبودنتایجحاصلازجستجویکاربران،اززمینههایپژوهشیوبازدراینحوزهاستکهپژوهشگرانفراوانیرابهسویخودجذبکردهوتداعی گرنتایجارزشمندیتابهامروزاست.وبکاوی[6] به عنوان زيرشاخه ای تخصصی شده از دانش داده کاوی به فرایند کشف اطلاعات و دانش ناشناخته و مفید از دادههای وب اطلاق میشود که در زمینههای گوناگون کاربرد دارد ودر سال های اخير و همگام با توسعه ی وب،این شاخه مورد توجه بسياری از پژوهشگران بوده است. وبکاوی نه تنها به معنی استفاده از تکنیک های داده کاوی[7] برای دادههای ذخیره شده در صفحات وب است بلکهالگوریتم های آن به منظور پاسخگويي به خواسته های کاربران از وب از نظر زمان پاسخگويي و قدرت تحليل وب اصلاح می شوند.
توسعه ی تکنيک های وب کاوی به منظور شخصی سازی اطلاعات در موتورهای جستجو word
فهرست مطالبچکیده.......1فصل اول(کلیات).....21-1 مقدمه......31-2 بیان مسئله و اهمیت آن......41-3 اهمیتوضرورتانجامتحقیق.....61-4 ساختار پایان نامه......71-5 فصلدوم(مبانی و مفاهیم پایه)......82-1 مقدمه.........92-2 وبکاوی........102-3 تکامل تاریخی از وبکاوی....................................................................................................................112-4 مشکلات کاربران در استفاده ازوب.......................................................................................................132-5 شباهت ها و تفاوت های وبکاوی و داده کاوی...................................................................................142-6 الگوریتم های وبکاوی........................................................................................................................152-7 دسته بندی وبکاوی...........................................................................................................................162-7-1 محتوا کاوی وب.........................................................................................................................172-7-1-1 دیدگاه های محتوا کاوی وب............................................................................................172-7-1-2 دادههای محتوا کاوی وب.............................................................................................. 172-7-1-3 رويکردها و تکنيک هاي محتواکاوی وب.......................................................................182-7-3-1 فازهای کاربرد کاوی وب.................................................................................................252-8 کاربردهای وبکاوی...........................................................................................................................292-10 موتور جستجو...................................................................................................................................312- 11 تاریخچه موتورهای جستجو..............................................................................................................312-12 موتورهايجستجوراازلحاظپشتیبانی هايمالیونیرويانسانی.....................................................322-12-1 موتورهايجستجويآزمایشی.................................................................................................322-12-2 موتورهايجستجويتجاري...................................................................................................332-13 معماريکلیموتورهايجستجووکارکردآنها.................................................................................332-13-1 درون کاو(خزنده)..................................................................................................................342-13-2 کنترلدرون کاو......................................................................................................................352-13-3 انباره يصفحات....................................................................................................................352-13-4 ماجولشاخص دهی..............................................................................................................352-13-5 ماجول ………....……….…….……………...………………..Collection Analysis362-13-6 Utility Index.....................................................................................................................362-13-7 موتورپرسوجو..................................................................................................................362-13-8 ماجولرتبه بندي..................................................................................................................372-14 اهمیتموتورهايجستجو...............................................................................................................372-15 مشکلاتموتورهايجستجودرارائهنتایج......................................................................................372-16 بهینه سازی موتور جستجو..............................................................................................................382-17 هدف SEO.....................................................................................................................................392-19 فرآیند بهینه سازی موتورهای جستجو...........................................................................................402-20 نتیجهگیري....................................................................................................................................41فصلسوم(شخصی سازی موتورهای جستجو)...........................................................................................423-1 مقدمه...............................................................................................................................................433-2 علت شخصیسازی موتور جستجو..................................................................................................433-3 تعریف شخصیسازی.................................................................................................................443-4 مراحل شخصیسازی...................................................................................................................443-4-1 شناخت کاربر........................................................................................................................453-4-1-1 روشهای کمک به کاربران در جستجو در وب............................................................453-4-1-1-1 خوشهبندی کد آماده- وب.................................................................................453-4-1-1-2 شخصیسازی فهرست رتبهبندی شده- مسطح از نتایج پرسوجو......................463-4-1-2 راه حل های مشکل خوشهبندی کد آماده وب......…………..........………………473-4-1-2-1 خوشه بندي مسطح..............................................................................................473-4-1-2-1-1 کلمات تنها و خوشه بندي مسطح................................................................473-4-1-2-1-2 جملات و خوشه بندي مسطح.....................................................................473-4-1-2-2 خوشهبندی سلسله مراتبی....................................................................................483-4-1-2-2-1 کلمات تنها و خوشهبندی سلسله مراتبی..................................................483-4-1-2-2-2 جملات و خوشهبندی سلسله مراتبی........................................................483-4-1-3 معرفی اسنکت..........................................................................................................503-4-1-4 شرح معماری اسنکت...................................................................................................513-4-1-4-1 انتخاب جمله و رتبهبندی....................................................................................523-4-1-4-2 خوشه بندي سلسله مراتبی...............................................................................553-4-1-4-3 شخصیسازی نتایج جستجو.............................................................................573-4-1-5 مرور اسناد سلسله مراتب براي استخراج اطلاعات......................................................593-4-1-6 مرور اسناد سلسله مراتب براي انتخاب نتايج..............................................................593-4-1-7 اصلاح پرسوجو.........................................................................................................593-4-1-8 رتبهبندی شخصیسازی شده.......................................................................................613-4-1-9 واسطه شخصیسازی شده وب...................................................................................623-4-1-10 نتایج تجربی .............................................................................................................633-5-1-10-1 پيمايش هاي کاربران……..……......….…….…………………………..643-4-1-10-2 مجموعه داده اسنکت و شواهد حكايتي……........…..………….…………653-4-1-10 -3 ارزیابی اسنکت……….……………….………………………………663-4-1-10 -3 - 1 مزایای استفاده از DMOZ....………….......……..…………….....673-4-1-10 -3 -2 مزایای استفاده از شاخص محکم متن…………….………….……673-4-1-10 -3 -3 مزایای استفاده از موتورهای چندگانه……...………….….………..683-4-1-10 -3 -4 مزایای استفاده از جملات فاصله داربه عنوان برچسبهای پوشه……693-4-1-10 -3 -5 تعداد کدهای آماده وب موجود در پوشهها………...……….….….703-4-2 مدل سازی کاربر………….…………...……..……………………………………...713-4-2-1 مدلسازیصريحکاربر………………..……..….……………………………..713-4-2-2 مدلسازیضمنیکاربر………….……………...…………….…...….……..…723-4-2-2-1 Caption Nemo........…...….……....……………….…………………...743-4-2-2 -1-1 فضاهای جستجوی شخصی……...….…………………………….753-4-2-2 -1-1-1 مدل شخصی بازیابی………….…...………..……..………….. 763-4-2-2 -1-1-2 سبکارائه شخصی………....…………....……….……..……. 763-4-2-2 -1-1-3 موضوع مورد نظر شخصی……………..……….………………773-4-2-2 -1-2 پیاده سازی سیستم……..…..………….………………………….793-4-2-2 -1-2-1 رتبهبندی..…...…………....……………………………….813-4-2-2 -1-2-2 طبقهبندی سلسله مراتبی صفحات وب بازيابي شده....…....……833-4-2-2 -1-3 مطالعه کاربر…….……..……..…………....…….……………… 863-4-2-2 -1-3 -1 آزمایش..….…….………......……………….…………......863-4-2-2 -1-3 -2 آزمایش 2……………………………………………......873-4-2-2 -3 شخصیسازیالگوریتمرتبهبندی صفحه….…………………..………...883-4-2-2 -4 الگوریتم LTIL.………...…….…………………………….……......893-4-2-2 -5 روش IA.…………..….…………………………….………….......893-4-3 اجرای سیستم شخصیسازی………………....….…………………………….……913-4-3-1 روشقطعی……….………...…………………………….………………….913-4-3-2 روشفازی………....……….…………………………….………………….913-4-3-3 شخصیسازی موتورهای جستجو با استفاده از شبکه های مفهومی فازی و ابزارهای داده کاوی……………………..……………………………………………………………..913-4-3-3 -1 پیش زمینه……………………....…………….……….....……………….913-5-3-3 -2 روش پیشنهادی………………...…………….…………….….………….953-4-3-3 -3 ارزیابی سیستم و بررسی نتایج بهدست آمده….…..……………..…………..973-5 نتیجه گیري…….……….…..………....………………………….…………………… 100فصل چهارم(مدل پیشنهادی برای شخصیسازی موتورجستجوونتایج بدست آمده از آزمایش ها).....1014-1 مقدمه………....….………….…………………………….……………………………1024-2 شرحآزمایشهاوتجزیهمسئله. ……...………………….…………………………….…..1024-3 نتیجه گیری………....…….….…….…………………………….……………………..154فصل پنجم(رابط کاربری موتور جستجو)………..…………....….………………………………1555-1 مقدمه……..…...…………….…………………………….……………………………1565-2 رابط کاربری موتور جستجوی شخصیسازی شده PSEFiL….………………………….....1565-3 اهمیت موتور جستجوی شخصیسازی شده PSEFiL………..…………………………...1595-4 نتیجه گیری....................................................................................................................................159فصل ششم(نتیجه گیری) …………………………….………………….........……………….1606-1 مقدمه………………………….…………………………….………………………….1616-2 مروری بر فصول گذشته…………………….…..…….....…………………….………….1616-3 موتور جستجوی پیشنهادی شخصیسازی شده PSEFiL……….………………….……….1616-4 نتیجه گیری……………..……….….…………………………….……………………. 1646-5 پیشنهادات و مطالعات آتی……………..……….….…………………………….………..164 مقالات مستخرج از پایان نامه………......………......….…………………………….………….. 165 فهرست منابع………………..……….……………………………...………………………… 166چکیده انگلیسی……..………………….………………..…………….………………....…..…172 فهرستجداولفصل اول……………..…….………….…………………….………………………………...2فصل دوم …………………………….…....………………...……….………………………..8جدول2-1.مراحل تکامل وبکاوی ……………...….…………….…………………………….12جدول2-2.مقایسه وبکاوی و داده کاوی………………….….…………...…………………… 15جدول2-3.انواع محتواکاوی وب. ………………………..……………..…………….………...20جدول2-4.فاز های کاربردکاوی وب……………………….………………..……......….……...26فصلسوم……………………….………………..…………..………………………………42جدول3-1طبقهبندی راه حل های موجود……………………………..............…….……….......50جدول 3-2مدل بازیابی شخصی…………………………......…………..…………………….82جدول 3-3نتایج آرا توسط موتورهای جستجو………………………..…………..…………….83جدول 3-4نتیجه رای های Captain nemo……………………………..………..…………....83جدول 3-5 سلسله مراتب موضوعی تعریف شده توسط کاربر و درصد نتایج پرسوجوي به درستی طبقهبندی شده…………………………….….……….…………..…………………………………....87جدول3-6.زمان تعیین صفحه وب های مربوط برای پرسوجوهای داده شده……….……….……..88جدول3-7.رتبهبندی نتایج موتور جستجوی گوگل توسط کاربران………….………………..…….98جدول3-8.رتبهبندی شخصیسازی شده نتایج موتور جستجوی گوگل توسط سیستم….……..…...…99جدول3-9.معیار ارزیابی d برای موتور جستجوی گوگل…………………………...……………..99جدول3-10.رتبهبندی نتایج موتور جستجوی یاهو توسط کاربران……..……………………….….99جدول3-11.رتبهبندی شخصیسازی شده نتایج موتور جستجوی یاهو توسط سیستم….….…….…100جدول 3-12.معیار ارزیابی d برای موتور جستجوی یاهو……….…………….….……………..100فصل چهارم…….………….…….…………………………….………………………….. 101جدول4-1.تعدادی از پرسوجوهاوموتورهايجستجويموردآزمایش…………...…..……...…103جدول 4-2 زیر طبقه های کلمه ی Data base…………..………….…………......……….....104جدول 4-3.استخراج داده فیلتر شده لینک برای پرسوجوی "Web mining"……….….…......….107جدول 4-4.استخراج داده فیلتر شده لینک برای پرسوجوی " Operated system "…….............…108جدول 4-5.استخراج داده فیلتر شده لینک برای پرسوجوی " Neural network "……..………....109جدول 4-6.استخراج داده فیلتر شده لینک برای پرسوجوی " Computer architecture"….…...…110جدول 4-7.استخراج داده فیلتر شده لینک برای پرسوجوی " Data base "………………....……111جدول 4-8.استخراج داده فیلتر شده لینک برای پرسوجوی " Jaguar"…………………....……..112جدول 4-9.استخراج داده فیلتر شده لینک برای پرسوجوی "Java".………………….…......…...113جدول 4-10.استخراج داده فیلتر شده لینک برای پرسوجوی "Beetle"………….…..……....…...114جدول 4-11.استخراج داده فیلتر شده لینک برای پرسوجوی "Puma"…….….………….……...115جدول 4-12.استخراج داده فیلتر شده لینک برای پرسوجوی "Platform"………..……………....116فصل پنجم……………...…..………….…………………………………………………… 155فصل ششم…….………………..……..………………..……………………………………160 فهرستاشکالفصل اول..……………………………….………………...………….…………………………2فصل دوم……………………………..……………...………….………………………………8شکل 2-1. مراحل وبکاوی………………..……….……………...……….……………………10شکل2-2.دسته بندی وبکاوی…………………………..…………….………………...………16شکل2-3.دادههای محتواکاوی وب………………………...………………………..………….....18شکل2-4.رویکردهای محتواکاوی وب…………….………………..…………...……….………..18شکل2-5.دسته های ساختار کاوی وب بر اساس نوع داده ساختاری…………….……..….…..…...21شکل2-6.مدل های بازنمایی ساختار کاوی وب…………………………...………...……...….…..22شکل2-7مدل هاي گراف تک گره اي…………………….……………..…………..……….…...22شکل2-8. مدل هاي گراف چند گره اي………………….……………...…………..………….…23شکل2-9.کاربردهای ساختارکاوی وب………………….…………..…………..……….………..24شکل 2-10.دادههای کاربرد کاوی وب. ……………….………………...…………..……………26شکل2-11.کاربردهای کاربردکاوی وب……………………….……………………..……….…...28شکل2-12.معماری کلی موتورهای جستجو……………….…………......……...…...……………34فصلسوم……………….………..…………..…………….………………………………..…42شکل 3-1.معماری اسنکت………………..………..………...……….…………..………….….52شکل3-2. گزارش پیچیدگی زمانياسنکت و پیچیدگی زماني موتورهای دیگر..………….....………57شکل 3-3استخراج اطلاعات برای ……………………………………………………..."jaguar"58شکل 3-4مرور سلسله مراتب برای "آلرژی……………………………………………………."60شکل 3-5 .اسنکتدر پرسوجوي "جاوا………………………………………………………"61شکل 3-6 .اسنکت شخصیسازی شده………………………………………………………….62شکل 3-7.مدت زمان (ثانیه)اسنکت برای بازیابی و خوشه بندي تعداد رو به رشد کدهای آماده بر روی "داده کاوی" پرسوجو………….…………….………...…………………………………………….67شکل 3-8. چپ:قضاوت نتایج اسنکت،راست :تنظیمات کاربر.………………………..……....……66شکل 3-9.P @ N با استفاده از شاخص DMOZ ….………………….………….........……....…67شکل3-10.P @ N با استفاده از شاخص محکم………………...…………..……….......................68شکل 3-11.تعداد سطوح پوشه بالا………………....………...……………..…….…….….....…..68شکل 3-12.توزیع-ورود جفت کلمات مرتبط…………………....………………..…….….……..69شکل 3-13.P @ N در مجموعه داده ………………...………………..…….….…...……….…70شکل3-14.تعداد پرسوجوهای تولیدکنندهN برچسب سطح بالا در مجموعه دادهها(TopLabels @ N).70شکل 3-15.P @ N روی کدهای آماده برای "divx’....…… ………………....…….………......71شکل 3-16.نتایج گروه بندی شده موضوع مورد علاقه……………….………….………………...78شکل 3-17سلسله مراتب موضوعات مورد علاقه شخصی……………….……………....…..……..79شکل 3-18معماری سیستم Captain nemo………………….………….……………………….79شکل 3-19 سلسله مراتب غنی شده…………..……….……..………………….………….…….85شکل3-20. گرافدوبخشیازارتباطمیانصفحاتوبوپرسوجوها……….……………………90شکل3-21. شبکه مفهومی فازی….……………………………………………………………...92شکل 3-22.معماری پیشنهادی برای موتور جستجوی شخصیسازی شده…..………………………95فصل چهارم……….…………………………………………….……………………………101شکل 4-1.معماری موتور جستجویپیشنهادی PSEFiL….………........………………………...105شکل4-2.نمایش درختی پرسوجوی "Web mining"…….…………………………….………117شکل4-3.نمایش درختی پرسوجوی "Operated system"……….……………………………..117شکل4-4.نمایش درختی پرسوجوی "Neural network "……....………………………………118شکل4-5.نمایش درختی پرسوجوی "Computer architecture"……….…………………….…118شکل4-6.نمایش درختی پرسوجوی "Data base "……….……………………………………118شکل4-7.نمایش درختی پرسوجوی "Jaguar"………….…………………………………...…119شکل4-.8نمایش درختی پرسوجوی "Java"…………….…………………………………..…119شکل4-.9نمایش درختی پرسوجوی "Beetle"……….……………………………………,,,…119شکل4-.10نمایش درختی پرسوجوی "Puma"……….………………………………………..120شکل4-11. نمایش درختی پرسوجوی "Platform"……….……………………………………120شکل 4-12.استخراج بخشی ازنتایج PSEFiL برای زیر طبقه "Concept "از"Web mining"…...….121شکل 4-13.استخراج بخش از نتایج PSEFiL برای زیر طبقه "Business tools "از"Web mining"...122شکل 4-14.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Web mining"….……1234-15.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Operated system"…….…124شکل 4-16.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Type "از"Operated system"….…125شکل 4-17.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Operated system"..…126شکل 4-18.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Neural network"..…128شکل 4-19.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage-Application "از"Neural network"...................................................................................................................................................128شکل 4-20.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Computer architecture"....129شکل 4-21.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage "از"Computer architecture".....130شکل 4-22.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Business "از"Computer architecture".131شکل 4-23.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Data base"………...…...132شکل 4-24.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Commerical tools "از"Data base"...…133شکل 4-25.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Data base"………..……..134شکل 4-26.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Car "از"Jaguar"…………..…….……135شکل 4-27.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Animal "از"Jaguar"……………....….136شکل 4-28.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Music tools "از"Jaguar"………....…..137شکل 4-29.استخراج بخشی از نتایج PSEFiL برای زیر طبقه " others "از"Jaguar"……………...…...137شکل 4-30.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Programing language"از"Java"….….138شکل 4-31.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage-Application-Hardware"اززیر طبقه "Programing language"از"Java"....................................................................................................................................139شکل 4-32.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept"اززیر طبقه "Programing language"از"Java"....................................................................................................................................140شکل 4-33.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course"اززیر طبقه "Programing language"از"Java"……..…......…………………………………………………………………141شکل 4-34.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Island"از"Java"………………..…142شکل 4-35.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Car"از"Beetle"………………...…143شکل 4-36.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Insect"از"Beetle"…………...……144شکل 4-37.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Game"از"Beetle"……………...…145شکل 4-38.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Music tools"از"Beetle"…………..146شکل 4-39.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Beetle"………………..146شکل 4-40.استخراج بخشی از نتایج PSEFiL برایزیر طبقه"Shoes,clothing and sport wea Company"از"Puma"………………………………………………………………………….147شکل 4-14.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Animal"از"Puma"………………..148شکل 4-42.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Web server"از"Puma"……………149شکل 4-43.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Puma"…………………149شکل 4-44.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Computer platform"از"Platform"...150شکل 4-45.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept"از"Platform"……………151شکل 4-46.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Game"از"Platform"………………152شکل 4-47.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Arts group"از"Platform"…………152شکل 4-48.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Co-operative Bank"از"Platform"…153شکل 4-49.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Platform"……………...153فصل پنجم……………………………………………………………………………………...155شکل5-1.قسمت جستجوی موتورجستجوی ……………………………………………..PSEFiL156شکل5-2. جستجوی "Web mining" توسط موتورجستجوی ……………………………PSEFiL158شکل5-3.نمایش درختی "Web mining" توسط موتورجستجوی ………………………...PSEFiL157شکل5-4.نمایش درختی "Puma" توسط موتورجستجوی ………………………………..PSEFiL158شکل5-5.لینک هاواسنیپت های طبقه "Concept" از"Web mining"توسط موتورجستجوی...PSEFiL158شکل5-6.لینک هاواسنیپت های طبقه"Shoes-Sport wear"از"Puma"توسط موتورجستجوPSEFiL......159فصل ششم…...…………………....……………………………………………………………160شکل 6-1.معماری موتور جستجویپیشنهادی …...….……………………………………PSEFiL162 چکیدهماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرسوجو با معانی مختلف، باعث نارضایتی کاربران وب شدهاست که نیاز به پاسخ های دقيق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش میکنند تا درخواست کاربران را از طریق مطالعه سابقه جستجو و یا حتی شرکت دادن کاربران در فرایند جستجو به منظور روشن ساختن آنچه که آنها واقعا نیاز دارند، دريابند. این روند بخشی از تلاش موتورهای جستجو برای شخصیسازی است.یکی از موتورهای جستجوی شخصیسازی شده ی خوش تعريف و خوش ساخت، اسنکت[1] است که از مشارکت کاربر برای فرایند شخصیسازی استفاده میکند. در این تحقیق بر اساس الگوریتم شخصیسازی شده اسنکت، یک معماری از موتور جستجوی شخصیسازی شده جديد پيشنهاد شده در اين پایان نامه به نام PSEFiL ارائه شدهاست که با دخالت دادن کاربر و فيلتر سازی لینک ها پاسخ هایی با کمترین ميزان یا عدم وجود انحراف موضوع به منظور غنی سازی مجموعه جواب، به کاربران تحویل میدهد. علاوه بر این، مجموعه جواب مستحکم است زیرا هر لینک موجود در مجموعه نتایج، يا دارای رتبه بالایی از ساير موتورهای جستجو است و یا کمترین انحراف موضوع را با یک فرایند اسکن دستی دقيق داراست. بعلاوه هر لینک به روشنی برای هر معنی ذهنی موجود از یک عبارت پرسوجو طبقهبندی شدهاست. یکی از اهداف PSEFiL، آماده سازی و تحويل پاسخ های دقیق است نه تحويل مجموعه پاسخی با لینک های بیشتر که ممکن است محتوایشان دقت کم داشته و یا دقیق نباشند. کلمات کلیدیموتور جستجو، بهینه سازی موتور جستجو، شخصیسازی موتور جستجو، ساختارکاوی وب, محتوا کاوی وب فصل اولکلیات 1-1مقدمهوب، محيطي وسيع، متنوع و پويا است که کاربران متعدد، به انتشار اسناد خود در آن مبادرت می ورزند. با توجه به حجم وسيع اطلاعات و با توسعه سيستم هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمانها بدل گشته است. از اين رو در سال های اخیر، روشها و تکنيکهاي دستيابي کارا به دادهها، به اشتراک گذاری دادهها و استخراج اطلاعات از دادهها به شدت مورد نياز جامعه ی اطلاعاتی و کاربران آن مي باشد.اهميت مديريت و دسته بندی موثر انواع گوناگون دادهها به منظور استفاده و تحليل کارآمد آنها برای کاربران عام و همچنين کارمندان دانشی[2] از کسی پوشيده نيست. در اين بين، ماهيت وب دربردارنده ی چالش های بسياری است که دسته بندی و مديریت دادهها را مشکل می سازد. از آن جمله می توان به دشوار بودن یافتن اطلاعات مورد نیاز در وب به دلیل دقت تحليلی پايين موتورهای جستجو، عدم خصوصی سازی اطلاعات، طولانی بودن زمان پاسخ درک شده توسط کاربر، عدم رضايت کاربر در کيفيت پاسخ دريافتی، گوناگونی دادههای موجود در وب و ... اشاره کرد.درموتورجستجو[3]کاربرکلیدواژهیراواردکردهوماژولجستجودربانکاطلاعاتیخودبهجستجومیپردازدوسایتهایمرتبطباموضوعشمارانمایشخواهدداد زمانیکهکاربرازیکموتورجستجوبرایبیاندرخواستخوداستفادهمیکند،نتایجارائهشدهازسویموتورجستجو،تنهابهیکلیستازنتایجمنتهینمیشودبلکهاکثرموتورهایجستجودرکنارآننتایج،امکاناتدیگریرابهکاربرارائهمیدهندکهمیتواننددررساندنکاربربهدرخواستحقیقیاشبسیارمفیدباشند.روشهایمختلفیبهمنظوربازیابیاطلاعاتمورداستفادهقرارمیگیرندکهعمدتامبتنیبرمحتواوساختارندوازالگوریتم هایمختلفیبهاینمنظوراستفادهمیکنند مطالعاتنشانمیدهندکلماتپرس وجوکوتاهومتفاوتندوهرکاربرمنظورخاصیازیکپرس وجویمشابهدارد،درواقعهمیشهنتایجارائهشدهآنچیزینیستکهکاربرانتظارآنرادارد،کاربرانسلایقمتفاوتیدارنداماموتورجستجونتیجهیکسانیرابرایهمهآنهاارائهمیدهد. اگربتوانازسلایقکاربراندرجستجواستفادهکردمطمئنانتایجرضایتبخشتریحاصلمیشود. درواقعدرچنینساختاری،دوکاربرنتایجمتفاوتیراازیکپرسوجوییکساندریافتمیکنند.یکیازمباحثمطرحوپرطرفداردرامربازیابیاطلاعات،شناخترفتارکاربر[4] واستفادهازسابقهرفتاریاودرمشاهدهصفحاتوبدرگذشتهاستتاازاینرو،نتایجحاصلازموتورجستجوهرچهبیشتربهسلایقکاربرنزدیکباشدوباعثرضایتمندیبیشترکاربرانشوددرواقعفرایندشخصیسازی[5]موتورجستجووبهبودنتایجحاصلازجستجویکاربران،اززمینههایپژوهشیوبازدراینحوزهاستکهپژوهشگرانفراوانیرابهسویخودجذبکردهوتداعی گرنتایجارزشمندیتابهامروزاست.وبکاوی[6] به عنوان زيرشاخه ای تخصصی شده از دانش داده کاوی به فرایند کشف اطلاعات و دانش ناشناخته و مفید از دادههای وب اطلاق میشود که در زمینههای گوناگون کاربرد دارد ودر سال های اخير و همگام با توسعه ی وب،این شاخه مورد توجه بسياری از پژوهشگران بوده است. وبکاوی نه تنها به معنی استفاده از تکنیک های داده کاوی[7] برای دادههای ذخیره شده در صفحات وب است بلکهالگوریتم های آن به منظور پاسخگويي به خواسته های کاربران از وب از نظر زمان پاسخگويي و قدرت تحليل وب اصلاح می شوند.