دانلود فایلی با مشخصات بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو word

فهرست مطالب
عنوان صفحه
چکیده1
فصل اول: کلیات2
1-1 مقدمه3
1-2 بیان مسأله4
1-3 اهمیت و ضرورت انجام تحقیق5
1-4 ساختار پایان نامه6
فصل دوم: مبانی و مفاهیم پایه 7
2-1 مقدمه8
2-2 انواع موتورهای جستجو13
2-2-1 موتورهای کلید واژه ای13
2-2-2 موتورهای جستجو بر اساس فهرست راهنمای موضوعی13
2-2-3 موتورهای جستجوی مبتنی بر خزنده15
2-2-3-1 تفاوت موتورهای دایرکتوری با موتورهای مبتنی بر خزنده16
2-2-4 موتورهای جستجوی ترکیبی16
2-2-5 موتورهاي جستجوی متا17
2-2-5-1 فهرستي از موتورهاي جستجو17
2-2-5-2 جستجوي متوالي17
2-2-5-3 جستجوي هم زمان17
2-2-6 موتورهاي جستجوي هوشمند18
2-2-7 موتورهای جستجوگر مبتنی بر هزینه18
2-3 معماری موتورهای جستجو20
2-4 اجزای معماری موتورهای جستجو22
2-5 استراتژی های روزآمد سازی مخزن27
2-5-1 روش دسته ای يا خزنده دائمی27
2-5-2 جستجوهای نسبی یا کامل32
2-6 دو نمايه اصلي واحد نمايه ساز28
2-7 یک مثال از نحوه عملکرد موتور جستجو31
2-8 مراحل كار موتورهاي جستجو.......................... 31
2-8-1 پیش پردازش دادها31
2-8-2 الویت بندی نتایج32
2-9 برچسب ها33
2-9-1 برچسب های توصیفی متن33
2-9-2- بر چسب alt tag33
2-10 فایلrobots.txt34
2-11 موقعیت و مسافت34
2-12 مشکلات خزنده35
2-13 روشهای بهینه سازی موتورهای جستجو35
2-13-1شاخص گذاری35
2-13-2 جلوگیری از خزش و استاندارد خروج روبات ها35
2-13-3 افزایش اهمیت36
2-14الگوريتم هاي رتبه بندي37
2-14-1 پارامتر های رتبه دهی37
2-14-2 وزن دهی به کلمات37
2-14-3 ارزیابی کلمات کلیدی37
2-14-4 پارامتر های وزن دهی38
2-14-5 بازیابی تحمل پذیر38
2-14-6 الگوریتم کلی غلط یابی املایی در موتور های جستجو38
2-14-7 غلط یابی املایی39
2-14-8 الگوریتم فاصله ویرایشی39
2-14-9 الگوریتم مجاورت کی-گرم40
2-14-10 غلط یابی حساس به متن40
2-14-11 مفهوم ربط41
2-14-11-1 ربط از نظر کاربر42
2-14-11-2 ربط از نظر سیستم بازیابی42
2-14-12 نظر خواهی از کاربر در رتبه بندی43
2-14-13 موتورهاي جستجوي اصلي43
2-14-13-1Google43
2-14-13-2 Excite44
2-14-13-3 Altavista44
2-14-13-4 Yahoo44
2-14-13-5 Fast44
2-14-13-6 Lycos44
2-14-14 موتورهاي جستجوي خبري45
2-14-15 متا كراولر46
2-14-16 موتورهاي جستجوي منفعتي48
2-14-17 موتورهاي جستجوي ليست پرداخت49
2-14-18 موتورهاي جستجوي اختصاصي49
2-14-19 جستجوي پاسخ50
2-14-20 موتورهاي جستجوي كودكان51
2-14-21 موتورهاي جستجوي منطقه اي51
2-15 نتیجه گیری52
فصل سوم: معماری خزنده وب و استراتژی های خزش53
3-1 مقدمه54
3-2 معماري خزنده هاي وب54
3-3 انتخاب صفحه56
3-4 اهمیت صفحه57
3-5 چالش های اجرای یک خزنده57

3-5-1 انتخاب صفحات برای دانلود57
3-5-1 انتخاب صفحات برای دانلود57

3-6 پيچيدگي هاي فرآيند خزیدن58
3-6-1 استرات‍ژي هاي سنجش انتخاب صفحات58

3-6-1-1 معیار مبتنی بر گرایشات کاربران58
3-6-1-2 معیار مبتنی بر شهرت صفحات58

3-6-1-3 معیار مبتنی بر محل قرار گرفتن صفحات58
3-7 چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب59
3-7-1 خزش و توقف................................. 59
3-7-2 خزش و توقف مبتنی بر مقدار آستانه........... 59
3-8 استراتژی های روزآمدسازی صفحات60
3-8-1 سیاست روزآمد سازی یکپارچه60
3-8-2 سیاست روزآمد سازی نسبی60
3-9 به حداقل رساندن بار روی وب سایت های بازدید شده60
3-10 موازی سازی روند خزنده60
3-11 ساختار وب61
3-12 استراتژی های خزش62
3-12-1 جستجوی ناآگاهانه62
3-12-1-1 حركت اول عمق62
3-12-1-2 حركت اول سطح63
3-12-1-3 جستجو با هزینه یکنواخت65
3-12-2 جستجوی آگاهانه یا اکتشافی66
3-12-2-1 حركت بهترين-شروع67
3-12-2-2 جستجوی *A69
3-12-3 جستجوی محلی69
3-12-3-1 جستجوی تپه نوردی70
3-12-3-2 جستجوی پرتو محلی70
3-12-3-3 جستجوی شبیه سازی حرارت71
3-12-3-4 الگوریتم آستانه پذیرش72
3-12-3-2 جستجوی پرتو محلی70
3-13 نتیجه گیری73
فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق74
4-1 مقدمه75
4-2 مرحله اول: بررسی روشاول سطح75
4-3 مرحله دوم: بررسی روش اول عمق80
4-4 مرحله سوم: بررسی روش ترکیبی86
4-4-1 ترکیب اول: پیمایش اولین سطح به صورت BFS86
4-4-2 ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS86
4-4-3 ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS86
4-5 مرحله چهارم: بررسی روش بهترین-شروع86
4-6 مرحله پنجم: بررسی روش تپه نوردی87
4-7 نتایج تجربی بدست آمده88
4-8 تعداد صفحات دانلود شده برای هر پرس و جو90
4-9 نتیجه گیری91
فصل پنجم: نتیجه گیری و ارائه پیشنهادات97
5-1 نتیجه گیری و جمع بندی نهایی93
5-2 پیشنهادات و کارهای آینده100
منابع101
فهرست جداول
عنوان صفحه
جدول 4-1 میزان مرتبط بودن صفحات با استفاده از روش های اول سطح، اول عمق، بهتـرین- شروع و تپه نوردی88
جدول 4-2 میزان مرتبط بودن صفحات با استفاده از روش های ترکیبی اول، دوم و سوم89
جدول 4-3 تعداد صفحات خزش شده برای هر پرس و جو در الگوریتم های مختلف90

فهرست اشکال
عنوان صفحه
شکل 2-1 درصد تغییرات صفحه8
شکل 2-2 متوسط تغییرات صفحه در هر 10 روز8
شکل 2-3 موتور جستجوی یاهو16
شكل 2-4 معماري موتورهاي جستجو20
شكل2-5 كدهایHTMLسازنده یك صفحه وب 23
شكل2-6 خزش در وب24
شكل2-7 ماتريس اطلاعات كليدواژه ها25
شكل 2-8 نحوه استخراج و شاخص دهي32
شکل 3-1 معماری خزنده وب55
شکل 3-2 الگوریتم پایه خزنده وب56
شکل3-3 نمایی کلی از ساختار وب61
شکل3-4 ساختار گراف وب61
شکل3-5 حركت خزنده در بين صفحات با استفاده از الگوريتم اول عمق62
شکل3-6حركت خزنده در بين صفحات با استفاده از الگوريتم اول سطح63
شکل3-7 يك خزنده با استراتژي اول سطح63
شکل 3-8 الگوریتم خزنده با استراتژی اول سطح64
شکل 3-9 محاسبه پيچيدگی زمانی يک درخت جستجوی دودويی با استفاده از جستجوی اول سطح33
شکل 3-10 مراحل رسیدن به هدف با استفاده از روش UCS66
شکل 3-11 يك خزنده با استراتژي بهترين-شروع68
شکل 3-12 الگوریتم خزنده با استراتژی بهترین-شروع69
شکل 3-13 شبه کد جستجوی تپه نوردی70
شکل 3-14 شبه الگوریتم پرتومحلی71
شکل 3-15 شبه الگوریتم شبیه سازی حرارت72
شکل 4-1 لینک های استخراج شده سطح اول با استفاده از تکنیک BFS75
شکل 4-2 لینک های استخراج شده سطح دوم با استفاده از تکنیک BFS76
شکل 4-3 لینک های استخراج شده سطح سوم با استفاده از تکنیک BFS77
شکل 4-4 مسیر طی شده در اولین هسته از پرس و جوی Computer networks در روش اول سطح77
شکل4-5 مسیر طی شده در دومین هسته از پرس و جوی Computer networks در روش اول سطح78
شکل4-6 مسیر طی شده در سومین هسته از پرس و جوی Computer networksدر روش اول سطح80
شکل 4-7 محتوای S181
شکل 4-8 محتوای a1S181
شکل 4-9b1S1 a181
شکل 4-10 c1b1S1 a182
شکل 4-11d1c1b1S1 a182
شکل 4-12 مسیر طی شده در اولین مرحله از روش اول عمق82
شکل 4-13 مسیر طی شده در nامین مرحله از روش اول عمق در هسته اول84
شکل 4-14 مسیر طی شده در اولین مرحله از روش اول عمق84
شکل 4-15 مسیر طی شده در nامین مرحله از روش اول عمق90
شکل5-1 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Computer networks“94
شکل 5-2 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Artificial Intelligence“94
شکل 5-3 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی“Web crawler“95
شکل 5-4 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Search engine“95
شکل 5-5 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Cloud Computing“96
شکل 5-6 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Software engineering“96
شکل 5-7 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Data mining“97
شکل5-8 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Computer architecture“97
شکل 5-9 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Operatin system“98
شکل5-10 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Wi-Fi“98

فهرست نشانه ها(فرمول ها)
............................................................................................................................................................... 67

Sim(q , p) = ................................................................................................................................. 68

h(n)≤h*(n)
h(n)≥0 ..................................................................................................................69
0 ≤h(n) ≤h*(n)
فهرست اختصارات
BFS. Best First Search
DFS. Depth First Search
DNS. Domain Name System
FTP. File Transfer Protocol
HTTP. Hyper Text Transfer Protocol
IP. Internet Protocol
PPC.. Pay Per Click
SA.. Simulated Annealing
TA.. Threhsold Acceptance
URL.. Uniform Resource Locator
TFIDF ………………………....……………...Term Frequency Inverse Document Frequency
چکیده
در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزارهای ارتباطات و تعـامل میان انسان ها بدل شده است. موتورهای جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعـه ای از اسناد و مـدارک بروز موجـود را دریافـت می کننـد. فرآینـد دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نيمه هوشمند به صورت خودکار انجـام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنـوان اسـرار تجاری پنهان باقی مانـده است، ادبيات تحقيق در شاخه ی موتورهای جستجو و ابزارهای بازيابی اطلاعات تلاش در يافتن بهترین راهکارها برای عملکرد بهينه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترين و تازه ترين اسناد به آنها اغلب مهمترين چالشی برای موتورهای جستجو می باشد. برای انجام اين مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلـکه به پاسخگویی در سريع ترين زمان ممکن بپردازد. در میـان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجـدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پيوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.
با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روشهای مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پيمايش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گيری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.
کلمات کلیدی: خزنده وب، پيمايش گراف، موتورهاي جستجو، انحراف موضوع.
فصل اول
کلیات
بدون وجود موتورهای جستجوگر تقریباً وب جهان گستر بدون فایده است. اما سؤال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا می کنند. اینترنت بسیار وسیع است و کاربران وب در حدود دو میلیارد برآورد می شوند. در این میان حداقل 250 میلیون وب سایت اینترنتی وجـود دارد که در مجمـوع چیزی در حدود 30 میلیارد صفحه وب را در خود جـای داده اند. گشتن در محیط وب[1] زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولاً اختصاص به پژوهشگران و اساتید دانشگاه داشت و می توان گفت که کار دشواری نیز به شمار می رفت[9].
با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس می شد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر به نام آرچی[2] پا به عرصه حضور گذاشتند. یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب[3] انجام می شود[53].
این برنامه ها به صورت خودکار در وب به جستجو پرداخته و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره می کنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از این رو این کار در مقیاس بسیار بزرگی انجام می شود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف مخزن بسیار بزرگی را در صفحات وب ایجاد کـرده اند اما خزندگان جدیدتر باید این کار را از صفر شـروع کنند. خزنده ها برای شروع معمولاً به سراغ دایرکتوری های معروف می روند چون از طریق آنها می توانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو می رود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در مخزن ذخیره می شوند تا بعداً مورد تجزیه و تحلیل قرار گیرند[44].
یک خزنده با طراحی خوب می تواند محتوای صفحـات وب را با سرعت بالایی مرور کند و در عین حال همگی خزندگان با کمک یک برنامه هماهنگ کننده اقدام به جستجو در وب می کنند تا این عمل دوباره تکرار نشود. این هماهنگ کننده باعث می شود که فاکتور تازگی صفحات حفظ شود تا جدیدترین نسخه آنها در بانک اطلاعاتی موتور جستجو قرار گیرد[46].
پس از آنکه خزندگان اطلاعات را در صفحات وب جمع آوری کردند این اطلاعات باید بر روی سرورهای سایت جستجوکننده ذخیره شوند. ذخیره و ایندکس کردن صفحات فراوان و بی شمار در وب یک چالش بزرگ است اما از آن مهم تر این است که موتور جستجو بداند که کاربرانش به دنبال چه چیزی هستند. هر چه قدر اطلاعات نمایـش داده شده توسط یک موتـور جستجو با عبارت جستجـو شده توسـط کاربر منطبق تر باشد، موتور جستجو عملکرد و محبوبیت بهتری دارد.
اما آنچه که یک وب سایت را در نتایج جستجوی یک موتور جستجوگر در رتبه ی بالاتری قرار می دهد در واقع نوع الگوریتم موتور جستجوگر در رتبه بندی صفحات یافت شده است. این الگوریتم مجموعه ای پیچیده از قواعد و ملاحظات گوناگون است که البته مدام در حال بهینه سازی است تا نتایج بهتری را در معرض نمایش کاربران قرار دهد. هر چقدر الگوریتم یک موتور جستجوگر بهتر عمل کند آن وب سایت نیز نتایج بهتری را به کاربران ارائه می دهد و از همین رو ضامن موفقیت یک موتور جستجوگر همان معماری و نوع الگوریتم جستجوی آن است. موتورهای جستجو همگی کل صفحات را بر اساس کلمات موجود در آن مورد ارزیابی قرار می دهند. اهمیت یک وب سایت هم در رتبه آن تاثیر مهمی دارد و اگر سایت های زیادی به یک صفحه خاص لینک دهند، موتور جستجو با وزن دهی[4] متوجه می شود که آن صفحه مهم است و به آن صفحه توجه بیشتری می کنـد. هر چه تعـداد لینک ها از سایت های دیگر به یک سایت بیشتر باشد یعنی آن وب سایت مهمتر و معتبرتر است.
حال اگر وب سایتی که رتبه بالایی دارد به وب سایت دیگری لینک دهد، آن لینک ارزش بیشتری نسبت به چندین لینک خواهد داشت[35].
يک خـزنده وب برنامـه اي است که صفحـات وب را عمـوماً براي يـک موتور جستجـوي وب دانلـود مي کند. خزنده هاي موتورهاي جستجوي بزرگ مانند گوگل، آلتاويستا و ... از بخش قابل توجهي از صفحات وب متني به منظور ساخت شاخص هاي محتوا استفاده می کنند. خزنده هاي ديگر همچنين ممکن است صفحات زيادي را مشاهده کنند و تنها براي نوع خاصي از اطلاعات مانند آدرس ايميل مورد استفاده قرار گيرند. در انتهاي ديگر اين طيف، خزنده هاي شخصي سازی شده وجود دارد که صفحات مورد علاقه يک کاربر خاص را به منظور ساخت يک حافظه نهان در دسترس سريع پيمايش مي کنند. طراحي يک خزنده خوب چالش هاي بسياري را به دليل گسترده بودن وب به همراه دارد و به طور دائم بايد بروز باشد. بر طبق مطالعـات مختلف بيش از يک ميليون صفحه در دسترس در وب وجود دارد و پيش بيني مي شود که اين نرخ رشد همچنان ادامه يابد. گذشته از اين، صفحاتي که به تازگي ايجاد شده اند به طـور مداوم در
حال بروز رساني مي باشند[5].

👇 تصادفی👇

نقشه کشی صنعتی و جایگاه آن در صنعت 237-بررسی مقاومت ستونهای لاغر ساخته شده از بتن با مقاومت بالا (HSC)پرسشنامه راهبردهای انگیزشی برای یادگیری دانلود Puzzle Alarm Clock ساعت زنگ دار پازلی اندروید طراحي سايت اتحاديه مدارس ايران به زبان ASP.NET سیستم امنیتی با اثر انگشت اثر سد زاينده رود بر کيفيت آب و غنای درشت بی مهرگان کفزی رودخانه زاينده رود گزارش کارآموزی در کارخانه تولید قطعات پرسی(نگهداری و تعمیرات)آنتن ✅فایل های دیگر✅

بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو word

👇 تصادفی👇

#️⃣ برچسب های فایل بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو word

بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو word

دانلود بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو word

خرید اینترنتی بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو word

👇🏞 تصاویر 🏞