👈فول فایل فور یو ff4u.ir 👉

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی word

ارتباط با ما

دانلود


تشخیص هرزنامه وب به کمک تکنیک های داده کاوی word
 فهرست مطالب:
چکیده---------1
فصل اول:مقدمه------2
1-1 پیش گفتار -------3
1-2 بیان مسئله ------3
1-3 اهمیت و ضرورت انجام تحقیق -------4
ساختار پایان نامه------5
فصل دوم:وب و هرزنامه های وب-----6
2-1 وب جهان گستر -------7
2-1-1 وب به عنوان گراف-------8
2-1-2 گراف وب در صفحه و سطح میزبان-------8
2-1-3 اتصال---------9
2-2 موتورهای جستجو-----10
2-2-1 معماری موتورهای جستجوی وب----------------------------------------11
2-2-2 سرویس دهنده پرس و جوی موتور جستجو-------------------------------13
2-3 رتبه بندی-------------------------------------------------------------------13
2-3-1 رتبه بندی مبتنی بر محتوا----------------------------------------------13
2-3-2 الگوریتم های مبتنی بر لینک-------------------------------------------15
2-4 هرزنامه وب---------------------------------------------------------------19
2-4-1 هرزنامه محتوا------------------------------------------------------20
2-4-2 هرزنامه لینک -----------------------------------------------------22
2-4-3 تکنیک های مخفی -------------------------------------------------27
2-5 یادگیری ماشین ------------------------------------------------------------29
2-5-1 NaΪVe Bayes --------------------------------------------------------30
2-5-2 درخت تصمیم ------------------------------------------------------------31
2-5-3 ماشین بردار پشتیبان-------------------------------------------------------33
2-6 ترکیب طبقه بندی کننده ها---------------------------------------------------------35
2-6-1 Bagging ----------------------------------------------------------------35
2-6-2 Boosting ---------------------------------------------------------------36
2-7 روش های ارزیابی --------------------------------------------------------------37
2-7-1 ارزیابی متقاطع -----------------------------------------------------------38
2-7-2 دقت و فراخوانی----------------------------------------------------------38
2-7-3 منحنی ROC ------------------------------------------------------------39
2-8 جمع بندی-------------------------------------------------------------------------40
فصل سوم: پیشینه تحقیق -------------------------------------------------------------41
3-1 مجموعه داده های مورد استفاده توسط محققین --------------------------------------42
3-1-1 UK2006 ---------------------------------------------------------------42
3-1-2 UK2007 ---------------------------------------------------------------43
3-1-3 مجموعه داده جمع آوری شده با استفاده از جستجوی MSN -----------------44
3-1-4 DC2010 ---------------------------------------------------------------44
3-2 مطالعات مبتنی بر محتوا----------------------------------------------------------47
3-3 روش های مبتنی بر لینک---------------------------------------------------------51
3-3-1 الگوریتم های مبتنی بر انتشار برچسب ها --------------------------------51
3-3-2 رتبه بندی تابعی --------------------------------------------------------55
3-3-3 الگوریتم های هرس لینک و وزن دهی دوباره-----------------------------56
3-3-4 الگوریتم های مبتنی بر پالایش برچسب ها --------------------------------57
3-4 روش های مبتی بر لینک و محتوا --------------------------------------------------------58
3-4-1 مطالعات مبتنی بر کاهش ویژگی -------------------------------------------------57
3-4-2 مطالعات مبتنی بر ترکیب طبقه بندی کننده ها--------------------------------------59
3-4-3 مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه ----------63
3-4-4 مطالعات مبتنی بر پیکربندی وب ------------------------------------------------71
3-4-5 تشخیص هرزنامه از طریق آنالیز مدلهای زبانی-----------------------------------76
3-4-6 تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب---------------------------79
3-4-7 رویکرد ترکیب ویژگی های مبتنی بر محتوا و لینک برای صفحات عربی ----------82
3-5 جمع بندی---------------------------------------------------------------------------------83
فصل چهارم: پیاده سازی ایده پیشنهادی -------------------------------------------------------85
4-1 مقدمه-------------------------------------------------------------------------------------86
4-2 ویژگی های مجموعه داده انتخابی ----------------------------------------------------------87
4-3 پیش پردازش -----------------------------------------------------------------------------92
4-3-1 پیش پردازش مجموعه داده UK2007 --------------------------------------------------93
4-3-2 کاهش ویژگی ها با اعمال الگوریتم های داده کاوی--------------------------------------93
4-4 داده کاوی و ارزیابی مدل ها--------------------------------------------------------------96
4-4-1 نتایج الگوریتم ها با اعمال روش های کاهش ویژگی --------------------------------102
4-4-2 مقایسه مقدار F_measure بدست آمده از الگوریتم ها با اعمال بر روی ویژگی های بدست آمده از الگوریتم های کاهش ویژگی------------------------------------------------------109
4-5 تفسیر نتایج----------------------------------------------------------------------------110
4-6 جمع بندی------------------------------------------------------------------------------114
فصل پنجم: نتیجه گیری و کارهای آتی ---------------------------------------------------------115
5-1 نتیجه گیری ------------------------------------------------------------------------116
5-2 کارهای آتی- -------------------------------------------------------------------------117
منابع------------------------------------------------------------------------------------------118
پیوست1 ------------------------------------------------------------------------------------125
پیوست 2 ------------------------------------------------------------------------------------126
پیوست 3-------------------------------------------------------------------------------------126
پیوست4 -------------------------------------------------------------------------------------127
پیوست 5-------------------------------------------------------------------------------------127
پیوست 6-------------------------------------------------------------------------------------128
پیوست 7-------------------------------------------------------------------------------------129
پیوست 8-------------------------------------------------------------------------------------129
پیوست 9-------------------------------------------------------------------------------------129
پیوست 10 ----------------------------------------------------------------------------------130
پیوست 11 -----------------------------------------------------------------------------------130
پیوست 12-----------------------------------------------------------------------------------131
پیوست 13-----------------------------------------------------------------------------------132
پیوست 14-----------------------------------------------------------------------------------133
چکیده انگلیسی--------------------------------------------------------------------------------134
 
فهرست جداول:
3-1: توزیع تعداد صفحات مرورشده توسط هر ارزیاب --------------------------------------42
3-2:کسری از هرزنامه ها در Web-spam –UK2006 و DC2010-----------------------------45
3-3: توزیع برچسب ها در مجموعه داده DC2010--------------------------------------------47
3-4: نتایج بدست آمده با 10 ویژگی با اعمال الگوریتم های کاهش-----------------------------59
3-5: نتایج بدست آمده با 10 ویژگی با استفاده از boosting------------------------------------60
3-6: نتایج حاصل از ارزیابی درخت j48 بر روی داده های تست-------------------------------70
4-1: نتایج 34 طبقه بندی کننده با 140 ویژگی--------------------------------------------------96
4-2: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی chisquare و روش جستجوی Ranker search method ---------------------------------------------------------------------------102
4-3: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی best first---------------------------------------------------------------------------------------103
4-4: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی genetic search---------------------------------------------------------------------------103
4-5: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی greedystepwise---------------------------------------------------------------------------104
4-6: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubsetevalو روش جستجوی Linear Forward Selection ----------------------------------------------------------------104
4-7: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی Rank search ----------------------------------------------------------------------------------105
4-8 : نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubsetevalو روش جستجوی Scatter Search---------------------------------------------------------------------------------105
4-9: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگیcfssubsetevalو روش جستجوی subsetsizeforward selection -------------------------------------------------------------106
4-10: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگیConsistencySubSetEval و روش bestfirst----------------------------------------------------------------------------------106
4-11: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی Consistencysubeval و روش جستجوی genetic search ---------------------------------------------------------------------------107
4-12: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی GainRatioAttributeEval و روش جستجوی Ranker-------------------------------------------------------------------------107
4-13: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی InfoGainAttributeEval و روش جستجوی Ranker---------------------------------------------------------------------------108
4-14: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی Principalcomponentو روش جستجوی Ranker-----------------------------------------------------------------------------------108
4-15: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی Symetricaluncertattributeeval و روش جستجوی Ranker----------------------------------------------------------------------------109
4-16: مقایسه F_measure بدست آمده از الگوریتم ها با اعمال الگوریتم های کاهش ویژگی-------109
4-17: مقایسه درصد درستی بدست آمده از الگوریتم ها با اعمال الگوریتم های کاهش ویژگی-----113
فهرست اشکال:
2-1 ساختار بوی-تای وب-----------------------------------------------------------------------9
2-2 معماری کلی موتور جستجو---------------------------------------------------------------11
2-3 صفحه مزرعه لینک----------------------------------------------------------------------25
2-4 honeypot -------------------------------------------------------------------------------25
2-5 یک مجموعه تفکیک شده خطی-----------------------------------------------------------34
2-6 الگوریتم Adaboost---------------------------------------------------------------------37
2-7 منحنی ROC----------------------------------------------------------------------------40
3-1 درخت j48 تولید شده توسط وکا----------------------------------------------------------70
3-2 طرح گراف میزبان----------------------------------------------------------------------72
3-4 طرح کلی متدلوژی ---------------------------------------------------------------------83
4-1 مراحل داده کاوی-----------------------------------------------------------------------86
4-2 تجزیه داده های مورد استفاده در ساخت درخت ها-----------------------------------------98
 چکیده:
امروزه هرزنامه[1] ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد.
یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است.
الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعی بر ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.
 فصل اول
مقدمه
 1-1- پیش گفتار:
داده‌كاوي كه با عنوان كشف دانش از پايگاه‌هاي داده هم شناخته مي‌شود، فرايندي براي استخراج الگوهاي مفيد از پايگاه‌هاي داده مي‌باشد [1]. داده‌کاوي مي تواند الگوهاي مفيد مورد نظر کاربران خود را از انواع مختلفي از پايگاه‌هاي داده استخراج کند. بيشتر محققان داده‌كاوي را مترادف با كشف دانش در پايگاه‌هاي داده مي‌دانند. كشف دانش شامل مراحل زير است كه به صورت پي در پي انجام مي شوند:
افزايش توانايي تكنيكها و ابزارهاي مختلف در ايجاد و جمع‌آوري داده‌ها و اهميتي كه پايگاه‌هاي داده به دليل در دسترس بودن و قوي بودنشان در صنايع و تحقيقات مختلف دارند، همچنين شبکة گستردة جهاني که به عنوان يک منبع اطلاعاتي مهم بشمار مي‌رود، ما را با حجم عظيمي از داده و پايگاه‌هاي داده روبرو ساخته است.
اگرچه موتورهای جستجو تکنیک های زیادی را برای شناسایی هرزنامه وب گسترش داده اند اما هرزنامه نویسان وب تاکتیک های جدیدی را برای تاثیر گذاری روی نتایج الگوریتم های رده بندی موتورهای جستجوگر، به منظور دستیابی به رده های بالاتر توسعه داده اند.
داده کاوی به عنوان ابزاری مهم و نو کاربرد گسترده ای در شناسایی صفحات هرزنامه از غیرهرزنامه دارد.
1-2- بیان مسئله:
موتورهای جستجو به مکانی برای جستجوی اطلاعات بر روی وب تبدیل شده اند. با توجه به پدیده هرزنامه، نتایج جستجو همواره مطلوب نیست.
بیش از دو دهه است که پژوهش بر روی بازیابی اطلاعات خصمانه در دانشگاه و صنعت علاقه مندان زیادی دارد. هرزنامه ها بر هر سیستم اطلاعاتی، ایمیل، وب و وبلاگ ها و شبکه های اجتماعی سایه افکنده اند. این مفهوم برای اولین بار در سال 1996 مطرح شد و به زودی به عنوان یک چالش برای موتورهای جستجو مطرح شد.
اخیراً همه شرکت های بزرگ موتور جستجو به دلیل اثرات متعدد ومنفی ناشی از ظهور هرزنامه ها، بازیابی اطلاعات خصمانه را به عنوان یک اولویت بالا تعیین کرده اند ]3,2.[ نخست آنکه هرزنامه ها کیفیت نتایج جستجو را نامطلوب میسازند و بازده ای که سایت های قانونی می توانند در غیاب هرزنامه ها داشته باشند را کاهش می دهند.
دوم آنکه باعث عدم اطمینان یک کاربر به موتور جستجو شده و نهایتاً منجر به تعویض موتور جستجو که برای کاربر هزینه ای در بر نخواهد داشت می گردد.
هدف تعیین ویژگی های متفاوت صفحات وب به منظور رتبه بندی نتایج موتور جستجو است و بر این اساس کلاس بندی به منظور شناسایی سایتهای هرزنامه از سایتهای معتبر انجام می پذیرد.
1-3- اهمیت و ضرورت انجام تحقیق:
هرزنامه ها به عنوان ابزاری برای انتشار محتوای مربوط به بزرگسالان و بدافزار ها و حملات مطرح می شوند. به عنوان مثال، رتبه بندی 100 میلیون صفحه براساس الگوریتم های رتبه بندی صفحه نشان داد که 11 نتیجه از 20 نتیجه، سایت های پرونوگرافی بوده اند که با دستکاری محتوا و پیوند ها به این نتیجه رسیده اند ]5,4.[ در گذشته این امر باعث می شد مقدار قابل توجهی منابع محاسباتی و ذخیره سازی از شرکتهای موتورهای جستجو، به هدر رود. در سال 2005 ضرر و زیان ناشی از هرزنامه ها 50 میلیارد دلار تخمین زده شد. در سال 2009 نیز 130 میلیارد دلارتخمین زده شد ]6[. از جمله چالش های جدید، رشد سریع وب و ناهمگونی آن و ساده سازی ابزارهای ایجاد محتوا (به عنوان مثال ویکی وب سایت، سکوهای بلاگ نویسی و ...) و کاهش هزینه نگهداری وب سایت (نظیر ثبت دامنه، میزبانی وب و...) می باشد که باعث تحول هرزنامه ها و ظهور سویه های جدید هرزنامه وب که نمی تواند با روش های موفق قبلی شناسایی شود، شده است.
کسری از ارجاعات به صفحات وب که از موتورهای جستجو می آیند قابل توجه هستند و کاربران تمایل به بررسی نتایج با رتبه بالا دارند . برای 85 درصد از پرسش ها تنها نخستین صفحه نتیجه مورد توجه واقع شده است و تنها سه پیوند کلیک شده است ]7[. بنابراین تلاش برای گنجانده شدن در نخستین صفحه نتیجه موتور جستجو با توجه به افزایش ترافیک وب سایت ها انگیزه روشن اقتصادی خواهد داشت. به منظور نائل شدن به این هدف، صاحبان وب سایت ها، برای دستکاری نتایج رتبه بندی موتورهای جستجو تلاش می کنند. مطابق با مطالعات انجام شده مقدار هرزنامه ها از 6 تا 22 درصد متغییر است و این امر نشان دهنده حوزه و دامنه مشکل است ]9,8.[
ساختار پایان نامه:
با توجه به موضوع پایان نامه، در ابتدا در فصل دوم به بررسی ساختار وب و مفاهیم هرزنامه و انواع هرزنامه و برخی از مهمترین روش های یادگیری ماشین پرداخته شده است. در فصل سوم به معرفی مجموعه داده های موجود پرداخته و تکنیک های مقابله با هرزنامه های لینک و هرزنامه های محتوا و هرزنامه های لینک-محتوا مورد بررسی قرار گرفته است. در فصل چهارم به معرفی و مجموعه داده انتخابی پرداخته شده و نتایج مربوط به مدلهای بهینه داده کاوی بیان گردیده است. در فصل پنجم نیز به عنوان فصل پایانی، نتیجه نهایی کار جمع بندی شده و مسائلی که می توانند به عنوان موضوع پایان نامه کارشناسی ارشد در آینده مورد توجه و بررسی قرار گیرند، بیان گردیده است.
 فصل دوم :
وب و هرزنامه های وب
 با توجه به موضوع پایان نامه در ابتدا بررسی ساختار وب و انواع هرزنامه و همچنین مهمترین الگوریتم های یادگیری ماشین ضروری به نظر می رسد. بنابراین در این فصل در ابتدا مفاهیم وب و سپس انواع هرزنامه و در پایان الگوریتم های یادگیری ماشین مورد بررسی قرار گرفته است.
2-1- وب جهان گستر:
وب جهان گستر را می توان به عنوان یک پایگاه داده مدیریت شده توسط بشریت برای ذخیره سازی و اشتراک اسناد مختلف در نظر گرفت، با این حال، وب با پایگاه داده های معمول در اندازه، پویایی بسیار سریع و ناهمگونی تفاوت دارد. نخست آنکه وب بسیار بزرگ است، نمی توان اندازه آن را به طور دقیق مشخص کرد و اندازه گیری نمود. تعداد صفحات نامحدود است و محتوا نیز به اطلاعات وارد شده توسط کاربر بستگی دارد.جولی و سیگنورینی[2]گزارش کرده اند که وب 11 میلیارد صفحه را در ژانویه 2005 شامل می شده است] 10[. در 2008 گوگل ادعا کرد که سیستم آنها یک تریلیون URL را روی وب پردازش کرده است] 11.[
یک چالش دیگر این است که محتویات وب به سرعت تغییر می کند. چو و گارسیا-مولینا[3]، سرعت تغییر را با دانلود 720000 صفحه در یک دوره چهار ماهه سال 1999 ارزیابی کرده اند] 12[. آنها به این نتیجه رسیدند که محتویات صفحه برای 23 درصد مجموعه اصلاح شد و در طی 50 روز، 50 درصد مجموعه ویرایش یا برداشته شدند] 13[.
اسناد وب به دلایل مختلف و دیدگاه های مختلف، ناهمگون هستند.علاوه بر متن، وب سایت ها می تواند شامل تصاویر، فیلم ها و فایل های صوتی در فرمتهای مختلف باشد. اندازه این اسناد می تواند از یک بایت تا هزاران مگابایت متفاوت باشد. در میان متداولترین فایل های HTML، می توانید نسخه های متفاوت و صفحات با نحو ناصحیح را پیدا کنید که از استانداردهای W3C پیروی نمی کنند اما هنوز هم توسط مرورگرهای[4] وب قابل مشاهده هستند. محتوای وب اغلب بدون ساختار است، از زبانها و سبک های مختلف تشکیل شده است و کیفیت آن در طیف گسترده ای متفاوت است. اگرچه صفحات HTML، تعدادی فراداده[5] را در بر می گیرند اما در حالت کلی قابل اعتماد نیستند. هدف اصلی وب معنایی، قرار دادن داده ها به صورت ساختار یافته ی دوستدار ماشین[6] است که همکاری میان انسان و ماشین را ممکن می سازد ]14[.

👇 تصادفی👇

بروشور ولادت حضرت زینب(س)رابطه نگرش مذهبي با بهزيستي روانشناختي و فرسودگي شغلي در معلمان مرد مدارس متوسطه شهر ....195-CELLULAR LIGHT WEIGHT CONCRETE )( CLC ) ( بتن سبك وزن با ساختمان سلولی ( فوم417-تاثیر استفاده از پوزولانهای مختلف دربتن كامپوزیتیT.R.Cجهت تسلیح بتن غلتكی روسازیشبیه سازی مدار سه فاز اتصال ستاره متعادل در شبکهپاورپوینت پول شوییدانلود پایان نامه فن آوری سیستم های رادیو شناسه‎آموزش جامع و کامل excel و word به صورت تصویریحسابداری دولتیتحقیق: ایمنی محیط کار ✅فایل های دیگر✅

#️⃣ برچسب های فایل تشخیص هرزنامه وب به کمک تکنیک های داده کاوی word

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی word

دانلود تشخیص هرزنامه وب به کمک تکنیک های داده کاوی word

خرید اینترنتی تشخیص هرزنامه وب به کمک تکنیک های داده کاوی word

👇🏞 تصاویر 🏞