چکیدهبا رشد فناوری اطلاعات،امنیت شبکه به عنوان یکی از مباحث مهم و چالش بسیار بزرگ مطرح است. سیستم های تشخیص نفوذ، مولفه اصلی یک شبکه امن است. سیستم های تشخیص نفوذ سنتی نمیتوانند خود را با حملات جدید تطبیق دهنداز این رو امروزه سیستم های تشخیص نفوذ مبتنی بر دادهکاوی مطرح گردیدهاند.مشخص نمودن الگوهای در حجم زیاد داده،کمک بسیار بزرگی به ما میکند. روشهای دادهکاوی با مشخص نمودن یک برچسب دودویی (بسته نرمال، بسته غیرنرمال) و همچنین مشخص نمودن ویژگیها و خصیصه با الگوریتمهای دستهبندی میتوانند داده غیرنرمال تشخیص دهند. از همین رو دقت و درستی سیستمهای تشخیصنفوذ افزایش یافته و در نتیجهامنیت شبکه بالا میرود.در این پایاننامه ما مدلی پیشنهادی ارائه مینماییم که الگوریتمهای مختلفدستهبندی را روی مجموعه داده خود تست نموده و نتایج شبیهسازی نشان میدهددر درخت تصمیم الگوریتم J48 ، شبکه عصبی الگوریتم Neural net ، شبکه بیزین الگوریتم HNB ، مدل کاهل الگوریتم K-STAR، در ماشین بردار پشتیبان الگوریتم LibSVM و در مدل قانون محور الگوریتمRule Induction Single Attribute دارای بهترین جواب از نظر پارامترهای مختلف ارزیابی برای سیستم تشخیص نفوذ است. بین تمامی الگوریتمها با این مجموعه داده، الگوریتم J48 دارای بالاترین مقدار درستی به میزان 85.49%، دارای بالاترین میزان دقت به مقدار 86.57% و دارای بالاترین مقدار یادآوری به مقدار 86.57% میباشد.نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. و همچنین پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده که برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد. کلمات کلیدی: داده کاوی، کشف تقلب، یادگیری بانظارت، تشخیص نفوذ و حملات فهرست مطالبفصل اول 11-1 مقدمه. 21-2 بيان مسئله. 31-3 اهميت و ضرورت تحقيق.. 41-4 اهداف تحقيق.. 51-5 تعاريف و اختصار. 61-6 ساختار پاياننامه. 9فصل دوم 102-1 دادهکاوی.. 112-1-1دستهبندی 112-2مدلها و الگوريتمهای دادهکاوی.. 132-2-1 شبکههای عصبی 132-2-2درخت تصميم 162-2-3 روش طبقهبندی بيزين 192-3-2-2 شبکههای بيزين 202-2-4 مدل قانونمحور 222-2-5 مدل کاهل 262-2-6ماشين بردارپشتيبان 322-3 مقدمهای بر تقلب... 362-3-1 ساختن مدل برای تقلب 362-3-2 اصول کلی تقلب: 362-3-3 چگونگی شناسايی تقلب: 372-3-4 چگونگی ساخت مدل تقلب: 372-4 مقدمهای بر سيستم تشخيص نفوذ. 382-4-1 تعاريف اوليه 392-4-2 وظايف عمومی يک سيستم تشخيص نفوذ: 392-4-3 دلايل استفاده از سيستم های تشخيص نفوذ: 402-4-4 جمع آوری اطلاعات 412-4-5 تشخيص و تحليل: 412-4-6 تشخيص سوء استفاده: 412-4-7 تشخيص ناهنجاری: 422-4-8 مقايسه بين تشخيص سوء استفاده و تشخيص ناهنجاری: 422-4-9 پياده سازی سيستمهای تشخيص نفوذ: 422-5 تعاريف برخی مقادير ارزيابی مورد استفاده در سيستم داده کاوی:442-5-1Confusion matrix: 462-5-2 درستی 472-5-3 ميزان خطا 472-5-4 حساسيت، ميزان مثبت واقعی، ياد آوری 472-5-5 ويژگی، ميزان منفی واقعی 482-5-6 حساسيت: 482-5-7دقت 492-5-8 معيار F: 492-6 پژوهشهای انجام شده در اين زمينه:502-6-1 پژوهش اول: کشف تقلب در سيستمهای مالیبا استفاده از دادهکاوی.... .... 512-6-2 پژوهش دوم: کشف تقلب در کارت اعتباری با استفاده از شبکه عصبی و بيزين 532-6-3پژوهش سوم: شناسايی تقلب بيمه با استفاده از تکنيکهای دادهکاوی562-6-4 پژوهش چهارم: استفاده از الگوريتم ژنتيک برای تشخيص تست نفوذ. 622-6-5 پژوهش پنجم: شناسايی ترافيک غيرنرمال در شبکه با الگوريتم خوشه بندی 653-1 روش تحقيق.. 713-2 دادههای آموزشی و تست:733-2-1 ویژگیهای دادهها .......... 733-2-2 ويژگیهای اساسی مجموعه دادهها: 734-1 الگوريتمهای مدل بيزين و ارزيابی آنها834-2 مدل کاهل.. 924-3 شبکه عصبی.. 994-4 مدل قانون محور. 1084-5 درخت تصميم. 1184-6 ماشين بردار پشتيبان.. 130فصل پنجم 1395-1 مقدمه. 1405-2 مزايا1415-3 پيشنهادات... 141فصل ششم 143فهرست منابع. 144پيوستها 148پيوست الف -مجموعه داده نوع اول:148پيوست ب-مجموعه داده نوع دوم. 153پيوست ج-نوع داده مجموعه سوم:156پيوست د-مجموعه داده نوع چهارم. 161پيوست ه -مجموعه داده نوع پنجم. 190 فهرست جداول جدول2‑1: تعریفمعیارها45جدول2‑2: ماتریس Confusion. 46جدول2‑3:معیارهایمختلفارزیابیوفرمولآنها50جدول2‑4: مقایسهنتیجهبینشبکهعصبیوشبکهبیزین.. 56جدول2‑5: دادهبرایدستهبندیبیزین59جدول2‑6: دادهبرایدستهبندیبیزین60جدول2‑7: ارزیابیدرختتصمیم62جدول2‑11: ارزیابیبااستفادهازخوشهبندی.. 69جدول3‑1 :ویژگیهایاساسیاستخراجشدهازارتباطTCP. 74جدول3‑2 :ویژگیهایاستخراجیازارتباطTCP. 74جدول3‑3: ویژگیهای استخراج شده ازپنجره. 76جدول4‑2: ماتریس Confusion الگوریتم Kernel naive Baysian 83جدول4‑1:معیارهای ارزیابی ونتایج الگوریتم Kernel naive Baysian84جدول4‑4: ماتریس Confusion الگوریتم Naive Baysian. 84جدول4‑3: معیارهای ارزیابی ونتایج الگوریتم Naive Baysian84جدول4‑6: ماتریس Confusion الگوریتم Waode. 85جدول4‑5:معیارهای ارزیابی ونتایج الگوریتم Waode. 85جدول4‑8: ماتریس Confusion الگوریتم Aode. 85جدول4‑7:معیارهای ارزیابی و نتایج الگوریتم Aode. 86جدول4‑10:ماتریسConfusion الگوریتم Aodesr86جدول4‑9:معیارهای ارزیابی ونتایج الگوریتم Aodesr86جدول4‑12:ماتریسConfusion الگوریتم Bayesenet87جدول4‑11:معیارهای ارزیابی ونتایج الگوریتم Bayesenet87جدول4‑13:معیارهای ارزیابی ونتایج الگوریتم HNB.. 88جدول4‑14:ماتریسConfusion الگوریتم HNB88جدول4‑16: ماتریس Confusion الگوریتم Dmnbtext88جدول4‑15:معیارهای ارزیابی ونتایج الگوریتم Dmnbtext89جدول4‑18:ماتریسConfusion الگوریتم BaysianLogic Regression. 89جدول4‑17:معیارهای ارزیابی ونتایج الگوریتم BaysianLogic Regression. 89جدول4‑20:ماتریسConfusion الگوریتم IB1. 93جدول4‑19:معیارهای ارزیابی و نتایج الگوریتم IB1 93جدول4‑21:معیارهای ارزیابی ونتایج الگوریتم IBK.. 93جدول4‑22:ماتریس Confusion الگوریتم IBK.. 94جدول4‑24:ماتریس Confusion الگوریتم LWL. 94جدول4‑23:معیارهای ارزیابی ونتایج الگوریتم LWL. 94جدول4‑26:ماتریسConfusion الگوریتم KSTAR.. 95جدول4‑25:معیارهای ارزیابی ونتایج الگوریتم KSTAR.. 95جدول4‑27:معیارهای ارزیابی ونتایج الگوریتم KNN.. 95جدول4‑28:ماتریس Confusion الگوریتم KNN.. 96جدول4‑29:معیارهای ارزیابی ونتایج شبکه MLP. 101جدول4‑30:ماتریس ConfusionشبکهMLP101جدول4‑32:ماتریس Confusionشبکه Perceptrons. 102جدول4‑31:معیارهای ارزیابی ونتایج شبکه Perceptrons103جدول4‑34:ماتریسConfusion الگوریتم RBF. 104جدول4‑33:معیارهای ارزیابی ونتایج الگوریتم RBF. 104جدول4‑36:ماتریسConfusion الگوریتم Neural net105جدول4‑35:معیارهای ارزیابی ونتایج الگوریتم Neural net105جدول4‑38:ماتریس Confusion الگوریتم Conjuctive rule. 108جدول4‑37:معیارهای ارزیابی ونتایج الگوریتم Conjuctive rule. 108جدول4‑39:معیارهای ارزیابی ونتایج الگوریتم decision table. 109جدول4‑40:ماتریسConfusion الگوریتم decision table. 109جدول4‑41:معیارهای ارزیابی ونتایج الگوریتم DTNB.. 110جدول4‑42:ماتریسConfusion الگوریتم DTNB.. 110جدول4‑44:ماتریس Confusion الگوریتم JRIP. 110جدول4‑43:معیارهای ارزیابی ونتایج الگوریتم JRIP. 111جدول4‑45:معیارهای ارزیابی ونتایج الگوریتم ONER.. 111جدول4‑46:ماتریس Confusion الگوریتم ONER.. 111جدول4‑47:معیارهای ارزیابی ونتایج الگوریتم PRSIM.. 112جدول4‑48:ماتریس Confusion الگوریتم PRSIM.. 112جدول4‑49:معیارهای ارزیابی ونتایج الگوریتم RIDOR.. 112جدول4‑50:ماتریسConfusion الگوریتم RIDOR.. 113جدول4‑51: معیارهای ارزیابی ونتایج الگوریتم RULE Induction. 113جدول4‑52: ماتریسConfusion الگوریتم RULE Induction. 113جدول4‑53:معیارهای ارزیابی ونتایج الگوریتم RULE Induction single attribute. 114جدول4‑54: ماتریسConfusion الگوریتم RULE Induction single attribute. 114جدول4‑55:معیارهای ارزیابی ونتایج الگوریتم TREE by rule. 114جدول4‑56:ماتریس Confusion الگوریتم TREE by rule. 115جدول4‑57:معیارهای ارزیابی ونتایج الگوریتم part115جدول7‑58:ماتریسConfusion الگوریتم part115جدول4‑59:معیارهای ارزیابی ونتایج الگوریتم CHAID.. 119جدول4‑60:ماتریسConfusion الگوریتم CHAID.. 119جدول4‑61:معیارهای ارزیابی ونتایج الگوریتم DECISION TREE119جدول4‑62:ماتریس Confusion الگوریتم DECISION TREE. 120جدول4‑63:معیارهای ارزیابی ونتایج الگوریتم J48. 120جدول4‑64:ماتریسConfusion الگوریتم J48. 120جدول4‑65:معیارهای ارزیابی ونتایج الگوریتم FT. 121جدول4‑66:ماتریس Confusion الگوریتم FT121جدول4‑68:ماتریس Confusion الگوریتم ID3. 121جدول4‑67:معیارهای ارزیابی ونتایج الگوریتم ID3. 122جدول4‑69:معیارهای ارزیابی ونتایج الگوریتم LAD.. 122جدول4‑70:ماتریس Confusion الگوریتم LAD.. 122جدول4‑71:معیارهای ارزیابی ونتایج الگوریتم ADT. 123جدول4‑72:ماتریس Confusion الگوریتم ADT. 123جدول4‑73:معیارهای ارزیابی ونتایج الگوریتم BF. 123جدول4‑74:ماتریس Confusion الگوریتم BF. 123جدول4‑75:معیارهای ارزیابی ونتایج الگوریتم LMT. 124جدول4‑76:ماتریسConfusion الگوریتم LMT. 124جدول4‑77:معیارهای ارزیابی ونتایج الگوریتم J48graft124جدول4‑78:ماتریس Confusion الگوریتم J48graft125جدول4‑79:معیارهای ارزیابی ونتایج الگوریتم NB125جدول4‑80:ماتریس Confusion الگوریتم NB.. 125جدول4‑81:معیارهای ارزیابی ونتایج الگوریتم REEPTREE126جدول4‑82:ماتریس Confusion الگوریتم REEPTREE. 126جدول4‑83:معیارهای ارزیابی ونتایج الگوریتم Simplecart126جدول4‑84:ماتریس Confusion الگوریتم Simplecart127جدول4‑85:معیارهای ارزیابی ونتایج روش Libsvm.. 130جدول4‑86:ماتریسConfusion روش Libsvm.. 130جدول4‑87:معیارهای ارزیابی ونتایج روش Support vector machine. 131جدول4‑88:ماتریس Confusion روش Support vector machine131جدول4‑89:معیارهای ارزیابی ونتایج روش Support vector machine(linear)132جدول4‑90:ماتریسConfusion روش Support vector machine(linear)132جدول4‑91:معیارهای ارزیابی ونتایج روش Speggeous. 132جدول4‑92:ماتریسConfusion روش Speggeous. 133جدول4‑93:معیارهای ارزیابی ونتایج روش W-svm.. 133جدول4‑94:ماتریس Confusion روش W-svm.. 133جدول4‑95:معیارهای ارزیابی ونتایج روش Fast large. 134جدول4‑96:ماتریس Confusion روش Fast large. 134 فهرست اشکال و نمودارها شکل2‑1: معماری یک نمونه سیستم دادهکاوی12شکل2‑2: Wx,yوزن یال بینXو Yاست.15شکل2‑3: درخت تصمیم گیری17شکل2‑4: شبکه بیزین21شکل2‑5: شبه کد الگوریتم توالی پوشش... 26شکل2‑6: شبکه کد الگوریتم IB3. 29شکل2‑7: شبکه کد مربوطذ به الگوریتمKDD31شکل2‑8: انواع سیستم های تشخیص تقلب... 38شکل2‑9: معماری یک سیستم تشخیص نفوذ. 40شکل2‑10: چارچوب کلی دادهکاوی برای کشف تقلب52شکل2‑11: مقایسه خروجیهابااستفاده ازنمودارROC.. 55شکل2‑12: الگوریتم استخراج شده ازدرخت تصمیم. 61شکل2‑13: عملکرد الگوریتم ژنتیک63شکل2‑14: قاعده استخراج شده ازالگورِیتم ژنتیک64شکل2‑15: توابع مربوط به الگوریتم ژنتیک ومقداردهی آنها64شکل2‑16: معماری الگوریتم ژنتیک برای تست نفوذ65شکل2‑17: خوشه بندی برایk=267شکل2‑18: شناسایی دادهغیرنرمال68شکل2‑19: ترکیب دستهبندی وشناسایی غیرنرمال.. 68شکل3‑1: معماری پیشنهاد داده شده برای تشخیص نفوذ باروش مبتنی بردادهکاوی.. 72شکل3‑2: مدلسازی الگوریتم شبکهعصبی با نرمافزارRapidminer78شکل3‑3: مدلسازی الگوریتم مدلبیزین با نرمافزارRapidminer78شکل3‑4: مدلسازی الگوریتم درخت تصمیم با نرمافزارRapidminer79شکل3‑5: مدلسازی الگوریتم مدلقانونمحوربا نرمافزارRapidminer79شکل3‑6: مدلسازی الگوریتم مدل بردارپشتیبان با نرمافزارRapidminer80شکل3‑7: مدلسازی الگوریتم مدل کاهل بانرم افزارRapidminer80شکل3‑8: نمونهای ازخروجی نرمافزار Rapidminerباپارامترهای مختلف ارزیابی.. 81شکل4‑1: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر درستی.. 90شکل4‑2: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر دقت... 90شکل4‑3: نمودار ارزیابی الگوریتمهای مدل بیزین بر حسب پارامتر یادآوری.. 91شکل4‑4: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر F. 91شکل4‑5: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامترهای مختلف... 92شکل4‑6: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر درستی.. 96شکل4‑7: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر دقت... 97شکل4‑8: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر یادآوری.. 97شکل4‑9: نمودار م ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر F. 98شکل4‑10: نمودار مربوط به ارزیابی الگوریتمهای مدل کاهل برحسب پارامترهای مختلف... 98شکل4‑11: نمونه ای ازشبکهMLP. 100شکل4‑12: عملکرد شبکه پرسپتون.. 102شکل4‑13: نمونه ای ازشبکهRBF. 103شکل4‑14:نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر درستی.. 105شکل4‑15: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر دقت... 106شکل4‑16: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر یادآوری.. 106شکل4‑17: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر F. 107شکل4‑18: نموداره ارزیابی مدلهای شبکه عصبی برحسب پارامتر مختلف... 107شکل4‑19:نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر درستی.. 116شکل4‑20: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر دقت... 116شکل4‑21: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر یادآوری.. 117شکل4‑22: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر F. 117شکل4‑23: نمودار ارزیابی الگوریتمهای مدل قانون محور برحسب پارامتر مختلف... 118شکل4‑24:نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر درستی.. 127شکل4‑25: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر دقت... 128شکل4‑26: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر یادآوری.. 128شکل4‑27: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر F. 129شکل4‑28: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر مختلف... 129شکل4‑29: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر درستی 135شکل4‑30: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر یادآوری 135شکل4‑31: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر F 136شکل4‑32: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر دقت... 136شکل4‑33: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر مختلف 137شکل 4-34: نمودار مربوط به مقایسه بین همه الگوریتمها بر حسب پارامترهای مختلف 137 فصل اولمقدمه و کلیات تحقیق 1-1 مقدمهاز آنجایی که از نظر تکنیکی ایجاد سیستمهای کامپیوتری بدون نقاط ضعف و شکست امنیتی عملا غیر ممکن است. تشخیص نفوذ در سیستمهای کامپیوتری با اهمیت خاصی دنبال میشود. سیستمهای تشخیص نفوذ سختافزار یا نرمافزاری است که کار نظارت بر شبکه کامپیوتری را در مورد فعالیتهای مخرب و یا نقص سیاستهای مدیریتی و امنیتی را انجام میدهد و گزارشهای حاصله را به بخش مدیریت شبکه ارائه میدهد[1]. سیستمهای تشخیص نفوذ وظیف شناسایی و تشخیص هر گونه استفاده غیر مجاز به سیستم، سوء استفاده و یا آسیب رسانی توسط هر دودسته کاربران داخلی و خارجی را بر عهده دارند. هدف این سیستمها جلوگیری از حمله نیست و تنها کشف و احتمالا شناسایی حملات و تشخیص اشکالات امنیتی در سیستم یا شبکهکامپیوتری و اعلام آن به مدیر سیستم است. عموما سیستمهای تشخیص نفوذ در کنار دیوارهای آتش و بصورت مکمل امنیتی برای آنها مورد استفاده قرار میگیرد. سیستم های تشخیص نفوذ ستنی نمیتوانند خود را با حملات جدید تطبیق دهند از این رو امروزه سیستم های تشخیص نفوذ مبتنی بر دادهکاوی مطرح گردیدهاند[1]. مشخص نمودن الگوهای در حجم زیاد داده، کمک بسیار بزرگی به ما میکند. روشهای دادهکاوی با مشخص نمودن یک برچسب دودویی (بسته نرمال، بسته غیرنرمال) و همچنین مشخص نمودن ویژگیها و خصیصه با الگوریتمهای دسته بندی میتوانند داده غیرنرمال تشخیص دهند. از همین رو دقت و درستی سیستم های تشخیص نفوذ افزایش یافته و در نتیجه امنیت شبکه بالا میرود[1]. در این پایاننامه سعی شده است با استفاده از روشهای مبتنی بر دادهکاوی سیتم های تشخیص نفوذ پیشنهاد کنیم که از این روشها برای شناسایی و کشف حملات استفاده میکنند. در این روش ما تمامی الگوریتمهای موجود را شبیهسازی نموده و در خاتمه بهترین الگوریتم را پیشنهاد مینماییم. نوآوری اصلی در این پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور در دادهکاوی است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است[67]. پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد از نوآوری این پایاننامه است. استخراج 5 نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت 5 نمونه داده اولیه پیشنهاد نمودهایم.در دنیای امروز، کامپیوتر و شبکههای کامپیوتری متصل به اینترنت نقش عمدهای در ارتباطات و انتقال اطلاعات ایفا میکند. در این بین افراد سودجو با دسترسی به اطلاعات مهم مراکز خاص یا اطلاعات افراد دیگر و با قصد اعمال نفوذ یا اعمال فشار و یا حتی به هم ریختن نظم سیستمها، به سیستم های کامپیوتری حمله میکنند. بنابراین لزوم حفظ امنیت اطلاعاتی و حفظ کارآیی در شبکههای کامپیوتری که با دنیای خارج ارتباط دارند، کاملا محسوس است.مكانیزمهای امنیتی به 2 گروه كلی محافظتی و مقابلهای تقسیمبندی میشوند. مكانیزمهای محافظتی سعی میكنند از اطلاعات و سیستم در مقابل حملات محافظت كنند. مكانیزمهای مقابلهای هم برای مقابله با حمله تدارك دیده شدهاند.[1] سیستمهای تشخیص نفوذ مطابق تعریف مؤسسه ملی استانداردها و تكنولوژیهای آمریكا، فرایندی هستند كه كار نظارت بر رویدادهایی كه در شبكه و سیستم رخ میدهد و همچنین كار تحلیل رویدادهای مشكوك را برای بهدست آوردن نشانه نفوذ، بر عهده دارند.هدف از این پایاننامه استفاده از روشهای مبتنی بر دادهکاوی برای تشخیص نفوذ است زیرا حملات همواره بروز میشوند و سیستمهای تشخیص نفوذ ستنی نمیتوانند این حملات شناسایی کنند. وقتی نفوذ اتفاق میافتد مهمترین کار شناسایی است. رخداد مربوط به نفوذ در هر زمان مرتبط به الگویی ازاتفاقات است که در گذشته رخ داده است. این دادههای تاریخی منبع بسیار مهمی از صفات هستند که نیاز هست تا بطور موثر علامت و نشانه های نفوذ در مجموعه دادهها مشخص شود. دادهکاوی با كشف الگوهای مناسب از میان دادههای قبلی به روند ساخت این مدل ها كمك شایانی میكند. در این روش مجموعهای از قانونهای دستهبندی از دادههای شبکه بدست میآید. این قانونها توانایی تعیین رفتار عادی از غیر عادی را دارا میباشند. این پایاننامه با استفاده از مجموعه داده DARPA مورد ارزیابی قرار گرفته است. هدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است. که بتواند بسته های عادی را از غیر عادی تشخیص دهد. .نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای مجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است. و پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد. استخراج 5 نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت 5 نمونه داده اولیه پیشنهاد نمودهایم.
بررسی و تشخیص نفوذ با استفاده از الگوریتم های داده کاوی WORD
چکیدهبا رشد فناوری اطلاعات،امنیت شبکه به عنوان یکی از مباحث مهم و چالش بسیار بزرگ مطرح است. سیستم های تشخیص نفوذ، مولفه اصلی یک شبکه امن است. سیستم های تشخیص نفوذ سنتی نمیتوانند خود را با حملات جدید تطبیق دهنداز این رو امروزه سیستم های تشخیص نفوذ مبتنی بر دادهکاوی مطرح گردیدهاند.مشخص نمودن الگوهای در حجم زیاد داده،کمک بسیار بزرگی به ما میکند. روشهای دادهکاوی با مشخص نمودن یک برچسب دودویی (بسته نرمال، بسته غیرنرمال) و همچنین مشخص نمودن ویژگیها و خصیصه با الگوریتمهای دستهبندی میتوانند داده غیرنرمال تشخیص دهند. از همین رو دقت و درستی سیستمهای تشخیصنفوذ افزایش یافته و در نتیجهامنیت شبکه بالا میرود.در این پایاننامه ما مدلی پیشنهادی ارائه مینماییم که الگوریتمهای مختلفدستهبندی را روی مجموعه داده خود تست نموده و نتایج شبیهسازی نشان میدهددر درخت تصمیم الگوریتم J48 ، شبکه عصبی الگوریتم Neural net ، شبکه بیزین الگوریتم HNB ، مدل کاهل الگوریتم K-STAR، در ماشین بردار پشتیبان الگوریتم LibSVM و در مدل قانون محور الگوریتمRule Induction Single Attribute دارای بهترین جواب از نظر پارامترهای مختلف ارزیابی برای سیستم تشخیص نفوذ است. بین تمامی الگوریتمها با این مجموعه داده، الگوریتم J48 دارای بالاترین مقدار درستی به میزان 85.49%، دارای بالاترین میزان دقت به مقدار 86.57% و دارای بالاترین مقدار یادآوری به مقدار 86.57% میباشد.نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. و همچنین پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده که برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد. کلمات کلیدی: داده کاوی، کشف تقلب، یادگیری بانظارت، تشخیص نفوذ و حملات فهرست مطالبفصل اول 11-1 مقدمه. 21-2 بيان مسئله. 31-3 اهميت و ضرورت تحقيق.. 41-4 اهداف تحقيق.. 51-5 تعاريف و اختصار. 61-6 ساختار پاياننامه. 9فصل دوم 102-1 دادهکاوی.. 112-1-1دستهبندی 112-2مدلها و الگوريتمهای دادهکاوی.. 132-2-1 شبکههای عصبی 132-2-2درخت تصميم 162-2-3 روش طبقهبندی بيزين 192-3-2-2 شبکههای بيزين 202-2-4 مدل قانونمحور 222-2-5 مدل کاهل 262-2-6ماشين بردارپشتيبان 322-3 مقدمهای بر تقلب... 362-3-1 ساختن مدل برای تقلب 362-3-2 اصول کلی تقلب: 362-3-3 چگونگی شناسايی تقلب: 372-3-4 چگونگی ساخت مدل تقلب: 372-4 مقدمهای بر سيستم تشخيص نفوذ. 382-4-1 تعاريف اوليه 392-4-2 وظايف عمومی يک سيستم تشخيص نفوذ: 392-4-3 دلايل استفاده از سيستم های تشخيص نفوذ: 402-4-4 جمع آوری اطلاعات 412-4-5 تشخيص و تحليل: 412-4-6 تشخيص سوء استفاده: 412-4-7 تشخيص ناهنجاری: 422-4-8 مقايسه بين تشخيص سوء استفاده و تشخيص ناهنجاری: 422-4-9 پياده سازی سيستمهای تشخيص نفوذ: 422-5 تعاريف برخی مقادير ارزيابی مورد استفاده در سيستم داده کاوی:442-5-1Confusion matrix: 462-5-2 درستی 472-5-3 ميزان خطا 472-5-4 حساسيت، ميزان مثبت واقعی، ياد آوری 472-5-5 ويژگی، ميزان منفی واقعی 482-5-6 حساسيت: 482-5-7دقت 492-5-8 معيار F: 492-6 پژوهشهای انجام شده در اين زمينه:502-6-1 پژوهش اول: کشف تقلب در سيستمهای مالیبا استفاده از دادهکاوی.... .... 512-6-2 پژوهش دوم: کشف تقلب در کارت اعتباری با استفاده از شبکه عصبی و بيزين 532-6-3پژوهش سوم: شناسايی تقلب بيمه با استفاده از تکنيکهای دادهکاوی562-6-4 پژوهش چهارم: استفاده از الگوريتم ژنتيک برای تشخيص تست نفوذ. 622-6-5 پژوهش پنجم: شناسايی ترافيک غيرنرمال در شبکه با الگوريتم خوشه بندی 653-1 روش تحقيق.. 713-2 دادههای آموزشی و تست:733-2-1 ویژگیهای دادهها .......... 733-2-2 ويژگیهای اساسی مجموعه دادهها: 734-1 الگوريتمهای مدل بيزين و ارزيابی آنها834-2 مدل کاهل.. 924-3 شبکه عصبی.. 994-4 مدل قانون محور. 1084-5 درخت تصميم. 1184-6 ماشين بردار پشتيبان.. 130فصل پنجم 1395-1 مقدمه. 1405-2 مزايا1415-3 پيشنهادات... 141فصل ششم 143فهرست منابع. 144پيوستها 148پيوست الف -مجموعه داده نوع اول:148پيوست ب-مجموعه داده نوع دوم. 153پيوست ج-نوع داده مجموعه سوم:156پيوست د-مجموعه داده نوع چهارم. 161پيوست ه -مجموعه داده نوع پنجم. 190 فهرست جداول جدول2‑1: تعریفمعیارها45جدول2‑2: ماتریس Confusion. 46جدول2‑3:معیارهایمختلفارزیابیوفرمولآنها50جدول2‑4: مقایسهنتیجهبینشبکهعصبیوشبکهبیزین.. 56جدول2‑5: دادهبرایدستهبندیبیزین59جدول2‑6: دادهبرایدستهبندیبیزین60جدول2‑7: ارزیابیدرختتصمیم62جدول2‑11: ارزیابیبااستفادهازخوشهبندی.. 69جدول3‑1 :ویژگیهایاساسیاستخراجشدهازارتباطTCP. 74جدول3‑2 :ویژگیهایاستخراجیازارتباطTCP. 74جدول3‑3: ویژگیهای استخراج شده ازپنجره. 76جدول4‑2: ماتریس Confusion الگوریتم Kernel naive Baysian 83جدول4‑1:معیارهای ارزیابی ونتایج الگوریتم Kernel naive Baysian84جدول4‑4: ماتریس Confusion الگوریتم Naive Baysian. 84جدول4‑3: معیارهای ارزیابی ونتایج الگوریتم Naive Baysian84جدول4‑6: ماتریس Confusion الگوریتم Waode. 85جدول4‑5:معیارهای ارزیابی ونتایج الگوریتم Waode. 85جدول4‑8: ماتریس Confusion الگوریتم Aode. 85جدول4‑7:معیارهای ارزیابی و نتایج الگوریتم Aode. 86جدول4‑10:ماتریسConfusion الگوریتم Aodesr86جدول4‑9:معیارهای ارزیابی ونتایج الگوریتم Aodesr86جدول4‑12:ماتریسConfusion الگوریتم Bayesenet87جدول4‑11:معیارهای ارزیابی ونتایج الگوریتم Bayesenet87جدول4‑13:معیارهای ارزیابی ونتایج الگوریتم HNB.. 88جدول4‑14:ماتریسConfusion الگوریتم HNB88جدول4‑16: ماتریس Confusion الگوریتم Dmnbtext88جدول4‑15:معیارهای ارزیابی ونتایج الگوریتم Dmnbtext89جدول4‑18:ماتریسConfusion الگوریتم BaysianLogic Regression. 89جدول4‑17:معیارهای ارزیابی ونتایج الگوریتم BaysianLogic Regression. 89جدول4‑20:ماتریسConfusion الگوریتم IB1. 93جدول4‑19:معیارهای ارزیابی و نتایج الگوریتم IB1 93جدول4‑21:معیارهای ارزیابی ونتایج الگوریتم IBK.. 93جدول4‑22:ماتریس Confusion الگوریتم IBK.. 94جدول4‑24:ماتریس Confusion الگوریتم LWL. 94جدول4‑23:معیارهای ارزیابی ونتایج الگوریتم LWL. 94جدول4‑26:ماتریسConfusion الگوریتم KSTAR.. 95جدول4‑25:معیارهای ارزیابی ونتایج الگوریتم KSTAR.. 95جدول4‑27:معیارهای ارزیابی ونتایج الگوریتم KNN.. 95جدول4‑28:ماتریس Confusion الگوریتم KNN.. 96جدول4‑29:معیارهای ارزیابی ونتایج شبکه MLP. 101جدول4‑30:ماتریس ConfusionشبکهMLP101جدول4‑32:ماتریس Confusionشبکه Perceptrons. 102جدول4‑31:معیارهای ارزیابی ونتایج شبکه Perceptrons103جدول4‑34:ماتریسConfusion الگوریتم RBF. 104جدول4‑33:معیارهای ارزیابی ونتایج الگوریتم RBF. 104جدول4‑36:ماتریسConfusion الگوریتم Neural net105جدول4‑35:معیارهای ارزیابی ونتایج الگوریتم Neural net105جدول4‑38:ماتریس Confusion الگوریتم Conjuctive rule. 108جدول4‑37:معیارهای ارزیابی ونتایج الگوریتم Conjuctive rule. 108جدول4‑39:معیارهای ارزیابی ونتایج الگوریتم decision table. 109جدول4‑40:ماتریسConfusion الگوریتم decision table. 109جدول4‑41:معیارهای ارزیابی ونتایج الگوریتم DTNB.. 110جدول4‑42:ماتریسConfusion الگوریتم DTNB.. 110جدول4‑44:ماتریس Confusion الگوریتم JRIP. 110جدول4‑43:معیارهای ارزیابی ونتایج الگوریتم JRIP. 111جدول4‑45:معیارهای ارزیابی ونتایج الگوریتم ONER.. 111جدول4‑46:ماتریس Confusion الگوریتم ONER.. 111جدول4‑47:معیارهای ارزیابی ونتایج الگوریتم PRSIM.. 112جدول4‑48:ماتریس Confusion الگوریتم PRSIM.. 112جدول4‑49:معیارهای ارزیابی ونتایج الگوریتم RIDOR.. 112جدول4‑50:ماتریسConfusion الگوریتم RIDOR.. 113جدول4‑51: معیارهای ارزیابی ونتایج الگوریتم RULE Induction. 113جدول4‑52: ماتریسConfusion الگوریتم RULE Induction. 113جدول4‑53:معیارهای ارزیابی ونتایج الگوریتم RULE Induction single attribute. 114جدول4‑54: ماتریسConfusion الگوریتم RULE Induction single attribute. 114جدول4‑55:معیارهای ارزیابی ونتایج الگوریتم TREE by rule. 114جدول4‑56:ماتریس Confusion الگوریتم TREE by rule. 115جدول4‑57:معیارهای ارزیابی ونتایج الگوریتم part115جدول7‑58:ماتریسConfusion الگوریتم part115جدول4‑59:معیارهای ارزیابی ونتایج الگوریتم CHAID.. 119جدول4‑60:ماتریسConfusion الگوریتم CHAID.. 119جدول4‑61:معیارهای ارزیابی ونتایج الگوریتم DECISION TREE119جدول4‑62:ماتریس Confusion الگوریتم DECISION TREE. 120جدول4‑63:معیارهای ارزیابی ونتایج الگوریتم J48. 120جدول4‑64:ماتریسConfusion الگوریتم J48. 120جدول4‑65:معیارهای ارزیابی ونتایج الگوریتم FT. 121جدول4‑66:ماتریس Confusion الگوریتم FT121جدول4‑68:ماتریس Confusion الگوریتم ID3. 121جدول4‑67:معیارهای ارزیابی ونتایج الگوریتم ID3. 122جدول4‑69:معیارهای ارزیابی ونتایج الگوریتم LAD.. 122جدول4‑70:ماتریس Confusion الگوریتم LAD.. 122جدول4‑71:معیارهای ارزیابی ونتایج الگوریتم ADT. 123جدول4‑72:ماتریس Confusion الگوریتم ADT. 123جدول4‑73:معیارهای ارزیابی ونتایج الگوریتم BF. 123جدول4‑74:ماتریس Confusion الگوریتم BF. 123جدول4‑75:معیارهای ارزیابی ونتایج الگوریتم LMT. 124جدول4‑76:ماتریسConfusion الگوریتم LMT. 124جدول4‑77:معیارهای ارزیابی ونتایج الگوریتم J48graft124جدول4‑78:ماتریس Confusion الگوریتم J48graft125جدول4‑79:معیارهای ارزیابی ونتایج الگوریتم NB125جدول4‑80:ماتریس Confusion الگوریتم NB.. 125جدول4‑81:معیارهای ارزیابی ونتایج الگوریتم REEPTREE126جدول4‑82:ماتریس Confusion الگوریتم REEPTREE. 126جدول4‑83:معیارهای ارزیابی ونتایج الگوریتم Simplecart126جدول4‑84:ماتریس Confusion الگوریتم Simplecart127جدول4‑85:معیارهای ارزیابی ونتایج روش Libsvm.. 130جدول4‑86:ماتریسConfusion روش Libsvm.. 130جدول4‑87:معیارهای ارزیابی ونتایج روش Support vector machine. 131جدول4‑88:ماتریس Confusion روش Support vector machine131جدول4‑89:معیارهای ارزیابی ونتایج روش Support vector machine(linear)132جدول4‑90:ماتریسConfusion روش Support vector machine(linear)132جدول4‑91:معیارهای ارزیابی ونتایج روش Speggeous. 132جدول4‑92:ماتریسConfusion روش Speggeous. 133جدول4‑93:معیارهای ارزیابی ونتایج روش W-svm.. 133جدول4‑94:ماتریس Confusion روش W-svm.. 133جدول4‑95:معیارهای ارزیابی ونتایج روش Fast large. 134جدول4‑96:ماتریس Confusion روش Fast large. 134 فهرست اشکال و نمودارها شکل2‑1: معماری یک نمونه سیستم دادهکاوی12شکل2‑2: Wx,yوزن یال بینXو Yاست.15شکل2‑3: درخت تصمیم گیری17شکل2‑4: شبکه بیزین21شکل2‑5: شبه کد الگوریتم توالی پوشش... 26شکل2‑6: شبکه کد الگوریتم IB3. 29شکل2‑7: شبکه کد مربوطذ به الگوریتمKDD31شکل2‑8: انواع سیستم های تشخیص تقلب... 38شکل2‑9: معماری یک سیستم تشخیص نفوذ. 40شکل2‑10: چارچوب کلی دادهکاوی برای کشف تقلب52شکل2‑11: مقایسه خروجیهابااستفاده ازنمودارROC.. 55شکل2‑12: الگوریتم استخراج شده ازدرخت تصمیم. 61شکل2‑13: عملکرد الگوریتم ژنتیک63شکل2‑14: قاعده استخراج شده ازالگورِیتم ژنتیک64شکل2‑15: توابع مربوط به الگوریتم ژنتیک ومقداردهی آنها64شکل2‑16: معماری الگوریتم ژنتیک برای تست نفوذ65شکل2‑17: خوشه بندی برایk=267شکل2‑18: شناسایی دادهغیرنرمال68شکل2‑19: ترکیب دستهبندی وشناسایی غیرنرمال.. 68شکل3‑1: معماری پیشنهاد داده شده برای تشخیص نفوذ باروش مبتنی بردادهکاوی.. 72شکل3‑2: مدلسازی الگوریتم شبکهعصبی با نرمافزارRapidminer78شکل3‑3: مدلسازی الگوریتم مدلبیزین با نرمافزارRapidminer78شکل3‑4: مدلسازی الگوریتم درخت تصمیم با نرمافزارRapidminer79شکل3‑5: مدلسازی الگوریتم مدلقانونمحوربا نرمافزارRapidminer79شکل3‑6: مدلسازی الگوریتم مدل بردارپشتیبان با نرمافزارRapidminer80شکل3‑7: مدلسازی الگوریتم مدل کاهل بانرم افزارRapidminer80شکل3‑8: نمونهای ازخروجی نرمافزار Rapidminerباپارامترهای مختلف ارزیابی.. 81شکل4‑1: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر درستی.. 90شکل4‑2: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر دقت... 90شکل4‑3: نمودار ارزیابی الگوریتمهای مدل بیزین بر حسب پارامتر یادآوری.. 91شکل4‑4: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامتر F. 91شکل4‑5: نمودار ارزیابی الگوریتمهای مدل بیزین برحسب پارامترهای مختلف... 92شکل4‑6: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر درستی.. 96شکل4‑7: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر دقت... 97شکل4‑8: نمودار ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر یادآوری.. 97شکل4‑9: نمودار م ارزیابی الگوریتمهای مدل کاهل برحسب پارامتر F. 98شکل4‑10: نمودار مربوط به ارزیابی الگوریتمهای مدل کاهل برحسب پارامترهای مختلف... 98شکل4‑11: نمونه ای ازشبکهMLP. 100شکل4‑12: عملکرد شبکه پرسپتون.. 102شکل4‑13: نمونه ای ازشبکهRBF. 103شکل4‑14:نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر درستی.. 105شکل4‑15: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر دقت... 106شکل4‑16: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر یادآوری.. 106شکل4‑17: نمودار ارزیابی مدلهای شبکه عصبی برحسب پارامتر F. 107شکل4‑18: نموداره ارزیابی مدلهای شبکه عصبی برحسب پارامتر مختلف... 107شکل4‑19:نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر درستی.. 116شکل4‑20: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر دقت... 116شکل4‑21: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر یادآوری.. 117شکل4‑22: نمودار ارزیابی الگوریتمهای مدل قانونمحور برحسب پارامتر F. 117شکل4‑23: نمودار ارزیابی الگوریتمهای مدل قانون محور برحسب پارامتر مختلف... 118شکل4‑24:نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر درستی.. 127شکل4‑25: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر دقت... 128شکل4‑26: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر یادآوری.. 128شکل4‑27: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر F. 129شکل4‑28: نمودار ارزیابی الگوریتمهای مدل درخت برحسب پارامتر مختلف... 129شکل4‑29: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر درستی 135شکل4‑30: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر یادآوری 135شکل4‑31: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر F 136شکل4‑32: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر دقت... 136شکل4‑33: نمودار ارزیابی روشهای مختلف ماشین بردارپشتیبان برحسب پارامتر مختلف 137شکل 4-34: نمودار مربوط به مقایسه بین همه الگوریتمها بر حسب پارامترهای مختلف 137 فصل اولمقدمه و کلیات تحقیق 1-1 مقدمهاز آنجایی که از نظر تکنیکی ایجاد سیستمهای کامپیوتری بدون نقاط ضعف و شکست امنیتی عملا غیر ممکن است. تشخیص نفوذ در سیستمهای کامپیوتری با اهمیت خاصی دنبال میشود. سیستمهای تشخیص نفوذ سختافزار یا نرمافزاری است که کار نظارت بر شبکه کامپیوتری را در مورد فعالیتهای مخرب و یا نقص سیاستهای مدیریتی و امنیتی را انجام میدهد و گزارشهای حاصله را به بخش مدیریت شبکه ارائه میدهد[1]. سیستمهای تشخیص نفوذ وظیف شناسایی و تشخیص هر گونه استفاده غیر مجاز به سیستم، سوء استفاده و یا آسیب رسانی توسط هر دودسته کاربران داخلی و خارجی را بر عهده دارند. هدف این سیستمها جلوگیری از حمله نیست و تنها کشف و احتمالا شناسایی حملات و تشخیص اشکالات امنیتی در سیستم یا شبکهکامپیوتری و اعلام آن به مدیر سیستم است. عموما سیستمهای تشخیص نفوذ در کنار دیوارهای آتش و بصورت مکمل امنیتی برای آنها مورد استفاده قرار میگیرد. سیستم های تشخیص نفوذ ستنی نمیتوانند خود را با حملات جدید تطبیق دهند از این رو امروزه سیستم های تشخیص نفوذ مبتنی بر دادهکاوی مطرح گردیدهاند[1]. مشخص نمودن الگوهای در حجم زیاد داده، کمک بسیار بزرگی به ما میکند. روشهای دادهکاوی با مشخص نمودن یک برچسب دودویی (بسته نرمال، بسته غیرنرمال) و همچنین مشخص نمودن ویژگیها و خصیصه با الگوریتمهای دسته بندی میتوانند داده غیرنرمال تشخیص دهند. از همین رو دقت و درستی سیستم های تشخیص نفوذ افزایش یافته و در نتیجه امنیت شبکه بالا میرود[1]. در این پایاننامه سعی شده است با استفاده از روشهای مبتنی بر دادهکاوی سیتم های تشخیص نفوذ پیشنهاد کنیم که از این روشها برای شناسایی و کشف حملات استفاده میکنند. در این روش ما تمامی الگوریتمهای موجود را شبیهسازی نموده و در خاتمه بهترین الگوریتم را پیشنهاد مینماییم. نوآوری اصلی در این پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور در دادهکاوی است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است[67]. پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد از نوآوری این پایاننامه است. استخراج 5 نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت 5 نمونه داده اولیه پیشنهاد نمودهایم.در دنیای امروز، کامپیوتر و شبکههای کامپیوتری متصل به اینترنت نقش عمدهای در ارتباطات و انتقال اطلاعات ایفا میکند. در این بین افراد سودجو با دسترسی به اطلاعات مهم مراکز خاص یا اطلاعات افراد دیگر و با قصد اعمال نفوذ یا اعمال فشار و یا حتی به هم ریختن نظم سیستمها، به سیستم های کامپیوتری حمله میکنند. بنابراین لزوم حفظ امنیت اطلاعاتی و حفظ کارآیی در شبکههای کامپیوتری که با دنیای خارج ارتباط دارند، کاملا محسوس است.مكانیزمهای امنیتی به 2 گروه كلی محافظتی و مقابلهای تقسیمبندی میشوند. مكانیزمهای محافظتی سعی میكنند از اطلاعات و سیستم در مقابل حملات محافظت كنند. مكانیزمهای مقابلهای هم برای مقابله با حمله تدارك دیده شدهاند.[1] سیستمهای تشخیص نفوذ مطابق تعریف مؤسسه ملی استانداردها و تكنولوژیهای آمریكا، فرایندی هستند كه كار نظارت بر رویدادهایی كه در شبكه و سیستم رخ میدهد و همچنین كار تحلیل رویدادهای مشكوك را برای بهدست آوردن نشانه نفوذ، بر عهده دارند.هدف از این پایاننامه استفاده از روشهای مبتنی بر دادهکاوی برای تشخیص نفوذ است زیرا حملات همواره بروز میشوند و سیستمهای تشخیص نفوذ ستنی نمیتوانند این حملات شناسایی کنند. وقتی نفوذ اتفاق میافتد مهمترین کار شناسایی است. رخداد مربوط به نفوذ در هر زمان مرتبط به الگویی ازاتفاقات است که در گذشته رخ داده است. این دادههای تاریخی منبع بسیار مهمی از صفات هستند که نیاز هست تا بطور موثر علامت و نشانه های نفوذ در مجموعه دادهها مشخص شود. دادهکاوی با كشف الگوهای مناسب از میان دادههای قبلی به روند ساخت این مدل ها كمك شایانی میكند. در این روش مجموعهای از قانونهای دستهبندی از دادههای شبکه بدست میآید. این قانونها توانایی تعیین رفتار عادی از غیر عادی را دارا میباشند. این پایاننامه با استفاده از مجموعه داده DARPA مورد ارزیابی قرار گرفته است. هدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است. که بتواند بسته های عادی را از غیر عادی تشخیص دهد. .نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای مجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است. و پیشنهاد 5 نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد. استخراج 5 نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت 5 نمونه داده اولیه پیشنهاد نمودهایم.