چکیدهبرای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.پیش پردازش داده ها یکی از اجزای مهم در فرایند کشف دانش است.روش های بسیاری برای پیش پردازش داده وجود دارد که میتوان از آنها استفاده کرد.اما این روش ها برای داده های نامتوازن مناسب نیستند. اصطلاح "مجموعه داده نامتوازن" عموما به مجموعه دادهای گفته میشود که در آن تعداد نمونههایی که نمایانگر یک کلاس هستند از نمونههای دیگر در کلاسهای متفاوت کمتر است مشکل عدم توازن کلاس در بسیاری از برنامه های کاربردی جهان واقعی به رسمیت شناخته شده است و موضوع تحقیقات یادگیری مبتنی بر ماشین قرار گرفته است از این رو اخيراً مشكل نامتوازن بودن كلاسها مورد توجه محققان در زمينه ي داده كاوي قرار گرفته است.آنها به دنبال کشف روش هایی بودند که با اعمال بر روی داده های نامتوازن به نتایج مطلوبی دست یابند.در این پروژه روش های گوناگون پیش پردازش داده های نامتوازن مورد بحث قرار گرفته و الگوریتم جدیدی برای بهبود نتایج طبقه بندی ارائه میشود، به گونه ای که کارایی و دقت آن مورد توجه باشد. کلمات کلیدی : پیش پردازش داده، مجموعه داده نامتوازن، ماشین بردار پشتیبان فهرست مطالبفصل اول مقدمه و کلیات تحقیق1-1مقدمه................................................................................................................. 21-2بیان مساله.................................................................................................... 21-3 اهداف تحقیق.............................................................................................. 41-4 پرسش های اصلی تحقیق........................................................................ 41-5فرضیه های تحقیق...................................................................................... 41-6 نوآوری تحقیق........................................................................................... 51-7 تعریف واژگان کلیدی........................................................................... 51-8 ساختار پایان نامه.............................................................................. 9فصل دوم ادبیات و پیشینه تحقیق2-1 مقدمه............................................................................................................ 112-2 مفاهیم داده کاوی.............................................................................. 112-2-1 تعاریف داده کاوی..................................................................... 112-2-2 فرایند کشف دانش........................................................................ 122-2-3 حوزه ها و عملکردهای داده کاوی................................. 122-3 کاربردهای داده کاوی و کشف دانش..................................... 142-4 چالش هایی برای KDD.......................................................................... 152-5 پیش پردازش و آماده سازی داده ها :............................... 162-5-1اجزای اصلی پیش پردازش داده ها.................................... 172-5-1-1 پاکسازی داده ها............................................................... 182-5-1-2یکپارچه سازی داده ها.................................................... 202-5-1-3 تبدیل داده ها.................................................................... 202-5-1-3-1هموار سازی...................................................................... 202-5-1-3-2 تجمیع................................................................................. 212-5-1-3-3 تعمیم................................................................................. 212-5-1-3-4 ساخت ویژگی.................................................................... 212-5-1-3-5 نرمال سازی.................................................................... 212-5-1-4 کاهش داده ها....................................................................... 212-5-1-4-1 تجمیع مکعبی داده................................................... 232-5-1-4-2 انتخاب زیر مجموعه مشخصه ها 232-5-1-4-3 کاهش تعدد نقاط......................................................... 242-5-1-5 تصویر کردن برای کاهش بعد...................................... 242-6 روش های ارزیابی دسته بندی..................................................... 252-6-1 ارزیابی صحت روشهای دسته بندی.................................... 272-7 تکنیک حداقل مربعات...................................................................... 302-7-1 تقریب کمترین مربعات گسسته چند جمله ای 312-8 ماشین بردار پشتیبان...................................................................... 332-8-1مقدمه...................................................................................................... 332-8-2دلایل استفاده از SVM................................................................. 342-8-3 کاربردهای SVM.............................................................................. 352-8-4 مزایا و معایب SVM................................................................... 362-8-5 تعاریف کلی...................................................................................... 362-8-5-1تابع تصمیم مسائل دو کلاسی......................................... 362-8-5-2 تعیین تابع تصمیم(ابر صفحه جداکننده) 382-8-5-3 بعد VC........................................................................................ 392-8-5-4حداقل سازی ریسک تجربی................................................. 402-8-5-5حداقل سازی ریسک ساختاری............................................ 422-8-6 ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا شدنی به طور خطی........................................................................................ 442-8-7ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا نشدنی به طور خطی (............................................................................... 492-8-8 ماشین بردار پشتیبان غیر خطی....................................... 522-8-9 انواع کرنل ها............................................................................. 552-8-9-1 کرنل چند جمله ای............................................................ 552-8-9-2 کرنل های شبکه عصبی....................................................... 552-8-9-3 کرنل های گوسی.................................................................. 562-9 تکنیک های پیش پردازش نامتوازن.......................................... 582-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس 582-9-1-1 عیب مشکل بهینه سازی با ناحیه مرزی نرم592-9-1-2 نسبت بردار پشتیبان نامتوازن.............................. 602-9-2 روشهای یادگیری عدم توازن خارجی برای SVM (روشهای پیش پردازش داده)................................................................................................ 612-9-2-1 روشهای نمونه برداری دوباره.............................. 612-9-2-1-1زیر نمونه برداری...................................................... 612-9-2-1-2بیش نمونه برداری...................................................... 622-9-2-1-3 SCM........................................................................................ 632-9-2-1-4 نمونه برداری پیشرفته........................................ 632-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی642-9-2-1-6 نزدیک ترین همسایه فشرده(CNN) 642-9-2-1-7 نزدیک ترین همسایه تغییر یافته(ENN) 662-9-2-1-8 Tomek-Link............................................................................. 672-9-2-2 روشهای یادگیری جمعی.................................................... 682-9-2-2-1الگوریتم آموزشی Bagging......................................... 692-9-2-2-2 الگوریتم آموزشی Boosting..................................... 702-9-3 روشهای یادگیری عدم تعادل داخلی برای ماشین بردار پشتیبان................................................................................................................................. 712-9-3-1 هزینه خطای متفاوت......................................................... 712-9-3-2 یادگیری یک کلاس.................................................................. 732-9-3-3zSVM.................................................................................................. 732-9-3-4 روشهای اصلاح کرنل............................................................ 742-9-3-5 یادگیری فعال....................................................................... 752-9-3-6 روش های ترکیبی.................................................................. 75فصل سوم:روش تحقیق3-1مقدمه............................................................................................................... 773-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس 773-2-1 روش SVMFuzzy..................................................................................... 773-2-2متد FSVM-CIL........................................................................................ 793-3 ماشین بردار پشتیبان حداقل مربعات (LS-SVM) 833-4 الگوریتم پیشنهادی........................................................................... 87فصل چهارم:محاسبات و یافته های تحقیق4-1 مقدمه............................................................................................................ 904-2 مجموعه داده ها................................................................................. 904-3 نتایج کارایی روش های مختلف بر روی مجموعه داده ها 91فصل پنجم:نتیجه گیری و پیشنهادات5-1 جمع بندی و نتیجه گیری................................................................ 945-2 کارهای آتی.............................................................................................. 96منابع و مآخذ :................................................................................... 97چکیده انگلیسی......................................................................................................................102 فهرست جداول جدول 2-1 متغیرهای ارزیابی دسته بندی. 29جدول 4-1 جزییات مجموعه داده های نامتوازن. 90جدول 4-2- مقایسه کارایی روش های مختلف. 92 فهرست اشکالشکل (2-1)- فرایند کشف دانش]1[12شکل(2-2)-حوزه های مختلف داده کاوی]1[13شکل(2-3)-عملکردهای داده کاوی]1[13شکل(2-4)-عملیات مختلف در پاکسازی داده]1[18شکل(2-5)-فشرده سازی بی اتلاف و پر اتلاف]1[22شکل(2-6)-تجمیع مکعبی داده]1[23شکل(2-7)-نمایی از ریسک در دسته بندی]1[27شکل (2-8)-تابع تصمیم فضای دو بعدی. 37شکل (2-9)- مرکز کلاس برای شکل 2-8. 38شکل (2-10)- مرز کلاس بدون هیچ اشتراکی. 39شکل (2-11)- بعد VC]11[40شکل (2-12)- ابر صفحه جدا کننده بهینه در دو بعد. 47شکل (2-13)- حالت جداناپذیر خطی در دو بعد. 49شکل (2-14)- نگاشت داده های آموزشی غیرخطی به فضایی از ویژگی ها با ابعاد بالاتر با تابع]11[53شکل (2-15)-مثالی از تقسیم بندی غیر خطی با کرنل گوسی بر روی داده ها ]11[57شکل (2-16)- منحنی تغییرات خطا نسبت به مقادیرمختلف ]11[57شکل (2-17)- (a)مجموعه داده اصلی. (b)مجموعه داده بعد از اعمال SMOTE. )(cTomek-Linkهای شناخته شده (d)مجموعه داده بعد از پاکسازی Tomek-Linkها]36[68 فصل اولمقدمه و کلیات تحقیق 1-1مقدمهکشف دانش و داده کاوی یک حوزه جدید میان رشته ای و در حال رشد است که حوزه های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده ها را استخراج کند.هدف کشف دانش و داده کاوی یافتن الگوها در پایگاه داده است که در میان حجم عظیمی از داده ها مخفی هستند]1[ .کشف دانش شامل مراحل متعددی است که در این تحقیق به مرحله پیش پردازش توجه میکنیم. مرحله آماده سازی داده ها مهم ترین و زمانبرترین مرحله در پروژه های داده کاوی است.از آنجا که داده ها در این پروژه ها ورودی پروژه هستند هر قدر این ورودی دقیق تر باشد، خروجی کار دقیق تر خواهد بود.یعنی ما از پدیده "ورودی نامناسب، خروجی نامناسب " دور میشویم]1[.داده هاي خام معمولا دچار مشکلاتی مانند نویز، داده پرت، تغییرات در نمونه برداري هستند و استفاده از آنها به همین صورت موجب تضعیف نتایج مورد انتظار میشود.بنابراین باید از روشی برای بهبود نتایج استفاده کرد.پیش پردازش داده ها جهت بهبود کیفیت داده های واقعی برای داده کاوی لازم است.بنابراین پردازش اولیه ای مورد نیاز است تا مقادیر مفقوده، انحرافات و مسائلی از این دست را در داده های اولیه بیابد. پیش پردازش داده ها شامل همه تبدیلاتی است که بر روي داده هاي خام صورت میگیرد وآنها را به صورتی در میآورد که براي پردازشهاي بعدي نظیر استفاده در دسته بندي و خوشه بندی، ساده تر و موثرتر میسازد.در حال حاضر سازمانها نیاز دارند تا بتوانند داده ها را به صورت کاراتر دسته بندی کنند و از تحلیل نتایج آن برای بهبود روند پیشرفت کسب و کار استفاده نمایند.ممکن است که داده های در دسترس ، داده هایی مبهم و مغشوش باشند و یا کلاس های داده نامتوازن باشند. بنابراین نیاز به پیش پردازش دقیق داده ها رو به افزایش است. برای پاسخ به این نیاز رو به افزایش ، افراد همواره سعی در ارائه روش های نوین و موثرتری دارند.هرچند که روشهای مختلفی برای پیش پردازش داده ها موجود است ولی عملکرد و دقت این روش ها متفاوت است و تلاش در جهت ارائه روشی کارامد امری ضروری است.با توجه به اهمیت داده ها در جهان کنونی و افزایش حجم داده ها مساله پیش پردازش مناسب داده ها، بخصوص داده های نامتوازن یک چالش به نظر میرسد.اغلب روش های موجود در پیش پردازش داده های ناتوازن به سمت کلاس اکثریت تمایل دارند و این امر باعث می شود که داده های کلاس اقلیت به صورت نویز در نظر گرفته شود.همانطور که پیش از این نیز گفته شد برای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.میتوان ادعا کرد که اگر مرحله آماده سازی داده ها به خوبی صورت نپذیرد، نتایجی بدست میآید که نمیتواند مورد استفاده قرار گیرد و ممکن است که هزینه و زمان به کار رفته برای دست یابی به نتیجه موثر هدر رود و نتایج حاصل به دلیل عدم پیش پردازش مناسب داده غیر قابل استفاده و نادرست باشد.اخيراً مشكل نامتوازن بودن كلاسها مورد توجه محققان در زمينه ي داده كاوي قرار گرفته است. در موارد متعددي كلاسي كه از نقطه نظر دامنه ي كاربردي اهميت زيادي دارد(كلاس اصلي) شامل تعداد حالات كمتري نسبت به كلاسي است كه كلاس اكثريت ميباشد. اين مجموعهي دادهها نامتوازن ناميده ميشود. رويكرد سنتي دادهكاوي توانايي خوبي براي پيشبيني نمونههاي اقليت كه مورد توجه است ندارند. متأسفانه در اكثر موارد دادههاي واقعي داراي اين خصوصيت هستند. به عنوان مثال در تشخيص بيماريهاي نادر، حملات شبكه، متنكاوي و ... معمولاً توزيع دادهها نامتوازن مي باشد.در واقع مساله این است که چگونه میتوان داده های نامتوازن را به گونه ای پیش پردازش کرد که در خوشه های مناسب و درست طبقه بندی شوند.بنابراین مساله این تحقیق ارائه روشی جهت پیش پردازش داده های نا متوازن است به گونه ای که کارایی و دقت آن در مقایسه با روش های دیگر بیشتر باشد.در روش ارائه شده در این تحقیق برای ارتقای روش ماشین بردار پشتیبان از تکنیک حداقل مربعات با متر اقلیدسی استفاده نمودیم.این روش بهبود یافته را M-SVM مینامیم.بنابراین مساله را بدین شکل طرح می نماییم، چگونه میتوان در روش پیش پردازش داده های نامتوازن به دقت بالاتری دست یافت و از پیش پردازش صحیح داده برای دست یابی به نتایج صحیح در حوزه کاربردی استفاده نمود.از انجا که داده های متفاوتی وجود دارد ما پیش پردازش بر روی مجموعه داده های نامتوازن را انتحاب کردیم
پیش پردازش داده های نا متوازن با استفاده از ماشین بردار پشتیبان word
چکیدهبرای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.پیش پردازش داده ها یکی از اجزای مهم در فرایند کشف دانش است.روش های بسیاری برای پیش پردازش داده وجود دارد که میتوان از آنها استفاده کرد.اما این روش ها برای داده های نامتوازن مناسب نیستند. اصطلاح "مجموعه داده نامتوازن" عموما به مجموعه دادهای گفته میشود که در آن تعداد نمونههایی که نمایانگر یک کلاس هستند از نمونههای دیگر در کلاسهای متفاوت کمتر است مشکل عدم توازن کلاس در بسیاری از برنامه های کاربردی جهان واقعی به رسمیت شناخته شده است و موضوع تحقیقات یادگیری مبتنی بر ماشین قرار گرفته است از این رو اخيراً مشكل نامتوازن بودن كلاسها مورد توجه محققان در زمينه ي داده كاوي قرار گرفته است.آنها به دنبال کشف روش هایی بودند که با اعمال بر روی داده های نامتوازن به نتایج مطلوبی دست یابند.در این پروژه روش های گوناگون پیش پردازش داده های نامتوازن مورد بحث قرار گرفته و الگوریتم جدیدی برای بهبود نتایج طبقه بندی ارائه میشود، به گونه ای که کارایی و دقت آن مورد توجه باشد. کلمات کلیدی : پیش پردازش داده، مجموعه داده نامتوازن، ماشین بردار پشتیبان فهرست مطالبفصل اول مقدمه و کلیات تحقیق1-1مقدمه................................................................................................................. 21-2بیان مساله.................................................................................................... 21-3 اهداف تحقیق.............................................................................................. 41-4 پرسش های اصلی تحقیق........................................................................ 41-5فرضیه های تحقیق...................................................................................... 41-6 نوآوری تحقیق........................................................................................... 51-7 تعریف واژگان کلیدی........................................................................... 51-8 ساختار پایان نامه.............................................................................. 9فصل دوم ادبیات و پیشینه تحقیق2-1 مقدمه............................................................................................................ 112-2 مفاهیم داده کاوی.............................................................................. 112-2-1 تعاریف داده کاوی..................................................................... 112-2-2 فرایند کشف دانش........................................................................ 122-2-3 حوزه ها و عملکردهای داده کاوی................................. 122-3 کاربردهای داده کاوی و کشف دانش..................................... 142-4 چالش هایی برای KDD.......................................................................... 152-5 پیش پردازش و آماده سازی داده ها :............................... 162-5-1اجزای اصلی پیش پردازش داده ها.................................... 172-5-1-1 پاکسازی داده ها............................................................... 182-5-1-2یکپارچه سازی داده ها.................................................... 202-5-1-3 تبدیل داده ها.................................................................... 202-5-1-3-1هموار سازی...................................................................... 202-5-1-3-2 تجمیع................................................................................. 212-5-1-3-3 تعمیم................................................................................. 212-5-1-3-4 ساخت ویژگی.................................................................... 212-5-1-3-5 نرمال سازی.................................................................... 212-5-1-4 کاهش داده ها....................................................................... 212-5-1-4-1 تجمیع مکعبی داده................................................... 232-5-1-4-2 انتخاب زیر مجموعه مشخصه ها 232-5-1-4-3 کاهش تعدد نقاط......................................................... 242-5-1-5 تصویر کردن برای کاهش بعد...................................... 242-6 روش های ارزیابی دسته بندی..................................................... 252-6-1 ارزیابی صحت روشهای دسته بندی.................................... 272-7 تکنیک حداقل مربعات...................................................................... 302-7-1 تقریب کمترین مربعات گسسته چند جمله ای 312-8 ماشین بردار پشتیبان...................................................................... 332-8-1مقدمه...................................................................................................... 332-8-2دلایل استفاده از SVM................................................................. 342-8-3 کاربردهای SVM.............................................................................. 352-8-4 مزایا و معایب SVM................................................................... 362-8-5 تعاریف کلی...................................................................................... 362-8-5-1تابع تصمیم مسائل دو کلاسی......................................... 362-8-5-2 تعیین تابع تصمیم(ابر صفحه جداکننده) 382-8-5-3 بعد VC........................................................................................ 392-8-5-4حداقل سازی ریسک تجربی................................................. 402-8-5-5حداقل سازی ریسک ساختاری............................................ 422-8-6 ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا شدنی به طور خطی........................................................................................ 442-8-7ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا نشدنی به طور خطی (............................................................................... 492-8-8 ماشین بردار پشتیبان غیر خطی....................................... 522-8-9 انواع کرنل ها............................................................................. 552-8-9-1 کرنل چند جمله ای............................................................ 552-8-9-2 کرنل های شبکه عصبی....................................................... 552-8-9-3 کرنل های گوسی.................................................................. 562-9 تکنیک های پیش پردازش نامتوازن.......................................... 582-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس 582-9-1-1 عیب مشکل بهینه سازی با ناحیه مرزی نرم592-9-1-2 نسبت بردار پشتیبان نامتوازن.............................. 602-9-2 روشهای یادگیری عدم توازن خارجی برای SVM (روشهای پیش پردازش داده)................................................................................................ 612-9-2-1 روشهای نمونه برداری دوباره.............................. 612-9-2-1-1زیر نمونه برداری...................................................... 612-9-2-1-2بیش نمونه برداری...................................................... 622-9-2-1-3 SCM........................................................................................ 632-9-2-1-4 نمونه برداری پیشرفته........................................ 632-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی642-9-2-1-6 نزدیک ترین همسایه فشرده(CNN) 642-9-2-1-7 نزدیک ترین همسایه تغییر یافته(ENN) 662-9-2-1-8 Tomek-Link............................................................................. 672-9-2-2 روشهای یادگیری جمعی.................................................... 682-9-2-2-1الگوریتم آموزشی Bagging......................................... 692-9-2-2-2 الگوریتم آموزشی Boosting..................................... 702-9-3 روشهای یادگیری عدم تعادل داخلی برای ماشین بردار پشتیبان................................................................................................................................. 712-9-3-1 هزینه خطای متفاوت......................................................... 712-9-3-2 یادگیری یک کلاس.................................................................. 732-9-3-3zSVM.................................................................................................. 732-9-3-4 روشهای اصلاح کرنل............................................................ 742-9-3-5 یادگیری فعال....................................................................... 752-9-3-6 روش های ترکیبی.................................................................. 75فصل سوم:روش تحقیق3-1مقدمه............................................................................................................... 773-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس 773-2-1 روش SVMFuzzy..................................................................................... 773-2-2متد FSVM-CIL........................................................................................ 793-3 ماشین بردار پشتیبان حداقل مربعات (LS-SVM) 833-4 الگوریتم پیشنهادی........................................................................... 87فصل چهارم:محاسبات و یافته های تحقیق4-1 مقدمه............................................................................................................ 904-2 مجموعه داده ها................................................................................. 904-3 نتایج کارایی روش های مختلف بر روی مجموعه داده ها 91فصل پنجم:نتیجه گیری و پیشنهادات5-1 جمع بندی و نتیجه گیری................................................................ 945-2 کارهای آتی.............................................................................................. 96منابع و مآخذ :................................................................................... 97چکیده انگلیسی......................................................................................................................102 فهرست جداول جدول 2-1 متغیرهای ارزیابی دسته بندی. 29جدول 4-1 جزییات مجموعه داده های نامتوازن. 90جدول 4-2- مقایسه کارایی روش های مختلف. 92 فهرست اشکالشکل (2-1)- فرایند کشف دانش]1[12شکل(2-2)-حوزه های مختلف داده کاوی]1[13شکل(2-3)-عملکردهای داده کاوی]1[13شکل(2-4)-عملیات مختلف در پاکسازی داده]1[18شکل(2-5)-فشرده سازی بی اتلاف و پر اتلاف]1[22شکل(2-6)-تجمیع مکعبی داده]1[23شکل(2-7)-نمایی از ریسک در دسته بندی]1[27شکل (2-8)-تابع تصمیم فضای دو بعدی. 37شکل (2-9)- مرکز کلاس برای شکل 2-8. 38شکل (2-10)- مرز کلاس بدون هیچ اشتراکی. 39شکل (2-11)- بعد VC]11[40شکل (2-12)- ابر صفحه جدا کننده بهینه در دو بعد. 47شکل (2-13)- حالت جداناپذیر خطی در دو بعد. 49شکل (2-14)- نگاشت داده های آموزشی غیرخطی به فضایی از ویژگی ها با ابعاد بالاتر با تابع]11[53شکل (2-15)-مثالی از تقسیم بندی غیر خطی با کرنل گوسی بر روی داده ها ]11[57شکل (2-16)- منحنی تغییرات خطا نسبت به مقادیرمختلف ]11[57شکل (2-17)- (a)مجموعه داده اصلی. (b)مجموعه داده بعد از اعمال SMOTE. )(cTomek-Linkهای شناخته شده (d)مجموعه داده بعد از پاکسازی Tomek-Linkها]36[68 فصل اولمقدمه و کلیات تحقیق 1-1مقدمهکشف دانش و داده کاوی یک حوزه جدید میان رشته ای و در حال رشد است که حوزه های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده ها را استخراج کند.هدف کشف دانش و داده کاوی یافتن الگوها در پایگاه داده است که در میان حجم عظیمی از داده ها مخفی هستند]1[ .کشف دانش شامل مراحل متعددی است که در این تحقیق به مرحله پیش پردازش توجه میکنیم. مرحله آماده سازی داده ها مهم ترین و زمانبرترین مرحله در پروژه های داده کاوی است.از آنجا که داده ها در این پروژه ها ورودی پروژه هستند هر قدر این ورودی دقیق تر باشد، خروجی کار دقیق تر خواهد بود.یعنی ما از پدیده "ورودی نامناسب، خروجی نامناسب " دور میشویم]1[.داده هاي خام معمولا دچار مشکلاتی مانند نویز، داده پرت، تغییرات در نمونه برداري هستند و استفاده از آنها به همین صورت موجب تضعیف نتایج مورد انتظار میشود.بنابراین باید از روشی برای بهبود نتایج استفاده کرد.پیش پردازش داده ها جهت بهبود کیفیت داده های واقعی برای داده کاوی لازم است.بنابراین پردازش اولیه ای مورد نیاز است تا مقادیر مفقوده، انحرافات و مسائلی از این دست را در داده های اولیه بیابد. پیش پردازش داده ها شامل همه تبدیلاتی است که بر روي داده هاي خام صورت میگیرد وآنها را به صورتی در میآورد که براي پردازشهاي بعدي نظیر استفاده در دسته بندي و خوشه بندی، ساده تر و موثرتر میسازد.در حال حاضر سازمانها نیاز دارند تا بتوانند داده ها را به صورت کاراتر دسته بندی کنند و از تحلیل نتایج آن برای بهبود روند پیشرفت کسب و کار استفاده نمایند.ممکن است که داده های در دسترس ، داده هایی مبهم و مغشوش باشند و یا کلاس های داده نامتوازن باشند. بنابراین نیاز به پیش پردازش دقیق داده ها رو به افزایش است. برای پاسخ به این نیاز رو به افزایش ، افراد همواره سعی در ارائه روش های نوین و موثرتری دارند.هرچند که روشهای مختلفی برای پیش پردازش داده ها موجود است ولی عملکرد و دقت این روش ها متفاوت است و تلاش در جهت ارائه روشی کارامد امری ضروری است.با توجه به اهمیت داده ها در جهان کنونی و افزایش حجم داده ها مساله پیش پردازش مناسب داده ها، بخصوص داده های نامتوازن یک چالش به نظر میرسد.اغلب روش های موجود در پیش پردازش داده های ناتوازن به سمت کلاس اکثریت تمایل دارند و این امر باعث می شود که داده های کلاس اقلیت به صورت نویز در نظر گرفته شود.همانطور که پیش از این نیز گفته شد برای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.میتوان ادعا کرد که اگر مرحله آماده سازی داده ها به خوبی صورت نپذیرد، نتایجی بدست میآید که نمیتواند مورد استفاده قرار گیرد و ممکن است که هزینه و زمان به کار رفته برای دست یابی به نتیجه موثر هدر رود و نتایج حاصل به دلیل عدم پیش پردازش مناسب داده غیر قابل استفاده و نادرست باشد.اخيراً مشكل نامتوازن بودن كلاسها مورد توجه محققان در زمينه ي داده كاوي قرار گرفته است. در موارد متعددي كلاسي كه از نقطه نظر دامنه ي كاربردي اهميت زيادي دارد(كلاس اصلي) شامل تعداد حالات كمتري نسبت به كلاسي است كه كلاس اكثريت ميباشد. اين مجموعهي دادهها نامتوازن ناميده ميشود. رويكرد سنتي دادهكاوي توانايي خوبي براي پيشبيني نمونههاي اقليت كه مورد توجه است ندارند. متأسفانه در اكثر موارد دادههاي واقعي داراي اين خصوصيت هستند. به عنوان مثال در تشخيص بيماريهاي نادر، حملات شبكه، متنكاوي و ... معمولاً توزيع دادهها نامتوازن مي باشد.در واقع مساله این است که چگونه میتوان داده های نامتوازن را به گونه ای پیش پردازش کرد که در خوشه های مناسب و درست طبقه بندی شوند.بنابراین مساله این تحقیق ارائه روشی جهت پیش پردازش داده های نا متوازن است به گونه ای که کارایی و دقت آن در مقایسه با روش های دیگر بیشتر باشد.در روش ارائه شده در این تحقیق برای ارتقای روش ماشین بردار پشتیبان از تکنیک حداقل مربعات با متر اقلیدسی استفاده نمودیم.این روش بهبود یافته را M-SVM مینامیم.بنابراین مساله را بدین شکل طرح می نماییم، چگونه میتوان در روش پیش پردازش داده های نامتوازن به دقت بالاتری دست یافت و از پیش پردازش صحیح داده برای دست یابی به نتایج صحیح در حوزه کاربردی استفاده نمود.از انجا که داده های متفاوتی وجود دارد ما پیش پردازش بر روی مجموعه داده های نامتوازن را انتحاب کردیم