چکیدهدرک عواملی که منجر به موفقیت یا شکست در امتحانات مسئله ای جالب و چالش برانگیز است.مفاهیم مرتبط، تجزیه و تحلیل عوامل موفقیت در امتحانات، ممکن است به درک و به طور بالقوه به بهبود پیشرفت تحصیلی کمک کند.بنابراین در این پژوهش ضمن مروری کلی بر داده کاوی و ویژگی های اصلی یک داشبورد مدیریتی کارا، سعی بر این است تا یک مطالعه موردی بر روی پایگاه داده های دانشگاه های سراسری و آزاد استان قم صورت گیرد تا پیشرفت تحصیلی دانشجویان پیش بینی گردد.در این پژوهش ابتدا توسط الگوریتم k-means خوشه بندی صورت گرفته است و با استفاده از شاخص ارزیابی SSE ، تعداد خوشه بهینه تعیین گردیده است. بنابراین تعداد خوشه بهینه برای دانشجویان چهار خوشه می باشد و سپس خوشه ها با روش های پیش بینی داده کاوی از جمله شبکه عصبی و درخت تصمیم C5 که از پرکاربردترین و دقیق ترین روش های پیش بینی می باشند، پیش بینی شده اند و درنهایت با استفاده از نتایج این روش ها، شاخص های مناسب یافت شدند و به صورتی روشن در یک داشبورد نمایش داده شدند.واژههای کلیدی:داده کاوی آموزشی، شبکه عصبی، خوشه بندی، درخت تصمیمC5، داشبورد.فهرست مطالب فصل اول:. 11-1-مقدمه. 21-2-تعریف مساله و بیان سوال های اصلی تحقیق. 31-3-ضرورت انجام تحقیق. 61-4-هدفها و کاربردهای مورد انتظار از انجام تحقیق 71-5-جنبه جدید بودن و نوآوری طرح. 71-6-قلمرو مکانی و زمانی تحقیق. 81-7-روش تجزیه و تحلیل دادهها. 81-8-ساختار تحقیق. 81-9-تعاریف و اصطلاحات. 91-10-نتیجه گیری. 12فصل دوم:. 1222-1- مقدمه. 1332-2-انگیزههای کاوش داده. 132-3-نیاز به دادهکاوی. 152-4- چالشهای دادهکاوی. 162-4-1- چالشهای اولیه. 172-4-2- چالشهای ثانویه. 182-5-معرفی دادهکاوی. 192-5-1-منشاُ علمی. 212-5-2- معماری سیستم دادهکاوی. 212-5-3- مراحل عملیات دادهکاوی. 232-5-3-1-آمادهسازی داده. 232-5-3-2-یادگیری مدل. 242-5-3-3-ارزیابی و تفسیر مدل. 252-6- محدودیتهای دادهکاوی. 252-7- قابلیتهای دادهکاوی. 262-8- روشهای یادگیری مدل در دادهکاوی. 262-8-1- روشهای پیشبینی. 262-8-1-1- دستهبندی. 272-8-1-2- رگرسیون. 272-8-1-3-تشخیص انحراف. 282-8-2- روشهای توصیفی. 292-8-2-1- خوشهبندی. 302-8-2-2- کشف قوانین انجمنی. 322-8-2-3- کشف الگوهای ترتیبی. 322-9- فنون دادهکاوی. 322-9-1- یافتن خودکارخوشهها. 342-9-1-1-نقاط قدرت این روش. 342-9-1-2-نقاط ضعف. 342-9-1-3- کاربرد. 342-9-2- درختهای تصمیمگیری و استقرا قاعدهای. 352-9-2-1-نقاط قوت. 352-9-2-2-نقاط ضعف روش درختتصمیمگیری. 352-9-2-3-کاربرد. 362-9-3- شبکههای عصبی. 362-9-3-1- نقاط قوت شبکههای عصبی مصنوعی. 362-9-3-2- نقاط ضعف شبکهعصبی. 372-9-3-3-کاربرد. 372-10- درجهبندی فنون مختلف دادهکاوی از جهت سختی و آسانی 372-11-تعریف داشبورد. 382-12- سابقه تحقیق. 432-12-1- سابقه دادهکاوی. 432-12-2- سابقه داشبورد. 472-13 بررسی مراحل داشبورد در چند نمونه. 492-14-نتیجه گیری. 50فصل سوم:. 513-1- مقدمه. 523-2- چارچوب تحقیق. 533-3- روش تحقیق. 543-3-1- طبقهبندی تحقیق برمبنای هدف. 543-3-2- طبقه بندی تحقیق بر مبنای روش. 543-3-3- طبقهبندی تحقیق بر مبنای نوع دادهها. 553-4- جامعه آماری. 553-5- نمونهگیری. 563-5-1- روش نمونهگیری. 563-6- روش ها و ابزار گردآوری و تحلیل دادهها. 563-7- ساختار اجرایی تحقیق. 573-7-1- ساختار اجرایی بخش اول تحقیق. 583-7-1-1- درک مساله. 593-7-1-2- شناخت دادهها. 603-7-1-3- آماده سازی دادهها. 613-7-1-4- مدلسازی. 613-7-1-5- ارزیابی نتایج. 623-7-1-6- بکارگیری مدل. 623-8- تحلیل خوشهای. 633-9- الگوریتم k-means. 643-10-شبکهعصبی. 653-10-1- معماری شبکه. 663-11-درختتصمیم. 673-12- شاخص مقایسه نتایج خوشهبندی با رویکردهای مختلف 693-12-1- شاخص مجموع خطای مربعی. 693-13- ابزارهای دادهکاوی. 693-14- بخش دوم ساختار اجرایی تحقیق. 703-14-1- شناسایی شاخص. 703-14-2- پیادهسازی داشبورد. 703-15- ابزار پیادهسازی داشبورد. 713-16- نتیجهگیری. 71فصل چهارم:. 734-1-مقدمه. 744-2-فرآیند دادهکاوی. 744-2-1-درک مساله. 744-2-2-شناخت دادهها. 754-2-2-1- دادهها. 754-2-2-2- انتخاب دادهها. 754-2-3- آماده سازی و پیش پردازش دادهها. 764-2-3-1- آماده سازی دادهها. 764-2-3-2-پیش پردازش دادهها. 774-2-4-مدلسازی. 824-2-4-1-خوشهبندی. 834-2-4-2- خوشهبندی k-means. 834-2-4-3- پیشبینی خوشهها. 844-2-4-4- پیشبینی با شبکهعصبی. 854-2-4-5- پیشبینی با درختتصمیم C5. 854-2-5- ارزیابی. 884-2-6- بهکارگیری مدل. 894-3- فرآیند طراحی و پیادهسازی داشبورد. 894-3-1- شناسایی شاخص. 894-4- نتیجهگیری. 93فصل پنجم:. 945-1- مقدمه. 955-2- مروری برفصلهای گذشته. 955-3- دستاوردها و نوآوریهای تحقیق. 965-4- پیشنهادات برای تحقیقهای آتی. 975-5- محدودیتهای تحقیق. 98فهرست منابع. 99 فهرست جداول جدول2-1 درجهبندی فنون مختلف دادهکاوی. 38جدول 2-2 تعاریف داشبورد در مرور ادبیات. 38جدول 2-3 مراحل طراحی داشبورد. 49جدول3-1 الگوریتم خوشهبندی. 65جدول 4-1 اقلام اطلاعات فردی دانشجویان. 78جدول 4-2 اقلام اطلاعاتی معدل دانشجویان. 79جدول 4-3 اقلام اطلاعاتی دانشگاهی دانشجویان. 79جدول 4-4 نرخ پارامتر SSE به ازای تعداد خوشهها در k-means 84جدول 4-5 پیش بینی با استفاده از روش شبکهعصبی. 85جدول 4-6 دستهبندی معدلها. 86جدول 4-7 پیش بینی با استفاده از روش درخت تصمیمC5. 87جدول 5-1 دقت پیشبینیهای انجام شده. 97 فهرست شکلها و نمودارهاشکل 1-1-ساختار تحقیق. 9شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیلگران داده 15شکل 2-2 سلسله مراتب داده تا خرد. 20شکل 2-3 معماری یک سیستم دادهکاوی. 22شکل 2-4 ساختار دادهکاوی آموزشی. 44شکل 3-1 مراحل اصلی پیشنهادی برای اجرای تحقیق. 53شکل 3-2 استاندارد جهانی CRISP. 59شکل 4-1 بخشی از ارتباط دادهای جداول. 77نمودار 4-1 میزان استفاده تکنیکهای پیشپردازش داده. 81شکل 4-2بخشی از دادهها در نرمافزار Excel82شکل 4-3 تعداد رکوردها در هر خوشه. 84شکل 4-5 اهمیت فیلدها در پیشبینی معدل ترم شش دانشجویان 88شکل4-6 پیشرفت تحصیلی دانشجویان ورودی سال 1371. 91شکل4-7 پیشرفت تحصیلی دانشجویان ورودی سال 1381. 91شکل 4-8 پیش بینی پیشرفت تحصیلی دانشجویان فاقد شغل ورودی سال 1381 92شکل 4-9 پیشبینی پیشرفت تحصیلی دانشجویان شاغل در سازمانهای دولتی ورودی سال 1381. 93 1-1-مقدمهپیشبینی آینده درزمینههای مختلف همواره برای انسان جالب و جذاب بوده است. بااطمینان میتوان گفت که پیشبینی آینده و روند تغییرات در همهی حوزهها از دغدغههای اصلی و همیشگی مدیران سطح بالا و میانی میباشد. اما همواره مشکلات فراوانی در برابر آن وجود داشته است که انجام پیشبینیهای دقیق و قابل اعتماد را تقریباً غیرممکن نموده است (توحیدی- مقدم و فرهادی، 1391). در سالهای اخیر با توجه به جذابیتهایی که در زمینه دادهکاوی و همچنین پیشبینی که یکی از اهداف دادهکاوی میباشد وجود دارد،تحقیقات زیادی در این حوزه انجام شده است.در حال حاضر در اکثر دانشگاهها بانکهای اطلاعاتی وسیعی از ویژگیهای دانشجویان موجود است که حجم بالایی از اطلاعات مربوط به سوابق آموزشی و تحصیلی را شامل میشود و از آنجایی که امروزه فضای رقابتی شدیدی در دانشگاههای مختلف حاکم شده است.مدیران باید سریعتر و درستتر از قبل تصمیم بگیرند.لازمه چنین امری، دستیابی سریع و دقیق به دانش است و برای دستیابی به دانش، وجود ابزارهای کارا و موثری نظیر داشبوردهای مدیریتی ضرورت دارد. ارزش داشبورد در اتصال ویژگیها و کاربرد مناسب آن در سازمان است. گرچه تا به امروز توافق خاصی در اینکه داشبورد باید دقیقا چگونه باشد و چه کارهایی را انجام دهد، وجود ندارد اما به طور کلی انتظار میرود داشبورد، امکان جمعآوری، خلاصهسازی و ارائه اطلاعات مناسب از منابع مختلفی را داشته باشد تا بدین وسیله کاربر بتواند وضعیت شاخصها را به طور یکجا ملاحظه نمایدهدف از انجام این تحقیق، دادهکاویآموزشی جهت مقاصد پیشبینی پیشرفت تحصیلی دانشجویان به همراه داشبورد آن میباشد، دادهکاویآموزشی یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیطهای آموزشی میپردازد. پیشرفت تحصیلی دانشجویان یکی از اموری است که در امر آموزش مطرح است و از مسائل مورد توجه مدیران آموزشی دانشگاههاست. در این تحقیق سعی شده از دادهکاوی و فنون آن استفاده شود و با استفاده از دادههایی که در دانشگاهها موجود است پیشرفت تحصیلی را پیشبینی نمود. پس از آشنایی با ادبیات مسئله و مرورکلی بر ویژگیهای اصلی یک داشبورد مدیریتی کارا، روشهای دادهکاوی و پیشبینی به عنوان مطالعه موردی کار پیشبینی در امور آموزش را انجام دادهایم. معدل دانشجویان بهصورت تصادفی تغییر نمیکند، بلکه تغییرات بر اساس یک روند تکرار پذیر و قابل تشخیص صورت میگیرد، پس قابل پیشبینی است. برای این منظور پس از گردآوری دادهها جهت دادهکاوی، با استفاده از روشهای شبکهعصبی و درختتصمیم C5، کار پیشبینی را انجام داده ایم و بعد از پیشبینی، طراحی و پیادهسازی داشبورد آن صورت گرفت. از هنگامی که رایانه در تحلیل و ذخیرهسازی دادهها بهکار رفت (1950) پس از حدود 20 سال، حجم دادهها در پایگاهدادهها دو برابر شد ولی پس از گذشت دو دهه و همزمان با پیشرفت فنآوری اطلاعات(IT) هر دو سال یکبار حجم دادهها، دو برابر شد. همچنین تعداد پایگاهدادهها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل دادهها و آمارشناسان با این سرعت رشد نكرد. حتی اگر چنین امری اتفاق میافتاد، بسیاری از پایگاهدادهها چنان گسترش یافتهاند که شامل چندصدمیلیون یا چندصدمیلیارد رکورد ثبت شده هستند و امکان تحلیل و استخراج اطلاعات با روشهای معمول آماری از دل انبوه دادهها مستلزم چند روز کار با رایانههای موجود است. حال با وجود سیستمهای یکپارچه اطلاعاتی، سیستمهای یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم دادهها در پایگاهدادههای مربوط اضافه شده و باعث بهوجود آمدن انبارهای ( تودههای ) عظیمی از دادهها شده است بهطوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاهدادهها بیش از پیش نمایان شده است. دادهکاوی یا استخراج و کشف سریع و دقیق اطلاعات باارزش و پنهان از این پایگاهدادهها از جمله اموری است که هر کشور، سازمان و شرکتی به منظور توسعه علمی، فنی و اقتصادی خود به آن نیاز دارد. با توجه به فصول دهم و یازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهای الکترونیکی و همچنین تأکید بر برخورداری کشور از فنآوریهای جدید اطلاعات برای دستیابی آسان به اطلاعات داخلی و خارجی، دولت مکلف شده است امکانات لازم برای دستیابی آسان به اطلاعات، زمینهسازی برای اتصال کشور به شبکههای جهانی و ایجاد زیرساختهای ارتباطی و شاهراههای اطلاعاتی فراهم کند. واضح است این امر باعث ایجاد پایگاههای عظیم دادهها شده و ضرورت استفاده از دادهکاوی را بیش از پیش نمایان می سازد.دادهکاوی فرآیندی تحلیلی است که برای کاوش دادهها(معمولا حجم عظیمی از دادهها) صورت میگیرد و یافتهها با بهکارگیری الگوهایی، احراز اعتبار میشوند. این تکنولوژی امروزه دارای کاربرد بسیاروسیعی در حوزههای مختلف است بهگونهای که حدومرزی برای کاربرد این دانش درنظر نگرفته و زمینههای کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا میدانند. امروزه، بیشترین کاربرد دادهکاوی در بانکها، مراکز درمانی، بیمارستآنها، بازاریابی هوشمند، مراکز تحقیقاتی و زمینههایی که در آن مقدار زیادی از دادهها در حال جمعآوری و ذخیره میباشد. هدف اصلی دادهکاوی پیشبینی است. یکی از عناصر کلیدی در مدیریت و تصمیمگیری، پیشبینی پارامترها و متغیرهای لازم در یک محدوده سیستمی میباشد.پیشبینی به عنوان یکی از مهمترین شاخههای علمی مطرح شده است و روز به روز توسعه و پیشرفت می نماید و در بخش های مختلف به کار گرفته میشود.پیشرفتهای اخیر در تکنولوژیهای جمعآوری و ذخیرهسازی داده، موجب شده که سازمانها، حجم زیادی از دادههای مربوط به فعالیتهای روزانهی خود را انباشته کنند. دادههایی که توسط سازمانها جمعآوری شده است بسیار ارزشمند است و برای اهداف مختلف میتواند مورد استفاده قرار گیرد. یکی از این اهداف پیشبینیهایی میباشد که جهت بهبود عملکرد و برنامهریزیهایشان از آنها استفاده مینمایند.
تدوین شاخصها و داشبورد ارزیابی و پیشبینی پیشرفت تحصیلی دانشجویان با شبکه عصبی و درختتصمیمC5
چکیدهدرک عواملی که منجر به موفقیت یا شکست در امتحانات مسئله ای جالب و چالش برانگیز است.مفاهیم مرتبط، تجزیه و تحلیل عوامل موفقیت در امتحانات، ممکن است به درک و به طور بالقوه به بهبود پیشرفت تحصیلی کمک کند.بنابراین در این پژوهش ضمن مروری کلی بر داده کاوی و ویژگی های اصلی یک داشبورد مدیریتی کارا، سعی بر این است تا یک مطالعه موردی بر روی پایگاه داده های دانشگاه های سراسری و آزاد استان قم صورت گیرد تا پیشرفت تحصیلی دانشجویان پیش بینی گردد.در این پژوهش ابتدا توسط الگوریتم k-means خوشه بندی صورت گرفته است و با استفاده از شاخص ارزیابی SSE ، تعداد خوشه بهینه تعیین گردیده است. بنابراین تعداد خوشه بهینه برای دانشجویان چهار خوشه می باشد و سپس خوشه ها با روش های پیش بینی داده کاوی از جمله شبکه عصبی و درخت تصمیم C5 که از پرکاربردترین و دقیق ترین روش های پیش بینی می باشند، پیش بینی شده اند و درنهایت با استفاده از نتایج این روش ها، شاخص های مناسب یافت شدند و به صورتی روشن در یک داشبورد نمایش داده شدند.واژههای کلیدی:داده کاوی آموزشی، شبکه عصبی، خوشه بندی، درخت تصمیمC5، داشبورد.فهرست مطالب فصل اول:. 11-1-مقدمه. 21-2-تعریف مساله و بیان سوال های اصلی تحقیق. 31-3-ضرورت انجام تحقیق. 61-4-هدفها و کاربردهای مورد انتظار از انجام تحقیق 71-5-جنبه جدید بودن و نوآوری طرح. 71-6-قلمرو مکانی و زمانی تحقیق. 81-7-روش تجزیه و تحلیل دادهها. 81-8-ساختار تحقیق. 81-9-تعاریف و اصطلاحات. 91-10-نتیجه گیری. 12فصل دوم:. 1222-1- مقدمه. 1332-2-انگیزههای کاوش داده. 132-3-نیاز به دادهکاوی. 152-4- چالشهای دادهکاوی. 162-4-1- چالشهای اولیه. 172-4-2- چالشهای ثانویه. 182-5-معرفی دادهکاوی. 192-5-1-منشاُ علمی. 212-5-2- معماری سیستم دادهکاوی. 212-5-3- مراحل عملیات دادهکاوی. 232-5-3-1-آمادهسازی داده. 232-5-3-2-یادگیری مدل. 242-5-3-3-ارزیابی و تفسیر مدل. 252-6- محدودیتهای دادهکاوی. 252-7- قابلیتهای دادهکاوی. 262-8- روشهای یادگیری مدل در دادهکاوی. 262-8-1- روشهای پیشبینی. 262-8-1-1- دستهبندی. 272-8-1-2- رگرسیون. 272-8-1-3-تشخیص انحراف. 282-8-2- روشهای توصیفی. 292-8-2-1- خوشهبندی. 302-8-2-2- کشف قوانین انجمنی. 322-8-2-3- کشف الگوهای ترتیبی. 322-9- فنون دادهکاوی. 322-9-1- یافتن خودکارخوشهها. 342-9-1-1-نقاط قدرت این روش. 342-9-1-2-نقاط ضعف. 342-9-1-3- کاربرد. 342-9-2- درختهای تصمیمگیری و استقرا قاعدهای. 352-9-2-1-نقاط قوت. 352-9-2-2-نقاط ضعف روش درختتصمیمگیری. 352-9-2-3-کاربرد. 362-9-3- شبکههای عصبی. 362-9-3-1- نقاط قوت شبکههای عصبی مصنوعی. 362-9-3-2- نقاط ضعف شبکهعصبی. 372-9-3-3-کاربرد. 372-10- درجهبندی فنون مختلف دادهکاوی از جهت سختی و آسانی 372-11-تعریف داشبورد. 382-12- سابقه تحقیق. 432-12-1- سابقه دادهکاوی. 432-12-2- سابقه داشبورد. 472-13 بررسی مراحل داشبورد در چند نمونه. 492-14-نتیجه گیری. 50فصل سوم:. 513-1- مقدمه. 523-2- چارچوب تحقیق. 533-3- روش تحقیق. 543-3-1- طبقهبندی تحقیق برمبنای هدف. 543-3-2- طبقه بندی تحقیق بر مبنای روش. 543-3-3- طبقهبندی تحقیق بر مبنای نوع دادهها. 553-4- جامعه آماری. 553-5- نمونهگیری. 563-5-1- روش نمونهگیری. 563-6- روش ها و ابزار گردآوری و تحلیل دادهها. 563-7- ساختار اجرایی تحقیق. 573-7-1- ساختار اجرایی بخش اول تحقیق. 583-7-1-1- درک مساله. 593-7-1-2- شناخت دادهها. 603-7-1-3- آماده سازی دادهها. 613-7-1-4- مدلسازی. 613-7-1-5- ارزیابی نتایج. 623-7-1-6- بکارگیری مدل. 623-8- تحلیل خوشهای. 633-9- الگوریتم k-means. 643-10-شبکهعصبی. 653-10-1- معماری شبکه. 663-11-درختتصمیم. 673-12- شاخص مقایسه نتایج خوشهبندی با رویکردهای مختلف 693-12-1- شاخص مجموع خطای مربعی. 693-13- ابزارهای دادهکاوی. 693-14- بخش دوم ساختار اجرایی تحقیق. 703-14-1- شناسایی شاخص. 703-14-2- پیادهسازی داشبورد. 703-15- ابزار پیادهسازی داشبورد. 713-16- نتیجهگیری. 71فصل چهارم:. 734-1-مقدمه. 744-2-فرآیند دادهکاوی. 744-2-1-درک مساله. 744-2-2-شناخت دادهها. 754-2-2-1- دادهها. 754-2-2-2- انتخاب دادهها. 754-2-3- آماده سازی و پیش پردازش دادهها. 764-2-3-1- آماده سازی دادهها. 764-2-3-2-پیش پردازش دادهها. 774-2-4-مدلسازی. 824-2-4-1-خوشهبندی. 834-2-4-2- خوشهبندی k-means. 834-2-4-3- پیشبینی خوشهها. 844-2-4-4- پیشبینی با شبکهعصبی. 854-2-4-5- پیشبینی با درختتصمیم C5. 854-2-5- ارزیابی. 884-2-6- بهکارگیری مدل. 894-3- فرآیند طراحی و پیادهسازی داشبورد. 894-3-1- شناسایی شاخص. 894-4- نتیجهگیری. 93فصل پنجم:. 945-1- مقدمه. 955-2- مروری برفصلهای گذشته. 955-3- دستاوردها و نوآوریهای تحقیق. 965-4- پیشنهادات برای تحقیقهای آتی. 975-5- محدودیتهای تحقیق. 98فهرست منابع. 99 فهرست جداول جدول2-1 درجهبندی فنون مختلف دادهکاوی. 38جدول 2-2 تعاریف داشبورد در مرور ادبیات. 38جدول 2-3 مراحل طراحی داشبورد. 49جدول3-1 الگوریتم خوشهبندی. 65جدول 4-1 اقلام اطلاعات فردی دانشجویان. 78جدول 4-2 اقلام اطلاعاتی معدل دانشجویان. 79جدول 4-3 اقلام اطلاعاتی دانشگاهی دانشجویان. 79جدول 4-4 نرخ پارامتر SSE به ازای تعداد خوشهها در k-means 84جدول 4-5 پیش بینی با استفاده از روش شبکهعصبی. 85جدول 4-6 دستهبندی معدلها. 86جدول 4-7 پیش بینی با استفاده از روش درخت تصمیمC5. 87جدول 5-1 دقت پیشبینیهای انجام شده. 97 فهرست شکلها و نمودارهاشکل 1-1-ساختار تحقیق. 9شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیلگران داده 15شکل 2-2 سلسله مراتب داده تا خرد. 20شکل 2-3 معماری یک سیستم دادهکاوی. 22شکل 2-4 ساختار دادهکاوی آموزشی. 44شکل 3-1 مراحل اصلی پیشنهادی برای اجرای تحقیق. 53شکل 3-2 استاندارد جهانی CRISP. 59شکل 4-1 بخشی از ارتباط دادهای جداول. 77نمودار 4-1 میزان استفاده تکنیکهای پیشپردازش داده. 81شکل 4-2بخشی از دادهها در نرمافزار Excel82شکل 4-3 تعداد رکوردها در هر خوشه. 84شکل 4-5 اهمیت فیلدها در پیشبینی معدل ترم شش دانشجویان 88شکل4-6 پیشرفت تحصیلی دانشجویان ورودی سال 1371. 91شکل4-7 پیشرفت تحصیلی دانشجویان ورودی سال 1381. 91شکل 4-8 پیش بینی پیشرفت تحصیلی دانشجویان فاقد شغل ورودی سال 1381 92شکل 4-9 پیشبینی پیشرفت تحصیلی دانشجویان شاغل در سازمانهای دولتی ورودی سال 1381. 93 1-1-مقدمهپیشبینی آینده درزمینههای مختلف همواره برای انسان جالب و جذاب بوده است. بااطمینان میتوان گفت که پیشبینی آینده و روند تغییرات در همهی حوزهها از دغدغههای اصلی و همیشگی مدیران سطح بالا و میانی میباشد. اما همواره مشکلات فراوانی در برابر آن وجود داشته است که انجام پیشبینیهای دقیق و قابل اعتماد را تقریباً غیرممکن نموده است (توحیدی- مقدم و فرهادی، 1391). در سالهای اخیر با توجه به جذابیتهایی که در زمینه دادهکاوی و همچنین پیشبینی که یکی از اهداف دادهکاوی میباشد وجود دارد،تحقیقات زیادی در این حوزه انجام شده است.در حال حاضر در اکثر دانشگاهها بانکهای اطلاعاتی وسیعی از ویژگیهای دانشجویان موجود است که حجم بالایی از اطلاعات مربوط به سوابق آموزشی و تحصیلی را شامل میشود و از آنجایی که امروزه فضای رقابتی شدیدی در دانشگاههای مختلف حاکم شده است.مدیران باید سریعتر و درستتر از قبل تصمیم بگیرند.لازمه چنین امری، دستیابی سریع و دقیق به دانش است و برای دستیابی به دانش، وجود ابزارهای کارا و موثری نظیر داشبوردهای مدیریتی ضرورت دارد. ارزش داشبورد در اتصال ویژگیها و کاربرد مناسب آن در سازمان است. گرچه تا به امروز توافق خاصی در اینکه داشبورد باید دقیقا چگونه باشد و چه کارهایی را انجام دهد، وجود ندارد اما به طور کلی انتظار میرود داشبورد، امکان جمعآوری، خلاصهسازی و ارائه اطلاعات مناسب از منابع مختلفی را داشته باشد تا بدین وسیله کاربر بتواند وضعیت شاخصها را به طور یکجا ملاحظه نمایدهدف از انجام این تحقیق، دادهکاویآموزشی جهت مقاصد پیشبینی پیشرفت تحصیلی دانشجویان به همراه داشبورد آن میباشد، دادهکاویآموزشی یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیطهای آموزشی میپردازد. پیشرفت تحصیلی دانشجویان یکی از اموری است که در امر آموزش مطرح است و از مسائل مورد توجه مدیران آموزشی دانشگاههاست. در این تحقیق سعی شده از دادهکاوی و فنون آن استفاده شود و با استفاده از دادههایی که در دانشگاهها موجود است پیشرفت تحصیلی را پیشبینی نمود. پس از آشنایی با ادبیات مسئله و مرورکلی بر ویژگیهای اصلی یک داشبورد مدیریتی کارا، روشهای دادهکاوی و پیشبینی به عنوان مطالعه موردی کار پیشبینی در امور آموزش را انجام دادهایم. معدل دانشجویان بهصورت تصادفی تغییر نمیکند، بلکه تغییرات بر اساس یک روند تکرار پذیر و قابل تشخیص صورت میگیرد، پس قابل پیشبینی است. برای این منظور پس از گردآوری دادهها جهت دادهکاوی، با استفاده از روشهای شبکهعصبی و درختتصمیم C5، کار پیشبینی را انجام داده ایم و بعد از پیشبینی، طراحی و پیادهسازی داشبورد آن صورت گرفت. از هنگامی که رایانه در تحلیل و ذخیرهسازی دادهها بهکار رفت (1950) پس از حدود 20 سال، حجم دادهها در پایگاهدادهها دو برابر شد ولی پس از گذشت دو دهه و همزمان با پیشرفت فنآوری اطلاعات(IT) هر دو سال یکبار حجم دادهها، دو برابر شد. همچنین تعداد پایگاهدادهها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل دادهها و آمارشناسان با این سرعت رشد نكرد. حتی اگر چنین امری اتفاق میافتاد، بسیاری از پایگاهدادهها چنان گسترش یافتهاند که شامل چندصدمیلیون یا چندصدمیلیارد رکورد ثبت شده هستند و امکان تحلیل و استخراج اطلاعات با روشهای معمول آماری از دل انبوه دادهها مستلزم چند روز کار با رایانههای موجود است. حال با وجود سیستمهای یکپارچه اطلاعاتی، سیستمهای یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم دادهها در پایگاهدادههای مربوط اضافه شده و باعث بهوجود آمدن انبارهای ( تودههای ) عظیمی از دادهها شده است بهطوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاهدادهها بیش از پیش نمایان شده است. دادهکاوی یا استخراج و کشف سریع و دقیق اطلاعات باارزش و پنهان از این پایگاهدادهها از جمله اموری است که هر کشور، سازمان و شرکتی به منظور توسعه علمی، فنی و اقتصادی خود به آن نیاز دارد. با توجه به فصول دهم و یازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهای الکترونیکی و همچنین تأکید بر برخورداری کشور از فنآوریهای جدید اطلاعات برای دستیابی آسان به اطلاعات داخلی و خارجی، دولت مکلف شده است امکانات لازم برای دستیابی آسان به اطلاعات، زمینهسازی برای اتصال کشور به شبکههای جهانی و ایجاد زیرساختهای ارتباطی و شاهراههای اطلاعاتی فراهم کند. واضح است این امر باعث ایجاد پایگاههای عظیم دادهها شده و ضرورت استفاده از دادهکاوی را بیش از پیش نمایان می سازد.دادهکاوی فرآیندی تحلیلی است که برای کاوش دادهها(معمولا حجم عظیمی از دادهها) صورت میگیرد و یافتهها با بهکارگیری الگوهایی، احراز اعتبار میشوند. این تکنولوژی امروزه دارای کاربرد بسیاروسیعی در حوزههای مختلف است بهگونهای که حدومرزی برای کاربرد این دانش درنظر نگرفته و زمینههای کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا میدانند. امروزه، بیشترین کاربرد دادهکاوی در بانکها، مراکز درمانی، بیمارستآنها، بازاریابی هوشمند، مراکز تحقیقاتی و زمینههایی که در آن مقدار زیادی از دادهها در حال جمعآوری و ذخیره میباشد. هدف اصلی دادهکاوی پیشبینی است. یکی از عناصر کلیدی در مدیریت و تصمیمگیری، پیشبینی پارامترها و متغیرهای لازم در یک محدوده سیستمی میباشد.پیشبینی به عنوان یکی از مهمترین شاخههای علمی مطرح شده است و روز به روز توسعه و پیشرفت می نماید و در بخش های مختلف به کار گرفته میشود.پیشرفتهای اخیر در تکنولوژیهای جمعآوری و ذخیرهسازی داده، موجب شده که سازمانها، حجم زیادی از دادههای مربوط به فعالیتهای روزانهی خود را انباشته کنند. دادههایی که توسط سازمانها جمعآوری شده است بسیار ارزشمند است و برای اهداف مختلف میتواند مورد استفاده قرار گیرد. یکی از این اهداف پیشبینیهایی میباشد که جهت بهبود عملکرد و برنامهریزیهایشان از آنها استفاده مینمایند.