چکيده :در اين پاياننامه به ردهبندي و تعيين گرايش يا قطبيت احساس در نظرات کاربران از نقطهنظر مثبت يا منفي بودن نظرات بيانشده، در يکي از پربازديدترين سايتهاي خبري ايران پرداختهايم. براي اينکار مشخصههاي جديدي را معرفي کردهايم. پس از جمعآوري و پيشپردازش متن نظرات و استخراج اين مشخصهها، آنها را با استفاده از ردهبندهاي مختلف در حالات و ترکيبهاي گوناگون مورد بررسي قرار دادهايم. نتايج بدست آمده نشان از کارايي مناسب مشخصههاي معرفي شده و ردهبندهاي مورد استفاده دارند بهطوريکه بالاترين دقت (نود و سه درصد) در حالتي بدست آمده است که از تمام مشخصهها براي آموزش ردهبند استفاده شده است.علاوه بر کار ردهبندي مذکور، با نگاهي به انواع ديگر چالشها، تحقيقات انجامشده، و مسائل متنوع مرتبط با کاوش در نظرات متني کاربران (مانند تشخيص شخص بيان کنندهي نظر، تشخيص درجهي شدت گرايش، شناسايي نظرات نامطلوب، و...)، ايدهي جديد ايجاد يک موتور جستجوي نظرات مطرح و معماري پيشنهادي براي آن ارائه شده است. کلمات کليدي : کاوش در نظرات، تجزيهوتحليل احساس، تعيين قطبيت احساس، ردهبندي احساس، شناسايي گرايش احساس، موتور جستجوي نظرات. فهرست مطالبفصل1مقدمه.................................................................................................. 11-1. مقدمه و ضرورت تحقيق ………………………………………………………………………................21-2. اهداف تحقيق ……………………………………………………………………….............................5فصل2پيشينهي تحقيق................................................................................. 72-1. مقدمه................................................................................................. 82-2. چالشها و کارهای مرتبط با حوزهي کاوش در نظرات......……………………………………...….....82-2-1. شناسايي شخص صاحب نظر............................................................ 82-2-2. تشخيص هدف نظر اظهارشده....................................................... 92-2-3. درجهبندي نظر............................................................................. 92-2-4. جستجو و يافتن متون هدف..................................................... 102-2-4-1. تشخيص موضوع...................................................................... 102-2-4-2. تشخيص زبان........................................................................ 102-2-4-3. تشخيص وجود نظر................................................................ 112-2-5. سطح مطالعهي گرايش احساس................................................... 112-2-6. منابع لغوي................................................................................ 112-2-7. مشخصههاي استفادهشده در مطالعات قبلي......................... 122-2-8. خلاصهسازي.................................................................................... 122-2-9. وزندهي......................................................................................... 122-2-10. شناسايي نظرات نامطلوب...................................................... 132-2-11. پيشپردازشهاي لازم بر روي متن........................................ 132-3. ضعفهايي در مطالعات قبل که در راستاي رفع آنها تلاش شده است ………………………………. 14فصل3معماري پيشنهادي براي يک موتور جستجوي نظرات............... 153-1. مقدمه............................................................................................... 163-2. واسط کاربر.................................................................................... 163-3. مديريتکنندهي جستجو.................................................................. 173-4. خلاصهساز نتايج............................................................................. 173-5. رتبهبند........................................................................................... 173-6. گسترشدهندهي پرسوجو.................................................................. 183-7. پايگاهدادهي اطلاعات تحليلشده............................................... 183-8. خزشگر متمرکز................................................................................ 183-8-1. شناسايي وجود احساس........................................................... 193-8-2. تشخيص موضوع.......................................................................... 193-8-3. تشخيص زبان............................................................................. 193-9. پايگاهدادهي اسناد خام............................................................ 193-10. تجزيهوتحليل دادهها................................................................ 193-10-1. تشخيص هدف عقيده................................................................ 203-10-2. تشخيص شخص بيان کنندهي اظهارنظر............................... 203-10-3. ردهبندي احساس.................................................................... 203-10-4. تشخيص نظرات نامطلوب....................................................... 203-10-5. وزنگذاري نظر...................................................................... 203-10-6. تجزيهوتحليل شبکههاي اجتماعي..................................... 213-11. پيشپردازش اسناد و متون........................................................ 213-11-1. استخراج جملات...................................................................... 213-11-2. قطعهبندي............................................................................... 223-11-3. بررسي املا............................................................................. 223-11-4. ريشهيابي............................................................................... 223-11-5. نرمالسازي............................................................................. 223-11-6. تجزيه...................................................................................... 233-11-7. برچسبگذاري اجزاء گفتار................................................ 233-12. پايگاه دادهي اطلاعات پيشپردازششده.................................. 23فصل4 روش تحقيق، آزمايشها، و نتايج............................................ 254-1. مقدمه............................................................................................... 264-2. انتخاب زمينه................................................................................ 264-3. انتخاب و استخراج نظرات.......................................................... 274-4. مشخصههاي مورد استفاده............................................................ 284-5. پيشپردازشهاي انجامشده و استخراج بردارهاي مشخصه..... 304-6. انتخاب ردهبندها......................................................................... 314-7. آزمايشهاي انجامشده.................................................................. 324-8. تحليل نتايج.................................................................................. 414-8-1. بهترين نتايج........................................................................ 414-8-2. بررسي ترکيب دو مشخصهي "گرايش آغازگر"، و "نشانههاي سؤال"..................................................................................................................... 414-8-3. بررسي افزودن مشخصهي "صفات و قيود استخراج شده به صورت خودکار" به دو مشخصهي قبل................................................................ 424-8-4. بررسي تکتک مشخصهها........................................................... 434-8-5. بررسي لحاظ و عدم لحاظ "نرمالسازي" و "تعداد رخداد" مشخصهها..................................................................................................... 444-8-6. بررسي ردهبندهاي مورد استفاده..................................... 454-8-7. بررسي تاثير حذف برخي از صفات و قيود وابسته به زمينه 464-8-8. بررسي برخي از ردهبندهاي مهم و شناختهشدهي ديگر46فصل5 نتيجهگيري و کارهاي آتي......................................................... 485-1. نتيجهگيري...................................................................................... 495-2. کارهاي آتي.................................................................................... 50مراجع و ماخذ.......................................................................................... 51پيوست الف: 50 اظهارنظر استفاده شده (از 30 خبر)، بههمراه مشخصههاي استخراجشده از داخل آنها.................................................................. 55واژهنامه فارسي- انگليسي.................................................................. 86واژهنامه انگليسي- فارسي.................................................................. 88چکيدهي انگليسي………………………………………………………………………………………………….. 90 فهرست جداولجدول4-1. نتايج بدستآمده با لحاظ تعداد رخداد و بدون نرمالسازي توسط ردهبند Naïve Bayesian.................................................................................. 34جدول4-2. نتايج بدستآمده با لحاظ تعداد رخداد و بدون نرمالسازي توسط ردهبند SVM............................................................................................... 35جدول4-3. نتايج بدستآمده با لحاظ تعداد رخداد و بصورت نرمالشده توسط ردهبند Naïve Bayesian.................................................................................. 36جدول4-4. نتايج بدستآمده با لحاظ تعداد رخداد و بصورت نرمالشده توسط ردبند SVM................................................................................................. 37جدول4-5. نتايج بدستآمده بدون لحاظ تعداد رخداد توسط ردهبند Naïve Bayesian......................................................................................................... 38جدول4-6. نتايج بدستآمده بدون لحاظ تعداد رخداد توسط ردهبند SVM 39جدول4-7. نتايج آزمايش مجدد 3 حالت منتخب پس از افزودن صفات و قيود وابسته به زمينه در کنار نتايج قبل............................................ 40جدول4-8. نتايج استفاده از ردهبندهاي ديگر در کنار نتايج قبل براي 4 حالت منتخب............................................................................................... 40 فهرست اشکالشکل3-1. معماري پيشنهادي براي يک "موتور جستجوي نظرات"... 24 فصل1مقدمه1-1. مقدمه و ضرورت تحقيقاطلاع از نظر ديگران از نقطهنظرات گوناگون داراي اهميت فراواني است. تصور کنيد که قصد داريد کالا يا خدماتي را خريداري کنيد. آگاهي از نظر مثبت يا منفي افرادي که قبلا آن کالا يا خدمات را خريداري کردهاند چقدر براي شما اهميت دارد؟ آيا نظر آنها ميتواند بر تصميم شما تاثيرگذار باشد؟ اگر يک شرکت خدماتي داشتيد به چه ميزان علاقهمند به اطلاع از نظر مخاطبين خود در رابطه با مطلوبيت يا عدم مطلوبيت خدمات خود بوديد؟ آيا اطلاع از نظر آنها در اتخاذ تصميمات بهتر به شما کمک ميکرد؟ اگر يک کانديداي انتخاباتي بوديد تمايل داشتيد تا از اقبال يا عدم اقبال رايدهندگان نسبت به خود خبر داشته باشيد؟اگر به اطرافمان نگاه کنيم ميبينيم که افراد حقيقي و حقوقي گوناگون از شرکتهاي بزرگ و سياستمداران گرفته، تا افراد عادي جامعه در تصميمات کوچک و بزرگ خود تحت تاثير نظرات ديگران قرار دارند. طبيعتاً در چنين وضعيتي اطلاع از نظرات افراد اهميت فراواني پيدا ميکند.از طرف ديگر با ظهور وب و گسترش مشارکت کاربران در سالهاي اخير بهخصوص با ظهور پديدههايي مثل وبلاگها[1] و شبکههاي اجتماعي[2]، و تمايل کاربران براي اظهار و به اشتراکگذاري نظرات خود پيرامون مسائل مختلف، شاهد حجم انبوهي از نظرات مکتوبي هستيم که هرگز تاکنون با اين حجم، تنوع، و آساني در دسترس قرار نداشتهاند. اين موضوع بههمراه اهميت ذکرشده در مورد اطلاع از نظر ديگران توجه محققين علوم کامپيوتر بويژه محققين حوزهي دادهکاوي[3] را بهخود جلب کرده است و موجب شکلگيري حوزهاي جديد تحت عنوان "کاوش در نظرات[4]" گرديده است. بر اساس [1] شايد بتوان سال 2001 ميلادي را نقطهي عطفي براي اين توجهات دانست.به مرور زمان ابعاد گوناگون جديدي در حوزهي کاوش در نظرات نمايان گشتند و تحقيقات متنوعي در رابطه با هر يک از اين ابعاد شکل گرفتند. به عنوان نمونه نياز به اطلاع از هويت و مشخصات شخصي که يک نظر را اظهار کرده است مثلا براي تعيين ميزان سودمندي آن اظهار نظر، و يا نياز به تشخيص نظراتي که براي اهداف نامطلوب (از قبيل تبليغات جهتدار بهنفع يا برعليه يک کالا) درج شدهاند از جملهي اين ابعاد هستند. مروري بر تحقيقات انجامشده در حوزهي کاوش در نظرات را ميتوان در [1] و [2] ديد. در فصل دو به معرفي ابعاد گوناگون اين حوزه و نيز چالشهاي مشترک اين حوزه با حوزههاي ديگر متنکاوي[5] (نظير قطعهبندي متن[6] و برچسب زدن اجزاء گفتار[7])خواهيم پرداخت.وقتي شخصي در رابطه با چيزي نظري را بيان ميکند، اين نظر ميتواند حاوي ويژگيهاي احساسي نظير خشم، ترس، خوشحالي، و ... باشد. از جملهي ويژگيهاي احساسي موجود در نظرات که از مهمترين و اوليهترين بحثهايي بوده که در حوزهي کاوش در نظرات مطرح بوده است، گرايش يا به عبارت ديگر مثبت يا منفي بودن نظر اظهارشده در مورد هدف اظهارنظر است. از تشخيص اين ويژگي احساسي در ادبيات اين حوزه تحت عناوين "ردهبندي احساس[8]"، "تحليل احساس[9]"، "تشخيص قطبيت احساس[10]"، و "تشخيص گرايش احساس[11]" ياد ميشود. براي مثال اظهارنظر "تصوير اين تلويزيون خيلي با کيفيت است" حاوي احساس مثبت نسبت به کيفيت تصوير تلويزيون است و در طبقهبندي مثبت قرار ميگيرد، و اظهارنظر "تماشاي اين فيلم را به کسي توصيه نميکنم" حاوي احساس منفي نسبت به فيلم مورد نظر است.آگاهي از "گرايش احساس در نظرات[12]" کاربران در حوزههاي مختلف از قبيل تجارت، سياست، تعامل بين انسان و کامپيوتر (براي تعيين نوع عکسالعمل ماشين بر اساس نظر انسان)، و در انواع تصميمگيريهاي افراد حقيقي و حقوقي کاربرد فراواني دارد که در آغاز بحث برخي از آنها مورد اشاره قرار گرفتند. اين موضوع بههمراه حجم پايين کار انجامشدهي مرتبط در حوزهي زبان فارسي (در جستجوي انجامشده هيچ مقالهي منتشرشدهاي در اين حوزه براي زبان فارسي يافت نشد)، انجام مطالعه در اين رابطه براي نظرات بيانشده به زبان فارسي را ضروري مينمايد.علاوهبر نياز به تحقيقات در حوزهي مذکور، اکنون پس از حدود يک دهه که از شروع مطالعات در زمينهي کاوش در نظرات ميگذرد و ابعاد گوناگوني از آن روشن شده و تا حدودي برروي آنها تحقيق شده است، جاي خالي سيستمي که از محصولات خروجي از تحقيقات اين حوزههاي تحقيقاتي، به صورت مجتمع و ترکيبي بهره ببرد و با تجميع و هماهنگي بين آنها همراه با استفاده از محصولات تحقيقات زمينههاي مرتبط ديگر، به ارائهي سرويسهاي کاربردي و ترکيبياي بپردازد که بهتنهايي توسط هيچيک از اين بخشها و بدون همکاري با بخشهاي ديگر امکانپذير نخواهد بود ديده ميشود. چنين سيستمي که کاربران بتوانند انواع گوناگون از نيازهاي خود را بهخوبي به آن منتقل کنند و آنها را در مدت زمان کوتاهي دريافت کنند قطعا مورد استقبال شديد کاربران مختلف قرار خواهد گرفت. به عنوان مثال ممکن است توليد کنندگان يک کالاي تخصصي با کاربرد صنعتي، نياز به آگاهي از گرايش نظرات افرادي که داراي تخصص در آن صنعت هستند در رابطه با آن کالاي خاص و به صورت خلاصهشده داشته باشند. در چنين حالتي سيستم با استفاده از محصول بدستآمده از تحقيقات انجامشده براي تشخيص هويت اظهارنظرکنندگان و استخراج خصوصيات آنها، نظراتي که توسط افراد موردنظر بيان شدهاند را شناسايي ميکند؛ سپس از ميان آنها با استفاده از محصول تحقيقات انجامشده براي تشخيص هدف اظهارنظر، نظراتي که در رابطه با کالاي مورد نظر بيان شدهاند را جدا ميکند؛ بعد از آن مثبت يا منفي بودن گرايش اين نظرات را با استفاده از محصول بدستآمده از تحقيقات مربوط به "تشخيص گرايش احساس" تعيين ميکند؛ و نهايتاً با استفاده از محصول بدستآمده از تحقيقات انجامشده در رابطه با خلاصهسازي نتايج حاصل را خلاصهسازي کرده و به کاربر نمايش ميدهد. مثالهاي ديگري از نيازهايي متنوعي که کاربران مختلف ميتوانند با در اختيار داشتن چنين سيستمي به آنها دستيابي پيدا کنند عبارتند از : يافتن اشخاصي که در رابطه با يک هدف خاص داراي نظر مثبت هستند، يافتن نظرات منفي که در رابطه با هدفي خاص و در يک بازهي زماني خاص بيان شدهاند، و يافتن گرايش کاربراني که در يک منطقهي خاص سکونت دارند و در محدودهي سني خاصي هستند نسبت به يک موضوع اجتماعي. 1-2. اهداف تحقيقبر اساس ضرورتي که براي کار در حوزهي تشخيص گرايش احساس در نظرات کاربران بويژه در زبان فارسي ذکر شد در فصل چهار از اين پروژه به اين موضوع ميپردازيم و سعي در ردهبندي[13] گرايش نظرات کاربران در غالب دو ردهي مثبت و منفي خواهيم داشت.بنابر [2] اين مسئله ميتواند در قالب يک مسئلهي "يادگيري تحت نظارت[14]" بيان شود که داراي ردههاي مثبت، منفي، و خنثي است و دادههاي استفادهشده (براي آموزش[15] و آزمايش[16]) در تحقيقات موجود در اين رابطه، اغلب نظراتي است که کاربران در مورد کالاها اظهار کردهاند. مزيت استفاده از اين دادهها آماده بودن آنها به دليل مشخص بودن مثبت، منفي، يا خنثي بودن آنها ذکر شده است.براي فراهم کردن دادههاي مورد بررسي در اين پاياننامه، پس از بررسي زمينههاي گوناگون نظير نظرات کاربران در شبکههاي اجتماعي، و نظرات کاربران در مورد گوشيهاي موبايل، نهايتا نظرات کاربران در يکي از پربازديدترين پايگاههاي خبري يعني پايگاه خبري تابناک انتخاب گرديد. بهروز بودن و متنوع بودن اخبار درجشده در اين پايگاه بستر مناسبي براي ارزيابي نظرات مردم در رابطه با موضوعات گوناگون از قبيل سياسي، اجتماعي، و اقتصادي را فراهم ميکند.بهطور خلاصه هدف از کار انجامشده در فصل چهار از اين پاياننامه تشخيص مثبت يا منفي بودن گرايش احساس موجود در نظرات کاربران سايت خبري پربازديد تابناک با استفاده از برخي ردهبندهاي شناختهشده و مشخصههاي جديد ارائهشده است. در اين راستا تلاش ميشود تا قابليت ردهبندهاي مورد استفاده و حالات و ترکيبهاي گوناگون مشخصههاي معرفيشده مورد بررسي قرار گيرند.
رهيافتي براي نظرکاوي در متون خبري فارسي word
چکيده :در اين پاياننامه به ردهبندي و تعيين گرايش يا قطبيت احساس در نظرات کاربران از نقطهنظر مثبت يا منفي بودن نظرات بيانشده، در يکي از پربازديدترين سايتهاي خبري ايران پرداختهايم. براي اينکار مشخصههاي جديدي را معرفي کردهايم. پس از جمعآوري و پيشپردازش متن نظرات و استخراج اين مشخصهها، آنها را با استفاده از ردهبندهاي مختلف در حالات و ترکيبهاي گوناگون مورد بررسي قرار دادهايم. نتايج بدست آمده نشان از کارايي مناسب مشخصههاي معرفي شده و ردهبندهاي مورد استفاده دارند بهطوريکه بالاترين دقت (نود و سه درصد) در حالتي بدست آمده است که از تمام مشخصهها براي آموزش ردهبند استفاده شده است.علاوه بر کار ردهبندي مذکور، با نگاهي به انواع ديگر چالشها، تحقيقات انجامشده، و مسائل متنوع مرتبط با کاوش در نظرات متني کاربران (مانند تشخيص شخص بيان کنندهي نظر، تشخيص درجهي شدت گرايش، شناسايي نظرات نامطلوب، و...)، ايدهي جديد ايجاد يک موتور جستجوي نظرات مطرح و معماري پيشنهادي براي آن ارائه شده است. کلمات کليدي : کاوش در نظرات، تجزيهوتحليل احساس، تعيين قطبيت احساس، ردهبندي احساس، شناسايي گرايش احساس، موتور جستجوي نظرات. فهرست مطالبفصل1مقدمه.................................................................................................. 11-1. مقدمه و ضرورت تحقيق ………………………………………………………………………................21-2. اهداف تحقيق ……………………………………………………………………….............................5فصل2پيشينهي تحقيق................................................................................. 72-1. مقدمه................................................................................................. 82-2. چالشها و کارهای مرتبط با حوزهي کاوش در نظرات......……………………………………...….....82-2-1. شناسايي شخص صاحب نظر............................................................ 82-2-2. تشخيص هدف نظر اظهارشده....................................................... 92-2-3. درجهبندي نظر............................................................................. 92-2-4. جستجو و يافتن متون هدف..................................................... 102-2-4-1. تشخيص موضوع...................................................................... 102-2-4-2. تشخيص زبان........................................................................ 102-2-4-3. تشخيص وجود نظر................................................................ 112-2-5. سطح مطالعهي گرايش احساس................................................... 112-2-6. منابع لغوي................................................................................ 112-2-7. مشخصههاي استفادهشده در مطالعات قبلي......................... 122-2-8. خلاصهسازي.................................................................................... 122-2-9. وزندهي......................................................................................... 122-2-10. شناسايي نظرات نامطلوب...................................................... 132-2-11. پيشپردازشهاي لازم بر روي متن........................................ 132-3. ضعفهايي در مطالعات قبل که در راستاي رفع آنها تلاش شده است ………………………………. 14فصل3معماري پيشنهادي براي يک موتور جستجوي نظرات............... 153-1. مقدمه............................................................................................... 163-2. واسط کاربر.................................................................................... 163-3. مديريتکنندهي جستجو.................................................................. 173-4. خلاصهساز نتايج............................................................................. 173-5. رتبهبند........................................................................................... 173-6. گسترشدهندهي پرسوجو.................................................................. 183-7. پايگاهدادهي اطلاعات تحليلشده............................................... 183-8. خزشگر متمرکز................................................................................ 183-8-1. شناسايي وجود احساس........................................................... 193-8-2. تشخيص موضوع.......................................................................... 193-8-3. تشخيص زبان............................................................................. 193-9. پايگاهدادهي اسناد خام............................................................ 193-10. تجزيهوتحليل دادهها................................................................ 193-10-1. تشخيص هدف عقيده................................................................ 203-10-2. تشخيص شخص بيان کنندهي اظهارنظر............................... 203-10-3. ردهبندي احساس.................................................................... 203-10-4. تشخيص نظرات نامطلوب....................................................... 203-10-5. وزنگذاري نظر...................................................................... 203-10-6. تجزيهوتحليل شبکههاي اجتماعي..................................... 213-11. پيشپردازش اسناد و متون........................................................ 213-11-1. استخراج جملات...................................................................... 213-11-2. قطعهبندي............................................................................... 223-11-3. بررسي املا............................................................................. 223-11-4. ريشهيابي............................................................................... 223-11-5. نرمالسازي............................................................................. 223-11-6. تجزيه...................................................................................... 233-11-7. برچسبگذاري اجزاء گفتار................................................ 233-12. پايگاه دادهي اطلاعات پيشپردازششده.................................. 23فصل4 روش تحقيق، آزمايشها، و نتايج............................................ 254-1. مقدمه............................................................................................... 264-2. انتخاب زمينه................................................................................ 264-3. انتخاب و استخراج نظرات.......................................................... 274-4. مشخصههاي مورد استفاده............................................................ 284-5. پيشپردازشهاي انجامشده و استخراج بردارهاي مشخصه..... 304-6. انتخاب ردهبندها......................................................................... 314-7. آزمايشهاي انجامشده.................................................................. 324-8. تحليل نتايج.................................................................................. 414-8-1. بهترين نتايج........................................................................ 414-8-2. بررسي ترکيب دو مشخصهي "گرايش آغازگر"، و "نشانههاي سؤال"..................................................................................................................... 414-8-3. بررسي افزودن مشخصهي "صفات و قيود استخراج شده به صورت خودکار" به دو مشخصهي قبل................................................................ 424-8-4. بررسي تکتک مشخصهها........................................................... 434-8-5. بررسي لحاظ و عدم لحاظ "نرمالسازي" و "تعداد رخداد" مشخصهها..................................................................................................... 444-8-6. بررسي ردهبندهاي مورد استفاده..................................... 454-8-7. بررسي تاثير حذف برخي از صفات و قيود وابسته به زمينه 464-8-8. بررسي برخي از ردهبندهاي مهم و شناختهشدهي ديگر46فصل5 نتيجهگيري و کارهاي آتي......................................................... 485-1. نتيجهگيري...................................................................................... 495-2. کارهاي آتي.................................................................................... 50مراجع و ماخذ.......................................................................................... 51پيوست الف: 50 اظهارنظر استفاده شده (از 30 خبر)، بههمراه مشخصههاي استخراجشده از داخل آنها.................................................................. 55واژهنامه فارسي- انگليسي.................................................................. 86واژهنامه انگليسي- فارسي.................................................................. 88چکيدهي انگليسي………………………………………………………………………………………………….. 90 فهرست جداولجدول4-1. نتايج بدستآمده با لحاظ تعداد رخداد و بدون نرمالسازي توسط ردهبند Naïve Bayesian.................................................................................. 34جدول4-2. نتايج بدستآمده با لحاظ تعداد رخداد و بدون نرمالسازي توسط ردهبند SVM............................................................................................... 35جدول4-3. نتايج بدستآمده با لحاظ تعداد رخداد و بصورت نرمالشده توسط ردهبند Naïve Bayesian.................................................................................. 36جدول4-4. نتايج بدستآمده با لحاظ تعداد رخداد و بصورت نرمالشده توسط ردبند SVM................................................................................................. 37جدول4-5. نتايج بدستآمده بدون لحاظ تعداد رخداد توسط ردهبند Naïve Bayesian......................................................................................................... 38جدول4-6. نتايج بدستآمده بدون لحاظ تعداد رخداد توسط ردهبند SVM 39جدول4-7. نتايج آزمايش مجدد 3 حالت منتخب پس از افزودن صفات و قيود وابسته به زمينه در کنار نتايج قبل............................................ 40جدول4-8. نتايج استفاده از ردهبندهاي ديگر در کنار نتايج قبل براي 4 حالت منتخب............................................................................................... 40 فهرست اشکالشکل3-1. معماري پيشنهادي براي يک "موتور جستجوي نظرات"... 24 فصل1مقدمه1-1. مقدمه و ضرورت تحقيقاطلاع از نظر ديگران از نقطهنظرات گوناگون داراي اهميت فراواني است. تصور کنيد که قصد داريد کالا يا خدماتي را خريداري کنيد. آگاهي از نظر مثبت يا منفي افرادي که قبلا آن کالا يا خدمات را خريداري کردهاند چقدر براي شما اهميت دارد؟ آيا نظر آنها ميتواند بر تصميم شما تاثيرگذار باشد؟ اگر يک شرکت خدماتي داشتيد به چه ميزان علاقهمند به اطلاع از نظر مخاطبين خود در رابطه با مطلوبيت يا عدم مطلوبيت خدمات خود بوديد؟ آيا اطلاع از نظر آنها در اتخاذ تصميمات بهتر به شما کمک ميکرد؟ اگر يک کانديداي انتخاباتي بوديد تمايل داشتيد تا از اقبال يا عدم اقبال رايدهندگان نسبت به خود خبر داشته باشيد؟اگر به اطرافمان نگاه کنيم ميبينيم که افراد حقيقي و حقوقي گوناگون از شرکتهاي بزرگ و سياستمداران گرفته، تا افراد عادي جامعه در تصميمات کوچک و بزرگ خود تحت تاثير نظرات ديگران قرار دارند. طبيعتاً در چنين وضعيتي اطلاع از نظرات افراد اهميت فراواني پيدا ميکند.از طرف ديگر با ظهور وب و گسترش مشارکت کاربران در سالهاي اخير بهخصوص با ظهور پديدههايي مثل وبلاگها[1] و شبکههاي اجتماعي[2]، و تمايل کاربران براي اظهار و به اشتراکگذاري نظرات خود پيرامون مسائل مختلف، شاهد حجم انبوهي از نظرات مکتوبي هستيم که هرگز تاکنون با اين حجم، تنوع، و آساني در دسترس قرار نداشتهاند. اين موضوع بههمراه اهميت ذکرشده در مورد اطلاع از نظر ديگران توجه محققين علوم کامپيوتر بويژه محققين حوزهي دادهکاوي[3] را بهخود جلب کرده است و موجب شکلگيري حوزهاي جديد تحت عنوان "کاوش در نظرات[4]" گرديده است. بر اساس [1] شايد بتوان سال 2001 ميلادي را نقطهي عطفي براي اين توجهات دانست.به مرور زمان ابعاد گوناگون جديدي در حوزهي کاوش در نظرات نمايان گشتند و تحقيقات متنوعي در رابطه با هر يک از اين ابعاد شکل گرفتند. به عنوان نمونه نياز به اطلاع از هويت و مشخصات شخصي که يک نظر را اظهار کرده است مثلا براي تعيين ميزان سودمندي آن اظهار نظر، و يا نياز به تشخيص نظراتي که براي اهداف نامطلوب (از قبيل تبليغات جهتدار بهنفع يا برعليه يک کالا) درج شدهاند از جملهي اين ابعاد هستند. مروري بر تحقيقات انجامشده در حوزهي کاوش در نظرات را ميتوان در [1] و [2] ديد. در فصل دو به معرفي ابعاد گوناگون اين حوزه و نيز چالشهاي مشترک اين حوزه با حوزههاي ديگر متنکاوي[5] (نظير قطعهبندي متن[6] و برچسب زدن اجزاء گفتار[7])خواهيم پرداخت.وقتي شخصي در رابطه با چيزي نظري را بيان ميکند، اين نظر ميتواند حاوي ويژگيهاي احساسي نظير خشم، ترس، خوشحالي، و ... باشد. از جملهي ويژگيهاي احساسي موجود در نظرات که از مهمترين و اوليهترين بحثهايي بوده که در حوزهي کاوش در نظرات مطرح بوده است، گرايش يا به عبارت ديگر مثبت يا منفي بودن نظر اظهارشده در مورد هدف اظهارنظر است. از تشخيص اين ويژگي احساسي در ادبيات اين حوزه تحت عناوين "ردهبندي احساس[8]"، "تحليل احساس[9]"، "تشخيص قطبيت احساس[10]"، و "تشخيص گرايش احساس[11]" ياد ميشود. براي مثال اظهارنظر "تصوير اين تلويزيون خيلي با کيفيت است" حاوي احساس مثبت نسبت به کيفيت تصوير تلويزيون است و در طبقهبندي مثبت قرار ميگيرد، و اظهارنظر "تماشاي اين فيلم را به کسي توصيه نميکنم" حاوي احساس منفي نسبت به فيلم مورد نظر است.آگاهي از "گرايش احساس در نظرات[12]" کاربران در حوزههاي مختلف از قبيل تجارت، سياست، تعامل بين انسان و کامپيوتر (براي تعيين نوع عکسالعمل ماشين بر اساس نظر انسان)، و در انواع تصميمگيريهاي افراد حقيقي و حقوقي کاربرد فراواني دارد که در آغاز بحث برخي از آنها مورد اشاره قرار گرفتند. اين موضوع بههمراه حجم پايين کار انجامشدهي مرتبط در حوزهي زبان فارسي (در جستجوي انجامشده هيچ مقالهي منتشرشدهاي در اين حوزه براي زبان فارسي يافت نشد)، انجام مطالعه در اين رابطه براي نظرات بيانشده به زبان فارسي را ضروري مينمايد.علاوهبر نياز به تحقيقات در حوزهي مذکور، اکنون پس از حدود يک دهه که از شروع مطالعات در زمينهي کاوش در نظرات ميگذرد و ابعاد گوناگوني از آن روشن شده و تا حدودي برروي آنها تحقيق شده است، جاي خالي سيستمي که از محصولات خروجي از تحقيقات اين حوزههاي تحقيقاتي، به صورت مجتمع و ترکيبي بهره ببرد و با تجميع و هماهنگي بين آنها همراه با استفاده از محصولات تحقيقات زمينههاي مرتبط ديگر، به ارائهي سرويسهاي کاربردي و ترکيبياي بپردازد که بهتنهايي توسط هيچيک از اين بخشها و بدون همکاري با بخشهاي ديگر امکانپذير نخواهد بود ديده ميشود. چنين سيستمي که کاربران بتوانند انواع گوناگون از نيازهاي خود را بهخوبي به آن منتقل کنند و آنها را در مدت زمان کوتاهي دريافت کنند قطعا مورد استقبال شديد کاربران مختلف قرار خواهد گرفت. به عنوان مثال ممکن است توليد کنندگان يک کالاي تخصصي با کاربرد صنعتي، نياز به آگاهي از گرايش نظرات افرادي که داراي تخصص در آن صنعت هستند در رابطه با آن کالاي خاص و به صورت خلاصهشده داشته باشند. در چنين حالتي سيستم با استفاده از محصول بدستآمده از تحقيقات انجامشده براي تشخيص هويت اظهارنظرکنندگان و استخراج خصوصيات آنها، نظراتي که توسط افراد موردنظر بيان شدهاند را شناسايي ميکند؛ سپس از ميان آنها با استفاده از محصول تحقيقات انجامشده براي تشخيص هدف اظهارنظر، نظراتي که در رابطه با کالاي مورد نظر بيان شدهاند را جدا ميکند؛ بعد از آن مثبت يا منفي بودن گرايش اين نظرات را با استفاده از محصول بدستآمده از تحقيقات مربوط به "تشخيص گرايش احساس" تعيين ميکند؛ و نهايتاً با استفاده از محصول بدستآمده از تحقيقات انجامشده در رابطه با خلاصهسازي نتايج حاصل را خلاصهسازي کرده و به کاربر نمايش ميدهد. مثالهاي ديگري از نيازهايي متنوعي که کاربران مختلف ميتوانند با در اختيار داشتن چنين سيستمي به آنها دستيابي پيدا کنند عبارتند از : يافتن اشخاصي که در رابطه با يک هدف خاص داراي نظر مثبت هستند، يافتن نظرات منفي که در رابطه با هدفي خاص و در يک بازهي زماني خاص بيان شدهاند، و يافتن گرايش کاربراني که در يک منطقهي خاص سکونت دارند و در محدودهي سني خاصي هستند نسبت به يک موضوع اجتماعي. 1-2. اهداف تحقيقبر اساس ضرورتي که براي کار در حوزهي تشخيص گرايش احساس در نظرات کاربران بويژه در زبان فارسي ذکر شد در فصل چهار از اين پروژه به اين موضوع ميپردازيم و سعي در ردهبندي[13] گرايش نظرات کاربران در غالب دو ردهي مثبت و منفي خواهيم داشت.بنابر [2] اين مسئله ميتواند در قالب يک مسئلهي "يادگيري تحت نظارت[14]" بيان شود که داراي ردههاي مثبت، منفي، و خنثي است و دادههاي استفادهشده (براي آموزش[15] و آزمايش[16]) در تحقيقات موجود در اين رابطه، اغلب نظراتي است که کاربران در مورد کالاها اظهار کردهاند. مزيت استفاده از اين دادهها آماده بودن آنها به دليل مشخص بودن مثبت، منفي، يا خنثي بودن آنها ذکر شده است.براي فراهم کردن دادههاي مورد بررسي در اين پاياننامه، پس از بررسي زمينههاي گوناگون نظير نظرات کاربران در شبکههاي اجتماعي، و نظرات کاربران در مورد گوشيهاي موبايل، نهايتا نظرات کاربران در يکي از پربازديدترين پايگاههاي خبري يعني پايگاه خبري تابناک انتخاب گرديد. بهروز بودن و متنوع بودن اخبار درجشده در اين پايگاه بستر مناسبي براي ارزيابي نظرات مردم در رابطه با موضوعات گوناگون از قبيل سياسي، اجتماعي، و اقتصادي را فراهم ميکند.بهطور خلاصه هدف از کار انجامشده در فصل چهار از اين پاياننامه تشخيص مثبت يا منفي بودن گرايش احساس موجود در نظرات کاربران سايت خبري پربازديد تابناک با استفاده از برخي ردهبندهاي شناختهشده و مشخصههاي جديد ارائهشده است. در اين راستا تلاش ميشود تا قابليت ردهبندهاي مورد استفاده و حالات و ترکيبهاي گوناگون مشخصههاي معرفيشده مورد بررسي قرار گيرند.