پیشرفت تکنولوژی در حوزهی ارتباطات و افزایش ضریب نفوذ اینترنت میان کاربران باعث ایجاد بستری عظیم از اطلاعات شده است که زندگی روزمرهی انسانها را توصیف میکند. این توصیفات از دیدگاه تجاری از جایگاه ویژهای برخوردار است چرا که به راحتی مشخص میکند بیشترین نیاز کاربران در چه محصولات یا خدماتی نهفته است. همچنین کاربران علاقه دارند با دنبال کردن سلایق دیگران با مسائل روز آشنا باشند و جدیدترین اخبار را در اختیار داشته باشند.یکی از بسترهای ارتباطی فعال برای تحقق این توصیفات، بلاگستان است که در آن کاربران به واسطه منتشر کردن مطالب خود با دیگران به تبادل نظر می پردازند و در مدتی نه چندان طولانی اجتماعی را تشکیل میدهند که در پی رخدادهای واقعی از خود عکسالعمل نشان داده و باعث تشدید احساسات این مجموعه از کاربران میشود. این رفتار در صورت تحلیل میتواند نشانگر مسیر گرایش جامعه بوده و با کمّی کردن پارامترهایی که این جامعه و رفتار را توصیف میکنند میتوان به پیشبینی رفتار آتی آن نیز پرداخت.الگوریتم PSO مبتنی بر رفتارهای موجودات در طبیعت، که با مدل کردن حرکت گروهی از پرندگان برای یافتن غذا طراحی شده است، اساس مناسبی برای مدل کردن یک جامعه با این مشخصات است. با استفاده از این الگوریتم میتوان گامهای حرکت یک اجتماع از کاربران را دنبال کرده و با مدل کردن فرآیند حرکت، به پیشبینی جهت حرکت پرداخت.این پژوهش با ارائهی مدلی برای پردازش دادههای این اجتماع از کاربران، مبتنی بر الگوریتم PSO، راهحلی برای پردازش این دادهها در دنیای واقعی ارائه میدهد که بتواند با افزایش حجم داده مقیاسپذیری لازم را داشته باشد و در عین حال کارایی و دقت مورد نیاز را نیز ارائه دهد. دقت و کارایی این مدل با آزمون استاندارد کای دو سنجیده شده و نشانگر بهبود کارایی نسبت به این آزمون آماری بوده است.این مدل با کشف کردن گرایش عمومی بلاگستان در زمان قابل قبول و دقت مناسب، شرایط را برای پیشبینی گرایش آتی بلاگستان فراهم میکند به نحوی که با الگوریتمهای متداول یادگیریماشین بتوان پیشبینیهای مورد نیاز را انجام داد. دقت این پیشبینیها از سناریوهای واقعی مانند سیستم پیشنهاد دهندهی Netflix نتایج بهتری را کسب کرده است. چکیده.. دفهرست مطالب.. ذفهرست اشکال.. سفهرست جداول.. ص1فصل اول کلیات طرح.. 11.1مقدمه....................11.2فرضیه................... 21.3اهمیت و ضرورت................... 41.4اهداف................... 51.5پيشينهي تحقيق و کارهای مرتبط................... 62فصل دوم ادبیات و پیشینهی تحقیق.. 92.1مقدمه..................92.2 هوش جمعی.................. 92.2.1الگوریتم مورچهها................... 112.2.2بهینه سازی گروهی ذرات................... 132.3سیستمهای توزیعشده................162.3.1قانونهایی برای سیستمهای توزیع شده................. 182.4یادگیری ماشین................................. .................................................. 232.4.1اهداف و انگیزهها...............232.4.2تقسیمبندی مسایل...............242.4.3یادگیری بانظارت....................262.5Q-Learning 262.5.1مقایسه Q-learning با یادگیری با ناظر.. 272.5.2Q-Function 282.5.3مثال............ 292.6اپیزودهاییادگیری.. 302.7آزمون کای.................... 302.8معیار دقت و معیار بازخوانی................... 312.8.1معیارهای ارزیابی................313فصل سوم روششناسی تحقیق.. 333.1مقدمه................333.2مدل................343.3نمای منطقی.................363.3.1مسائل اساسی PSO.. 363.3.2اصلاح PSO بر اساس مسئله.. 383.4نمای داده.................... 433.5نمای مولفهای...............463.6جمعبندی...............484فصل چهارم یافتههای تحقیق.. 494.1مقدمه...................494.2پیکربندی.................494.2.1انتخاب بهترین مقدار برای پارامترهای PSO................504.3پیکربندی سختافزاری.............514.4نتایج................. 524.4.1مصورسازی رفتار PSO .........564.4.2 کارایی PSO و کای.. 624.4.3نتایج Q-learning 655 فصل پنجمنتیجهگیری و پیشنهادات705.1مقدمه......................................... 705.2مقیاسپذیری.................................... 705.3Q-Learning 725.4کارهای آتی.................................... 736منابع..................... 757Abstract79 فهرست اشکالشکل1‑1- تعداد مقالات در حوزههای مرتبط با هوش جمعی بر اساس گزارش Web of Science [39]3شکل2‑1- نمایی از یک گروه پرنده[40]10شکل2‑2– روال حرکت مورچه در ACO[41]12شکل 2‑3به روز رسانی بردار سرعت و مکان در PSO [42]15شکل2‑4- مثالی از یک سییستم توزیع شده [47]18شکل2‑5 - مثالی از یک Distributed Data Naming Scheme[48]20شکل2‑6- دو نوع متفاوت از replication در سیستمهای توزیع شده 21شکل2‑7– روال کلی یک الگوریتم یادگیری ماشین (یادگیری با نظارت) [43]24شکل 2‑8 - فلوچارت Q learning[44]27شکل 2‑9 - تفاوت یادگیری با نظارت و Q-learning. 28شکل2‑10- مثال مقادیر پاداش در الگوریتم Q-Learning. 29شکل2‑11 - مثال از حرکت در حالتهای مختلف- Q-learning. 29شکل2‑12- معیار دقت و معیار بازخوانی [45]32شکل3‑1- محاسبهی مقدار بهینه به طور مداوم.. 36شکل3‑2- روند کاری Aggregator40شکل3‑3 - رابطهی افراد با پستهای وبلاگ.. 44شکل 3‑4- جدول رتبهبندی نویسندهها.. 44شکل3‑5- ارتباط بین مولفهها.. 47شکل 4‑1- مقادیر پارامترهای r1 و r2. 52شکل4‑2- تغییرات مکان ذرات.. 53شکل4‑3 - خطای کشف trend در PSO نسبت به آزمون کای.. 54شکل4‑4 - مقایسه خطای گرایش با خطای بردار سرعت.. 55شکل4‑5 - ارتباط fitness در الگوریتم PSO با trend و velocity. 56شکل4‑6 - نموادر فاصله دو گرایش بر اساس تکرار.. 57شکل4‑7 - مصورسازی تکرار 10 از الگوریتم PSO.. 58شکل4‑8 - مصورسازی تکرار 500 از الگوریتم PSO.. 59شکل4‑9- مصورسازی تکرار 1000 از الگوریتم PSO.. 59شکل4‑10- مصورسازی تکرار 1500 از الگوریتم PSO.. 60شکل4‑11- مصورسازی تکرار 2000 از الگوریتم PSO.. 60شکل4‑12- مصورسازی تکرار 3000 از الگوریتم PSO.. 61شکل 4‑13- مصورسازی تکرار 4000 از الگوریتم PSO.. 61شکل 4‑14- کارایی PSO در مقایسه با کای (مقدار کمتر بهتر است) 63شکل 4‑15 - ضریب بهبود کارایی PSO به ازای افزایش منابع نسبت به کای 64شکل 4‑16 - نتایج Q-learning در تکرار 50 ام.. 66شکل4‑17 - نتایج Q-learning در تکرار 500 ام.. 66شکل4‑18-نتایج Q-learning در تکرار 1000 ام.. 67شکل 4‑19- تفاوت زمانی بازهی مورد بررسی در الگوریتم Q-Learning و گزارشات واقعی TheVerge. 67شکل4‑20- خطای پیشبینی در Q-learning. 68شکل4‑21 - موثرترین کاربران بلاگستان.. 69شکل4‑22 - خطا در تکرارهای مختلف.. 69شکل5‑1- اضافه کردن نود به سیستم.. 72جدول3‑1- توصیف ویژگیهای وبلاگ در مدل.. 45جدول4‑1 - مقدار پارامترهای PSO.. 50جدول4‑2- مقایسهprecision و recall در PSO و کای.. 62جدول4‑3- کارایی الگوریتم PSO و کای با تعداد CPUها ی متفاوت 63جدول 4‑4- نتایج میانگین سرعت و گرایش در الگوریتم PSO.. 65 1 فصل اول 1.1 مقدمهبا رشد سریع رسانههای جمعی و فردی در وب که سرویسهایی در قالب شبکههای اجتماعی[1]، وبلاگ[2]، میکروبلاگ[3] ، اشتراک علاقهمندیها و غیره ارائه میدهند، امروزه این امکان برای کاربران وب فراهم شده که از نظرات دیگران پیرامون مباحث گوناگون، سریعتر آگاه شوند، رفتارهای جمعی کاربران را دنبال کنند و «پربینندهترین» مطالبی که در این قالبها ارائه میشود را تشخیص دهند، دنبال کنند و از گرایش جمعی کاربران[4] در یک محیط مجازی اطلاع یابند.سوالات اساسی این پژوهش این است که آیا در یک بستر پردازشی توزیعشده با اعمال روشهای هوش جمعی[5] بر پیامهای رد و بدل شده در محیط بلاگستان میتوان در زمان قابل قبول گرایش عمومیمحتوای انتشاریافته در بلاگستان را تشخیص داد به نحوی که الگوریتم و سیستم توسعه یافته مقیاسپذیری را نقض یا تهدید نکند؟ (با توجه به اینکه اطلاعات مربوط به گرایش عمومیبلاگستان یکی از اطلاعاتی است که در اختیار کاربران قرار میگیرد، منظور از زمان قابل قبول فاصله زمانی بین دو تغییر در مهمترین گرایش بلاگستان است که در صورت تشخیص گرایش با زمانی طولانیتر از این بازه، کاربران بلاگستان اطلاعات مربوط به محتوای مهمترین گرایش را حداقل یکبار از دست خواهند داد.)در صورت تشخیص گرایش در زمان قابل قبول آیا با آموزش یک سیستم مبتنی بر الگوریتمهای یادگیری ماشین و با بهرهبرداری از دادههای مربوط به پیشنهی تغییرات در روند گرایش عمومیدر بلاگستان و کشف الگوهای تغییرات، تحلیلی از گرایشات آتی بلاگستان حاصل میشود؟روشهای هوش جمعی مبتنی بر عاملهای[6] مستقل از هم هستند که هرکدام مسیر مخصوص خود را در فضای حالت مسئله پیمایش میکند و به دنبال جواب مسئله هستند. این عاملها علاوه بر ایجاد قابلیت حل مسئله به صورت موازی، به دلیل پراکندگی در فضای مسئله، احتمال افتادندر دام کمینهي محلی[7] را کاهش میدهند. علاوه بر این ویژگیها میتوان به موارد زیر درباره اهمیت و دلیل توجه پژوهشگران به این الگوریتمها اشاره کرد [1]:شکل1‑1تعداد مقالات در حوزههای مرتبط با هوش جمعی بر اساس گزارش Web of Science [39]این خصوصیات و همچنین ذات توزیعشدهی عاملهای حل مسئله در الگوریتمهای هوش جمعی کمک میکنند تا با استقرار این عاملها در یک محیط پردازشی توزیع شده به طور موازی فضای حالت مسئله را بررسی کرده و پاسخهای بهینه را یافت. زمانی که فضای حالت مسئله به طور موازی مورد پردازش قرار گیرد و در صورت شکسته شدن فضای حالت [8]، طوری که واحدهای پردازش مختلف متناسب با توانشان حجمیاز فضای حالت را پردازش کند، انتظار میرود که عملیات در زمان قابل قبولتری نسبت به حالتی که کل فضای حالت به وسیلهی یک الگوریتم غیرموازی بررسی میشود به نتیجه برسد.تا کنون بررسیهای مختلفی در زمینهی پیشبینی حالات فردی و جمعی کاربران انجام شده. برای مثال میتوان به [2] که سایتهای LiveJournal و WeFeelFine.org بررسی شده و در این سایتها افراد حالات روحی و روزانهی خود را ثبت میکنند و برای هرکدام برچسبهایی مانند sad، happy و غیره قرار میدهند. در [2] این برچسبها بررسی شدهاند و حالات آتی کاربران با درصد خطای قابل قبولی پیشبینی شدهاند و این پیشبینیها در قالب نمودارهای جذابی ارائه گردیده است. در کارهای دیگری (مانند [3] و [4]) به وسیلهی نوعی تحلیل دیگر به نام تمایلکاوی یا گرایشکاوی[9]، که بر اساس مدلی مبتنی بر زمان[10] از واکنشهای کاربران نسبت به کالاهای مختلف است، تلاش شده که بازار آن کالا کمک کنند.با توجه به نتایجی که از این بررسیها به دست آمده انتظار داریم که روند مشابهی در رفتار جمعی کاربران در محیط بلاگستان مشاهده کرده و بتوان با تحلیل این روند به پیشبینی رفتار آتی آنان پرداخت. برای ساخت پیشنهای از روند تغییرات گرایشات کاربران از یک الگوریتم یادگیری ماشین مثل Temporal learning، Q-Learning يا Reinforcement Learning بهره خواهیم برد و در فاز ابتدایی تغییرات گرایشات کاربران در یک بازهی زمانی مشخص را با استفاده از خصوصیات یک پیام در وبلاگ، به عنوان مجموعه دادهی آموزش در نظر میگیریم و انتظار داریم پس از آموزش بتوان گرایش بعدی کاربران را تشخیص داد، خطای محاسبه را به دست آورد و نتیجه کار را از نظر کارایی و دقت بررسی کرده با آزمونهای مناسب ارزیابی کرد.استخراج بینش[11] از انبوه زیادی از داده، کشف روابط پیچیده بین این دادهها و قابلیتهای مشابه بدون انجام عملیات دادهکاوی[12] و تحلیل دادهها[13] در این مجموعههای بزرگ داده امکانپذیر نیست و طیف گستردهای از سرویسها و پایگاههای اطلاعاتی از شبکههای اجتماعی بزرگ مثل توییتر[14] و فیسبوک[15] ، تا موتورهای جستجو و انتشارات، از دادهکاوی برای بهرهبرداری از سلایق کاربران، دقیقتر کردن نتایج جستجو و یافتن گرایشات جمعی کاربران استفاده میکنند. این قابلیتها علاوه بر بالا بردن دقت جستجو و کمک به کاربران برای دستیابی هرچه سریعتر به دادههای مورد نیازشان، تاثیر وسیعی بر رفتارهای اجتماعی کاربران نیز گذاشته است. برای مثال[5,6]:این آمار نشان میدهد که کشف گرایش عمومیکاربران علاوه بر رفتار آنها در دنیای مجازی بازتابی از رفتار آنها حقیقی آنهاست که و این تحلیل در حوزهی تجارت، تبلیغات و علوم اجتماعی بسیار حائز اهمیت است.البته گرچه مبحث دادهکاوی در حوزهی فنآوری اطلاعات حوزهی جدید و نوپایی نیست اما تمایلات و نیازهای امروزی در این حوزه که با حجمهای عظیم داده و پیچیدگیهای بیشتر روبرو است. برای مثال توییتر با 500 میلیون کاربر فعال و 340 میلیون توییت در روز باید روزانه بیش از 1.6 میلیارد تراکنش را در دادههای خود اعمال کند و همزمان گرایشات کاربران را نیز استخراج کند[7,8]. این حجمهای عظیم داده و پردازش نیازهايي جدي در اين حوزه ايجاب كردهاند كه از آن جمله ميتوان به پردازشهای دقیقتر و هوشمندانهتر در زمانی قابل قبول برای کاربر اشاره كرد. این نیاز مقدمهی ورود هوش مصنوعی[16] و بهینهسازی [17] به این حوزه به منظور دستیابی به نتایج صحیحتر در دادهکاوی، ارائهی تحلیلهای هوشمندانهتر و کشف الگوهای رفتاری درجریان دادههای[18] منتشره در وب است.
اراﺋﻪي ﻣﺪﻟﻲ ﺑﺮاي ﭘﻴﺶﺑﻴﻨﻲ ﮔﺮاﻳﺶ ﻋﻤﻮﻣﻲ در ﺑﻼﮔﺴﺘﺎن ﺑﺎ اﺳﺘﻔﺎده از روشﻫﺎي ﻫﻮش ﺟﻤﻌﻲ در ﺳﻴﺴﺘﻢﻫﺎي ﺗﻮزﻳﻊﺷﺪه word
پیشرفت تکنولوژی در حوزهی ارتباطات و افزایش ضریب نفوذ اینترنت میان کاربران باعث ایجاد بستری عظیم از اطلاعات شده است که زندگی روزمرهی انسانها را توصیف میکند. این توصیفات از دیدگاه تجاری از جایگاه ویژهای برخوردار است چرا که به راحتی مشخص میکند بیشترین نیاز کاربران در چه محصولات یا خدماتی نهفته است. همچنین کاربران علاقه دارند با دنبال کردن سلایق دیگران با مسائل روز آشنا باشند و جدیدترین اخبار را در اختیار داشته باشند.یکی از بسترهای ارتباطی فعال برای تحقق این توصیفات، بلاگستان است که در آن کاربران به واسطه منتشر کردن مطالب خود با دیگران به تبادل نظر می پردازند و در مدتی نه چندان طولانی اجتماعی را تشکیل میدهند که در پی رخدادهای واقعی از خود عکسالعمل نشان داده و باعث تشدید احساسات این مجموعه از کاربران میشود. این رفتار در صورت تحلیل میتواند نشانگر مسیر گرایش جامعه بوده و با کمّی کردن پارامترهایی که این جامعه و رفتار را توصیف میکنند میتوان به پیشبینی رفتار آتی آن نیز پرداخت.الگوریتم PSO مبتنی بر رفتارهای موجودات در طبیعت، که با مدل کردن حرکت گروهی از پرندگان برای یافتن غذا طراحی شده است، اساس مناسبی برای مدل کردن یک جامعه با این مشخصات است. با استفاده از این الگوریتم میتوان گامهای حرکت یک اجتماع از کاربران را دنبال کرده و با مدل کردن فرآیند حرکت، به پیشبینی جهت حرکت پرداخت.این پژوهش با ارائهی مدلی برای پردازش دادههای این اجتماع از کاربران، مبتنی بر الگوریتم PSO، راهحلی برای پردازش این دادهها در دنیای واقعی ارائه میدهد که بتواند با افزایش حجم داده مقیاسپذیری لازم را داشته باشد و در عین حال کارایی و دقت مورد نیاز را نیز ارائه دهد. دقت و کارایی این مدل با آزمون استاندارد کای دو سنجیده شده و نشانگر بهبود کارایی نسبت به این آزمون آماری بوده است.این مدل با کشف کردن گرایش عمومی بلاگستان در زمان قابل قبول و دقت مناسب، شرایط را برای پیشبینی گرایش آتی بلاگستان فراهم میکند به نحوی که با الگوریتمهای متداول یادگیریماشین بتوان پیشبینیهای مورد نیاز را انجام داد. دقت این پیشبینیها از سناریوهای واقعی مانند سیستم پیشنهاد دهندهی Netflix نتایج بهتری را کسب کرده است. چکیده.. دفهرست مطالب.. ذفهرست اشکال.. سفهرست جداول.. ص1فصل اول کلیات طرح.. 11.1مقدمه....................11.2فرضیه................... 21.3اهمیت و ضرورت................... 41.4اهداف................... 51.5پيشينهي تحقيق و کارهای مرتبط................... 62فصل دوم ادبیات و پیشینهی تحقیق.. 92.1مقدمه..................92.2 هوش جمعی.................. 92.2.1الگوریتم مورچهها................... 112.2.2بهینه سازی گروهی ذرات................... 132.3سیستمهای توزیعشده................162.3.1قانونهایی برای سیستمهای توزیع شده................. 182.4یادگیری ماشین................................. .................................................. 232.4.1اهداف و انگیزهها...............232.4.2تقسیمبندی مسایل...............242.4.3یادگیری بانظارت....................262.5Q-Learning 262.5.1مقایسه Q-learning با یادگیری با ناظر.. 272.5.2Q-Function 282.5.3مثال............ 292.6اپیزودهاییادگیری.. 302.7آزمون کای.................... 302.8معیار دقت و معیار بازخوانی................... 312.8.1معیارهای ارزیابی................313فصل سوم روششناسی تحقیق.. 333.1مقدمه................333.2مدل................343.3نمای منطقی.................363.3.1مسائل اساسی PSO.. 363.3.2اصلاح PSO بر اساس مسئله.. 383.4نمای داده.................... 433.5نمای مولفهای...............463.6جمعبندی...............484فصل چهارم یافتههای تحقیق.. 494.1مقدمه...................494.2پیکربندی.................494.2.1انتخاب بهترین مقدار برای پارامترهای PSO................504.3پیکربندی سختافزاری.............514.4نتایج................. 524.4.1مصورسازی رفتار PSO .........564.4.2 کارایی PSO و کای.. 624.4.3نتایج Q-learning 655 فصل پنجمنتیجهگیری و پیشنهادات705.1مقدمه......................................... 705.2مقیاسپذیری.................................... 705.3Q-Learning 725.4کارهای آتی.................................... 736منابع..................... 757Abstract79 فهرست اشکالشکل1‑1- تعداد مقالات در حوزههای مرتبط با هوش جمعی بر اساس گزارش Web of Science [39]3شکل2‑1- نمایی از یک گروه پرنده[40]10شکل2‑2– روال حرکت مورچه در ACO[41]12شکل 2‑3به روز رسانی بردار سرعت و مکان در PSO [42]15شکل2‑4- مثالی از یک سییستم توزیع شده [47]18شکل2‑5 - مثالی از یک Distributed Data Naming Scheme[48]20شکل2‑6- دو نوع متفاوت از replication در سیستمهای توزیع شده 21شکل2‑7– روال کلی یک الگوریتم یادگیری ماشین (یادگیری با نظارت) [43]24شکل 2‑8 - فلوچارت Q learning[44]27شکل 2‑9 - تفاوت یادگیری با نظارت و Q-learning. 28شکل2‑10- مثال مقادیر پاداش در الگوریتم Q-Learning. 29شکل2‑11 - مثال از حرکت در حالتهای مختلف- Q-learning. 29شکل2‑12- معیار دقت و معیار بازخوانی [45]32شکل3‑1- محاسبهی مقدار بهینه به طور مداوم.. 36شکل3‑2- روند کاری Aggregator40شکل3‑3 - رابطهی افراد با پستهای وبلاگ.. 44شکل 3‑4- جدول رتبهبندی نویسندهها.. 44شکل3‑5- ارتباط بین مولفهها.. 47شکل 4‑1- مقادیر پارامترهای r1 و r2. 52شکل4‑2- تغییرات مکان ذرات.. 53شکل4‑3 - خطای کشف trend در PSO نسبت به آزمون کای.. 54شکل4‑4 - مقایسه خطای گرایش با خطای بردار سرعت.. 55شکل4‑5 - ارتباط fitness در الگوریتم PSO با trend و velocity. 56شکل4‑6 - نموادر فاصله دو گرایش بر اساس تکرار.. 57شکل4‑7 - مصورسازی تکرار 10 از الگوریتم PSO.. 58شکل4‑8 - مصورسازی تکرار 500 از الگوریتم PSO.. 59شکل4‑9- مصورسازی تکرار 1000 از الگوریتم PSO.. 59شکل4‑10- مصورسازی تکرار 1500 از الگوریتم PSO.. 60شکل4‑11- مصورسازی تکرار 2000 از الگوریتم PSO.. 60شکل4‑12- مصورسازی تکرار 3000 از الگوریتم PSO.. 61شکل 4‑13- مصورسازی تکرار 4000 از الگوریتم PSO.. 61شکل 4‑14- کارایی PSO در مقایسه با کای (مقدار کمتر بهتر است) 63شکل 4‑15 - ضریب بهبود کارایی PSO به ازای افزایش منابع نسبت به کای 64شکل 4‑16 - نتایج Q-learning در تکرار 50 ام.. 66شکل4‑17 - نتایج Q-learning در تکرار 500 ام.. 66شکل4‑18-نتایج Q-learning در تکرار 1000 ام.. 67شکل 4‑19- تفاوت زمانی بازهی مورد بررسی در الگوریتم Q-Learning و گزارشات واقعی TheVerge. 67شکل4‑20- خطای پیشبینی در Q-learning. 68شکل4‑21 - موثرترین کاربران بلاگستان.. 69شکل4‑22 - خطا در تکرارهای مختلف.. 69شکل5‑1- اضافه کردن نود به سیستم.. 72جدول3‑1- توصیف ویژگیهای وبلاگ در مدل.. 45جدول4‑1 - مقدار پارامترهای PSO.. 50جدول4‑2- مقایسهprecision و recall در PSO و کای.. 62جدول4‑3- کارایی الگوریتم PSO و کای با تعداد CPUها ی متفاوت 63جدول 4‑4- نتایج میانگین سرعت و گرایش در الگوریتم PSO.. 65 1 فصل اول 1.1 مقدمهبا رشد سریع رسانههای جمعی و فردی در وب که سرویسهایی در قالب شبکههای اجتماعی[1]، وبلاگ[2]، میکروبلاگ[3] ، اشتراک علاقهمندیها و غیره ارائه میدهند، امروزه این امکان برای کاربران وب فراهم شده که از نظرات دیگران پیرامون مباحث گوناگون، سریعتر آگاه شوند، رفتارهای جمعی کاربران را دنبال کنند و «پربینندهترین» مطالبی که در این قالبها ارائه میشود را تشخیص دهند، دنبال کنند و از گرایش جمعی کاربران[4] در یک محیط مجازی اطلاع یابند.سوالات اساسی این پژوهش این است که آیا در یک بستر پردازشی توزیعشده با اعمال روشهای هوش جمعی[5] بر پیامهای رد و بدل شده در محیط بلاگستان میتوان در زمان قابل قبول گرایش عمومیمحتوای انتشاریافته در بلاگستان را تشخیص داد به نحوی که الگوریتم و سیستم توسعه یافته مقیاسپذیری را نقض یا تهدید نکند؟ (با توجه به اینکه اطلاعات مربوط به گرایش عمومیبلاگستان یکی از اطلاعاتی است که در اختیار کاربران قرار میگیرد، منظور از زمان قابل قبول فاصله زمانی بین دو تغییر در مهمترین گرایش بلاگستان است که در صورت تشخیص گرایش با زمانی طولانیتر از این بازه، کاربران بلاگستان اطلاعات مربوط به محتوای مهمترین گرایش را حداقل یکبار از دست خواهند داد.)در صورت تشخیص گرایش در زمان قابل قبول آیا با آموزش یک سیستم مبتنی بر الگوریتمهای یادگیری ماشین و با بهرهبرداری از دادههای مربوط به پیشنهی تغییرات در روند گرایش عمومیدر بلاگستان و کشف الگوهای تغییرات، تحلیلی از گرایشات آتی بلاگستان حاصل میشود؟روشهای هوش جمعی مبتنی بر عاملهای[6] مستقل از هم هستند که هرکدام مسیر مخصوص خود را در فضای حالت مسئله پیمایش میکند و به دنبال جواب مسئله هستند. این عاملها علاوه بر ایجاد قابلیت حل مسئله به صورت موازی، به دلیل پراکندگی در فضای مسئله، احتمال افتادندر دام کمینهي محلی[7] را کاهش میدهند. علاوه بر این ویژگیها میتوان به موارد زیر درباره اهمیت و دلیل توجه پژوهشگران به این الگوریتمها اشاره کرد [1]:شکل1‑1تعداد مقالات در حوزههای مرتبط با هوش جمعی بر اساس گزارش Web of Science [39]این خصوصیات و همچنین ذات توزیعشدهی عاملهای حل مسئله در الگوریتمهای هوش جمعی کمک میکنند تا با استقرار این عاملها در یک محیط پردازشی توزیع شده به طور موازی فضای حالت مسئله را بررسی کرده و پاسخهای بهینه را یافت. زمانی که فضای حالت مسئله به طور موازی مورد پردازش قرار گیرد و در صورت شکسته شدن فضای حالت [8]، طوری که واحدهای پردازش مختلف متناسب با توانشان حجمیاز فضای حالت را پردازش کند، انتظار میرود که عملیات در زمان قابل قبولتری نسبت به حالتی که کل فضای حالت به وسیلهی یک الگوریتم غیرموازی بررسی میشود به نتیجه برسد.تا کنون بررسیهای مختلفی در زمینهی پیشبینی حالات فردی و جمعی کاربران انجام شده. برای مثال میتوان به [2] که سایتهای LiveJournal و WeFeelFine.org بررسی شده و در این سایتها افراد حالات روحی و روزانهی خود را ثبت میکنند و برای هرکدام برچسبهایی مانند sad، happy و غیره قرار میدهند. در [2] این برچسبها بررسی شدهاند و حالات آتی کاربران با درصد خطای قابل قبولی پیشبینی شدهاند و این پیشبینیها در قالب نمودارهای جذابی ارائه گردیده است. در کارهای دیگری (مانند [3] و [4]) به وسیلهی نوعی تحلیل دیگر به نام تمایلکاوی یا گرایشکاوی[9]، که بر اساس مدلی مبتنی بر زمان[10] از واکنشهای کاربران نسبت به کالاهای مختلف است، تلاش شده که بازار آن کالا کمک کنند.با توجه به نتایجی که از این بررسیها به دست آمده انتظار داریم که روند مشابهی در رفتار جمعی کاربران در محیط بلاگستان مشاهده کرده و بتوان با تحلیل این روند به پیشبینی رفتار آتی آنان پرداخت. برای ساخت پیشنهای از روند تغییرات گرایشات کاربران از یک الگوریتم یادگیری ماشین مثل Temporal learning، Q-Learning يا Reinforcement Learning بهره خواهیم برد و در فاز ابتدایی تغییرات گرایشات کاربران در یک بازهی زمانی مشخص را با استفاده از خصوصیات یک پیام در وبلاگ، به عنوان مجموعه دادهی آموزش در نظر میگیریم و انتظار داریم پس از آموزش بتوان گرایش بعدی کاربران را تشخیص داد، خطای محاسبه را به دست آورد و نتیجه کار را از نظر کارایی و دقت بررسی کرده با آزمونهای مناسب ارزیابی کرد.استخراج بینش[11] از انبوه زیادی از داده، کشف روابط پیچیده بین این دادهها و قابلیتهای مشابه بدون انجام عملیات دادهکاوی[12] و تحلیل دادهها[13] در این مجموعههای بزرگ داده امکانپذیر نیست و طیف گستردهای از سرویسها و پایگاههای اطلاعاتی از شبکههای اجتماعی بزرگ مثل توییتر[14] و فیسبوک[15] ، تا موتورهای جستجو و انتشارات، از دادهکاوی برای بهرهبرداری از سلایق کاربران، دقیقتر کردن نتایج جستجو و یافتن گرایشات جمعی کاربران استفاده میکنند. این قابلیتها علاوه بر بالا بردن دقت جستجو و کمک به کاربران برای دستیابی هرچه سریعتر به دادههای مورد نیازشان، تاثیر وسیعی بر رفتارهای اجتماعی کاربران نیز گذاشته است. برای مثال[5,6]:این آمار نشان میدهد که کشف گرایش عمومیکاربران علاوه بر رفتار آنها در دنیای مجازی بازتابی از رفتار آنها حقیقی آنهاست که و این تحلیل در حوزهی تجارت، تبلیغات و علوم اجتماعی بسیار حائز اهمیت است.البته گرچه مبحث دادهکاوی در حوزهی فنآوری اطلاعات حوزهی جدید و نوپایی نیست اما تمایلات و نیازهای امروزی در این حوزه که با حجمهای عظیم داده و پیچیدگیهای بیشتر روبرو است. برای مثال توییتر با 500 میلیون کاربر فعال و 340 میلیون توییت در روز باید روزانه بیش از 1.6 میلیارد تراکنش را در دادههای خود اعمال کند و همزمان گرایشات کاربران را نیز استخراج کند[7,8]. این حجمهای عظیم داده و پردازش نیازهايي جدي در اين حوزه ايجاب كردهاند كه از آن جمله ميتوان به پردازشهای دقیقتر و هوشمندانهتر در زمانی قابل قبول برای کاربر اشاره كرد. این نیاز مقدمهی ورود هوش مصنوعی[16] و بهینهسازی [17] به این حوزه به منظور دستیابی به نتایج صحیحتر در دادهکاوی، ارائهی تحلیلهای هوشمندانهتر و کشف الگوهای رفتاری درجریان دادههای[18] منتشره در وب است.