چکيده :پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصهسازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هممرجع را بررسی نماید، کمک شایانی به انجامِ موفقیتآمیز این وظایف خواهد نمود. روشهای تشخیص مرجعمشترک را میتوان به دو دستهی روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم نمود. روشهای زبانشناسی بیشتر به اطلاعات زبانشناسی نیاز دارند، البته مشکل این روشها این است که پر خطا و طولانی میباشند. از طرف دیگر روشهای یادگیری ماشین کمتر به اطلاعات زبانشناسی نیاز دارند و نتایج حاصل از آنها قابل اعتمادتر است. در این پایاننامه تلاش میکنیم تا فرآیند تشخیص مرجعمشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشارهها، عبارتهای هممرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانهگذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیشبینی عبارتهای اسمی هممرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکرهای با نشانههایی شامل محدودهی اشاره، نوع اشاره، هستهی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیهمیکنیم، این پیکره میتواند به عنوان اولین پیکره دارای نشانههای اشاره و هممرجعی، مبنای کار بسیاری از پژوهشهای مربوط به شناسایی و کشف اشاره و تحلیل هممرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویتهای میان اشارهها، سیستمی ارائهمیکنیم که اشارههای موجود در متن را شناسایی کرده و سپس نمونههای مثبت و منفی را از پیکره لوتوس استخراج میکند. در نهایت نیز با استفاده از الگوریتمهای یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونههای حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان میدهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.کلمات کليدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی فصل ۱: آشنایی با تشخیص مرجع مشترک.............۱1-۱. مقدمه و بیان مسئله...................... 11-2. بررسی ارتباطات هممرجعی.................. 6 1-2-1. هممرجع در مقابل پیشایند 9 1-۲-1-۱. ارتباط هممرجع................ ۱0 1-۲-1-2. ارتباط پیشایندی................. 111-۲-۲. تحلیل پیشایند..................... 16 1-۲-۳. تحلیل مرجع مشترک.................. 16 1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی ۱71-3.جمعبندی................................. 20فصل 2 : بخش اول.............................. 212-1-۱. پیشینه تشخیص مرجع مشترک.............. 212-1-۲. روشهای زبانشناسی..................... 22 2-1-۲-1. فاکتورهای حذف کننده 232-1-۳-۲-۱. تطبیق جنس و عدد....... 23 2-1-۳-۲-۱. تطبیق معنایی.......... 242-1-۲-۲. فاکتورهای امتیاز دهنده 242-1-۳-۲-۱. مشابهت نحوی........... 242-1-۳-۲-۱. مشابهت معنایی......... 252-1-۳-۲-۱. بارز بودن............. 252-1-۳. روشهای یادگیری ماشین................. 27 2-1-۳-۱. ویژگیها....................... 28 2-1-۳-۲. مدلهای جفت اشاره.............. 282-1-۳-۲-۱. رده بندی جفت عبارتهای اسمی322-1-۳-۲-۱-1. درخت تصمیم........ 332-1-۳-۲-۲.افراز..................... 35 2-1-۳-۲-۲-۱.درختِ بل 362-1-۳-۲-۲-۲. افراز گراف 38 2-1-۳-۳. روشهای مبتنی بر پیکره.......... 402-1-۳-۴. روشهای جایگزین................... 442-1-۳-۴-۱. روش همآموزی................ 442-1-۳-۴-۲. مدل احتمالاتی مرتبه اول 46 2-1-۳-۴-۳. رتبهبندی................. 47 2-1-۳-۴-۴. فیلدهای تصادفی شرطی 492-1-۳-۴-۵. خوشهبندی.................. 512-1-۴. جمعبندی.............................. 56فصل 2: بخش دوم............................... 572-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هممرجع582-2-۲. پیکره بیژنخان......................... 592-2-۳. پیکره لوتوس........................... 602-2-۴.شیوههای نشانهگذاری پیکره لوتوس......... 622-2-۴-۱. نشانهگذاری انواع موجودیتها....... 62 2-2-۴-۱-۱. موجودیت شخص................. 64 2-2-۴-۱-۲. موجودیتسازمان............... 642-2-۴-۱-۳. موجودیت مکان................ 66 2-2-۴-۱-۴. موجودیتسیاسی................ 662-2-۴-۲.کلاس هر موجودیت.................... 68 2-2-۴-۲-۱.غیر ارجاعی.................. 69 2-2-۴-۲-۲.ارجاعی...................... 69 2-2-۴-۲-۲-۱.ارزیابی به شکل منفی.... 69 2-2-۴-۲-۲-۲.ارجاعی خاص............. 70 2-2-۴-۲-۲-۳.ارجاعی عمومی........... 702-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده.... 702-2-۴-۳.انواع اشاره/سطوح اشاره............ 712-2-۴-۳-۱.اشاره ساده................... 72 2-2-۴-۳-۱-۱.محدوده اشاره........... 722-2-۴-۳-۱-۲. هسته اشاره............ 722-2-۴-۳-۱-۳.انواع اشاره ساده....... 722-2-۴-۳-۲.ساختارهای پیچیده............... 742-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل752-2-۵.جمعبندی................................ 75فصل 3: الگوریتمهای پیشنهادی.................. 763-۱. رده بندی دودویی......................... 76 3-1-1.جدا کنندههای خطی..................... 77 3-1-1-1 پرسپترون........................ 78 3-1-1-2 ماشین بردار پشتیبان............. 80 3-1-1-3 درخت تصمیم...................... 853-۲.خوشهبندی................................. 88 3-2-1 .الگوریتمهای افراز بستهای........... 89 3-2-1-1 .خوشهبندی سلسله مراتبی پایین به بالا 903-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی933-3.جمعبندی.................................. 96فصل 4: سیستم ارزیابی......................... 974-۱.مقدمه.................................... 974-۲.سیستم شناسایی اشاره لوتوس................ 98 4-2-1 .بانک اطلاعاتی....................... 984-2-2.سیستم شناسایی اشاره................ 1024-3.تشخیص اشارههای هم مرجع................... 1034-3-1 ویژگیها............................ 1044-3-2.الگوریتم یادگیری................... 105 4-3-3.معیار ارزیابی...................... 1074-3-4.نتیجه ارزیابی...................... 110 4-3-4-1.نتایج بدست آمده............... 110 4-3-4-.2چالشها و تحلیل خطا............ 1124-4.جمعبندی.................................. 115فصل 5 :نتیجه گیری و پیشنهادها............... 1165-۱.نتیجهگیری............................... 1165-2.پیشنهادها................................ 118فصل .6 منابع................................ 121 فهرست جدولهاعنوانصفحهجدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع وپیشایند ۱1جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک23جدول 2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک 30جدول 2-۳: معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند............................................. 55جدول 2-4: مشخصات مربوط به انواع موجودیتها.... 62جدول2-5: زیر گروههای موجودیت مشخص............ 64جدول2-6: زیر گروههای موجودیت سازمان.......... 65جدول 2-7: زیر گروههای موجودیت مکان........... 66جدول 2-8: زیر گروههای موجودیت سیاسی.......... 67جدول 2-9: حالتهای خاص موجودیتهای سیاسی....... 68جدول 2-10: انواع طبقهبندی اشاره............... 71جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان 100جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشارهها101جدول 4-3: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک106جدول 4-4: حالتهای ممکن نتایج یک ماشین یادگیر. 108جدول 4-5: نتایج ارزیابی الگوریتمهای پایه مورد بررسی 110جدول 4-6: نتایج ارزیابی الگوریتم SVM با هستههای متفاوت 111جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدلهای متفاوت 112 فهرست شکلهاعنوانصفحهشکل1-۱. انواع روابط ممکن میان دو عبارت اسمی . 12شکل1-۲. میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی...................................... ۱6شکل2-۱. نمونهای از نمونههای مثبت و منفی که توسط ۴.5C تولید شده است.......................................... 31شکل2-۲. درختِ بل به ازای سه عبارت اسمی........ 37شکل2-3. شمایی از نشانهگذاری پیکره بیژنخان.... 60شکل2-4. شمایی از نشانهگذاری اشارههای هم مرجع در پیکره لوتوس 62شکل3-۱. شمایی از دادههای خطی و غیر خطی جداییپذیر77شکل3-۲. الگوریتم پرسپترون میانگیندار......... 80شکل3-3. نمونهای از یک درخت تصمیمگیری......... 86شکل3-4.الگوریتم C5 ........................... 88شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع............................................. 92شکل3-6. الگوریتم خوشهبندی سلسله مراتبی پایین به بالا 93شکل3-7.الگوریتم آموزش خوشهبندی حریصانه ..... 94شکل3-8.الگوریتم بروزرسانی ........................................ 96شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس99شکل4-2 :شمای کلی سیستم شناسایی اشاره......... 102شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره102شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان103شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی 107شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی 111فهرست علائم و اختصاراتACEAutomatic Content ExtractionADRAddress Sub EntityAIArtificial IntelligenceANAAnaphorANTAntecedentAPPApposition Construction mention typeARAnaphora ResolutionBARBareSub EntityBNDBoundary Sub EntityCLSCelestial Sub EntityCLUSCluster Sub EntityCOMCommercial Sub EntityCONTContinent Sub EntityCRCoreference ResolutionDISDistrict Sub EntityEDUEducational Sub EntityEMExpectation MaximizationENTEntertainment Sub EntityGENGeneral Entity classGOVGovernment Sub EntityGRGroup Sub EntityHLSHeadless nominal mention typeIEInformation ExtractionINDIndividual Sub EntityIRInformation RetrievalJPEGeo political EntityLOCLocation EntityMDMention DetectionMEDMedia Sub EntityMLMachine LearningMTMachine TranslationMUCMessage UnderstandingNAMName mentionNAMMHName which is head of mentionNAMPOSPost modifier mention of name headNATNation Sub EntityNEGNegative Quantified Entity classNERNamed Entity RecognitionNGOVNon-government Sub EntityNOMHNominal which is head of mentionNOMHNominal mentionNOMPOSPost modifier mention of nominal headNPNoun phraseORGOrganization EntityPERPersons Sub EntityPOPPopulation Sub EntityPROPronominal mentionPTVPortative Construction mention typeRBFNRadial Basis Function NetworkREFRefential Entity classREGRegion Sub EntityRELReligious Sub EntitySPCSpecific Entity classSPESpecial Sub EntitySPOSport Sub EntitySTATstate Sub EntitySVMSupport Vector MachineTLTTitle Sub EntityUSPUnderspecified referential Entity classWATWater body Sub EntityWHOWH_Question Words and specific mention type فصل اول ۱-۱.مقدمه و بيان مسئلهامروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبيعي[1]»شاخهاي از علم «هوش مصنوعي[2]» است كه به ماشيني كردن فرآيند زبان شناسي سنتي میپردازد. به این ترتیب با استفاده از رايانه میتوان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون[3]، برچسبگذاری ادات سخن[4]، تعیین و ابهامزدایی از معانی واژگان[5] و... انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند.تمامياينحوزههايجزئيبايدحلشوندتادرنهايترایانهبتواندهمانندانسانواژگانوجملاتراپردازش کردهوياآنهارابسازد.وظایف زبان طبیعی را میتوان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار[8] و ... ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و...) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بودهو میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن[15] به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهاي از تکنیکهای ردهبندي[16]، خوشهبندی[17] و قوانين وابستگي[18] است و خروجی استخراج اطلاعات شامل، شناسايي موجوديتها[19] ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديتها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، ميباشد.[71[ در نهایت ميتوان گفت كه خلاصه سازي، بازيابي اطلاعات[20]، دادهكاوي[21]، پرسش و پاسخ[22] و درك زبان[23] از جمله كاربردهاي اين سيستم هستند.تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایاننامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره[24] به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و... بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
چارچوبی جديد برای تشخيصِ مرجعِ مشترک و اسمِ اشاره در متون پارسی word
چکيده :پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصهسازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هممرجع را بررسی نماید، کمک شایانی به انجامِ موفقیتآمیز این وظایف خواهد نمود. روشهای تشخیص مرجعمشترک را میتوان به دو دستهی روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم نمود. روشهای زبانشناسی بیشتر به اطلاعات زبانشناسی نیاز دارند، البته مشکل این روشها این است که پر خطا و طولانی میباشند. از طرف دیگر روشهای یادگیری ماشین کمتر به اطلاعات زبانشناسی نیاز دارند و نتایج حاصل از آنها قابل اعتمادتر است. در این پایاننامه تلاش میکنیم تا فرآیند تشخیص مرجعمشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشارهها، عبارتهای هممرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانهگذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیشبینی عبارتهای اسمی هممرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکرهای با نشانههایی شامل محدودهی اشاره، نوع اشاره، هستهی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیهمیکنیم، این پیکره میتواند به عنوان اولین پیکره دارای نشانههای اشاره و هممرجعی، مبنای کار بسیاری از پژوهشهای مربوط به شناسایی و کشف اشاره و تحلیل هممرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویتهای میان اشارهها، سیستمی ارائهمیکنیم که اشارههای موجود در متن را شناسایی کرده و سپس نمونههای مثبت و منفی را از پیکره لوتوس استخراج میکند. در نهایت نیز با استفاده از الگوریتمهای یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونههای حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان میدهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.کلمات کليدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی فصل ۱: آشنایی با تشخیص مرجع مشترک.............۱1-۱. مقدمه و بیان مسئله...................... 11-2. بررسی ارتباطات هممرجعی.................. 6 1-2-1. هممرجع در مقابل پیشایند 9 1-۲-1-۱. ارتباط هممرجع................ ۱0 1-۲-1-2. ارتباط پیشایندی................. 111-۲-۲. تحلیل پیشایند..................... 16 1-۲-۳. تحلیل مرجع مشترک.................. 16 1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی ۱71-3.جمعبندی................................. 20فصل 2 : بخش اول.............................. 212-1-۱. پیشینه تشخیص مرجع مشترک.............. 212-1-۲. روشهای زبانشناسی..................... 22 2-1-۲-1. فاکتورهای حذف کننده 232-1-۳-۲-۱. تطبیق جنس و عدد....... 23 2-1-۳-۲-۱. تطبیق معنایی.......... 242-1-۲-۲. فاکتورهای امتیاز دهنده 242-1-۳-۲-۱. مشابهت نحوی........... 242-1-۳-۲-۱. مشابهت معنایی......... 252-1-۳-۲-۱. بارز بودن............. 252-1-۳. روشهای یادگیری ماشین................. 27 2-1-۳-۱. ویژگیها....................... 28 2-1-۳-۲. مدلهای جفت اشاره.............. 282-1-۳-۲-۱. رده بندی جفت عبارتهای اسمی322-1-۳-۲-۱-1. درخت تصمیم........ 332-1-۳-۲-۲.افراز..................... 35 2-1-۳-۲-۲-۱.درختِ بل 362-1-۳-۲-۲-۲. افراز گراف 38 2-1-۳-۳. روشهای مبتنی بر پیکره.......... 402-1-۳-۴. روشهای جایگزین................... 442-1-۳-۴-۱. روش همآموزی................ 442-1-۳-۴-۲. مدل احتمالاتی مرتبه اول 46 2-1-۳-۴-۳. رتبهبندی................. 47 2-1-۳-۴-۴. فیلدهای تصادفی شرطی 492-1-۳-۴-۵. خوشهبندی.................. 512-1-۴. جمعبندی.............................. 56فصل 2: بخش دوم............................... 572-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هممرجع582-2-۲. پیکره بیژنخان......................... 592-2-۳. پیکره لوتوس........................... 602-2-۴.شیوههای نشانهگذاری پیکره لوتوس......... 622-2-۴-۱. نشانهگذاری انواع موجودیتها....... 62 2-2-۴-۱-۱. موجودیت شخص................. 64 2-2-۴-۱-۲. موجودیتسازمان............... 642-2-۴-۱-۳. موجودیت مکان................ 66 2-2-۴-۱-۴. موجودیتسیاسی................ 662-2-۴-۲.کلاس هر موجودیت.................... 68 2-2-۴-۲-۱.غیر ارجاعی.................. 69 2-2-۴-۲-۲.ارجاعی...................... 69 2-2-۴-۲-۲-۱.ارزیابی به شکل منفی.... 69 2-2-۴-۲-۲-۲.ارجاعی خاص............. 70 2-2-۴-۲-۲-۳.ارجاعی عمومی........... 702-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده.... 702-2-۴-۳.انواع اشاره/سطوح اشاره............ 712-2-۴-۳-۱.اشاره ساده................... 72 2-2-۴-۳-۱-۱.محدوده اشاره........... 722-2-۴-۳-۱-۲. هسته اشاره............ 722-2-۴-۳-۱-۳.انواع اشاره ساده....... 722-2-۴-۳-۲.ساختارهای پیچیده............... 742-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل752-2-۵.جمعبندی................................ 75فصل 3: الگوریتمهای پیشنهادی.................. 763-۱. رده بندی دودویی......................... 76 3-1-1.جدا کنندههای خطی..................... 77 3-1-1-1 پرسپترون........................ 78 3-1-1-2 ماشین بردار پشتیبان............. 80 3-1-1-3 درخت تصمیم...................... 853-۲.خوشهبندی................................. 88 3-2-1 .الگوریتمهای افراز بستهای........... 89 3-2-1-1 .خوشهبندی سلسله مراتبی پایین به بالا 903-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی933-3.جمعبندی.................................. 96فصل 4: سیستم ارزیابی......................... 974-۱.مقدمه.................................... 974-۲.سیستم شناسایی اشاره لوتوس................ 98 4-2-1 .بانک اطلاعاتی....................... 984-2-2.سیستم شناسایی اشاره................ 1024-3.تشخیص اشارههای هم مرجع................... 1034-3-1 ویژگیها............................ 1044-3-2.الگوریتم یادگیری................... 105 4-3-3.معیار ارزیابی...................... 1074-3-4.نتیجه ارزیابی...................... 110 4-3-4-1.نتایج بدست آمده............... 110 4-3-4-.2چالشها و تحلیل خطا............ 1124-4.جمعبندی.................................. 115فصل 5 :نتیجه گیری و پیشنهادها............... 1165-۱.نتیجهگیری............................... 1165-2.پیشنهادها................................ 118فصل .6 منابع................................ 121 فهرست جدولهاعنوانصفحهجدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع وپیشایند ۱1جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک23جدول 2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک 30جدول 2-۳: معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند............................................. 55جدول 2-4: مشخصات مربوط به انواع موجودیتها.... 62جدول2-5: زیر گروههای موجودیت مشخص............ 64جدول2-6: زیر گروههای موجودیت سازمان.......... 65جدول 2-7: زیر گروههای موجودیت مکان........... 66جدول 2-8: زیر گروههای موجودیت سیاسی.......... 67جدول 2-9: حالتهای خاص موجودیتهای سیاسی....... 68جدول 2-10: انواع طبقهبندی اشاره............... 71جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان 100جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشارهها101جدول 4-3: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک106جدول 4-4: حالتهای ممکن نتایج یک ماشین یادگیر. 108جدول 4-5: نتایج ارزیابی الگوریتمهای پایه مورد بررسی 110جدول 4-6: نتایج ارزیابی الگوریتم SVM با هستههای متفاوت 111جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدلهای متفاوت 112 فهرست شکلهاعنوانصفحهشکل1-۱. انواع روابط ممکن میان دو عبارت اسمی . 12شکل1-۲. میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی...................................... ۱6شکل2-۱. نمونهای از نمونههای مثبت و منفی که توسط ۴.5C تولید شده است.......................................... 31شکل2-۲. درختِ بل به ازای سه عبارت اسمی........ 37شکل2-3. شمایی از نشانهگذاری پیکره بیژنخان.... 60شکل2-4. شمایی از نشانهگذاری اشارههای هم مرجع در پیکره لوتوس 62شکل3-۱. شمایی از دادههای خطی و غیر خطی جداییپذیر77شکل3-۲. الگوریتم پرسپترون میانگیندار......... 80شکل3-3. نمونهای از یک درخت تصمیمگیری......... 86شکل3-4.الگوریتم C5 ........................... 88شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع............................................. 92شکل3-6. الگوریتم خوشهبندی سلسله مراتبی پایین به بالا 93شکل3-7.الگوریتم آموزش خوشهبندی حریصانه ..... 94شکل3-8.الگوریتم بروزرسانی ........................................ 96شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس99شکل4-2 :شمای کلی سیستم شناسایی اشاره......... 102شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره102شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان103شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی 107شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی 111فهرست علائم و اختصاراتACEAutomatic Content ExtractionADRAddress Sub EntityAIArtificial IntelligenceANAAnaphorANTAntecedentAPPApposition Construction mention typeARAnaphora ResolutionBARBareSub EntityBNDBoundary Sub EntityCLSCelestial Sub EntityCLUSCluster Sub EntityCOMCommercial Sub EntityCONTContinent Sub EntityCRCoreference ResolutionDISDistrict Sub EntityEDUEducational Sub EntityEMExpectation MaximizationENTEntertainment Sub EntityGENGeneral Entity classGOVGovernment Sub EntityGRGroup Sub EntityHLSHeadless nominal mention typeIEInformation ExtractionINDIndividual Sub EntityIRInformation RetrievalJPEGeo political EntityLOCLocation EntityMDMention DetectionMEDMedia Sub EntityMLMachine LearningMTMachine TranslationMUCMessage UnderstandingNAMName mentionNAMMHName which is head of mentionNAMPOSPost modifier mention of name headNATNation Sub EntityNEGNegative Quantified Entity classNERNamed Entity RecognitionNGOVNon-government Sub EntityNOMHNominal which is head of mentionNOMHNominal mentionNOMPOSPost modifier mention of nominal headNPNoun phraseORGOrganization EntityPERPersons Sub EntityPOPPopulation Sub EntityPROPronominal mentionPTVPortative Construction mention typeRBFNRadial Basis Function NetworkREFRefential Entity classREGRegion Sub EntityRELReligious Sub EntitySPCSpecific Entity classSPESpecial Sub EntitySPOSport Sub EntitySTATstate Sub EntitySVMSupport Vector MachineTLTTitle Sub EntityUSPUnderspecified referential Entity classWATWater body Sub EntityWHOWH_Question Words and specific mention type فصل اول ۱-۱.مقدمه و بيان مسئلهامروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبيعي[1]»شاخهاي از علم «هوش مصنوعي[2]» است كه به ماشيني كردن فرآيند زبان شناسي سنتي میپردازد. به این ترتیب با استفاده از رايانه میتوان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون[3]، برچسبگذاری ادات سخن[4]، تعیین و ابهامزدایی از معانی واژگان[5] و... انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند.تمامياينحوزههايجزئيبايدحلشوندتادرنهايترایانهبتواندهمانندانسانواژگانوجملاتراپردازش کردهوياآنهارابسازد.وظایف زبان طبیعی را میتوان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار[8] و ... ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و...) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بودهو میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن[15] به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهاي از تکنیکهای ردهبندي[16]، خوشهبندی[17] و قوانين وابستگي[18] است و خروجی استخراج اطلاعات شامل، شناسايي موجوديتها[19] ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديتها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، ميباشد.[71[ در نهایت ميتوان گفت كه خلاصه سازي، بازيابي اطلاعات[20]، دادهكاوي[21]، پرسش و پاسخ[22] و درك زبان[23] از جمله كاربردهاي اين سيستم هستند.تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایاننامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره[24] به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و... بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.