👈فول فایل فور یو ff4u.ir 👉

چارچوبی جديد برای تشخيصِ مرجعِ ‏مشترک و اسمِ اشاره در متون پارسی word

ارتباط با ما

دانلود


چارچوبی جديد برای تشخيصِ مرجعِ ‏مشترک و اسمِ اشاره در متون پارسی word
چکيده :
پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصه‏سازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هم‏مرجع را بررسی نماید، کمک شایانی به انجامِ موفقیت‏آمیز این وظایف خواهد نمود. روش‏های تشخیص مرجع‏مشترک را می‏توان به دو دسته‏ی روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم نمود. روش‏های زبان‏شناسی بیشتر به اطلاعات زبان‏شناسی نیاز دارند، البته مشکل این روش‏ها این است که پر خطا و طولانی می‏باشند. از طرف دیگر روش‏های یادگیری ماشین کمتر به اطلاعات زبان‏شناسی نیاز دارند و نتایج حاصل از آنها قابل اعتماد‏تر است. در این پایان‏نامه تلاش می‏کنیم تا فرآیند تشخیص مرجع‏مشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره‏ها، عبارت‏های هم‏مرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه‏گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیش‏بینی عبارت‏های اسمی هم‏‏مرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکره‏ای با نشانه‏هایی شامل محدوده‏ی اشاره، نوع اشاره، هسته‏ی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیهمی‏کنیم، این پیکره می‏تواند به عنوان اولین پیکره دارای نشانه‏های اشاره و هم‏مرجعی، مبنای کار بسیاری از پژوهش‏های مربوط به شناسایی و کشف اشاره و تحلیل هم‏مرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویت‏های میان اشاره‏ها، سیستمی ارائهمی‏کنیم که اشاره‏های موجود در متن را شناسایی کرده و سپس نمونه‏های مثبت و منفی را از پیکره لوتوس استخراج می‏کند. در نهایت نیز با استفاده از الگوریتم‏های یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه‏های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان می‏دهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.
کلمات کليدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی
 
فصل ۱: آشنایی با تشخیص مرجع مشترک.............۱
1-۱. مقدمه و بیان مسئله...................... 1
1-2. بررسی ارتباطات هم‏مرجعی.................. 6
1-2-1. هم‏مرجع در مقابل پیشایند 9
1-۲-1-۱. ارتباط هم‏مرجع................ ۱0
1-۲-1-2. ارتباط پیشایندی................. 11
1-۲-۲. تحلیل پیشایند..................... 16
1-۲-۳. تحلیل مرجع مشترک.................. 16
1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی ۱7
1-3.جمع‏بندی................................. 20
فصل 2 : بخش اول.............................. 21
2-1-۱. پیشینه تشخیص مرجع مشترک.............. 21
2-1-۲. روش‏های زبان‏شناسی..................... 22
2-1-۲-1. فاکتورهای حذف کننده 23
2-1-۳-۲-۱. تطبیق جنس و عدد....... 23
2-1-۳-۲-۱. تطبیق معنایی.......... 24
2-1-۲-۲. فاکتورهای امتیاز دهنده 24
2-1-۳-۲-۱. مشابهت نحوی........... 24
2-1-۳-۲-۱. مشابهت معنایی......... 25
2-1-۳-۲-۱. بارز بودن............. 25
2-1-۳. روش‏های یادگیری ماشین................. 27
2-1-۳-۱. ویژگی‏ها....................... 28
2-1-۳-۲. مدل‏های جفت اشاره.............. 28
2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی32
2-1-۳-۲-۱-1. درخت تصمیم........ 33
2-1-۳-۲-۲.افراز..................... 35
2-1-۳-۲-۲-۱.درختِ بل 36
2-1-۳-۲-۲-۲. افراز گراف 38
2-1-۳-۳. روش‏های مبتنی بر پیکره.......... 40
2-1-۳-۴. روش‏های جایگزین................... 44
2-1-۳-۴-۱. روش هم‏آموزی................ 44
2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول 46
2-1-۳-۴-۳. رتبه‏بندی................. 47
2-1-۳-۴-۴. فیلدهای تصادفی شرطی 49
2-1-۳-۴-۵. خوشه‏بندی.................. 51
2-1-۴. جمع‏بندی.............................. 56
فصل 2: بخش دوم............................... 57
2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع58
2-2-۲. پیکره بیژن‏خان......................... 59
2-2-۳. پیکره لوتوس........................... 60
2-2-۴.شیوه‏های نشانه‏گذاری پیکره لوتوس......... 62
2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها....... 62
2-2-۴-۱-۱. موجودیت شخص................. 64
2-2-۴-۱-۲. موجودیتسازمان............... 64
2-2-۴-۱-۳. موجودیت مکان................ 66
2-2-۴-۱-۴. موجودیتسیاسی................ 66
2-2-۴-۲.کلاس هر موجودیت.................... 68
2-2-۴-۲-۱.غیر ارجاعی.................. 69
2-2-۴-۲-۲.ارجاعی...................... 69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی.... 69
2-2-۴-۲-۲-۲.ارجاعی خاص............. 70
2-2-۴-۲-۲-۳.ارجاعی عمومی........... 70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده.... 70
2-2-۴-۳.انواع اشاره/سطوح اشاره............ 71
2-2-۴-۳-۱.اشاره ساده................... 72
2-2-۴-۳-۱-۱.محدوده اشاره........... 72
2-2-۴-۳-۱-۲. هسته اشاره............ 72
2-2-۴-۳-۱-۳.انواع اشاره ساده....... 72
2-2-۴-۳-۲.ساختارهای پیچیده............... 74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل75
2-2-۵.جمع‏بندی................................ 75
فصل 3: الگوریتم­های پیشنهادی.................. 76
3-۱. رده بندی دودویی......................... 76
3-1-1.جدا کننده‏های خطی..................... 77
3-1-1-1 پرسپترون........................ 78
3-1-1-2 ماشین بردار پشتیبان............. 80
3-1-1-3 درخت تصمیم...................... 85
3-۲.خوشه‏بندی................................. 88
3-2-1 .الگوریتم‏های افراز بسته‏ای........... 89
3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا 90
3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی93
3-3.جمع‏بندی.................................. 96
فصل 4: سیستم ارزیابی......................... 97
4-۱.مقدمه.................................... 97
4-۲.سیستم شناسایی اشاره لوتوس................ 98
4-2-1 .بانک اطلاعاتی....................... 98
4-2-2.سیستم شناسایی اشاره................ 102
4-3.تشخیص اشاره‏های هم مرجع................... 103
4-3-1 ویژگی‏ها............................ 104
4-3-2.الگوریتم یادگیری................... 105
4-3-3.معیار ارزیابی...................... 107
4-3-4.نتیجه ارزیابی...................... 110
4-3-4-1.نتایج بدست آمده............... 110
4-3-4-.2چالش‏ها و تحلیل خطا............ 112
4-4.جمع‏بندی.................................. 115
فصل 5 :نتیجه گیری و پیشنهادها............... 116
5-۱.نتیجه‏گیری............................... 116
5-2.پیشنهادها................................ 118
فصل .6 منابع................................ 121
 
 
 
فهرست جدول‏ها
عنوان
صفحه
جدول 1-۱: مقایسه ویژگی‏های دو ارتباط هم‏مرجع وپیشایند ۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک23
جدول 2-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک 30
جدول 2-۳: معرفی برخی از پژوهش‏هایی که از خوشه‏بندی استفاده کرده‏اند............................................. 55
جدول 2-4: مشخصات مربوط به انواع موجودیت‏ها.... 62
جدول2-5: زیر گروه‏های موجودیت مشخص............ 64
جدول2-6: زیر گروه‏های موجودیت سازمان.......... 65
جدول 2-7: زیر گروه‏های موجودیت مکان........... 66
جدول 2-8: زیر گروه‏های موجودیت سیاسی.......... 67
جدول 2-9: حالت‏های خاص موجودیت‏های سیاسی....... 68
جدول 2-10: انواع طبقه‏بندی اشاره............... 71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان 100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشاره‏ها101
جدول 4-3: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک106
جدول 4-4: حالت‏های ممکن نتایج یک ماشین یادگیر. 108
جدول 4-5: نتایج ارزیابی الگوریتم‏های پایه مورد بررسی 110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هسته‏های متفاوت 111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدل‏های متفاوت 112
 
 
 
 
 
 
فهرست شکل‏ها
عنوان
صفحه
شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی . 12
شکل1-۲. میزان ارتباط میان حوزه‏ها با انواع دانش‏های زبان‏شناسی و واژگانی...................................... ۱6
شکل2-۱. نمونه‏ای از نمونه‏های مثبت و منفی که توسط ۴.5C تولید شده است.......................................... 31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی........ 37
شکل2-3. شمایی از نشانه‏گذاری پیکره بیژن‏خان.... 60
شکل2-4. شمایی از نشانه‏گذاری اشاره‏های هم مرجع در پیکره لوتوس 62
شکل3-۱. شمایی از داده‏های خطی و غیر خطی جدایی‏پذیر77
شکل3-۲. الگوریتم پرسپترون میانگین‏دار......... 80
شکل3-3. نمونه‏ای از یک درخت تصمیم‏گیری......... 86
شکل3-4.الگوریتم C5 ........................... 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارت‏های اسمی هم‏مرجع............................................. 92
شکل3-6. الگوریتم خوشه‏بندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشه‏بندی حریصانه ..... 94
شکل3-8.الگوریتم بروزرسانی ........................................ 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس99
شکل4-2 :شمای کلی سیستم شناسایی اشاره......... 102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان103
شکل4-5: شمایی از نمایش خروجی تعیین نمونه‏های مثبت و منفی 107
شکل4-6: نمودار مقایسه الگوریتم‏های پایه مورد بررسی 111
فهرست علائم و اختصارات
ACE
Automatic Content Extraction
ADR
Address Sub Entity
AI
Artificial Intelligence
ANA
Anaphor
ANT
Antecedent
APP
Apposition Construction mention type
AR
Anaphora Resolution
BAR
BareSub Entity
BND
Boundary Sub Entity
CLS
Celestial Sub Entity
CLUS
Cluster Sub Entity
COM
Commercial Sub Entity
CONT
Continent Sub Entity
CR
Coreference Resolution
DIS
District Sub Entity
EDU
Educational Sub Entity
EM
Expectation Maximization
ENT
Entertainment Sub Entity
GEN
General Entity class
GOV
Government Sub Entity
GR
Group Sub Entity
HLS
Headless nominal mention type
IE
Information Extraction
IND
Individual Sub Entity
IR
Information Retrieval
JPE
Geo political Entity
LOC
Location Entity
MD
Mention Detection
MED
Media Sub Entity
ML
Machine Learning
MT
Machine Translation
MUC
Message Understanding
NAM
Name mention
NAMMH
Name which is head of mention
NAMPOS
Post modifier mention of name head
NAT
Nation Sub Entity
NEG
Negative Quantified Entity class
NER
Named Entity Recognition
NGOV
Non-government Sub Entity
NOMH
Nominal which is head of mention
NOMH
Nominal mention
NOMPOS
Post modifier mention of nominal head
NP
Noun phrase
ORG
Organization Entity
PER
Persons Sub Entity
POP
Population Sub Entity
PRO
Pronominal mention
PTV
Portative Construction mention type
RBFN
Radial Basis Function Network
REF
Refential Entity class
REG
Region Sub Entity
REL
Religious Sub Entity
SPC
Specific Entity class
SPE
Special Sub Entity
SPO
Sport Sub Entity
STAT
state Sub Entity
SVM
Support Vector Machine
TLT
Title Sub Entity
USP
Underspecified referential Entity class
WAT
Water body Sub Entity
WHO
WH_Question Words and specific mention type
 
فصل اول
 ۱-۱.مقدمه و بيان مسئله
امروزه رایانه در تمام لایه‏های  زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبيعي[1]»شاخه‏اي از علم «هوش مصنوعي[2]» است كه به ماشيني كردن فرآيند زبان شناسي سنتي می‏پردازد. به این ترتیب با استفاده از رايانه می‏توان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون[3]، برچسب‏گذاری ادات سخن[4]، تعیین و ابهام‏زدایی از معانی واژگان[5] و... انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند.تمامياينحوزه‏هايجزئيبايدحلشوندتادرنهايترایانهبتواندهمانندانسانواژگانوجملاتراپردازش کردهوياآنهارابسازد.
وظایف زبان طبیعی را می‏توان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازش‏هایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیت‏های نامدار[8] و ... ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و...) متمرکز شده اند؛ برخی از کاربرد‏ها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفته‏اند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگی‏های معنایی متون، انواع متفاوتی از ویژگی‏های سطح پایین‏تر (مانند ویژگی‏های لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستم‏های جدید که تا حد زیادی به روش‏های آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی‏‏‏ ویژگی‏های سطح پایین‏تر نیازی نیست. علت اینکه روش‏های یادگیری ماشین توانسته‏اند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم می‏آورد که برای بسیاری از کاربرد‏ها کافی بودهو می‏‏‏‏تواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روش‏های آماری محدود است و هرگز نمی‏توانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستم‏‏هایی که واژگان و جملات درست را از غلط تشخیص می‏دهند، به طور گسترده‏ای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوه‏های تجزیه کردن[15] به صحتی برابر با ۹۰%، و شناسایی موجودیت‏های نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب می‏شود، که مجموعه‏اي از تکنیک‏های رده‏بندي[16]، خوشه‏بندی[17] و قوانين وابستگي[18] است و خروجی استخراج اطلاعات شامل، شناسايي موجوديت‏ها[19] ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديت‏ها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، مي‏باشد.[71[ در نهایت مي‏توان گفت كه خلاصه سازي، بازيابي اطلاعات[20]، داده‏كاوي[21]، پرسش و پاسخ[22] و درك زبان[23] از جمله كاربردهاي اين سيستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارت‏های اسمی‏‏‏ که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین می‏گردند. هدف نهایی این پایان‏نامه شناسایی اشاره‏های هم مرجع شامل ضمیر و اسم اشاره در متون پارسی می‏باشد. برای تحقق این هدف نیاز به انجام پیش پردازش‏هایی بر روی متون خام می‏باشد تا داده‏های مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره[24] به عنوان یک پیش پردازش می‏تواند در کنار سایر پیمانه‏های پیش پردازشی مانند تجزیه‏گر، شناسایی موجودیت‏های نامدار و... بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارت‏های اسمی‏‏‏ هم‏مرجع از مهمترین زیر وظایف استخراج اطلاعات می‏باشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستم‏های مرتبط با آن خواهد شد.

👇 تصادفی👇

مطالعه تجربی دینامیک رفتار قطره در حضور میدان الکتریکی ولتاژ بالا Experimental Study of the Droplet Dynamic Behavior under High Voltage Electric Fielآموزش برنامه نویسی C - عندلیبOpen Source Identity Management Patterns and Practices Using OpenAM 10.xبررسی تجربی انتقال حرارت جابه جایی ترکیبی در یک کانال استوانه ای حلقوی شیب دار (متمایل) حاوی ماده متخلخلshapefile زمین شناسی استان یزدطرح توجيهي توليد محصولات خارج از فصل در گلخانه (صيفي جات گلخانه اي)پکیج کسب درآمد مهندس طلوعیکسب درامد از اینترنت استاد اسدی کاملا تضمینی ✅فایل های دیگر✅

#️⃣ برچسب های فایل چارچوبی جديد برای تشخيصِ مرجعِ ‏مشترک و اسمِ اشاره در متون پارسی word

چارچوبی جديد برای تشخيصِ مرجعِ ‏مشترک و اسمِ اشاره در متون پارسی word

دانلود چارچوبی جديد برای تشخيصِ مرجعِ ‏مشترک و اسمِ اشاره در متون پارسی word

خرید اینترنتی چارچوبی جديد برای تشخيصِ مرجعِ ‏مشترک و اسمِ اشاره در متون پارسی word

👇🏞 تصاویر 🏞