فهرست مطالبچکیدهفصل اول: مقدمه11-۱ پیشگفتار21- ۲ بیان مسئله31-3 اهمیت وضرورت انجام تحقيق61-4 جنبه جديدبودن ونوآوري درتحقيق71-5 اهداف مشخص تحقيق81-6 مروری برساختارپایان نامه8فصل دوم: مفاهیم92-1 مقدمه102-2 مدل داده چیست؟102-2-1 مدل های داده ساخت یافته122-2-1-1 مدل داده رابطه ای122-2-1-2 مدل داده شی گرا142-2-1-۳ مدل داده شی رابطه ای162-2-2 مدل داده ای غیرساخت یافته172-2-2-1 مدل داده ای کلید/ارزش192-2-2-2 مدل داده ای سندگرا212-2-2-3 مدل داده ای ستونی232-2-2-4 پایگاه داده های گراف24عنوان صفحه2-3 مدیریت داده ها292-4 داده های پزشکی302-5 کاربردهای مدیریت داده های پزشکی342-6 بیماری های ژنتیکی362-7 انتقال بیماریهای ژنتیکی372-8 آزمایشهای ژنتیکی38فصل سوم: پیشینه تحقیق423-1مقدمه433-2 مدل داده رابطه ای برای بیماریهای همه گیری433-3 مدل داده شی رابطه ای برای بیمارستانها443-4مدل داده گرافی برای بیماری های همه گیری47فصل چهارم: روش پیشنهادی484-1مقدمه494-2 موجودیتها534-3-صفات مربوط به هریک ازموجودیتها534-3-1انسان سالم534-3-2انسان ناقل544-3-3 انسان درمان شده544-3-4 انسان بیمار544-3-5پزشک55عنوان صفحه4-3-6بیماری55۴-۳-۷علائم574-3-8 روشهای درمان584-3-9 دارو584-4مقادیرذخیره شده برروی یالها594-5تعیین قابلیتهای مدل داده604-5-1ایجادکردن604-5-2افزودن614-5-3به روزرسانی614-5-4حذف کردن614-5-5پرس وجو624-5-5-1پرس وجوهای وابسته به یک گره624-5-5-2پرس وجوهای مربوط به دوگره664-5-5-3پرس وجوهای بیش از دوگره684-6طراحی مدل داده70۴-۶-۱ طراحیER70۴-۶-۲ طراحی مدل گرافی72فصل پنجم: ارزیابی755-1 مقدمه765-2 روش اول: گروه متمرکز77۵-۲-۱ آشنایی باگروه متمرکز77عنوان صفحه۵-۲-۲ مزایای گروه متمرکز77۵-۲-۳روش شناسی گروه متمرکز77۵-۲-۴ ارزیابی به وسیله ی گروه متمرکز795-3 روش دوم: پیاده سازی عملی پایگاه داده795-3-1 نرم افزارنئوفرجی805-3-2 داده های موردنیاز805-3-3 ذخیره داده هادرپایگاه داده نئوفرجی815-4 نتایج83فصل ششم:جمع بندی و کارهای آتی906-1 جمع بندی وکارهای آتی91منابع97 فهرست جدول هاعنوان صفحهجدول (3-1) : پایگاه داده ی سنتی رابطه ای45جدول (3-2) : پایگاه دادهEAV45جدول(3-3) : یک شمای کلیازEAV46جدول (5-1 ): زمان مربوط به پرس وجوهای مختلف85 فهرست نمودارهاعنوان صفحهنمودار(۵-۱) پرس و جوهای یک گره..............................................................................................86نمودار(۵-۲) پرس و جوهای دو گره...............................................................................................87نمودار(۵-۳) پرس و جوهای سه گره..............................................................................................87نمودار(۵-۴) پرس و جوهای تمام گره ها.......................................................................................88نمودار(۵-۵) مقایسه کمترین-بیشترین و میانگین زمان پرس و جوها..............................................89 فهرست شکل هاعنوان صفحهشکل(2-1 ) نمونه ای اولیه از پایگاه داده گراف.............................................................. ..............27شکل(3-1)پیاده سازی بیماری همه گیری با پایگاه داده رابطه ای...................................................44شکل(3-2)یک پیاده سازی ساده از EAV/CR...............................................................................46شکل (3-3) پیاده سازی بیماری همه گیری با پایگاه داده گرافی..................................... .............47شکل (4-1) نمودارER....................................................................................................... ..........71شکل (4-2) پایگاه داده گراف طراحی شده برای بیماری های ژنتیکی..........................................74شکل(5-1) نمایش تمام گره ها روابط در پایگاه داده گرافی..........................................................82در جامعه امروزی با توجه به پیشرفت علم پزشکی حجم دادههای پزشکی به سرعت در حال افزایش هستند. برای تحلیل سریعتر و کارآمدتر این دادهها نیاز به ذخیره الکترونیکی این دادهها داریم. دادههای مربوط به بیماریهای ژنتیکی نیز از این دسته دادهها به حساب میآیند. با توجه به این مسئله میبایست پایگاه دادهای مناسب ذخیره و بازیابی این داده ها طراحی نماییم. با توجه به ماهیت داده های ژنتیکی و این مسئله که در مورد انتقال بیماری های ژنتیکی روابط بین افراد و تجزیه تحلیل آن مسئله مهمی به حساب میآید در این مقاله برای ذخیره و بازیابی این دادهها از مدل دادهی گرافی که یکی از زیر مجموعههای مدل دادههای غیر ساخت یافته (NOSQL)است استفاده مینماییم. برای این کار ابتدا نیازها و پرس و جوهای مربوط به این مسئله را مشخص میکنیم و بر اساس آن مدل داده گرافی را طراحی مینماییم. برای ارزیابی مدل داده طراحی شده یک تیم متشکل از متخصصان ژنتیک نیز این مدل داده را بررسی کرده و نظر مساعد خود را در خصوص کاربرد این مدل داده برای بیماری های ژنتیکی بیان نمودند. همچنین از نرم افزار Neo4j استفاده نمودیم که دادههای مربوط به بیماری ژنتیکی تالاسمی را در آن ذخیره کرده و این مدل داده را بر اساس کارایی ذخیره سازی و بازیابی اطلاعات و زمان پرس و جوها مورد بررسی قرار دادیم که با توجه به زمان پرس و جوها و عدم پشتیبانی سایر مدل دادهها از روابط بین افراد، این مدل داده مدل مناسبی به شمار میآید.کلمات کلیدی: ژن،بیماری های ژنتیکی، پایگاه داده های گرافی،neo4j،مدل داده 1-۱-پیشگفتاردر زمینه پزشکی دادهها به سرعت در حال تولید وگسترش هستند. این دادهها در اشکال متفاوتتری نسبت به دادههای گذشته تولید میشوند و با توجه به پیشرفتهای علم در این زمینه نیاز به مدیریتهای جدید بسیار بیشتر از گذشته احساس میشود. برای ذخیره این دادهها پایگاهدادهای که قادر به پشتیبانی از انواع مختلف دادهها و حجم زیاد دادهها باشد و همچنین توانایی انجام مدیریت صحیح و کامل دادهها را دارا باشد، نیاز داریم]14[.در خصوص بیماریهای ژنتیکی دادههایی که نیاز به ذخیره آنها داریم، دادههای متنوعی هستند. با توجه به ماهیت بیماریهای ژنتیکی برای درک نحوه انتقال این بیماریها نیاز به ذخیره وضعیت سلامتی اجداد بیماران نیز داریم که در هر بررسی ممکن است فرد جدیدی به این شجره نامه اضافه شود، همچنین برای کشف مسیر انتقال بیماریها روابط بین افراد در این پایگاهداده بسیار مهم و ضروری میباشد. برای پشتیبانی از این نیازها و مدیریت روابط بین افراد و انتقال بیماری، پایگاهدادههای ساختیافته[1]گزینه مناسبی نیستند، زیرا قادر به پشتیبانی از انواع مختلف داده ها نمیباشند.پایگاهدادههای غیرساختیافته[2]برای پشتیبانی انواع مختلف داده ها گزینه های مناسبتری هستند. پایگاهداده هایNOSQLانواع مختلفی دارند اما با توجه به این که در این نوع بیماری روابط بین افراد بسیار مهم است و همچنین باید در هر زمانی قادر به افزودن موجودیت ها باشیم پایگاهداده های گرافی مورد مناسبی میباشند. 1-۲-بیان مسئلهبدن انسانها از تریلیون سلول تشکیل شده و هر سلول دارای یک هسته میباشد. هسته سلولها از تعداد 46 کروموزوم یا23جفت کروموزوم تشکیل شده است. کروموزومها دارای رشتههای در هم پیچیدهای به نامDNAهستند که اینDNAها شامل ژنها هستند.هر سلول بدن انسانها شامل25000تا35000ژن است]1[.ژنها دارای اطلاعاتی هستند که این اطلاعات ویژگیهای انسان را می سازد.ژنها ازترکیب پایهای به نام نوکلئوتید تشکیل شدهاند. ترکیب پایه از4ساختار تشکیل شده است"ادنینA[3]/گوانینG[4]/سیتوزینC[5]/ تیمینT[6]"در حقیقت برای بیان هر ژن از4حرفA,T,C,Gاستفاده میکنیم که اصطلاحا به آن توالی نوکلئوتیدی گفته میشود.توالی ژنهای مربوط به بیماریها در بدن انسانهای نرمال به یک شکل است و بیماری زمانی اتفاق می افتد که در این توالی تغییری ایجاد شود.البته طول توالی نوکلئوتیدی بیماریهای مختلف با یکدیگر متفاوت هستند.به طور مثال طول توالی ژن انسولین333کاراکتر است.تا کنون بیشترین طول توالی نوکلئوتیدی شناخته شده مربوط به بیماری دوشن میباشد.طول این توالی2.3مگا میباشد.به عنوان مثالهایی از بیماریهای ژنتیکی میتوان از زالی، سرطان های پوست، عقب افتادگیذهنی، کم خونی داسی شکل، فنیل کتونوری، تالاسمی و نظایر آن نام برد]2[.برخی از مواردی که بررسیهای ژنتیکی انجام میپذیرد به شرح ذیل است: برای انجام این تستهای ژنتیکی در وهله اول نیاز به داشتن شجرهنامه زوجین در هنگام تشکیل خوانواده، والدین در هنگام تستهای بارداری و بیمار در هنگام بررسی یک بیمار ژنتیکی داریم. پس از دانستن شجرهنامه در هنگام برخورد با بیماریها نیاز به ذخیره اطلاعاتی درباره بیمار داریم.برای ذخیره دادههای مربوط به بیماریهای ژنتیکی نیاز به پایگاهدادهای داریم که بتواند به خوبی از ذخیره انواع داده ها پشتیبانی کند.برای این داده ها نیاز به مدلدادهای داریم که بتواند علاوه بر ذخیره این دادهها به بررسی و تجزیه تحلیل این دادهها بپردازد.یکی از مسایل مهم برای انتخاب مدل داده این است که در مورد دادههای پزشکی برای هر بیمار ممکن است خصوصیاتی را ذخیره کنیم که برای دیگر بیماران نیازی به آن نداشته باشیم مثلا ممکن است برای یک بیمار نیاز به ذخیره جواب آزمایش خون داشته باشیم اما برای بیمار دیگر نیاز به انجام این تست و ذخیره این آزمایش نداشته باشیم و یا ممکن است در حین بررسی شرایط بیمار به مواردی برخورد کنیم که از ابتدا پیش بینی نشده بود،به این دلیل بهتر است از ابتدا یک طرح کلی برای پایگاهداده طراحی نشود تا بتوانیم هر خصوصیتی را که نیاز داشتیم یا در حین کار با آن مواجه شدیم برای بیمار اضافه کنیم.با توجه به این موضوع به این نتیجه می رسیم که از پایگاهداده های SQLنمیتوانیم استفاده کنیم و پایگاهداده های NOSQLبرای این امر مناسبتر هستند.مسئله مهم دیگر این است که با توجه به نیاز به ژنتیک اعضای خانواده و نسلهای قبل بیمار باید توانایی افزودن موجودیتها(نسل های قبل و بعد)ی جدید را در حین انجام تحقیقات به این پایگاهداده داشته باشیم. در مورد انتقال بیماریها تشخیص مسیر انتقال بیماری اهمیت ویژهای دارد زیرا باید مشخص شود که بیماری از پدر یا مادر،در مرحله بعد از کدام یک از اجداد به ارث رسیده و همینطور تشخیص داده شود که این بیماری ممکن است به کدام یک از فرزندان دختر یا پسر به ارث برسد. به این دلیل باید پایگاهدادهای طراحی کنیم که قابلیت استخراج روابط بین موجودیتها را دارا باشد. البته روابط بین موجودیتها در پایگاهدادههای رابطهای نیز قابل استخراج است اما اولا به دلیل نیاز به نوشتن رویههای تودرتو امر بسیار پیچیده و زمان بر است ثانیا در مدلداده گراف میتوانیم بر روی یالها نیز خصوصیاتی را برای ارتباط موجودیتها تعریف کنیم. با توجه به این سه مسئله به این نتیجه میرسیم پایگاهداده گرافی بهترین انتخاب برای این نوع بیماری ها است.در این پایاننامه با استفاده از مدلداده گراف پایگاهدادهای را طراحی خواهیم کرد که توانایی ذخیره انواع و حجمهای مختلف داده را دارا باشد. پایگاهدادهطراحی شده باید قابلیت انجام عملیات برروی این داده های ذخیره شده را داشته باشد و بتواند نتایج مورد نظر در بررسی انتقال بیماریهای ژنتیکی را ازآن استخراج کند. نتایجی مانند مسیر انتقال بیماری،امکان انتقال بیماری به نسل بعد یا امکان انتقال بیماری به جنسیت خاصی از نسل بعد، درصد انتقال بیماری و ...در این پایـگاهداده موجودیتها که همان افراد هستند درون گرهها ذخیره میشوند، در گرهها علاوهبر مشخصات عمومی بیماران تمام اطلاعات مربوط به بیــماری افراد، شرایط و علائم بیماران نیز ذخیرهمیشوند. در سطوح بعدی گراف، نسلهای بالاتر بیماران همراه با اطلاعات مربوط به بیماری مخصوصیکه در حال تحقیق در مورد آن هستند ذخیره خواهد شد. برای نمایش روابط بین افراد در این مدلداده ازیالها استفاده خواهیم کـــرد. به این صورت که اگر بیماری از شخصی به شخص دیگری انتقال یافت ازیال جهتدار برای نمایش این انتقال استفاده خواهیــم کرد. علاوه بر اینها میتـــوانیم بر روی یالهـــاتوضیحاتی را نیز اضافه نمائیم. توضیحاتی مانند درصد احتمال انتقال یک بیماری خاص از یک فرد بهفرددیگر.
ارائه ی یک مدل داده مناسب برای کشف انتقال بیماری های ژنتیکی word
فهرست مطالبچکیدهفصل اول: مقدمه11-۱ پیشگفتار21- ۲ بیان مسئله31-3 اهمیت وضرورت انجام تحقيق61-4 جنبه جديدبودن ونوآوري درتحقيق71-5 اهداف مشخص تحقيق81-6 مروری برساختارپایان نامه8فصل دوم: مفاهیم92-1 مقدمه102-2 مدل داده چیست؟102-2-1 مدل های داده ساخت یافته122-2-1-1 مدل داده رابطه ای122-2-1-2 مدل داده شی گرا142-2-1-۳ مدل داده شی رابطه ای162-2-2 مدل داده ای غیرساخت یافته172-2-2-1 مدل داده ای کلید/ارزش192-2-2-2 مدل داده ای سندگرا212-2-2-3 مدل داده ای ستونی232-2-2-4 پایگاه داده های گراف24عنوان صفحه2-3 مدیریت داده ها292-4 داده های پزشکی302-5 کاربردهای مدیریت داده های پزشکی342-6 بیماری های ژنتیکی362-7 انتقال بیماریهای ژنتیکی372-8 آزمایشهای ژنتیکی38فصل سوم: پیشینه تحقیق423-1مقدمه433-2 مدل داده رابطه ای برای بیماریهای همه گیری433-3 مدل داده شی رابطه ای برای بیمارستانها443-4مدل داده گرافی برای بیماری های همه گیری47فصل چهارم: روش پیشنهادی484-1مقدمه494-2 موجودیتها534-3-صفات مربوط به هریک ازموجودیتها534-3-1انسان سالم534-3-2انسان ناقل544-3-3 انسان درمان شده544-3-4 انسان بیمار544-3-5پزشک55عنوان صفحه4-3-6بیماری55۴-۳-۷علائم574-3-8 روشهای درمان584-3-9 دارو584-4مقادیرذخیره شده برروی یالها594-5تعیین قابلیتهای مدل داده604-5-1ایجادکردن604-5-2افزودن614-5-3به روزرسانی614-5-4حذف کردن614-5-5پرس وجو624-5-5-1پرس وجوهای وابسته به یک گره624-5-5-2پرس وجوهای مربوط به دوگره664-5-5-3پرس وجوهای بیش از دوگره684-6طراحی مدل داده70۴-۶-۱ طراحیER70۴-۶-۲ طراحی مدل گرافی72فصل پنجم: ارزیابی755-1 مقدمه765-2 روش اول: گروه متمرکز77۵-۲-۱ آشنایی باگروه متمرکز77عنوان صفحه۵-۲-۲ مزایای گروه متمرکز77۵-۲-۳روش شناسی گروه متمرکز77۵-۲-۴ ارزیابی به وسیله ی گروه متمرکز795-3 روش دوم: پیاده سازی عملی پایگاه داده795-3-1 نرم افزارنئوفرجی805-3-2 داده های موردنیاز805-3-3 ذخیره داده هادرپایگاه داده نئوفرجی815-4 نتایج83فصل ششم:جمع بندی و کارهای آتی906-1 جمع بندی وکارهای آتی91منابع97 فهرست جدول هاعنوان صفحهجدول (3-1) : پایگاه داده ی سنتی رابطه ای45جدول (3-2) : پایگاه دادهEAV45جدول(3-3) : یک شمای کلیازEAV46جدول (5-1 ): زمان مربوط به پرس وجوهای مختلف85 فهرست نمودارهاعنوان صفحهنمودار(۵-۱) پرس و جوهای یک گره..............................................................................................86نمودار(۵-۲) پرس و جوهای دو گره...............................................................................................87نمودار(۵-۳) پرس و جوهای سه گره..............................................................................................87نمودار(۵-۴) پرس و جوهای تمام گره ها.......................................................................................88نمودار(۵-۵) مقایسه کمترین-بیشترین و میانگین زمان پرس و جوها..............................................89 فهرست شکل هاعنوان صفحهشکل(2-1 ) نمونه ای اولیه از پایگاه داده گراف.............................................................. ..............27شکل(3-1)پیاده سازی بیماری همه گیری با پایگاه داده رابطه ای...................................................44شکل(3-2)یک پیاده سازی ساده از EAV/CR...............................................................................46شکل (3-3) پیاده سازی بیماری همه گیری با پایگاه داده گرافی..................................... .............47شکل (4-1) نمودارER....................................................................................................... ..........71شکل (4-2) پایگاه داده گراف طراحی شده برای بیماری های ژنتیکی..........................................74شکل(5-1) نمایش تمام گره ها روابط در پایگاه داده گرافی..........................................................82در جامعه امروزی با توجه به پیشرفت علم پزشکی حجم دادههای پزشکی به سرعت در حال افزایش هستند. برای تحلیل سریعتر و کارآمدتر این دادهها نیاز به ذخیره الکترونیکی این دادهها داریم. دادههای مربوط به بیماریهای ژنتیکی نیز از این دسته دادهها به حساب میآیند. با توجه به این مسئله میبایست پایگاه دادهای مناسب ذخیره و بازیابی این داده ها طراحی نماییم. با توجه به ماهیت داده های ژنتیکی و این مسئله که در مورد انتقال بیماری های ژنتیکی روابط بین افراد و تجزیه تحلیل آن مسئله مهمی به حساب میآید در این مقاله برای ذخیره و بازیابی این دادهها از مدل دادهی گرافی که یکی از زیر مجموعههای مدل دادههای غیر ساخت یافته (NOSQL)است استفاده مینماییم. برای این کار ابتدا نیازها و پرس و جوهای مربوط به این مسئله را مشخص میکنیم و بر اساس آن مدل داده گرافی را طراحی مینماییم. برای ارزیابی مدل داده طراحی شده یک تیم متشکل از متخصصان ژنتیک نیز این مدل داده را بررسی کرده و نظر مساعد خود را در خصوص کاربرد این مدل داده برای بیماری های ژنتیکی بیان نمودند. همچنین از نرم افزار Neo4j استفاده نمودیم که دادههای مربوط به بیماری ژنتیکی تالاسمی را در آن ذخیره کرده و این مدل داده را بر اساس کارایی ذخیره سازی و بازیابی اطلاعات و زمان پرس و جوها مورد بررسی قرار دادیم که با توجه به زمان پرس و جوها و عدم پشتیبانی سایر مدل دادهها از روابط بین افراد، این مدل داده مدل مناسبی به شمار میآید.کلمات کلیدی: ژن،بیماری های ژنتیکی، پایگاه داده های گرافی،neo4j،مدل داده 1-۱-پیشگفتاردر زمینه پزشکی دادهها به سرعت در حال تولید وگسترش هستند. این دادهها در اشکال متفاوتتری نسبت به دادههای گذشته تولید میشوند و با توجه به پیشرفتهای علم در این زمینه نیاز به مدیریتهای جدید بسیار بیشتر از گذشته احساس میشود. برای ذخیره این دادهها پایگاهدادهای که قادر به پشتیبانی از انواع مختلف دادهها و حجم زیاد دادهها باشد و همچنین توانایی انجام مدیریت صحیح و کامل دادهها را دارا باشد، نیاز داریم]14[.در خصوص بیماریهای ژنتیکی دادههایی که نیاز به ذخیره آنها داریم، دادههای متنوعی هستند. با توجه به ماهیت بیماریهای ژنتیکی برای درک نحوه انتقال این بیماریها نیاز به ذخیره وضعیت سلامتی اجداد بیماران نیز داریم که در هر بررسی ممکن است فرد جدیدی به این شجره نامه اضافه شود، همچنین برای کشف مسیر انتقال بیماریها روابط بین افراد در این پایگاهداده بسیار مهم و ضروری میباشد. برای پشتیبانی از این نیازها و مدیریت روابط بین افراد و انتقال بیماری، پایگاهدادههای ساختیافته[1]گزینه مناسبی نیستند، زیرا قادر به پشتیبانی از انواع مختلف داده ها نمیباشند.پایگاهدادههای غیرساختیافته[2]برای پشتیبانی انواع مختلف داده ها گزینه های مناسبتری هستند. پایگاهداده هایNOSQLانواع مختلفی دارند اما با توجه به این که در این نوع بیماری روابط بین افراد بسیار مهم است و همچنین باید در هر زمانی قادر به افزودن موجودیت ها باشیم پایگاهداده های گرافی مورد مناسبی میباشند. 1-۲-بیان مسئلهبدن انسانها از تریلیون سلول تشکیل شده و هر سلول دارای یک هسته میباشد. هسته سلولها از تعداد 46 کروموزوم یا23جفت کروموزوم تشکیل شده است. کروموزومها دارای رشتههای در هم پیچیدهای به نامDNAهستند که اینDNAها شامل ژنها هستند.هر سلول بدن انسانها شامل25000تا35000ژن است]1[.ژنها دارای اطلاعاتی هستند که این اطلاعات ویژگیهای انسان را می سازد.ژنها ازترکیب پایهای به نام نوکلئوتید تشکیل شدهاند. ترکیب پایه از4ساختار تشکیل شده است"ادنینA[3]/گوانینG[4]/سیتوزینC[5]/ تیمینT[6]"در حقیقت برای بیان هر ژن از4حرفA,T,C,Gاستفاده میکنیم که اصطلاحا به آن توالی نوکلئوتیدی گفته میشود.توالی ژنهای مربوط به بیماریها در بدن انسانهای نرمال به یک شکل است و بیماری زمانی اتفاق می افتد که در این توالی تغییری ایجاد شود.البته طول توالی نوکلئوتیدی بیماریهای مختلف با یکدیگر متفاوت هستند.به طور مثال طول توالی ژن انسولین333کاراکتر است.تا کنون بیشترین طول توالی نوکلئوتیدی شناخته شده مربوط به بیماری دوشن میباشد.طول این توالی2.3مگا میباشد.به عنوان مثالهایی از بیماریهای ژنتیکی میتوان از زالی، سرطان های پوست، عقب افتادگیذهنی، کم خونی داسی شکل، فنیل کتونوری، تالاسمی و نظایر آن نام برد]2[.برخی از مواردی که بررسیهای ژنتیکی انجام میپذیرد به شرح ذیل است: برای انجام این تستهای ژنتیکی در وهله اول نیاز به داشتن شجرهنامه زوجین در هنگام تشکیل خوانواده، والدین در هنگام تستهای بارداری و بیمار در هنگام بررسی یک بیمار ژنتیکی داریم. پس از دانستن شجرهنامه در هنگام برخورد با بیماریها نیاز به ذخیره اطلاعاتی درباره بیمار داریم.برای ذخیره دادههای مربوط به بیماریهای ژنتیکی نیاز به پایگاهدادهای داریم که بتواند به خوبی از ذخیره انواع داده ها پشتیبانی کند.برای این داده ها نیاز به مدلدادهای داریم که بتواند علاوه بر ذخیره این دادهها به بررسی و تجزیه تحلیل این دادهها بپردازد.یکی از مسایل مهم برای انتخاب مدل داده این است که در مورد دادههای پزشکی برای هر بیمار ممکن است خصوصیاتی را ذخیره کنیم که برای دیگر بیماران نیازی به آن نداشته باشیم مثلا ممکن است برای یک بیمار نیاز به ذخیره جواب آزمایش خون داشته باشیم اما برای بیمار دیگر نیاز به انجام این تست و ذخیره این آزمایش نداشته باشیم و یا ممکن است در حین بررسی شرایط بیمار به مواردی برخورد کنیم که از ابتدا پیش بینی نشده بود،به این دلیل بهتر است از ابتدا یک طرح کلی برای پایگاهداده طراحی نشود تا بتوانیم هر خصوصیتی را که نیاز داشتیم یا در حین کار با آن مواجه شدیم برای بیمار اضافه کنیم.با توجه به این موضوع به این نتیجه می رسیم که از پایگاهداده های SQLنمیتوانیم استفاده کنیم و پایگاهداده های NOSQLبرای این امر مناسبتر هستند.مسئله مهم دیگر این است که با توجه به نیاز به ژنتیک اعضای خانواده و نسلهای قبل بیمار باید توانایی افزودن موجودیتها(نسل های قبل و بعد)ی جدید را در حین انجام تحقیقات به این پایگاهداده داشته باشیم. در مورد انتقال بیماریها تشخیص مسیر انتقال بیماری اهمیت ویژهای دارد زیرا باید مشخص شود که بیماری از پدر یا مادر،در مرحله بعد از کدام یک از اجداد به ارث رسیده و همینطور تشخیص داده شود که این بیماری ممکن است به کدام یک از فرزندان دختر یا پسر به ارث برسد. به این دلیل باید پایگاهدادهای طراحی کنیم که قابلیت استخراج روابط بین موجودیتها را دارا باشد. البته روابط بین موجودیتها در پایگاهدادههای رابطهای نیز قابل استخراج است اما اولا به دلیل نیاز به نوشتن رویههای تودرتو امر بسیار پیچیده و زمان بر است ثانیا در مدلداده گراف میتوانیم بر روی یالها نیز خصوصیاتی را برای ارتباط موجودیتها تعریف کنیم. با توجه به این سه مسئله به این نتیجه میرسیم پایگاهداده گرافی بهترین انتخاب برای این نوع بیماری ها است.در این پایاننامه با استفاده از مدلداده گراف پایگاهدادهای را طراحی خواهیم کرد که توانایی ذخیره انواع و حجمهای مختلف داده را دارا باشد. پایگاهدادهطراحی شده باید قابلیت انجام عملیات برروی این داده های ذخیره شده را داشته باشد و بتواند نتایج مورد نظر در بررسی انتقال بیماریهای ژنتیکی را ازآن استخراج کند. نتایجی مانند مسیر انتقال بیماری،امکان انتقال بیماری به نسل بعد یا امکان انتقال بیماری به جنسیت خاصی از نسل بعد، درصد انتقال بیماری و ...در این پایـگاهداده موجودیتها که همان افراد هستند درون گرهها ذخیره میشوند، در گرهها علاوهبر مشخصات عمومی بیماران تمام اطلاعات مربوط به بیــماری افراد، شرایط و علائم بیماران نیز ذخیرهمیشوند. در سطوح بعدی گراف، نسلهای بالاتر بیماران همراه با اطلاعات مربوط به بیماری مخصوصیکه در حال تحقیق در مورد آن هستند ذخیره خواهد شد. برای نمایش روابط بین افراد در این مدلداده ازیالها استفاده خواهیم کـــرد. به این صورت که اگر بیماری از شخصی به شخص دیگری انتقال یافت ازیال جهتدار برای نمایش این انتقال استفاده خواهیــم کرد. علاوه بر اینها میتـــوانیم بر روی یالهـــاتوضیحاتی را نیز اضافه نمائیم. توضیحاتی مانند درصد احتمال انتقال یک بیماری خاص از یک فرد بهفرددیگر.