معرفی نویسنده

پرهام حاجی شفیع

دانشجوی ارشد بیوانفورماتیک (دانشگاه تربیت مدرس)

یک روش مبتنی بر یادگیری عمیق ترکیبی برای پیش بینی اهداف miRNA

یک روش مبتنی بر یادگیری عمیق ترکیبی برای پیش بینی اهداف miRNA

میکرو RNA‌‌‌ها یا miRNA‌ها نقش اساسی را ‌‌‌در طیف گسترده‌ای از فرایندهای بیولوژیکی بازی می‌کنند. روش‌های محاسباتی بسیاری برای شناسایی اهداف miRNA ایجاد شده است. با این حال، اکثر این روشها به ویژگی‌های از پیش تعریف شده بستگی دارند که برای محاسبه آن‌ها، به منابع قابل توجهی از داده‌هاي آزمايشگاهي نياز است. میکرو RNAها، RNA های نظارتی کوچکی هستند که طول آنها حدود 22 نوکلئوتید است. آنها به طور معمول توالی های ترکیبی مکمل را با اهداف خود تشکیل می‌دهند و برای توقف بیان ژن یا تجزیه mRNA ها در سطح پس از رونویسی عمل می‌کنند. تحقيقات بسياري موجود است که miRNA ها در انواع فرآیندهای بیولوژیکی و بیماری‌های انسانی نقش اصلی دارند، از جمله تمایز و تکامل سلول، متابولیسم، تکثیر و آپوپتوز، عفونت ویروسی، تومورزایی، دیابت و بیماری های عصبی. بنابراین، یافتن اهداف miRNA برای درک بهتر عملکرد و تنظیم miRNA نقش بسيار پر رنگي دارد.
در اين مطالعه دو مجموعه داده حاوی توالی miRNA ها و ژن‌های انسانی از مطالعات DeepMirTar و miRAW استفاده شده است. اولین مجموعه داده از جداول پرونده اضافی مطالعه DeepMirTar که شامل 3915 جفت مثبت miRNA هدف و 3905 جفت منفی miRNA هدف است. جفت‌های منفی با بهم ریختن miRNA های بالغ واقعی ایجاد شده‌اند. جزئیات مربوط به تولید مجموعه داده‌ها در مطالعه DeepMirTar وجود دارد. ابتدا سازگاری مجموعه داده با توالی  miRNA آخرین ورژن miRBase ارزیابی شد و miRNA هایی که یافت نمی‌شدند از نسخه فعلی miRBase حذف گردید. سرانجام ، 3908 جفت مثبت و 3898 جفت منفی انتخاب شدند. در مطالعه DeepMirTar، یک مجموعه داده مستقل از آزمایش جمع‌آوری شد و همچنین به عنوان یک مجموعه داده مستقل در مطالعه مورد استفاده قرار گرفت و DeepMirTarIn نامگذاری شد.
در این پژوهش از شش لایه برای پیش‌بینی هدف miRNA استفاده شد. اگرچه مدل ارائه شده یک مدل ترکیبی است، اما دارای لایه‌های کمتری نسبت به مدل‌های استفاده شده می‌باشد( در DeepMirTar هفت لایه و miRAW هشت لایه استفاده شده است). اولین لایه یک لایه تعبیه شده است که داده‌های ورودی را به یک بردار متراکم پنج بعدی تبدیل می کند. این بردارها می تواند به صورت تصادفی مقداردهی اولیه شوند و با پنج لایه دیگر آموزش داده شود. لایه دوم یک لایه کانولیدی است که هدف آن یادگیری ویژگی های مکانی بین miRNA هدف است. لایه سوم یک لایه تجمعي حداکثري است که به طور معمول از لایه CNN پیروی می کند تا ابعاد داده های ورودی را کاهش دهد. لایه چهارم RNN دو جهته است که (BiRNN).ناميده مي شود. BiRNN می تواند ویژگی های متوالی miRNA و اهداف را بیاموزد. لایه پنجم و ششم لایه های متراکمی است که برای محاسبه طبقه بندی نهایی استفاده شده است. برای کاهش احتمال overfitting و تعمیم بیشتر رویکرد برای پیش‌بینی موارد آینده، پس از لایه دوم یک  dropout  اضافه شد. عناصر اصلی این روش در زیر شرح داده شده است.
 ابتدا مدل  ارائه شده در دو مجموعه داده (DeepMirTar  و miRAW ) به طور جداگانه، آموزش داده شد. برای بدست آوردن پارامترهای بهینه مدل، طیف وسیعی برای هر پارامتر مورد آزمایش قرار گرفت. پارامترها به این صورت انتخاب شد: نرخ یادگیری در 0.2، 0.1، 0.05، 0.01، 0.005 و 0.001. نرخ dropout در 0.1، 0.2، 0.3، 0.4 و 0.5 ؛ و اندازه‌های دسته‌ای در 10، 30، 50، 100 و 200. اندازه دوره(Loop) 1000 تعیین شده است. برای جلوگیری از اجرای بیش از حد، علاوه برdropout، توقف زودهنگام را نیز به کار گرفتیم. این برنامه، زمانی آموزش را متوقف می‌کند که دقت مدل در 100 دوره اجرا کمتر از1.0 درصد بهبود يابد(در صورت بهبودهاي بالاي 1 درصد حلقه ادامه يافته و ماکسيمم مقدار انتخاب مي‌شود). در اين مدل مجموعه داده‌های DeepMirTar و miRAW  به طور جداگانه به سه مجموعه تقسیم شده است.  20٪ به عنوان یک مجموعه داده تست ، 64٪ به عنوان یک مجموعه داده آموزشی و 16٪ به عنوان یک مجموعه داده اعتبار سنجی استفاده شدند. برای مجموعه دادهDeepMirTar ، پارامترهایی که بیشترین دقت را ایجاد می کنند میزان یادگیری 0.005، و dropout 0.2 و اندازه دسته 30 است که در تحلیل پایین دستی انتخاب شده‌اند. مدل آموزش دیده با این مجموعه از پارامترها به عنوان miTAR1 برچسب گذاری شد. سپس مجموعه داده DeepMirTar به طور تصادفی 30 بار به مجموعه‌های آموزش، اعتبار‌‌سنجی و آزمون تقسیم شد و همان ساختار مدل 30 بار اجرا گرديد. به طور متوسط 97.9٪ دقت بدست آمد که درصد پیشبینی بسیار قابل قبولی می‌باشد.

منبع :

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04026-6

کلید واژه ها: ##miRNA ##dropout ##overfit ##بیوانفورماتیک ##نوکلئوتید

telegram