یادگیری عمیق تعبیه های حفظ (قسمت ششم)

3.1. ویژگی ها و تنظیمات شبکه

در آزمایش های بازیابی تصویر- جمله، برای نشان دادن تصاویر، ما جزئیات پیاده سازی را در [26، 37] دنبال می کنیم. با توجه به تصویر، ما فعال سازی های 4096 بعدی را از مدل VGG، 19 لایه استخراج می کنیم[42]. پس از پروسه استاندارد، تصویر اصلی 256 × 256 به ده طریق مختلف در 224 × 224 تصویر سر شاخه می شود(برش داده می شود): چهار گوشه، مرکز، و محور x تصویر آن ها است. سپس میانگین شدت از هر کانال رنگی کاسته خواهد شد، تصاویر توسط شبکه های کد گذاری شده به دست آمده است و خروجی های شبکه، متوسط گیری خواهد شد. برای نشان جملات و عبارات، ما در درجه اول از نمایش بردار فیشر (FV) [36] به صورتی که توسط کلاین و همکاران [26] پیشنهاد داده شده است، استفاده می کنیم. با شروع با بردار های 300 بعدی word2vec [34] از کلمات جمله، ما ICA در [26] اعمال نموده و یک کتاب کد با 30 مرکز با استفاده از هر دو اطلاعات مرتبه اول و مرتبه دوم ایجاد می کنیم، که منجر به ویژگی های جمله از بعد 300 * 30 * 2 = 18000 می شود. ما فقط از مدل ترکیب گوسی-لاپلاس هیبریدی (HGLMM) از مرجع [26] برای آزمایش های مان به جای مدل ترکیبی HGLMM + GMM که از بهترین عملکرد در مرجع[26] به دست آمده است، استفاده می کنیم. برای صرفه جویی در حافظه و زمان بدست آوردن(آموزش)، ما PCA را در این بردار های 18000 بعدی به منظور کاهش آنها به 6000 بعد اعمال می کنیم. PCA همچنین باعث می شود ویژگی های اصلی کمتر پراکنده باشد، که برای پایداری عددی خوب است که پروسه آموزشی ما است.
از آنجا که FV در حال حاضر یک تبدیل غیر خطی hand-crafted قدرتمند از جملات اصلی است، ما نیز علاقه مند به کاوش اثربخشی رویکرد مان در بالای بازنمایی متن ساده تر هستیم. برای این منظور، ما نتایج را در میانگین(معنای) 300 بعدی از بردار word2vec از کلمات در هر جمله / عبارت و در بردار های bagof-words وزن دهی شده TF-IDF شامل می کنیم. برای مجموعه داده Flickr30K، اندازه فرهنگ لغت ما (و توصیف گر به صورت ابعادی) 3000 است، و برای MSCOCO، آن 5600 است. برای آزمایش های ما با استفاده از TF-IDF و یا ویژگی های متن FV، ما تعبیه بعد را بر روی 512 تنظیم می کنیم. در طرف تصویر (X)، در هنگام استفاده از ویژگی های بصری 4096 بعدی ، W1 یک ماتریس 4096 × 2048 است ، وW2 یک ماتریس 2048 × 512 است. که ابعاد خروجی از دو لایه [2048، 512] هستند. در سمت متن (Y)، ابعاد خروجی V1 و لایه های V2 هستند [2048، 512]. برای آزمایش ها، ما از ویژگی های 300-D word2vec ، با استفاده از یک بعد پایین تر (256) برای فضای تعبیه و خروجی لایه های میانی که بر این اساس به [1024، 256] تغییر کرده است، استفاده می کنیم. ما شبکه های مان را با استفاده از SGD با اندازه حرکت 0.9 و وزن پوسیدگی 0.0005 ، بدست می آوریم. ما با استفاده از نرخ یادگیری کوچک با 0.1 شروع نموده و نرخ یادگیری پوسیدگی 0.1 بعد از هر 10 دوره است. برای سرعت بخشیدن به بدست آوردن و همچنین به روز رسانی گرادیان پایدار تر، ما نرمالیزه سازی دسته ای را [20] اعمال می کنیم که درست بعد از آخرین لایه خطی از هر دو شاخه شبکه می باشد.

Your comments