یادگیری عمیق تعبیه های حفظ (قسمت هفتم)

از جدول 1 (ب)، ما می توانیم ببینیم که تغییر تابع تعبیه از خطی به غیر خطی باعث بهبود دقت در حدود 4٪ در سراسر بورد می شود. رفتن از محدودیت های تک جهته به دو جهته باعث بهبود دقت در حدود 1-2٪ برای بازیابی تصویر به جمله با یک مقدار بزرگتر برای بازیابی جمله به تصویر است. در نهایت، با اضافه کردن محدودیت های حفظ ساختار بهبود بیشتری در حدود 1-2٪ در هر دو مورد خطی و غیر خطی ارائه می دهد.
روش های جدول 1 (الف) قابل مقایسه ترین در CCA (HGLMM) هستند، چرا که آنها از نمایش ویژگی های زمینه ای یکسان با CCA خطی استفاده می کنند. مدل خطی ما با تمام محدودیت های معادله (5) بهتر از CCA خطی عمل نمی کند، اما غیر خطی ما عمل می کند. در نهایت، به بررسی میزان استفاده از روش ما بسته به قدرت ویژگی های ورودی می پردازد، بخش های (ج) و (د) جدول 1 نتایج را برای مدل های غیر خطی ما با و بدون محدودیت های حفظ ساختار اعمال شده در بالا از نمایش های ضعیف متن، به نام میانگین بردار های word2vec از جمله و بردار هایTF-IDF گزارش می دهد، همانطور که در بخش 3.1 شرح داده شده است. یک بار دیگر، ما می توانیم ببینیم که محدودیت حفظ ساختار به ما بهبود اضافی می دهد. نتایج ما با میانگین بردار، بطور قابل توجهی بهتر از نتایج CCA از [26[ در ویژگی های مشابه است، و در واقع قابل مقایسه با نتایج [26، 37] در بالای نمایش قوی تر FVهستند. برایTF-IDF، ما به نتایجی دست می یابیم که درست در پیرو بهترین نتایج FV ما می باشند، نشان می دهد که ما نیازی به استفاده از بسیاری از ویژگی های غیر خطی به عنوان یک ورودی به منظور یادگیری یک تعبیه خوب نداریم. دلیل احتمالی دیگر این است که چرا TF-IDF به شدت عمل می کند، بنابراین ممکن است که ویژگی های word2vec در یک پیکره متن نا مربوط قبل از آموزش(بدست آمده) دیده، باشند، به طوری که آنها ممکن نیست به خوبی در داده های خاص ما سازگار یابند. برای MSCOCO، نتایج بر روی 1000 تصویر آزمون در جدول 2 ذکر شده است. روند همان است که در جدول 1 آمده است:
اضافه کردن محدودیت های حفظ ساختار در فضای جمله به طور مداوم باعث بهبود عملکرد و نتایج ما با ویژگی متن FVمی شود، که بطور قابل توجهی بیش از قبلی است. ما همچنین تلاش کرده ایم تا شبکه VGG توسط تابع تلفات ما قبل از انتشار از طریق تمام لایه VGG ها به خوبی تنظیم شود و در حدود 0.5٪ بهبود اضافی حاصل شده است.
3.3محلی سازی عبارت در هویت های Flickr30K
به تازگی منتشر شده است که موجودیت مجموعه داده Flickr30K [37[ به ما اجازه می دهد تا مکاتبات بین عبارات و نواحی تصویر را یاد بگیریم. به طور خاص، حاشیه نویسی در این مجموعه داده لینک هایی از 244k تذکر از هویت های مجزا در جملات در 276k واقعی ارائه می دهد که از جعبه های محدوده (برخی اشخاص از موارد متعدد، از جمله عنوان "گروهی از مردم") تشکیل شده است.ما به این مجموعه داده علاقه مندیم چرا که بر خلاف مجموعه داده های تصویر- جمله کلی و سراسری، آن مکاتبات بسیار در بسیاری را فراهم می کند، یعنی، هر ناحیه ممکن است توسط چندین عبارت توصیف شود و هر عبارت ممکن است نمونه های متعددی در سراسر تصاویر متعدد داشته باش. این اجازه می دهد تا ما از محدودیت های حفظ ساختار در هر دو فضای بصری و متنی استفاده کنیم. همانطور که در [37] فرموله شده است، هدف از محلی سازی عبارت پیش بینی یک محدوده جعبه در یک تصویر برای هر تذکر هویت (عبارت اسمی) از یک عنوان است که با آن تصویر می رود.برای یک عبارت خاص، ما جستجو را با استخراج ناحیه 100طرح EdgeBox [54] انجام می دهیم به ثمر رساندن آنها با استفاده از تعبیه ما است. برای به دست آوردن عملکرد خوب، بهترین امتیاز دهی جعبه باید با ناحیه واقعی همپوشانی بالایی داشته باشد. این را می توان به عنوان یک مشکل رتبه بندی در نظر گرفت، و هم CCA و هم روش های ما می توانند تطابق را با عبارات و مناطق به دست آورند. از سوی دیگر، ما باید بدانیم که این مشکل بیشتر مانند تشخیص تحقق می یابد، که در آن الگوریتم باید قادر به تشخیص اشیاء پیش زمینه از جعبه هایی باشد که فقط شامل پس زمینه یا اشیائی که به طور ناچیزی محلی سازی شده است. CCA عمیق در این سناریو مناسب نیست، از آنجا که هیچ راهی برای اضافه کردن جعبه های منفی به مرحله یادگیری آنها وجود ندارد. با این حال، تابع تلفات مبتنی بر حاشیه ما، آن را ممکن می سازد.


جدول‎2.‎ نتایج بازیابی دو طرفه در 100 تصویر‎ مجموعه‎ تست MSCOCO

Your comments