Site icon آکادمی آمانج

چگونه می توان با یادگیری عمیق توضیحات تصویر تولید کرد؟

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای

توضیحات تصویر شامل تولید یک توصیف متنی معنادار با توجه به یک تصویر است. این مساله ای آسان برای یک انسان است، اما برای یک ماشین بسیار چالش برانگیز است؛ زیرا هم شامل درک محتوای یک تصویر است و هم اینکه چگونه می توان این درک را به یک زبان طبیعی ترجمه کرد. اخیرا روش های یادگیری عمیق جانشین متدهای کلاسیک شده و در حال دستیابی به نتایج پیشرفته تری برای حل مشکل تولید خودکار توضیحات تصویر است.

در این مقاله خواهید دید که چگونه می توان از مدل های شبکه عصبی عمیق برای تولید خودکار توضیحات تصویر استفاده کرد.
پس از مطالعه این مقاله موارد زیر را درک خواهید کرد:
• درباره چالش تولید توضیحات تصویر و لزوم ترکیب پیشرفت های حاصل از بینایی رایانه ای و پردازش زبان طبیعی.
• درباره عناصر یک مدل عصبی توضیح تصویر، یعنی استخراج ویژگی و مدل زبان
• چگونگی چیدمان عناصر مدل در رمزگذار-رمزگشا (توسط مکانیسم اتنشن (Attention Mechanism))

 

١) توضیحات تصویر با متن

توضیحات تصویر شامل تولید توصیف متنی قابل خواندن توسط انسان برای یک تصویر است. نگاهی گذرا به یک تصویر برای یک انسان کافی است تا جزئیات تصویری را درک کرده و به خوبی توصیف کند. اما برای مدل های تشخیص بصری این کار ساده نیست.
به منظور تولید توضیحات تصویر، ابتدا لازم است تا محتوای تصویر به صورت “کلمات” معنی دار ترجمه شده وسپس در قالب “جملات” قابل درک ارائه شوند. این موضوع بینایی رایانه ای و پردازش زبان طبیعی را در هم می آمیزد و یک بحث چالش برانگیز را در ابعاد وسیع تری از هوش مصنوعی مطرح می کند. اما درجه سختی نیز می تواند متفاوت باشد. به مثال های زیر توجه کنید.

• طبقه بندی تصویر

اختصاص دادن برچسب به تصویر از هزاران کلاس برچسب موجود.

 

 

 

• توضیحات تصویر

تولید توضیح متنی برای یک تصویر

• حاشیه نویسی تصویر

تولید توضیح متنی برای قسمت خاصی از یک تصویر
همچنین می توان به تولید توضیحات تصویرهای مختلف در طول یک ویدئو نیز اشاره کرد. در این مقاله ما روی “توضیحات تصویر” تمرکز می کنیم.

 

٢) مدل عصبی توضیحات تصویر

مدل های شبکه عصبی برای تسلط در زمینه تولید خودکار توضیحات تصویر به دست آمده اند. روش های غالب پیش از مدل های شبکه عصبی end-to-end برای تولید توضیحات تصویر، شامل روش Template-based ، روش Nearest-neighbor-based و روش اصلاح توضیحات موجود می باشد.
( قبل از استفاده از شبکه های عصبی برای تولید توضیح ، دو رویکرد اصلی غالب بودند. اولین رویکرد، قالب های ایجاد توضیح با توجه به اشیاء و کشف ویژگی های تصویر را شامل می شد. رویکرد دوم مبتنی بر این بود که ابتدا تصاویری مشابه با تصویر مورد نظر که دارای توضیح بودند را از یک پایگاه داده بزرگ بازیابی کرده و سپس توضیحات متناسب با نیاز اصلاح تغییر می کردند. )

مدل های شبکه عصبی برای نوشتن توضیحات تصویر شامل دو عنصر اصلی هستند:

 

• مدل استخراج ویژگی

مدل استخراج ویژگی، یک شبکه عصبی است که با در نظر گرفتن یک تصویر قادر به استخراج ویژگی های برجسته، اغلب به شکل یک بردار با طول ثابت است.
ویژگی های استخراج شده تمثالی داخلی از تصویر است، نه چیزی که به طور مستقیم قابل درک باشد. یک شبکه عصبی پیچشی به عنوان زیرمجموعه استخراج ویژگی مورد استفاده قرار می گیرد. این شبکه را می توان مستقیماً روی تصاویر موجود در مجموعه داده توضیحات تصویر آموزش داد.
از طرف دیگر می توان از یک مدل از قبل آموزش دیده مانند مدل پیشرفته ای که برای طبقه بندی تصویر کاربرد دارد نیز استفاده کرد. استفاده از مدل های عملکرد بالا در مجموعه داده های ImageNet ایجاد شده برای چالش ILSVRC، بسیار محبوب است (مانند مدل گروه هندسی آکسفورد ویژن).

 

• مدل زبان

بطور کلی ، یک مدل زبان با توجه به کلماتی که در توالی وجود دارند، کلمه بعدی را پیش بینی می کند. در تولید توضیحات تصویر، مدل زبان یک شبکه عصبی است که با توجه به ویژگی های استخراج شده از شبکه قادر به پیش بینی دنباله کلمات در توضیحات و ایجاد توضیحات با توجه به کلماتی است که قبلاً تولید شده اند. استفاده از یک شبکه عصبی بازگشتی به عنوان مدل زبان بسیار مرسوم است. هر خروجی کلمه جدیدی را در دنباله ایجاد می کند.

هر کلمه ای که تولید می شود رمزگذاری شده و به عنوان ورودی برای رمزگشایی در تولید کلمه بعدی مورد استفاده قرار می گیرد. پیشرفت مدل شامل گردآوری توزیع کلمات در کل واژگان برای دنباله خروجی و جستجوی آن برای تولید چندین توصیف ممکن است. سپس می توان توضیحات احتمالی را امتیازدهی نمود. استفده از الگوریتم جستجوی پرتو (Beam Search) برای این منظور رایج است. مدل زبان را می توان مستقل و با استفاده از ویژگی های از پیش محاسبه شده از مجموعه داده های تصویر آموزش داد. همچنین می توان آن را به طور مشترک با شبکه استخراج ویژگی آموزش داد.

 

٣) معماری رمزگذار-رمزگشا

یک روش محبوب برای ساخت مدل های فرعی استفاده از معماری رمزگذار-رمزگشایی است که در آن هر دو مدل به طور مشترک آموزش داده می شوند. مدل مبتنی بر یک شبکه عصبی پیچشی است که یک تصویر را در یک تمثال فشرده کدگذاری می کند، و به دنبال آن یک شبکه عصبی بازگشتی یک جمله را تولید می کند.

این معماری برای ترجمه ماشینی ایجاد شده است که یک توالی ورودی، مثلاً به زبان فرانسوی، را به عنوان یک بردار با طول ثابت رمزگذاری شده است. سپس یک شبکه رمزگشا به صورت جداگانه کدگذاری را خوانده و دنباله خروجی را به زبان جدید تولید می کند، مثلاً انگلیسی. مزیت این رویکرد علاوه بر مهارت چشمگیر آن این است که می توان یک مدل end-to-end برای مسئله آموزش داد. جهت تطبیق توضیحات تصویر، شبکه رمزگذار یک شبکه عصبی پیچشی است و شبکه رمزگشایی گروهی ای از لایه های LSTM است.

مدل توضیحات تصویر توسط مکانیسم اتنشن (Attention Mechanism)
یک محدودیت در معماری رمزگذار-رمزگشا این است که از یک نمایه با طول ثابت برای نگهداری ویژگی های استخراج شده استفاده می کند. این مورد در ترجمه ماشینی با افزایش توجه به رمزگذاری غنی تر مورد توجه قرار گرفته است. از این روش همچنین می توان جهت بهبود عملکرد معماری رمزگذار-رمزگشا در توضیح تصویر با استفاده از رمزگشایی تصویر استفاده کرد. با استفاده از این روش، رمزگشاها می توانند آموزش ببینند که در هنگام تولید هر کلمه در توضیحات، روی کدام قسمت از تصویر متمرکز باشند.

جمع بندی

در این مقاله، شما دریافتید که چگونه می توان از مدل های شبکه عصبی عمیق برای تولید خودکار توضیحات تصاویر استفاده کرد. همچنین خواندید:
• درباره چالش تولید توضیحات متنی برای تصاویر و لزوم ترکیب پیشرفت های حاصل از بینایی رایانه ای و پردازش زبان طبیعی.
• درباره عناصری که یک مدل توضیحات تصویر عصبی را دارند ، یعنی استخراج ویژگی و مدل زبان.
• چگونگی چیدمان عناصر مدل در رمزگذار-رمزگشا (توسط مکانیسم اتنشن (Attention Mechanism))

 

مشاهده نسخه گرافیکی و کامل