توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای

توضیحات تصویر شامل تولید یک توصیف متنی معنادار با توجه به یک تصویر است. این مساله ای آسان برای یک انسان است، اما برای یک ماشین بسیار چالش برانگیز است؛ زیرا هم شامل درک محتوای یک تصویر است و هم اینکه چگونه می توان این درک را به یک زبان طبیعی ترجمه کرد. اخیرا روش های یادگیری عمیق جانشین متدهای کلاسیک شده و در حال دستیابی به نتایج پیشرفته تری برای حل مشکل تولید خودکار توضیحات تصویر است.

در این مقاله خواهید دید که چگونه می توان از مدل های شبکه عصبی عمیق برای تولید خودکار توضیحات تصویر استفاده کرد.
پس از مطالعه این مقاله موارد زیر را درک خواهید کرد:
• درباره چالش تولید توضیحات تصویر و لزوم ترکیب پیشرفت های حاصل از بینایی رایانه ای و پردازش زبان طبیعی.
• درباره عناصر یک مدل عصبی توضیح تصویر، یعنی استخراج ویژگی و مدل زبان
• چگونگی چیدمان عناصر مدل در رمزگذار-رمزگشا (توسط مکانیسم اتنشن (Attention Mechanism))

١) توضیحات تصویر با متن

توضیحات تصویر شامل تولید توصیف متنی قابل خواندن توسط انسان برای یک تصویر است. نگاهی گذرا به یک تصویر برای یک انسان کافی است تا جزئیات تصویری را درک کرده و به خوبی توصیف کند. اما برای مدل های تشخیص بصری این کار ساده نیست.
به منظور تولید توضیحات تصویر، ابتدا لازم است تا محتوای تصویر به صورت “کلمات” معنی دار ترجمه شده وسپس در قالب “جملات” قابل درک ارائه شوند. این موضوع بینایی رایانه ای و پردازش زبان طبیعی را در هم می آمیزد و یک بحث چالش برانگیز را در ابعاد وسیع تری از هوش مصنوعی مطرح می کند. اما درجه سختی نیز می تواند متفاوت باشد. به مثال های زیر توجه کنید.

• طبقه بندی تصویر

اختصاص دادن برچسب به تصویر از هزاران کلاس برچسب موجود.

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای

• توضیحات تصویر

تولید توضیح متنی برای یک تصویر

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای
• حاشیه نویسی تصویر

تولید توضیح متنی برای قسمت خاصی از یک تصویر
توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای
همچنین می توان به تولید توضیحات تصویرهای مختلف در طول یک ویدئو نیز اشاره کرد. در این مقاله ما روی “توضیحات تصویر” تمرکز می کنیم.

 

٢) مدل عصبی توضیحات تصویر

مدل های شبکه عصبی برای تسلط در زمینه تولید خودکار توضیحات تصویر به دست آمده اند. روش های غالب پیش از مدل های شبکه عصبی end-to-end برای تولید توضیحات تصویر، شامل روش Template-based ، روش Nearest-neighbor-based و روش اصلاح توضیحات موجود می باشد.
( قبل از استفاده از شبکه های عصبی برای تولید توضیح ، دو رویکرد اصلی غالب بودند. اولین رویکرد، قالب های ایجاد توضیح با توجه به اشیاء و کشف ویژگی های تصویر را شامل می شد. رویکرد دوم مبتنی بر این بود که ابتدا تصاویری مشابه با تصویر مورد نظر که دارای توضیح بودند را از یک پایگاه داده بزرگ بازیابی کرده و سپس توضیحات متناسب با نیاز اصلاح تغییر می کردند. )

مدل های شبکه عصبی برای نوشتن توضیحات تصویر شامل دو عنصر اصلی هستند:

 

• مدل استخراج ویژگی

مدل استخراج ویژگی، یک شبکه عصبی است که با در نظر گرفتن یک تصویر قادر به استخراج ویژگی های برجسته، اغلب به شکل یک بردار با طول ثابت است.
ویژگی های استخراج شده تمثالی داخلی از تصویر است، نه چیزی که به طور مستقیم قابل درک باشد. یک شبکه عصبی پیچشی به عنوان زیرمجموعه استخراج ویژگی مورد استفاده قرار می گیرد. این شبکه را می توان مستقیماً روی تصاویر موجود در مجموعه داده توضیحات تصویر آموزش داد.
از طرف دیگر می توان از یک مدل از قبل آموزش دیده مانند مدل پیشرفته ای که برای طبقه بندی تصویر کاربرد دارد نیز استفاده کرد. استفاده از مدل های عملکرد بالا در مجموعه داده های ImageNet ایجاد شده برای چالش ILSVRC، بسیار محبوب است (مانند مدل گروه هندسی آکسفورد ویژن).

 

• مدل زبان

بطور کلی ، یک مدل زبان با توجه به کلماتی که در توالی وجود دارند، کلمه بعدی را پیش بینی می کند. در تولید توضیحات تصویر، مدل زبان یک شبکه عصبی است که با توجه به ویژگی های استخراج شده از شبکه قادر به پیش بینی دنباله کلمات در توضیحات و ایجاد توضیحات با توجه به کلماتی است که قبلاً تولید شده اند. استفاده از یک شبکه عصبی بازگشتی به عنوان مدل زبان بسیار مرسوم است. هر خروجی کلمه جدیدی را در دنباله ایجاد می کند.

هر کلمه ای که تولید می شود رمزگذاری شده و به عنوان ورودی برای رمزگشایی در تولید کلمه بعدی مورد استفاده قرار می گیرد. پیشرفت مدل شامل گردآوری توزیع کلمات در کل واژگان برای دنباله خروجی و جستجوی آن برای تولید چندین توصیف ممکن است. سپس می توان توضیحات احتمالی را امتیازدهی نمود. استفده از الگوریتم جستجوی پرتو (Beam Search) برای این منظور رایج است. مدل زبان را می توان مستقل و با استفاده از ویژگی های از پیش محاسبه شده از مجموعه داده های تصویر آموزش داد. همچنین می توان آن را به طور مشترک با شبکه استخراج ویژگی آموزش داد.

 

٣) معماری رمزگذار-رمزگشا

یک روش محبوب برای ساخت مدل های فرعی استفاده از معماری رمزگذار-رمزگشایی است که در آن هر دو مدل به طور مشترک آموزش داده می شوند. مدل مبتنی بر یک شبکه عصبی پیچشی است که یک تصویر را در یک تمثال فشرده کدگذاری می کند، و به دنبال آن یک شبکه عصبی بازگشتی یک جمله را تولید می کند.

این معماری برای ترجمه ماشینی ایجاد شده است که یک توالی ورودی، مثلاً به زبان فرانسوی، را به عنوان یک بردار با طول ثابت رمزگذاری شده است. سپس یک شبکه رمزگشا به صورت جداگانه کدگذاری را خوانده و دنباله خروجی را به زبان جدید تولید می کند، مثلاً انگلیسی. مزیت این رویکرد علاوه بر مهارت چشمگیر آن این است که می توان یک مدل end-to-end برای مسئله آموزش داد. جهت تطبیق توضیحات تصویر، شبکه رمزگذار یک شبکه عصبی پیچشی است و شبکه رمزگشایی گروهی ای از لایه های LSTM است.

مدل توضیحات تصویر توسط مکانیسم اتنشن (Attention Mechanism)
یک محدودیت در معماری رمزگذار-رمزگشا این است که از یک نمایه با طول ثابت برای نگهداری ویژگی های استخراج شده استفاده می کند. این مورد در ترجمه ماشینی با افزایش توجه به رمزگذاری غنی تر مورد توجه قرار گرفته است. از این روش همچنین می توان جهت بهبود عملکرد معماری رمزگذار-رمزگشا در توضیح تصویر با استفاده از رمزگشایی تصویر استفاده کرد. با استفاده از این روش، رمزگشاها می توانند آموزش ببینند که در هنگام تولید هر کلمه در توضیحات، روی کدام قسمت از تصویر متمرکز باشند.

به مثال زیر توجه کنید:

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای
جمع بندی

در این مقاله، شما دریافتید که چگونه می توان از مدل های شبکه عصبی عمیق برای تولید خودکار توضیحات تصاویر استفاده کرد. همچنین خواندید:
• درباره چالش تولید توضیحات متنی برای تصاویر و لزوم ترکیب پیشرفت های حاصل از بینایی رایانه ای و پردازش زبان طبیعی.
• درباره عناصری که یک مدل توضیحات تصویر عصبی را دارند ، یعنی استخراج ویژگی و مدل زبان.
• چگونگی چیدمان عناصر مدل در رمزگذار-رمزگشا (توسط مکانیسم اتنشن (Attention Mechanism))


شما عزیزان همچنین می‌توانید فایل مقاله فوق را به صورت رایگان دریافت نمایید.


 

آیا این مطلب برای شما مفید بود؟

امتیازشو ثبت کنید

میانگین / 5. تعداد رای

اولین نفر شما امتیاز دهید

شاید به این مطالب نیز علاقه مند باشید.

ریاضیات در یادگیری عمیق

کاربرد ریاضیات در یادگیری عمیق

یادگیری عمیق نوعی از علم یادگیری ماشین و هوش مصنوعی است که در واقع از روشی که ذهن انسان برای یادگیری موضوع خاصی به کار می گیرد، تقلید می کند.…

دیپ لرنینگ در 2020 و بهترین نرم افزارهای دیپ لرنینگ و زبان های برنامه نویسی برای دیپ لرنینگ

نکات مهمی که باید در سال ٢٠٢٠ درباره دیپ لرنینگ بدانید +( زبان های برنامه نویسی برای دیپ لرنینگ)

در گذشته، کامپیوترها به سادگی وظایفی را با استفاده از مجموعه دستورالعمل هایی كه به آن ها داده شده بود، انجام می دادند. اکنون با پیشرفت های چشم گیر در…

اتومبیل های خودران و اتومبیل های بدون راننده و رانندگی بدون راننده و دیپ لرنینگ و شبکه های عصبی

اتومبیل های خودران چگونه به واقعیت تبدیل می شوند؟ ( کاربرد دیپ لرنینگ)

دهه گذشته شاهد پیشرفت فزاینده ای در فناوری اتومبیل های خودران بوده ایم که عمدتاً از پیشرفت در زمینه دیپ لرنینگ و هوش مصنوعی ناشی می شد. در آینده ای…

Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
آکادمی آمانج
مهارت آموزی جهت ورود به بازار کار

تاییدیه ها

تهران - امیرآباد، دانشکده فنی دانشگاه تهران، ساختمان مکانیک جدید واحد ۱۱۴

آیا این مطلب برای شما مفید بود؟

امتیازشو ثبت کنید

میانگین / 5. تعداد رای

اولین نفر شما امتیاز دهید

کد تخفیف نمیخوای؟

اگه میخوای کد تخفیف شرکت در دوره‌ها، وبینارهای رایگان، بهترین مقالات آکادمی آمانج رو از دست ندی ایمیلت رو این زیر وارد کن!
همین الان عضو شو
close-link
من اینجام