توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای

  این مقاله را میتوانید در مدت زمان 3 دقیقه مطالعه کنید

توضیحات تصویر شامل تولید یک توصیف متنی معنادار با توجه به یک تصویر است. این مساله ای آسان برای یک انسان است، اما برای یک ماشین بسیار چالش برانگیز است؛ زیرا هم شامل درک محتوای یک تصویر است و هم اینکه چگونه می توان این درک را به یک زبان طبیعی ترجمه کرد. اخیرا روش های یادگیری عمیق جانشین متدهای کلاسیک شده و در حال دستیابی به نتایج پیشرفته تری برای حل مشکل تولید خودکار توضیحات تصویر است.

در این مقاله خواهید دید که چگونه می توان از مدل های شبکه عصبی عمیق برای تولید خودکار توضیحات تصویر استفاده کرد.
پس از مطالعه این مقاله موارد زیر را درک خواهید کرد:
• درباره چالش تولید توضیحات تصویر و لزوم ترکیب پیشرفت های حاصل از بینایی رایانه ای و پردازش زبان طبیعی.
• درباره عناصر یک مدل عصبی توضیح تصویر، یعنی استخراج ویژگی و مدل زبان
• چگونگی چیدمان عناصر مدل در رمزگذار-رمزگشا (توسط مکانیسم اتنشن (Attention Mechanism))

١) توضیحات تصویر با متن

توضیحات تصویر شامل تولید توصیف متنی قابل خواندن توسط انسان برای یک تصویر است. نگاهی گذرا به یک تصویر برای یک انسان کافی است تا جزئیات تصویری را درک کرده و به خوبی توصیف کند. اما برای مدل های تشخیص بصری این کار ساده نیست.
به منظور تولید توضیحات تصویر، ابتدا لازم است تا محتوای تصویر به صورت “کلمات” معنی دار ترجمه شده وسپس در قالب “جملات” قابل درک ارائه شوند. این موضوع بینایی رایانه ای و پردازش زبان طبیعی را در هم می آمیزد و یک بحث چالش برانگیز را در ابعاد وسیع تری از هوش مصنوعی مطرح می کند. اما درجه سختی نیز می تواند متفاوت باشد. به مثال های زیر توجه کنید.

• طبقه بندی تصویر

اختصاص دادن برچسب به تصویر از هزاران کلاس برچسب موجود.

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای

• توضیحات تصویر

تولید توضیح متنی برای یک تصویر

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای
• حاشیه نویسی تصویر

تولید توضیح متنی برای قسمت خاصی از یک تصویر
توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای
همچنین می توان به تولید توضیحات تصویرهای مختلف در طول یک ویدئو نیز اشاره کرد. در این مقاله ما روی “توضیحات تصویر” تمرکز می کنیم.

 

٢) مدل عصبی توضیحات تصویر

مدل های شبکه عصبی برای تسلط در زمینه تولید خودکار توضیحات تصویر به دست آمده اند. روش های غالب پیش از مدل های شبکه عصبی end-to-end برای تولید توضیحات تصویر، شامل روش Template-based ، روش Nearest-neighbor-based و روش اصلاح توضیحات موجود می باشد.
( قبل از استفاده از شبکه های عصبی برای تولید توضیح ، دو رویکرد اصلی غالب بودند. اولین رویکرد، قالب های ایجاد توضیح با توجه به اشیاء و کشف ویژگی های تصویر را شامل می شد. رویکرد دوم مبتنی بر این بود که ابتدا تصاویری مشابه با تصویر مورد نظر که دارای توضیح بودند را از یک پایگاه داده بزرگ بازیابی کرده و سپس توضیحات متناسب با نیاز اصلاح تغییر می کردند. )

مدل های شبکه عصبی برای نوشتن توضیحات تصویر شامل دو عنصر اصلی هستند:

 

• مدل استخراج ویژگی

مدل استخراج ویژگی، یک شبکه عصبی است که با در نظر گرفتن یک تصویر قادر به استخراج ویژگی های برجسته، اغلب به شکل یک بردار با طول ثابت است.
ویژگی های استخراج شده تمثالی داخلی از تصویر است، نه چیزی که به طور مستقیم قابل درک باشد. یک شبکه عصبی پیچشی به عنوان زیرمجموعه استخراج ویژگی مورد استفاده قرار می گیرد. این شبکه را می توان مستقیماً روی تصاویر موجود در مجموعه داده توضیحات تصویر آموزش داد.
از طرف دیگر می توان از یک مدل از قبل آموزش دیده مانند مدل پیشرفته ای که برای طبقه بندی تصویر کاربرد دارد نیز استفاده کرد. استفاده از مدل های عملکرد بالا در مجموعه داده های ImageNet ایجاد شده برای چالش ILSVRC، بسیار محبوب است (مانند مدل گروه هندسی آکسفورد ویژن).

 

• مدل زبان

بطور کلی ، یک مدل زبان با توجه به کلماتی که در توالی وجود دارند، کلمه بعدی را پیش بینی می کند. در تولید توضیحات تصویر، مدل زبان یک شبکه عصبی است که با توجه به ویژگی های استخراج شده از شبکه قادر به پیش بینی دنباله کلمات در توضیحات و ایجاد توضیحات با توجه به کلماتی است که قبلاً تولید شده اند. استفاده از یک شبکه عصبی بازگشتی به عنوان مدل زبان بسیار مرسوم است. هر خروجی کلمه جدیدی را در دنباله ایجاد می کند.

هر کلمه ای که تولید می شود رمزگذاری شده و به عنوان ورودی برای رمزگشایی در تولید کلمه بعدی مورد استفاده قرار می گیرد. پیشرفت مدل شامل گردآوری توزیع کلمات در کل واژگان برای دنباله خروجی و جستجوی آن برای تولید چندین توصیف ممکن است. سپس می توان توضیحات احتمالی را امتیازدهی نمود. استفده از الگوریتم جستجوی پرتو (Beam Search) برای این منظور رایج است. مدل زبان را می توان مستقل و با استفاده از ویژگی های از پیش محاسبه شده از مجموعه داده های تصویر آموزش داد. همچنین می توان آن را به طور مشترک با شبکه استخراج ویژگی آموزش داد.

 

٣) معماری رمزگذار-رمزگشا

یک روش محبوب برای ساخت مدل های فرعی استفاده از معماری رمزگذار-رمزگشایی است که در آن هر دو مدل به طور مشترک آموزش داده می شوند. مدل مبتنی بر یک شبکه عصبی پیچشی است که یک تصویر را در یک تمثال فشرده کدگذاری می کند، و به دنبال آن یک شبکه عصبی بازگشتی یک جمله را تولید می کند.

این معماری برای ترجمه ماشینی ایجاد شده است که یک توالی ورودی، مثلاً به زبان فرانسوی، را به عنوان یک بردار با طول ثابت رمزگذاری شده است. سپس یک شبکه رمزگشا به صورت جداگانه کدگذاری را خوانده و دنباله خروجی را به زبان جدید تولید می کند، مثلاً انگلیسی. مزیت این رویکرد علاوه بر مهارت چشمگیر آن این است که می توان یک مدل end-to-end برای مسئله آموزش داد. جهت تطبیق توضیحات تصویر، شبکه رمزگذار یک شبکه عصبی پیچشی است و شبکه رمزگشایی گروهی ای از لایه های LSTM است.

مدل توضیحات تصویر توسط مکانیسم اتنشن (Attention Mechanism)
یک محدودیت در معماری رمزگذار-رمزگشا این است که از یک نمایه با طول ثابت برای نگهداری ویژگی های استخراج شده استفاده می کند. این مورد در ترجمه ماشینی با افزایش توجه به رمزگذاری غنی تر مورد توجه قرار گرفته است. از این روش همچنین می توان جهت بهبود عملکرد معماری رمزگذار-رمزگشا در توضیح تصویر با استفاده از رمزگشایی تصویر استفاده کرد. با استفاده از این روش، رمزگشاها می توانند آموزش ببینند که در هنگام تولید هر کلمه در توضیحات، روی کدام قسمت از تصویر متمرکز باشند.

به مثال زیر توجه کنید:

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای
جمع بندی

در این مقاله، شما دریافتید که چگونه می توان از مدل های شبکه عصبی عمیق برای تولید خودکار توضیحات تصاویر استفاده کرد. همچنین خواندید:
• درباره چالش تولید توضیحات متنی برای تصاویر و لزوم ترکیب پیشرفت های حاصل از بینایی رایانه ای و پردازش زبان طبیعی.
• درباره عناصری که یک مدل توضیحات تصویر عصبی را دارند ، یعنی استخراج ویژگی و مدل زبان.
• چگونگی چیدمان عناصر مدل در رمزگذار-رمزگشا (توسط مکانیسم اتنشن (Attention Mechanism))


شما عزیزان همچنین می‌توانید فایل مقاله فوق را به صورت رایگان دریافت نمایید.


 

آیا این مطلب برای شما مفید بود؟

امتیازشو ثبت کنید

میانگین / 5. تعداد رای

اولین نفر شما امتیاز دهید

کمپ تخصصی آموزش کاربردی برنامه نویسی پایتون

یادگیری یکی از تخصص های محبوب بازار کاری

پایتون که برخی آن را پایتان (python) نیز میگویند یک زبان برنامه نویسی سطح بالا ،شئ گرا ، Open Source و تفسیری است که دارای دستورها و کدهای ساده و پویاست. زبان برنامه نویسی پایتون بسیار ساده تر از زبان های برنامه نویسی دیگر است. بوسیله پایتون ساخت برنامه های کاربردی به صورت ساده تر برای ما ممکن شد.
پایتون از سال 1991 ایجاد شد و از آن زمان و مخصوصا سال های اخیر توجه بسیاری از برنامه نویسان و کسانی که میخواهند با برنامه نویسی آشنا شوند را به خود جلب کرد . یکی از مهم ترین دلیل های توجه بسیار به این زبان برنامه نویسی دوست داشتنی کابردها و قابلیت های فراوان آن است :
ادامه...

شاید به این مطالب نیز علاقه مند باشید.

دیپ لرنینگ در تشخیص سرطان

دیپ لرنینگ چگونه در مکان یابی سلول کاربرد دارد؟

یکی از مهم ترین مراحل در تشخیص سرطان تشخیص سلول های سرطانی و مکان یابی سلول هاست. حرکات سلولی سرنخ هایی از چگونگی تأثیر داروها یا انواع ژن ها بر…

ریاضیات در یادگیری عمیق

کاربرد ریاضیات در یادگیری عمیق

یادگیری عمیق نوعی از علم یادگیری ماشین و هوش مصنوعی است که در واقع از روشی که ذهن انسان برای یادگیری موضوع خاصی به کار می گیرد، تقلید می کند.…

دیپ لرنینگ و مصاحبه دیپ لرنینگ

١٢ سوال که در مصاحبه دیپ لرنینگ با آن مواجه خواهید شد

در مقاله پیش رو در نظر داریم تا متداول ترین سوالات مصاحبه دیپ لرنینگ را بررسی کرده و به آن ها پاسخ دهیم. مفهوم دیپ لرنینگ دیپ لرنینگ زیرمجموعه‌ای از…

0 0 رای
امتیازدهی به مقاله
دنبال کردن
با خبر کردن از
guest
0 دیدگاه
بازخورد داخلی
دیدن همه نظرات

تاییدیه ها

تهران - ستارخان، خیابان کوثر دوم، پلاک ۱۰، واحد ۳

آیا این مطلب برای شما مفید بود؟

امتیازشو ثبت کنید

میانگین / 5. تعداد رای

اولین نفر شما امتیاز دهید

کمپ تخصصی آموزش کاربردی برنامه نویسی پایتون

یادگیری یکی از تخصص های محبوب بازار کاری

پایتون که برخی آن را پایتان (python) نیز میگویند یک زبان برنامه نویسی سطح بالا ،شئ گرا ، Open Source و تفسیری است که دارای دستورها و کدهای ساده و پویاست. زبان برنامه نویسی پایتون بسیار ساده تر از زبان های برنامه نویسی دیگر است. بوسیله پایتون ساخت برنامه های کاربردی به صورت ساده تر برای ما ممکن شد.
پایتون از سال 1991 ایجاد شد و از آن زمان و مخصوصا سال های اخیر توجه بسیاری از برنامه نویسان و کسانی که میخواهند با برنامه نویسی آشنا شوند را به خود جلب کرد . یکی از مهم ترین دلیل های توجه بسیار به این زبان برنامه نویسی دوست داشتنی کابردها و قابلیت های فراوان آن است :
ادامه...