آموزش دیپ لرنینگ

  این مقاله را میتوانید در مدت زمان 3 دقیقه مطالعه کنید

یکی از داغ ترین و مهم ترین بحث های حال حاضر در هوش مصنوعی و یادگیری ماشین، “شبکه عصبی کانولوشن” هست. واژه شبکه عصبی در سال ۲۰۱۲ به شهرت رسید. همانطور که در مقاله “یادگیری عمیق از گذشته تا امروز” اشاره کردیم، اغلب مدل های یادگیری عمیق از شبکه های عصبی مصنوعی استفاده می کنند به همین دلیل به این مدل ها، شبکه های عصبی عمیق هم گفته می شود.
اصطلاح “عمیق” به تعداد لایه های مخفی در شبکه ی عصبی اشاره دارد. شبکه های عصبی می توانستند 2 یا 3 لایه داشته باشند اما امروزه شبکه های عصبی عمیق می توانند به اندازه ی 150 لایه هم داشته باشند.

 

شبکه عصبی کانولوشن چیست؟

یکی از مدل های رایج شبکه های عصبی عمیق، شبکه ی عصبی کانوولوشن یا پیچشی (convolutional neural networks) که به اختصار CNN یا ConvNet خوانده می شود. واژه شبکه عصبی در سال ۲۰۱۲، معروفیت فراوانی کسب کرد؛ در این سال الکس چریشفسکی (Alex Krichevsky)، با استفاده از شبکه عصبی توانست برنده جایزه ImageNet (المپیک سالیانه بینایی کامپیوتر) شود.
چریشفسکی توانست خطای دسته‌بندی (classification) را از ۲۶ درصد به ۱۵ درصد کاهش دهد. این کاهش در آن زمان بسیار چشم‌گیر بود و موفقیت بزرگی به حساب آمد. از آن زمان، شرکت‌های متعددی از یادگیری عمیق به عنوان هسته اصلی محصولات خود استفاده کرده‌اند. فیسبوک از شبکه عصبی استفاده می‌کند تا تصاویر را به صورت خودکار تگ‌گذاری نماید؛ گوگل نیز از این فناوری برای جست‌وجوی تصویری خود بهره می‌برد. شرکت‌هایی مانند آمازون، اینستاگرام و پینترست نیز برای ارائه‌ی پیشنهادهایی مناسب به کاربران خود، از شبکه عصبی کانولوشن (شبکه عصبی CNN) استفاده می‌کنند؛ با این حال بیش‌ترین استفاده‌ی شبکه عصبی در پردازش تصویر است.

 

چه لزومی به استفاده از شبکه عصبی کانولوشن داریم؟

دسته‌ بندی تصاویر (image classification) در حقیقت فرایندی است که در آن تعدادی تصویر از ورودی می‌گیریم و در خروجی، کلاس آن‌ها (سگ، ماشین، خانه و …) یا درصد احتمال تعلق به هر کلاس را اندازه گیری می‌کنیم. برای ما انسان‌ها، کل این فرایند به صورت بدیهی و بدون اراده صورت می گیرد؛ در حقیقت از زمانی که متولد می‌شویم تا وقتی که به یک انسان بالغ تبدیل شویم، به مرور و به شکل طبیعی و غریزی این کار را به خوبی فرا می‌گیریم. ما می‌توانیم تقریبا بدون هیچ اشتباهی تمام اشیای پیرامون خود را تشخیص دهیم. به طور دقیق‌تر، ما هر گاه به محیط پیرامون خود نگاه می‌کنیم، تمام اشیا را تشخیص داده و به هر یک از آن‌ها یک نام (label) اختصاص می‌دهیم. انجام چنین عملی، یعنی تشخیص و نام‌ گذاری اشیای موجود در یک محیط، برای کامپیوتر، آن‌قدر ها هم کار راحتی نیست!

 

CNN

ورودی و خروجی در یک شبکه عصبی کانولوشن یا CNN به چه صورتی است؟

وقتی یک کامپیوتر تصویری را به عنوان ورودی دریافت می‌کند، آن را به صورت آرایه‌ای از اعداد می‌بیند. تعداد آرایه‌ها به سایز تصویر (بر اساس پیکسل) بستگی دارد. برای مثال فرض کنید که اگر یک تصویر رنگی با فرمت JPG و اندازه ۴۸۰*۴۸۰ پیکسل را به کامپیوتر دهیم، آرایه جانشین آن دارای ۴۸۰*۴۸۰*۳ خانه خواهد بود (عدد ۳ به RGB برمی‌گردد). هر کدام از خانه‌های نیز عددی بین ۰ تا ۲۵۵ را می‌گیرند. این عدد شدت پیکسلی را نشان می‌دهد. این اعداد هر چند برای ما بی‌‌معنی به نظر می‌رسند، اما در دسته‌ بندی تصاویر با استفاده از شبکه عصبی کانولوشن، تنها ابزار در دست ما، چنین اعدادی هستند. ایده اصلی آن است که به رایانه آرایه‌ای از اعداد شبیه آن‌ چه توضیح دادیم، می‌دهیم و کامپیوتر نیز در خروجی چنین چیزی را مشخص می‌کند: این تصویر با احتمال ۸۰ درصد گربه، با احتمال ۱۵ درصد سگ و با احتمال ۵ درصد، پرنده است.

 

شیوه عملکرد شبکه عصبی کانولوشن چیست؟

تا این جای کار به مسئله‌ی و ورودی و خروجی در شبکه عصبی آشنا شدیم. بیایید به این فکر کنیم که به چه متدی مسئله را حل کنیم. چیزی که ما از کامپیوتر می‌خواهیم آن است که به تصاویر نگاه کند و ویژگی‌های منحصر به فرد یک شیء خاص مثل کتاب را بداند و تشخیص دهد در تصویر، کتاب موجود است یا نه. ما انسان‌ها نیز هنگام تشخیص اشیا، این فرایند را به صورت ناخودآگاه و بدیهی انجام می‌دهیم. ما مثلا وقتی یک سگ را می‌بینیم، برای آن که تشخیصش دهیم، ابتدا به اندام جزئی‌تر آن مانند گوش‌ها، پنجه‌ها، پاها و … توجه می‌کنیم و ضمن تطبیق با الگوهای موجود در ذهنمان، می‌فهمیم که در حال دیدن یک سگ هستیم. یک کامپیوتر نیز برای درک و تشخیص تصویرهای پیچیده‌ای مثل تصویر یک سگ، ابتدا ویژگی‌های (feature) ساده‌تر آن تصویر مانند لبه‌ها و خم‌ها را تشخیص می‌دهد. در یک شبکه عصبی، لایه‌های متعددی وجود دارند؛ در هر یک از این لایه‌ها، ویژگی‌های خاصی تشخیص داده‌ می‌شوند و در نهایت، در لایه‌ی آخر، تصویر به طور کامل شناسایی می‌شود. روندی که توضیح دادیم، فرایند کلی نحوه کار یک شبکه عصبی کانولوشن بود؛ حال به جزئیات بیش‌تری می‌پردازیم.

 

ساختار شبکه عصبی پیچشی چیست؟

همان‌‌طور که اشاره کردیم، در یک شبکه عصبی پیچشی، کامپیوتر یک تصویر را به عنوان ورودی می‌‌گیرد؛ سپس این تصویر وارد یک شبکه‌‌ی پیچیده با چندین لایه‌‌ی پیچشی و غیر خطی می‌‌شود. در هر یک از این لایه‌‌ها، عملیات‌‌هایی انجام می‌‌شود و در انتها بر روی خروجی، یک کلاس یا درصد وقوع چند کلاس مختلف نشان داده می‌‌شود. قسمت سخت ماجرا، لایه‌‌‌های میانی و نحوه عملکرد آن‌‌هاست! در ادامه به بررسی مهم‌‌ترین لایه‌‌ها می‌‌پردازیم.

 

مفاهیم کاربردی در لایه اول در شبکه عصبی کانولوشن  

بیایید نگاهی از بالا بیندازیم و ببینیم شبکه عصبی پیچشی (CNN) واقعا چه کار می‌‌‌‌‌کند. هر یک از فیلترهایی را که در قسمت قبلی به آن‌‌‌‌‌ها اشاره کردیم، می‌‌‌‌‌توان به عنوان یک شناساگر ویژگی (feature identifier) در نظر گرفت. منظور از ویژگی (feature) در این جا، چیزهایی مانند خط صاف، یک رنگ ساده یا یک انحناست. فرض کنیم فیلتر اول، یک فیلتر با ابعاد ۷*۷*۳ و یک شناساگر انحناست. این فیلتر در حقیقت یک ماتریس عددی مانند تصویر زیر است که درایه‌‌‌‌‌های این ماتریس در محل‌‌‌‌‌هایی که انحنا وجود دارد، مقادیر عددی بالاتری دارند. حال این فیلتر را بر روی قسمتی از تصویر مد نظرمان قرار می‌‌‌‌‌دهیم. پس از آن مانند تصویر زیر، درایه به درایه اعداد موجود در خانه‌‌‌‌‌ها را با هم ضرب و حاصل ضرب‌‌‌‌‌ها را با یکدیگر جمع می‌‌‌‌‌کنیم.

 

شبکه عصبی پیچیده

همانطور که مشاهده می‌‌‌‌‌کنید، حاصل به‌‌‌‌‌دست‌‌‌‌‌آمده، یک عدد بزرگ است. بزرگ بودن این عدد نشانگر آن است که در این ناحیه یک انحنا مانند انحنای فیلتر وجود دارد.

 

شبکه عصبی کانولوشن

 

یادگیری ماشین

 

در تصویر زیر، حاصل ضرب عدد کوچکی می‌‌‌‌‌شود؛ علت آن است که فیلتر با تصویر ورودی تطابق ندارد. همان‌‌‌‌‌طور که اشاره کردیم، ما در پی آن هستیم که یک نقشه فعال‌‌‌‌‌سازی به دست بیاوریم؛ یعنی یک آرایه از اعداد با ابعاد ۲۶*۲۶*۱ (فرض کنیم فقط از یک فیلتر شناساگر منحنی استفاده کنیم). قسمت بالا و سمت چپ این نقشه فعال‌‌‌‌‌سازی، مقدار ۶۶۰ را خواهد داشت. این عدد بزرگ نشان‌‌‌‌‌دهنده‌‌‌‌‌ی آن است که در ناحیه‌‌‌‌‌ی خاصی از تصویر، با احتمال زیاد یک منحنی وجود دارد. توجه کنید که ما در این جا تنها از یک فیلتر استفاده کردیم. برای آن که اطلاعات بیش‌‌‌‌‌تری از تصویر استخراج کنیم، نیاز داریم تا از فیلترهای بیش‌‌‌‌‌تری استفاده کنیم؛ استفاده از فیلترهای بیش‌‌‌‌‌تر یعنی ابعاد بالاتر.

 

کلاس غیر حصوری یادگیری ماشین

لایه‌‌‌‌‌های عمیق‌‌‌‌‌تر شبکه عصبی کانولوشن

در یک شبکه عصبی، علاوه بر لایه‌‌‌‌‌‌‌‌‌ی توضیح‌‌‌‌ داده‌‌‌‌ شده، لایه‌‌‌‌‌‌‌‌‌های دیگری نیز وجود دارند. این لایه‌‌‌‌‌ها وظایف و عملکردهای گوناگونی دارند. به طور کلی، لایه‌‌‌‌‌‌های داخلی، مسئول نگهداری و حفظ ابعاد و امور غیرخطی هستند. آخرین لایه در شبکه عصبی کانولوشن نیز از اهمیت خاصی برخوردار است.

 

لایه آخر در شبکه عصبی پیچشی

در لایه آخر یک شبکه عصبی کانولوشن، خروجی سایر لایه‌‌‌‌‌‌‌‌‌‌‌ها، به عنوان ورودی دریافت می‌‌‌‌‌‌شود. خروجی لایه آخر هم یک بردار N بعدی است. N تعداد کلاس‌‌‌‌‌‌های موجود است. به عنوان مثال اگر شبکه‌‌‌‌‌‌ی شما، یک شبکه برای شناسایی اعداد باشد، تعداد کلاس‌‌‌‌‌‌ها ده ‌‌‌‌‌‌تاست؛ چون ده رقم داریم. در بردار N بعدی، هر مولفه، احتمال وقوع یک کلاس را نشان می‌‌‌‌‌‌دهد. کاری که لایه‌‌‌‌‌‌ آخر یک شبکه عصبی کانولوشن می ‌‌‌‌‌‌کند آن است که به ویژگی‌‌‌‌‌‌های لایه‌‌‌‌‌‌های سطح بالا نگاه می‌‌‌‌‌‌کند و میزان مطابقت این ویژگی‌‌‌‌‌‌ها را با هر کلاس مقایسه می‌‌‌‌‌‌کند؛ هر چه این مطابقت بیش‌‌‌‌‌‌تر باشد، احتمال وقوع آن کلاس، بالاتر معرفی می‌‌‌‌‌‌شود.

 

نحوه عملکرد شبکه عصبی کانولوشن چیست؟

تا به این جای کار اطلاعات زیادی درباره شبکه عصبی پیچشی به دست آوردید؛ اما احتمالا هنوز هم سوالات فراوانی دارید و سوالات جدید نیز در ذهنتان شکل گرفته است. سوالاتی از این قبیل که فیلترها چگونه ساخته می‌‌‌‌‌‌‌شوند یا …. کامپیوتر طی یک فرایند آموزش (training) می‌‌‌‌‌‌‌تواند مقادیر مناسب را به فیلترها تخصیص دهد. این فرایند backpropagation نام دارد. ما انسان‌ها زمانی که متولد شدیم، هیچ درکی از اشیای پیرامونمان نداشتیم. به مرور زمان، اشیای مختلف را دیدیم و اطرافیان، نام آن اشیا را به ما گفتند و یاد گرفتیم. کامپیوترها نیز عملکردی مشابه دارند؛ به این معنا که در ابتدای کار، اعداد موجود در ماتریس فیلتر، رندم و تصادفی هستند. به مرور زمان و با نشان دادن تصاویر مختلف به کامپیوتر، اعداد موجود در فیلتر تصحیح می‌شوند تا به یک عملکرد قابل قبول برسند.

 

جمع بندی

در دنیای امروز شرکت هایی که فقط دیتای بیشتری را جمع آوری کنند پیروز میدان نیستند؛ بلکه باید بتوانند این دیتاها را تبدیل به اطلاعات کنند و نهایتا آنچه که مشتری می خواهد را ارائه دهد. شرکت های پیشرو چون فیسبوک و پینترست با استفاده از همین شبکه های عصبی، می توانند اطلاعات مورد نیاز کاربران را فراهم کنند. سایر شرکت ها نیز برای به دور نبودن از رقابت تلاش بر توسعه هرچه بیشتر این حوزه دارند. در آکادمی آمانج علاوه بر تعداد زیادی از مقالات مربوط به این حوزه، کلاس حضوری و غیرحضوری آموزش دیپ لرنینگ وجود دارد که می توانید با شرکت در این دوره، پا به این حوزه جذاب بگذارید.

آیا این مطلب برای شما مفید بود؟

امتیازشو ثبت کنید

میانگین / 5. تعداد رای

اولین نفر شما امتیاز دهید

کمپ تخصصی آموزش کاربردی برنامه نویسی پایتون

یادگیری یکی از تخصص های محبوب بازار کاری

پایتون که برخی آن را پایتان (python) نیز میگویند یک زبان برنامه نویسی سطح بالا ،شئ گرا ، Open Source و تفسیری است که دارای دستورها و کدهای ساده و پویاست. زبان برنامه نویسی پایتون بسیار ساده تر از زبان های برنامه نویسی دیگر است. بوسیله پایتون ساخت برنامه های کاربردی به صورت ساده تر برای ما ممکن شد.
پایتون از سال 1991 ایجاد شد و از آن زمان و مخصوصا سال های اخیر توجه بسیاری از برنامه نویسان و کسانی که میخواهند با برنامه نویسی آشنا شوند را به خود جلب کرد . یکی از مهم ترین دلیل های توجه بسیار به این زبان برنامه نویسی دوست داشتنی کابردها و قابلیت های فراوان آن است :
ادامه...

شاید به این مطالب نیز علاقه مند باشید.

آیا یادگیری ماشین دشوار است؟

آیا یادگیری ماشین دشوار است؟

این مقاله به روایت از دکتر Sridhar Mahadevan ، دکترای کامپیوتر از دانشگاه روتگرز (1990) ، استاد دانشگاه ماساچوست و مدیر آزمایشگاه علوم داده در San Jose میباشد. کتاب اول…

تاریخچه یادگیری ماشین

یادگیری عمیق از گذشته تا امروز

یادگیری عمیق حوزه ای از یادگیری ماشین است که با استفاده از زبان های برنامه نویسی مثل پایتون به کامپیوترها این آموزش را می دهد تا فرایند یادگیری را همانند…

توضیحات تصویر و توضیحات تصویر با متن و بینایی رایانه ای

چگونه می توان با یادگیری عمیق توضیحات تصویر تولید کرد؟

توضیحات تصویر شامل تولید یک توصیف متنی معنادار با توجه به یک تصویر است. این مساله ای آسان برای یک انسان است، اما برای یک ماشین بسیار چالش برانگیز است؛…

5 1 رای
امتیازدهی به مقاله
دنبال کردن
با خبر کردن از
guest
2 دیدگاه
قدیمی ترین
جدیدترین بیشترین بازخورد
بازخورد داخلی
دیدن همه نظرات
احسان
احسان
2 ماه‌ گذشته

سلام استاد
در مورد یک پروژه میخوام با شما مشورت کنیم
میتونید یه ایمیل برام بفرستید تا در این مورد صحبت کنیم؟
ممنون

مدیریت
ادمین
مدیریت
2 ماه‌ گذشته
پاسخ به  احسان

برای ارتباط با اساتید لطفا از گروه های تلگرامی دوره ها استفاده کنید
با تشکر

تاییدیه ها

تهران - ستارخان، خیابان کوثر دوم، پلاک ۱۰، واحد ۳

آیا این مطلب برای شما مفید بود؟

امتیازشو ثبت کنید

میانگین / 5. تعداد رای

اولین نفر شما امتیاز دهید

کمپ تخصصی آموزش کاربردی برنامه نویسی پایتون

یادگیری یکی از تخصص های محبوب بازار کاری

پایتون که برخی آن را پایتان (python) نیز میگویند یک زبان برنامه نویسی سطح بالا ،شئ گرا ، Open Source و تفسیری است که دارای دستورها و کدهای ساده و پویاست. زبان برنامه نویسی پایتون بسیار ساده تر از زبان های برنامه نویسی دیگر است. بوسیله پایتون ساخت برنامه های کاربردی به صورت ساده تر برای ما ممکن شد.
پایتون از سال 1991 ایجاد شد و از آن زمان و مخصوصا سال های اخیر توجه بسیاری از برنامه نویسان و کسانی که میخواهند با برنامه نویسی آشنا شوند را به خود جلب کرد . یکی از مهم ترین دلیل های توجه بسیار به این زبان برنامه نویسی دوست داشتنی کابردها و قابلیت های فراوان آن است :
ادامه...