DALL-E یکی از شگفت‌انگیزترین تکنولوژی‌های اخیر در زمینه هوش مصنوعی است. این تکنولوژی را شرکت OpenAI توسعه داده که از شرکت‌های پیشرو در زمینه هوش مصنوعی و یادگیری عمیق است.

دال-ای قادر به تولید تصاویر کاملاً جدید براساس توصیفات متنی است که به عنوان ورودی دریافت می‌کند. به عبارت دیگر، با دادن توصیفات متنی مختلف به دال-ای، می‌توانید تصاویر تماماً جدید و واقع‌گرایانه بسازید که قبلاً هیچگاه وجود نداشته‌اند.

دال-ای یکی از دستاوردهایی است که نشان می‌دهد هوش مصنوعی تا چه اندازه پیشرفت کرده است و به طور فزاینده‌ای در زندگی ما تأثیرگذار است. در این مقاله می‌خواهیم بدانیم DALL-E چیست و چگونه کار می‌کند؟

بیشتر بخوانید: “هوش مصنوعی چیست و چه کاربردی دارد؟“

آنچه در این نوشته خواهیم داشت

DALL-E چیست؟

در ۶ آوریل سال ۲۰۲۲، شرکت OpenAI محصول مبتنی بر هوش مصنوعی جدیدش را معرفی کرد: DALL-E.

ابزاری که جمله یا عبارتی را به عنوان ورودی دریافت و تصویری با کیفیت بالا و مرتبط با آن جمله یا عبارت را تولید می‌کند. بله! DALL-E تصاویر را خودش تولید می‌کند. یعنی زمانی که عبارتی را وارد می‌کنید، او در میان تصاویر موجود در اینترنت یا هر جای دیگر جستجو نمی‌کند بلکه تصویر را خودش از ابتدا می‌سازد.

همین موضوع باعث شده تا کار با DALL-E بسیار جذاب باشد. کاربران می‌توانند هر عبارتی را حتی بی‌ربط‌ترین آن‌ها را به این ابزار بدهند و در نهایت شگفتی ببینند که DALL-E بهترین تصویر ممکن را نمایش می‌دهد. البته استفاده از عباراتی که مفهوم غیراخلاقی و خشونت‌آمیز دارند، ممنوع است.

در تصاویر زیر دو نمونه از خروجی این ابزار قرار داده شده است. عبارتی که برای دو نمومه تصویر زیر اول به DALL-E داده شده، در زیر آن نوشته شده است.

A digital Illustration of the an anime boy character with backpack, 4k, detailed, fantasy vivid colors

An astronaut riding a white horse in space

همانطور که می‌بینید DALL-E برای تصویر دوم که یک عبارت کاملا بی‌ربط است، بهترین تصویر ممکن را ساخته است.

کاربردهای دیگر DALL-E

کار DALL-E تنها به همین‌جا ختم نمی‌شود. شما می‌توانید برای ادیت تصاویر موجود هم از این ابزار استفاده کنید. مثلا در تصویر یک اتاق خالی، مبل اضافه کند.

یکی دیگر از کاربردهای DALL-E، تولید Variation‌ها یا سبک‌های مختلف از یک تصویر است. مثل تصویر زیر:

تا اینجای کار مشخص شد که DALL-E تا چه حد شگفت‌انگیز است. در ادامه می‌خواهیم بررسی کنیم که چگونه کار می‌کند.

DALL-E چگونه کار می‌کند؟

برای تبدیل متن به تصویر در DALL-E از سیستم‌ها و مدل‌های مبتنی بر ماشین لرنینگ و دیپ لرنینگ استفاده می‌شود. به طور کلی نحوه کار Dall-e یک فرآیند سه مرحله‌ای است:

مرحله اول

در این مرحله متن یا عبارت وارد شده به یک بردار تبدیل می‌شود که در اصطلاح تخصصی به آن Text embedding گفته می‌شود. مدلی که در این مرحله استفاده می‌شود، CLIP نام دارد که محصول کمپانی OpenAI است.

CLIP چیست؟

CLIP یا Contrastive Language Image Pre-training یک مدل مبتنی بر شبکه عصبی و پردازش زبان طبیعی است که بهترین نوشته را برای یک تصویر نمایش می‌دهد. به عبارت دیگر کاری که CLIP انجام می‌دهد، برعکس DALL-E است. هدف CLIP تشخیص درست ارتباط متن و تصویر است. برای رسیدن به این هدف CLIP با صدها میلیون تصویر و متن مرتبط با آن، آموزش داده شده تا بتواند تشخیص دهد کدام متن به کدام تصویر مرتبط‌تر است.

مرحله دوم

بردار متنی تولید شده در مرحله قبل، ورودی یک مدل مبتنی بر شبکه عصبی دیگر به نام Prior است که بر اساس بردار متنی، برداری از تصویر می‌سازد که به آن Image embedding گفته می‌شود.

در این مرحله از مدل Diffusion استفاده می‌شود. مدل Diffusion به این صورت کار می‌کند که اطلاعاتی را مثلا یک تصویر را دریافت می‌کند. و به تدریج به آن نویز اضافه می‌کند تا جایی که دیگر قابل تشخیص نباشد. سپس سعی می‌کند تا دوباره آن تصویر را بسازد. به عبارت دیگر تصویر را خراب می‌کند و دوباره آن را می‌سازد. با انجام این کار این مدل به تدریج یاد می‌گیرد که چگونه تصاویر را بازسازی کند.

مرحله سوم

در نهایت هم Decoder یا کدگشای تصویر، از روی این بردار تصویر نهایی را تولید می‌کند. مدلی که در این مرحله استفاده می‌شود، محصول دیگری از شرکت OpenAI به نام GLIDE است.

GLIDE چیست؟

مدل GLIDE یک روش مبتنی بر شبکه عصبی است که برای تولید تصاویر با کیفیت بالا طراحی شده است. این مدل از شبکه‌هایی که برای دسته‌بندی تصاویر به کار می‌روند، الهام گرفته شده است و با استفاده از یادگیری ماشین، به طور خودکار قادر به تولید تصاویر با کیفیت بالا است. در نهایت تصویری که DALL-E نمایش می‌دهد، تصویری کاملا مرتبط با متن و با وضوح ۱۰۲۴*۱۰۲۴ پیکسل است.

بیشتر بخوانید: “ChatGPT، هم‌صحبتی انسان و هوش مصنوعی“

معرفی API DALL-E

آسان‌ترین راه برای استفاده از DALL-E، مراجعه به وبسایت Open-AI است. با این حال این کمپانی یک API هم برای این کار معرفی کرده است. کارهایی که در این API می‌شود انجام داد، با وبسایت فرقی ندارد و عبارتند از:

تبدیل متن به تصویر،
ادیت تصویر،
ساخت استایل‌ها و سبک‌های مختلف از تصویر.

علاوه بر این کمپانی OpenAI یک کتابخانه پایتون هم معرفی کرده که قابلیت کار با این ابزار به زبان برنامه‌نویسی پایتون را هم ممکن کرده است. برای مثال، در قطعه کد زیر نحوه تبدیل یک متن به عکس نمایش داده شده است:

import openai
 
response = openai.Image.create(
  prompt="a stained glass window depicting a robot",
  n=1,
  size="1024x1024"
)
 
image_url = response['data'][0]['url']

خروجی :

خط مشی و محدودیت‌های DALL-E

کار با فناوری DALL-E بسیار جذاب است و می‌‌شود هر نوع تصویری را با آن تولید کرد، اما OpenAI اعلام کرده محتوای مضر، خشونت‌آمیز، غیر اخلاقی و غیر قانونی را ممنوع کرده است. همچنین، برای احترام به حقوق دیگران، استفاده از تصاویر اشخاص بدون رضایت آن‌ها ممنوع است.

آیا DALL-E قرار است در آینده جای هنرمندان را بگیرد؟

این نگرانی همیشگی برای کسانی که هوش مصنوعی وارد حوزه کاری آن‌ها شده است، وجود دارد. هنرمندان هم از این قاعده مستثنی نیستند. باید این حقیقت را بپذیریم که DALL-E این امکان را برای همه افراد، از هنرمند تا غیرهنرمند فراهم کرده است تا بتوانند تصاویر خلاقانه و منحصربه‌فرد خلق کنند. طبیعی است که هنرمندانی که به کمک قدرت تخیل و هنر خود آثار ارزشمندی را خلق می‌کنند، اندکی احساس خطر کنند.

بیشتر بخوانید: “نیمه‌ تاریک هوش مصنوعی و ماشین لرنینگ“

حقیقت این است که هوش مصنوعی هر چقدر هم که قدرتمند باشد، ساخته شده با قدرت تفکر و خلاقیت انسان است. به هر حال باید این حقیقت را بپذیریم که هوش مصنوعی قرار است در تمامی حوزه‌ها همکار ما باشد. پس بهتر است با این همکار جدید دوست باشیم تا دشمن.

DALL-E اگر توانسته در تبدیل متن به تصویر موفق عمل کند، به دلیل این بوده که انسان‌ها یا همان هنرمندان توانسته‌اند به خوبی آن را آموزش دهند. در نتیجه استفاده از هوش مصنوعی به‌جای هنرمندان نه تنها جایگزین آن‌ها نخواهد شد، بلکه به جرئت می‌توان گفت سطح خلاقیت و نوآوری در تصویرسازی و هنر را چند پله ارتقا می‌دهد. به نظر می‌رسد این موضوع اصلا برای هنرمندان ناخوشایند نیست.

بیشتر بخوانید: “تولید محتوا به سبک هوش مصنوعی“

جمع‌بندی و نتیجه‌گیری

در این مقاله با DALL-E و مراحل تبدیل متن به تصویر آشنا شدیم. اگرچه تمامی این مراحل بسیار پیچیده هستند، سعی شد به زبانی ساده بیان شوند. بررسی دقیق هر کدام از این مراحل نیاز به تسلط کامل بر زبان برنامه‌نویسی پایتون، ماشین لرنینگ، دیپ لرنینگ و هوش مصنوعی دارد. به همین دلیل برای آشنایی و تسلط کامل بر این مراحل پیشنهاد می‌شود ابتدا در یک دوره آموزش برنامه‌نویسی پایتون و سپس برای درک مفاهیم پیشرفته و تخصصی هوش مصنوعی در دوره آموزش ماشین لرنینگ شرکت کنید.

برای تهیه این مقاله از منابع زیر استفاده شده است:

learnopencv.com

assemblyai.com

دوره تخصصی یادگیری ماشین

در یک دوره آموزشی متخصص یادگیری ماشین شوید.

از یادگیری ماشین می توان در صنایع مختلف با اهداف مختلف استفاده کرد. ماشین لرنینگ باعث افزایش بهره وری در صنایع می شود، به بازاریابی محصول کمک کرده و پیش بینی دقیق فروش را ساده تر می کند. پیش بینی های دقیق پزشکی و تشخیص ها را تسهیل می کند. دقت در قوانین و مدل های مالی را بهبود می بخشد. به سیستم های توصیه گر، الگوریتم های فرا ابتکاری و حرکت ربات ها کمک خواهد کرد. در بحث فروش میتواند محصولات مناسب تری را به مشتری پیشنهاد دهد( با کمک به تقسیم بندی بهتر و پیش بینی دقیق طول عمر محصولات ) و ...
استفاده از سیستم های ماشین لرنینگ می تواند تا حد زیادی حجم کاری ما را کاهش دهد. به خصوص کارهایی که نیاز به آنالیز حجم عظیمی از داده و تصمیم گیری بر اساس این داده ها را دارد بسیار تسهیل می کند. سیستم های مبتنی بر ماشین لرنینگ ظرفیت انجام کار صد نفر را همزمان دارد و تنها به کمک ماشین ها می توان بدون صرف وقت و انرژی زیاد، کارهای سنگین را انجام داده و در عین حال پول و درآمد بیشتری کسب کرد. ماشین لرنینگ با خودکارسازی فرایندها و صرفه جویی در زمان، به ما کمک می کند تا بتوانیم زمان و انرژی خود را بر تصمیم گیری های پیچیده تری متمرکز کنیم.
ادامه...

DALL-E: هوش مصنوعی در خدمت هنر و طراحی

DALL-E چیست؟

کاربردهای دیگر DALL-E