DALL-E یکی از شگفتانگیزترین تکنولوژیهای اخیر در زمینه هوش مصنوعی است. این تکنولوژی را شرکت OpenAI توسعه داده که از شرکتهای پیشرو در زمینه هوش مصنوعی و یادگیری عمیق است.
دال-ای قادر به تولید تصاویر کاملاً جدید براساس توصیفات متنی است که به عنوان ورودی دریافت میکند. به عبارت دیگر، با دادن توصیفات متنی مختلف به دال-ای، میتوانید تصاویر تماماً جدید و واقعگرایانه بسازید که قبلاً هیچگاه وجود نداشتهاند.
دال-ای یکی از دستاوردهایی است که نشان میدهد هوش مصنوعی تا چه اندازه پیشرفت کرده است و به طور فزایندهای در زندگی ما تأثیرگذار است. در این مقاله میخواهیم بدانیم DALL-E چیست و چگونه کار میکند؟
بیشتر بخوانید: “هوش مصنوعی چیست و چه کاربردی دارد؟“
آنچه در این نوشته خواهیم داشت
DALL-E چیست؟
در ۶ آوریل سال ۲۰۲۲، شرکت OpenAI محصول مبتنی بر هوش مصنوعی جدیدش را معرفی کرد: DALL-E.
ابزاری که جمله یا عبارتی را به عنوان ورودی دریافت و تصویری با کیفیت بالا و مرتبط با آن جمله یا عبارت را تولید میکند. بله! DALL-E تصاویر را خودش تولید میکند. یعنی زمانی که عبارتی را وارد میکنید، او در میان تصاویر موجود در اینترنت یا هر جای دیگر جستجو نمیکند بلکه تصویر را خودش از ابتدا میسازد.
همین موضوع باعث شده تا کار با DALL-E بسیار جذاب باشد. کاربران میتوانند هر عبارتی را حتی بیربطترین آنها را به این ابزار بدهند و در نهایت شگفتی ببینند که DALL-E بهترین تصویر ممکن را نمایش میدهد. البته استفاده از عباراتی که مفهوم غیراخلاقی و خشونتآمیز دارند، ممنوع است.
در تصاویر زیر دو نمونه از خروجی این ابزار قرار داده شده است. عبارتی که برای دو نمومه تصویر زیر اول به DALL-E داده شده، در زیر آن نوشته شده است.
A digital Illustration of the an anime boy character with backpack, 4k, detailed, fantasy vivid colors
An astronaut riding a white horse in space
همانطور که میبینید DALL-E برای تصویر دوم که یک عبارت کاملا بیربط است، بهترین تصویر ممکن را ساخته است.
کاربردهای دیگر DALL-E
کار DALL-E تنها به همینجا ختم نمیشود. شما میتوانید برای ادیت تصاویر موجود هم از این ابزار استفاده کنید. مثلا در تصویر یک اتاق خالی، مبل اضافه کند.
یکی دیگر از کاربردهای DALL-E، تولید Variationها یا سبکهای مختلف از یک تصویر است. مثل تصویر زیر:
تا اینجای کار مشخص شد که DALL-E تا چه حد شگفتانگیز است. در ادامه میخواهیم بررسی کنیم که چگونه کار میکند.
DALL-E چگونه کار میکند؟
برای تبدیل متن به تصویر در DALL-E از سیستمها و مدلهای مبتنی بر ماشین لرنینگ و دیپ لرنینگ استفاده میشود. به طور کلی نحوه کار Dall-e یک فرآیند سه مرحلهای است:
مرحله اول
در این مرحله متن یا عبارت وارد شده به یک بردار تبدیل میشود که در اصطلاح تخصصی به آن Text embedding گفته میشود. مدلی که در این مرحله استفاده میشود، CLIP نام دارد که محصول کمپانی OpenAI است.
CLIP چیست؟
CLIP یا Contrastive Language Image Pre-training یک مدل مبتنی بر شبکه عصبی و پردازش زبان طبیعی است که بهترین نوشته را برای یک تصویر نمایش میدهد. به عبارت دیگر کاری که CLIP انجام میدهد، برعکس DALL-E است. هدف CLIP تشخیص درست ارتباط متن و تصویر است. برای رسیدن به این هدف CLIP با صدها میلیون تصویر و متن مرتبط با آن، آموزش داده شده تا بتواند تشخیص دهد کدام متن به کدام تصویر مرتبطتر است.
مرحله دوم
بردار متنی تولید شده در مرحله قبل، ورودی یک مدل مبتنی بر شبکه عصبی دیگر به نام Prior است که بر اساس بردار متنی، برداری از تصویر میسازد که به آن Image embedding گفته میشود.
در این مرحله از مدل Diffusion استفاده میشود. مدل Diffusion به این صورت کار میکند که اطلاعاتی را مثلا یک تصویر را دریافت میکند. و به تدریج به آن نویز اضافه میکند تا جایی که دیگر قابل تشخیص نباشد. سپس سعی میکند تا دوباره آن تصویر را بسازد. به عبارت دیگر تصویر را خراب میکند و دوباره آن را میسازد. با انجام این کار این مدل به تدریج یاد میگیرد که چگونه تصاویر را بازسازی کند.
مرحله سوم
در نهایت هم Decoder یا کدگشای تصویر، از روی این بردار تصویر نهایی را تولید میکند. مدلی که در این مرحله استفاده میشود، محصول دیگری از شرکت OpenAI به نام GLIDE است.
GLIDE چیست؟
مدل GLIDE یک روش مبتنی بر شبکه عصبی است که برای تولید تصاویر با کیفیت بالا طراحی شده است. این مدل از شبکههایی که برای دستهبندی تصاویر به کار میروند، الهام گرفته شده است و با استفاده از یادگیری ماشین، به طور خودکار قادر به تولید تصاویر با کیفیت بالا است. در نهایت تصویری که DALL-E نمایش میدهد، تصویری کاملا مرتبط با متن و با وضوح ۱۰۲۴*۱۰۲۴ پیکسل است.
بیشتر بخوانید: “ChatGPT، همصحبتی انسان و هوش مصنوعی“
معرفی API DALL-E
آسانترین راه برای استفاده از DALL-E، مراجعه به وبسایت Open-AI است. با این حال این کمپانی یک API هم برای این کار معرفی کرده است. کارهایی که در این API میشود انجام داد، با وبسایت فرقی ندارد و عبارتند از:
- تبدیل متن به تصویر،
- ادیت تصویر،
- ساخت استایلها و سبکهای مختلف از تصویر.
علاوه بر این کمپانی OpenAI یک کتابخانه پایتون هم معرفی کرده که قابلیت کار با این ابزار به زبان برنامهنویسی پایتون را هم ممکن کرده است. برای مثال، در قطعه کد زیر نحوه تبدیل یک متن به عکس نمایش داده شده است:
import openai
response = openai.Image.create(
prompt="a stained glass window depicting a robot",
n=1,
size="1024x1024"
)
image_url = response['data'][0]['url']
خروجی :
خط مشی و محدودیتهای DALL-E
کار با فناوری DALL-E بسیار جذاب است و میشود هر نوع تصویری را با آن تولید کرد، اما OpenAI اعلام کرده محتوای مضر، خشونتآمیز، غیر اخلاقی و غیر قانونی را ممنوع کرده است. همچنین، برای احترام به حقوق دیگران، استفاده از تصاویر اشخاص بدون رضایت آنها ممنوع است.
آیا DALL-E قرار است در آینده جای هنرمندان را بگیرد؟
این نگرانی همیشگی برای کسانی که هوش مصنوعی وارد حوزه کاری آنها شده است، وجود دارد. هنرمندان هم از این قاعده مستثنی نیستند. باید این حقیقت را بپذیریم که DALL-E این امکان را برای همه افراد، از هنرمند تا غیرهنرمند فراهم کرده است تا بتوانند تصاویر خلاقانه و منحصربهفرد خلق کنند. طبیعی است که هنرمندانی که به کمک قدرت تخیل و هنر خود آثار ارزشمندی را خلق میکنند، اندکی احساس خطر کنند.
بیشتر بخوانید: “نیمه تاریک هوش مصنوعی و ماشین لرنینگ“
حقیقت این است که هوش مصنوعی هر چقدر هم که قدرتمند باشد، ساخته شده با قدرت تفکر و خلاقیت انسان است. به هر حال باید این حقیقت را بپذیریم که هوش مصنوعی قرار است در تمامی حوزهها همکار ما باشد. پس بهتر است با این همکار جدید دوست باشیم تا دشمن.
DALL-E اگر توانسته در تبدیل متن به تصویر موفق عمل کند، به دلیل این بوده که انسانها یا همان هنرمندان توانستهاند به خوبی آن را آموزش دهند. در نتیجه استفاده از هوش مصنوعی بهجای هنرمندان نه تنها جایگزین آنها نخواهد شد، بلکه به جرئت میتوان گفت سطح خلاقیت و نوآوری در تصویرسازی و هنر را چند پله ارتقا میدهد. به نظر میرسد این موضوع اصلا برای هنرمندان ناخوشایند نیست.
بیشتر بخوانید: “تولید محتوا به سبک هوش مصنوعی“
جمعبندی و نتیجهگیری
در این مقاله با DALL-E و مراحل تبدیل متن به تصویر آشنا شدیم. اگرچه تمامی این مراحل بسیار پیچیده هستند، سعی شد به زبانی ساده بیان شوند. بررسی دقیق هر کدام از این مراحل نیاز به تسلط کامل بر زبان برنامهنویسی پایتون، ماشین لرنینگ، دیپ لرنینگ و هوش مصنوعی دارد. به همین دلیل برای آشنایی و تسلط کامل بر این مراحل پیشنهاد میشود ابتدا در یک دوره آموزش برنامهنویسی پایتون و سپس برای درک مفاهیم پیشرفته و تخصصی هوش مصنوعی در دوره آموزش ماشین لرنینگ شرکت کنید.
برای تهیه این مقاله از منابع زیر استفاده شده است: