گوگل به تازگی ابزار هوش مصنوعی پیشرفته تولید تصویر خود، Imagen 3، را به چت بات هوش مصنوعی Gemini اضافه کرده است. اکنون کاربران می توانند با استفاده از این دستیار هوشمند، تصاویر خود را به شکلی مشابه DALL-E در ChatGPT ایجاد کنند. اما یک محدودیت مهم وجود دارد: کاربران عادی نمی توانند تصاویر افراد را تولید کنند و این ویژگی فقط برای کاربران نسخه پیشرفته Gemini در دسترس است. برای استفاده از این نسخه پیشرفته، گوگل یک دوره آزمایشی یک ماهه رایگان ارائه می دهد و پس از آن هزینه اشتراک ماهانه ۱۹.۹۹ دلار خواهد بود.
افزودن هوش مصنوعی Imagen 3 به Gemini
Imagen 3 در ابتدا تنها از طریق پلتفرم AI Test Kitchen گوگل در دسترس بود، اما حالا با انتقال آن به Gemini، افراد بیشتری به این مدل قدرتمند دسترسی پیدا می کنند. این ابزار به گونه ای طراحی شده که می تواند تصاویر با کیفیت بسیار بالا، همراه با جزئیات دقیق تر و نورپردازی بهتر نسبت به مدل های پیشین تولید کند.
علاوه بر تولید تصویر، گوگل امکان ویرایش تصاویر از طریق تکنیک inpainting را نیز در این ابزار فراهم کرده است. این قابلیت به کاربران اجازه می دهد که بخش هایی از تصویر را انتخاب و تغییرات دلخواه خود را اعمال کنند. با این حال، محدودیت هایی برای استفاده از Imagen 3 وجود دارد، اما برخی کاربران با استفاده از روش هایی خاص توانسته اند این محدودیت ها را دور بزنند. به عنوان مثال، با درخواست برای “تصویری سیاه و سفید و دراماتیک از پارک ملی Grand Teton در سال ۱۹۴۲”، کاربری تصویری مشابه با آثار عکاس معروف انسل آدامز دریافت خواهد کرد.
همچنین گوگل قبلاً مجبور به حذف نسخه اولیه مولد تصویر هوش مصنوعی خود در Gemini شد، چرا که برخی کاربران این ابزار را به دلیل حذف تعصبات نژادی و عدم نمایش چهره سفید پوستان به شدت مورد انتقاد قرار داده بودند. این مسئله باعث شد که گوگل تغییراتی در مدل های خود ایجاد کند تا تعادلی بهتر در نمایش تنوع فرهنگی و نژادی ایجاد شود.
اگرچه گوگل اطلاعات دقیقی درباره داده های آموزشی Imagen 3 منتشر نکرده، اما اعلام کرده است که این مدل بر روی یک مجموعه داده بزرگ شامل تصاویر و توضیحات متنی مرتبط آموزش دیده است که احتمالاً حاوی تصاویر دارای حق کپی نیز هست.