در دنیای پرسرعت هوش مصنوعی، یک مدل جدید و مرموز برای تولید و ویرایش تصویر با نام Nano-Banana ظهور کرده که با عملکرد خیرهکننده خود، توجه جامعه فناوری را جلب کرده است. این مدل بدون هیچگونه معرفی رسمی و در پلتفرم LMArena مشاهده شده است و میتواند دستورات متنی پیچیده را درک و با دقت بالایی تصاویر را ویرایش کند.
برخلاف مدلهای مشهور، Nano-Banana با کمپینهای تبلیغاتی معرفی نشد؛ بلکه بیسروصدا در بخش ویرایش تصویر پلتفرم LMArena ظاهر شد. البته طولی نکشید که کاربران با به اشتراکگذاشتن خروجیهای جالب، از توانایی بینظیر آن در دنبالکردن دستورات پیچیده تعجب کردند. برای مثال، این مدل قادر است دستورات چندمرحلهای مانند «شخصیت پایینی را به شخصیت 2B از بازی Nier: Automata و شخصیت بالایی را به Master Chief از بازی Halo تبدیل کن» را با دقتی خیرهکننده اجرا کند، و نورپردازی، پرسپکتیو و ترکیببندی کلی صحنه را دستنخورده باقی بگذارد. در تصویر پایین نیز میبینید چگونه دو عکس مختلف را بهخوبی ترکیب میکند:
عملکرد فوقالعاده مدل Nano-Banana باعث شده تا گمانهزنیهای زیادی درمورد هویت سازنده آن شکل بگیرد. اگرچه هیچ شرکتی رسماً اعلام نکرده که این مدل را ساخته، اما قویترین نظریه این است که Nano-Banana یک پروژه مخفی متعلق به گوگل است، آن هم به دو دلیل: اول، کیفیت و بافت تصاویر تولیدشده شباهت زیادی به مدلهای Imagen و Gemini گوگل دارد؛ و دوم، گوگل سابقهای طولانی در استفاده از نام میوهها به عنوان اسم رمز برای پروژههای داخلی خود دارد.
قدرت اصلی Nano-Banana به توانایی آن برای بازسازی لایههای مختلف تصویر (مانند فتوشاپ) برمیگردد. این مدل میتواند با دستورات ساده، پسزمینه را تغییر دهد، حالت چهره فرد را عوض کند، وضوح عکسهای تار را بهبود بدهد یا حتی دو تصویر مجزا را در یک تصویر واحد ترکیب کند. علاوهبراین، در حفظ پیوستگی شخصیتها در تصاویر متوالی (مانند یک کمیک استریپ) و تبدیل صحنهها به سبکهای هنری مختلف (آبرنگ، رنگ روغن و...) نیز برتری دارد.
بااینحال، Nano-Banana بینقص نیست. کاربران به مشکلاتی مانند گلیچهای بصری در بازتابها، رندر ناقص متون و خطاهای آناتومیک رایج (مانند خطا در نمایش دست و انگشتان) اشاره کردهاند. درحالحاضر، هیچ راه رسمی برای دسترسی به این مدل وجود ندارد، اما کاربران ممکن است به صورت تصادفی در بخش «Battle» پلتفرم LMArena با آن مواجه شوند. بااینحال، اگر این مدل واقعاً پروژه گوگل باشد، عرضه رسمی آن میتواند بار دیگر رقابت در بازار هوش مصنوعی مولد تصویر را به شکل چشمگیری دگرگون کند.