هوش مصنوعی با شنیدن صدا‌ عکس می‌سازد

دنیای اقتصاد چهارشنبه 14 آذر 1403 - 00:05
مهر: هم اکنون سیستم‌های هوش مصنوعی جلوه‌های صوتی برای تصاویر ساکن از خیابان‌های شهر و اماکن دیگر می‌سازند، اما یک فناوری آزمایشی جدید برعکس این فرآیند را انجام می‌دهد. یوهائو کانگ و همکارانش در دانشگاه تگزاس «مدل انتشار صدا به تصویر» (Soundscape-to-Image Diffusion Model) را براساس مخزن داده‌ای از کلیپ‌های صوتی و تصویری ۱۰ ثانیه‌ای آموزش دادند.

 این کلیپ‌ها شامل تصاویر ثابت و صداهای محیطی از ویدئوهای یوتیوب مربوط به خیابان‌های شهری و حومه‌ای در آمریکای شمالی، آسیا و اروپا بودند. محققان با استفاده از الگوریتم‌های یادگیری عمیق نه تنها به سیستم آموزش دادند چه اصواتی به چه آیتم‌هایی در تصاویر مرتبط است، بلکه چه کیفیت اصواتی با محیط‌های بصری مطابقت دارد. پس از تکمیل آموزش به سیستم دستور داده شد تصاویری را فقط براساس صدای محیطی ضبط شده از ۱۰۰ ویدئو چشم‌انداز خیابان بسازد. این سیستم به ازای هر ویدئو یک عکس ساخت. در مرحله بعد هریک از عکس‌ها همراه دو تصویر تولید شده از خیابان‌های دیگر به پنلی از داوران انسانی نشان داده شد و همزمان صدایی که عکس‌ها براساس آن تولید شده بودند نیز پخش شد. هنگامی که از داوران خواسته شد سه عکس مرتبط با صدای شنیده شده را شناسایی کنند، آنها با دقت متوسط ۸۰ درصد این کار را انجام دادند.

 

منبع خبر "دنیای اقتصاد" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.