پرواز رویایی به یک عکس دوبعدی!
علیرضا مجیدی
یک برنامه هوش مصنوعی به شما این امکان را میدهد که به عکس یک منظره «پرواز» کنید
گوگل برنامهای ایجاد کرده که بیننده میتواند با استفاده از مدلهای سهبعدی با هوش مصنوعی (AI) به یک عکس ثابت «پرواز» کند!
در مقاله جدیدی با عنوان InfiniteNature-Zero، محققان ادعا میکنند که میتوانند کاری کنند که شما مانند یک پرنده به داخل یک عکس ثابت پرواز کنید. این کار را نرمافزار هوشمندیای انجام میدهد که به لطف یادگیری ماشینی، منظره جعلی ایجاد میکند.
کار آسانی نیست. محققان مجبور هستند اطلاعاتی اضافی را که در واقع در عکس موجود نیست، مانند مناطق پنهان در پشت یک تپه یا جنگل را «پر» کنند.
برای این کار نرمافزارشان «نقاشی درونی» میکند، هوش مصنوعی آنچه را که فکر میکند باید در منظره باشد با فرآیند یادگیری ماشینی و استفاده از مجموعه دادههای عظیم شبیهسازی میکند.
به طور مشابه، برای به دست آوردن افکت پرواز، هوش مصنوعی باید چیزی را که خارج از مرزهای عکس است تولید کند. این را “نقاشی بیرونی” نام نهادهاند و بسیار شبیه ابزار آگاه از محتوا در فتوشاپ است که در آن هوش مصنوعی تصویر وسیعتری را بر اساس عکس اصلی و با کمک یادگیری ژرف ایجاد میکند.
همانطور که هر کسی که تا به حال روی یک عکس زوم کرده است میداند، کیفیت تصویر به تدریج به صورت پیکسلهای تار کاهش مییابد. برای جلوگیری از این اتفاق، گوگل از «سوپر رزولوشن» استفاده میکند، فرآیندی که در آن هوش مصنوعی یک تصویر پیکسلی شده را به یک تصویر واضح تبدیل میکند.
پس این برنامه که محققان آن را «تسلسل دائمی صحنههای طبیعی از تصاویر منفرد» نامیدند، این سه تکنیک را ترکیب میکند: نقاشی درونی، نقاشی بیرونی و وضوح فوقالعاده برای ایجاد افکت پرواز.
در تلاشهای قبلی محققان، تصویر تقریباً بلافاصله با پرواز بیننده از بین میرود. اما در آخرین مقاله پژوهشگران Google Research، دانشگاه کرنل و دانشگاه برکلی اختصاص دارد، تصویر بسیار بهتر و برای مدت طولانیتری حفظ میشود. البته هنوز با کمال فاصله دارند، اما بسیار قابل توجه هستند.
در نسخه قدیم ، سازندههای دید دائمی قبلی توسط فیلمهای پهپادی واقعی آموزش میدیدند، در حالی که این نمونههای جدید تنها عکسهای منفرد از مناظر را به عوان پایگاه اطلاعات داشتند.
تیم هوش مصنوعی گوگل از میدانهای تابشی عصبی Neural Radiance Fields (NeRF) استفاده میکند که قبلاً به محققان اجازه میداد مدلهای سهبعدی دقیقی از مکانهای دنیای واقعی بسازند و نویز تصاویر را بگیرند و به طور مؤثری کاربر را قادر به «دیدن در تاریکی» کند.
با این حال، برنامههای فوق به یک حافظه پنهان بزرگ از تصاویر مکانی که تولید میکردند متکی بودند، در حالی که مولد نمای دائمی جدید فقط به یک تصویر نیاز دارد.
در اوایل سال جاری، هم آزمایشگاههای سامسونگ راهی برای ایجاد آواتارهای با وضوح بالا یا دیپفیک از یک عکس با فریم ثابت به نام MegaPortraits توسعه داده بودند.
این پست را که مینوشتم نمیدانم چرا یاد فیلم What Dreams May Come رابین ویلیامز افتادم.