اپل معمولاً در زمینه هوش مصنوعی بیسروصدا حرکت میکند، اما اینبار با انتشار یک مدل متنباز قدرتمند به نام SHARP توجهات زیادی به خود جلب کرده است. این مدل جدید میتواند فقط با دریافت یک عکس معمولی دوبعدی، در کمتر از یک ثانیه یک صحنه سهبعدی واقعگرایانه بسازد. این مدل میتواند در واقعیت مجازی، بازیسازی و حتی عکاسی بسیار کاربردی باشد.
به زبان ساده، مدل جدید اپل میتواند عمق و پرسپکتیو یک عکس تخت را بفهمد و آن را زنده کند. محققان اپل در مقالهای توضیح میدهند که SHARP پارامترهای سهبعدی را مستقیماً از یک عکس استخراج میکند. نتیجه نهایی این است که شما میتوانید دوربین را در فضای عکس حرکت دهید و صحنه را از زوایای نزدیک مشاهده کنید، انگار که واقعاً در آنجا حضور دارید.
تا پیشازاین، برای ساخت مدل سهبعدی از یک صحنه، به دهها یا صدها عکس از زوایای مختلف نیاز بود. اما SHARP این کار را با یک عکس واحد و در یک مرحله انجام میدهد. کل پردازش در کمتر از یک ثانیه روی یک کارت گرافیک استاندارد انجام میشود. نسبت به مدلهای رقیب نیز ۲۵ تا ۳۴ درصد از خطاها کمتر است.

البته اگرچه SHARP سریع و دقیق است، اما جادو نمیکند. این مدل نمیتواند بخشهای پنهان صحنه (مثلاً پشت یک مبل یا دیوار) را که در عکس اصلی وجود ندارد، از خودش بسازد. به همین دلیل، حرکت دوربین محدود به نماهای نزدیک است. اگر سعی کنید خیلی از زاویه اصلی دور شوید، با فضای خالی مواجه میشوید. اپل این محدودیت را پذیرفته تا سرعت و واقعگرایی مدل را حفظ کند.
خبر خوب این است که اپل کد و وزنهای این مدل را بهصورت عمومی در GitHub منتشر کرده است. توسعهدهندگان و علاقهمندان میتوانند آن را دانلود و روی سیستمهای خود اجرا کنند. کاربران در شبکه اجتماعی ایکس ویدیوهایی از خروجی این مدل به اشتراک گذاشتهاند که نشان میدهد چقدر سریع و طبیعی میتوان به عکسهای ثابت جان بخشید.