ماه گذشته، انویدیا پلتفرم جدیدی با نام Maxine معرفی کرد که از هوش مصنوعی (AI) برای افزایش کارایی نرمافزارهای ویدئوکنفرانس استفاده میکند. این - تعمیرات سولاردام بوتان کاشانی - نرمافزار با ایجاد شبکهی عصبی فشرده سعی میکند تصویری فشرده از چهرهی افراد ایجاد کند. این تصویر میتواند ازطریق شبکه ارسال شود؛ یعنی به جایی که شبکهی عصبی دوم تصویر اصلی را همراه تغییرات مفید بازسازی میکند.
انویدیا معتقد - تعمیرات سولاردام بوتان کاشانی - است استفاده از این روش میتواند درمقایسهبا تکنیکهای متداول فشردهسازی، نیاز به پهنای باند نرمافزارهای کنفرانس ویدئویی را حداکثر ۱۰ برابر کاهش و روش نمایش چهرهی افراد را هم تغییر دهد. بهعنوان مثال، اگر بهنظر برسد فردی - تعمیرات سولاردام بوتان کاشانی - بهدلیل موقعیت دوربین خود در خارج از مرکز آن قرار دارد، نرمافزار میتواند صورت او را بچرخاند تا مستقیما - تعمیرات سولاردام بوتان کاشانی - مشاهدهشدنی باشد. این پایان کار نیست و نرمافزار میتواند چهرهی واقعی کاربر را با آواتار متحرک هم جایگزین کند.
پلتفرم Maxine را میتوان کیت توسعهی - تعمیرات سولاردام بوتان کاشانی - نرمافزار توصیف کرد و آن را کالای مصرفی نباید بهحساب آورد. انویدیا امیدوار است توسعهدهندگان نرمافزارهای شخص ثالث بتوانند از Maxine برای بهبود نرمافزارهای کنفرانس ویدئویی استفاده کنند. گفتنی است نرمافزار با محدودیت مهمی همراه است. برای مثال، دستگاه دریافتکنندهی جریان ویدئویی به پردازندهی گرافیکی انویدیا - تعمیرات سولاردام بوتان کاشانی - با فناوری هسته تنسور (Tensor) احتیاج دارد. انویدیا بهمنظور پشتیبانی از دستگاههای فاقد کارت گرافیک مناسب توصیه میکند فریمهای ویدئویی در فضای - تعمیرات سولاردام بوتان کاشانی - ابری تولید شوند؛ البته عملکرد مثبت و کامل این روش را هم نمیتوان تضمین کرد.
اگر بخواهیم از هزینهی مربوط به Maxine صرفنظر کنیم، بهنظر میرسد این پلتفرم در آینده برای سرویسهای پخش ویدئو ارزشمند خواهد بود. در مدت زمان نهچندان دور، بیشتر دستگاههای محاسباتی به قدرتی خواهند رسید که میتوانند با استفاده از شبکههای عصبی Maxine و سایر پلتفرمهای مشابه، در زمان واقعی محتواهای ویدئویی تولید کنند.
پلتفرم Maxine براساس تکنیک یادگیری ماشین ساخته شده است که اصطلاحا شبکههای - تعمیرات سولاردام بوتان کاشانی - مولد تخاصمی (Generative Adversarial Network) نامیده میشود. شبکههای مولد تخاصمی شبکهای عصبی بهحساب میآید و درحقیقت توابع پیچیده ریاضی است که ورودیهای عددی را دریافت و خروجیهای عددی را تولید میکند. معمولا ورودی شبکه عصبی در برنامههای بصری - تعمیرات سولاردام بوتان کاشانی - نمایش پیکسلبهپیکسل تصویر است. بهعنوان مثال، یکی از نمونههای مشهور این شبکههای عصبی سیستمی بود که در آن، از تصاویر بهعنوان ورودیها استفاده شد و شبکه تصویر خروجی را با کنارگذاشتن تعداد بسیاری از دستهها، فقط به هزار دسته ازجمله سگهایی با نژاد دالمیشن و قارچها محدود کرد.
شبکههای عصبی هزاران و گاه میلیونها - تعمیرات سولاردام بوتان کاشانی - پارامتر تنظیمشدنی دارند. جالب است بدانید این شبکه با ارزیابی عملکرد خود دربرابر دادههای دنیای واقعی آموزش میبیند. بهعنوان مثال، این شبکه یک ورودی از دنیای واقعی (همانند تصویر سگ) را نمایش میدهد که طبقهبندی صحیح آن برای نرمافزار آموزش شناخته شده است. سپس نرمافزار آموزشی از تکنیکی با نام Back-Propagation برای بهینهسازی پارامترهای شبکه استفاده خواهد کرد. مقادیری که شبکه را بهسوی پاسخ صحیح هدایت کردهاند، ارتقا داده خواهند شد و مقادیری که به دستیابی پاسخ - تعمیرات سولاردام بوتان کاشانی - اشتباه کمک کردهاند، مجددا بازخوانی میشوند. پس از تکرار این فرایند روی هزاران یا میلیونها نمونه، امکان دارد شبکه برای نمونههای آموزشدیده کاملا کارآمد باشد.
نرمافزار آموزش باید پاسخ صحیح را برای هر ورودی بداند؛ بههمیندلیل، پروژههای کلاسیک یادگیری ماشین معمولا مردم را وادار میکردند تا هزاران مثال را بهصورت دستی برچسبگذاری کنند. درصورتیکه روشی برای تولید خودکار دادههای آموزشی وجود داشته باشد، میتوان فرایند آموزش را تا حد زیادی سریعتر کرد. شبکهی مولد تخاصمی (GAN) را میتوان روش هوشمندانهی آموزش شبکهی عصبی آن هم بدون نیاز به - تعمیرات سولاردام بوتان کاشانی - انسان برای برچسبگذاری دانست.
همانطورکه از نام این روش هم برمیآید، - تعمیرات سولاردام بوتان کاشانی - GAN درحقیقت دو شبکه است که با یکدیگر - تعمیرات سولاردام بوتان کاشانی - در - تعمیرات سولاردام بوتان کاشانی - حال رقابت هستند. شبکهی اول را باید مولدی دانست که دادههای تصادفی را بهعنوان ورودی دریافت و سعی میکند تصویری واقعگرایانه ایجاد کند. شبکهی دوم را میتوان تفکیککنندهای دانست که از یک تصویر استفاده و سعی میکند واقعی یا جعلی بودن تصویر ایجادشدهی شبکه اول را تشخیص دهد. هر دو شبکه بهصورت همزمان با برنامهی آموزشی - تعمیرات سولاردام بوتان کاشانی - اجرا و نتیجهی هر شبکه برای آموزش شبکهی دیگر استفاده میشود:
در شروع آموزش، میتوان عملکرد هر دو شبکه را نامطلوب توصیف کرد؛ اما پیشرفت با گذشت - تعمیرات سولاردام بوتان کاشانی - زمان رقم خواهد خورد. همانطورکه کیفیت تصاویر تولیدکننده بهبود خواهد یافت، فرایند تفکیککننده بهمنظور شناسایی تصاویر جعلی هم پیچیدهتر میشود. درحقیقت، هرچه تفکیککننده حساستر شود، شبکهی مولد آموزشهای لازم را برای ایجاد تصاویر واقعیتر دریافت میکند و نتایج بهدستآمده میتواند چشمگیر باشد. وبسایت ThisPersonDoesNotExist.com دقیقا همان کاری را انجام میدهد که دربارهاش در حال بحث هستیم. این وبسایت تصاویر واقعگرایانهای از انسانها ایجاد میکند که وجود ندارند.
این وبسایت با شبکهی عصبی مولدی بهنام StyleGAN ساخته شده و جالب آنکه محققان انویدیا آن را راهاندازی کردهاند. در دههی گذشته، ازآنجاکه کارت گرافیکهای انویدیا به یکی از پردازندههای محبوب برای انجام محاسبههای شبکه عصبی تبدیل شدهاند، این شرکت سرمایهگذاری - تعمیرات سولاردام بوتان کاشانی - هنگفتی هم برای تحقیقات دانشگاهی در زمینهی تکنیکها و توسعهی شبکه عصبی کرد.
نخستین شبکههای مولد تخاصمی فقط تلاش کردند تصاویر تصادفی واقعگرایانه را در - تعمیرات سولاردام بوتان کاشانی - دستهای گسترده همانند - تعمیرات سولاردام بوتان کاشانی - چهرههای انسانی تولید کنند. این تصاویر بهعنوان شبکههای مولد تخاصمی بدون قیدوشرط شناخته میشوند. بهتازگی، - تعمیرات سولاردام بوتان کاشانی - محققان شبکههایی تولید کردهاند که تصویر یا سایر دادهها را بهعنوان ورودی - تعمیرات سولاردام بوتان کاشانی - دریافت و درنهایت تلاش خواهند کرد تصویر خروجی مرتبط را تولید کنند.
گاهی وقتها، الگوریتم آموزش اطلاعات - تعمیرات سولاردام بوتان کاشانی - ورودی یکسانی را به تولیدکننده و تفکیککننده ارائه میدهند. در سایر مواقع، عمکرد تلفات تولیدکننده هم ترکیبی از خروجی تفکیککننده با برخی از معیارهای دیگر است که خروجی متناسب با دادههای ورودی را قضاوت میکند. این روش طیف گستردهای از کاربردها را شامل میشود. محققان از شبکهی مولد تخاصمی (GAN) مشروط برای تولید - تعمیرات سولاردام بوتان کاشانی - آثار هنری از توصیف متنی، تولید عکس از طرحها، تولید نقشه از تصاویر ماهوارهای، پیشبینی وضعیت افراد در سنین بیشتر و... استفاده میکنند.
تمام اینها، ما را به پلتفرم Maxine شرکت انویدیا بازمیگرداند. با اینکه انویدیا جزئیات کاملی دربارهی روش کار فناوری Maxine ارائه نداده است، در یکی از مقالههای منتشرشده در سال ۲۰۱۹، برخی از الگوریتمهای اساسی تأمین انرژی Maxine توصیف شده است. این مقاله GAN مشروطی را توصیف میکند که فایلی ویدئویی از چهرهی فرد در حال صحبت را درکنار تعدادی تصویر از چهرهی - تعمیرات سولاردام بوتان کاشانی - شخص دوم بهعنوان ورودی دریافت میکند. درادامه، تولید ویدئویی از شخص دوم را شاهد خواهید بود که همان حرکتهای انجامشده در فیلم اصلی و متعلق به شخص اول را انجام میدهد.
نرمافزار جدید کنفرانس ویدئویی انویدیا از نسخهی اصلاحشدهی این روش استفاده میکند. پلتفرم Maxine بهجای دریافت فایل ویدئویی بهعنوان ورودی، مجموعهای از نکات اصلی استخراجشده از فایل ویدئویی منبع را ازآنِ خود میکند. هدف نقاط دادهای است که محل و حالت چشم، دهان، بینی، ابرو و سایر ویژگیهای - تعمیرات سولاردام بوتان کاشانی - صورت را مشخص میکند.
تمام این دادهها میتوانند بهتر از فیلمی معمولی نمایش داده شوند و این بدانمعنا است که میتوان آنها را با حداقل پهنای باند استفادهشده ازطریق شبکه انتقال داد. همچنین، این شبکه یک فریم ویدئویی با وضوح چشمگیر ارسال خواهد کرد تا گیرنده از موضوع باخبر شود. سپس کامپیوتر گیرنده از شبکهی مولد تخاصمی مشروط برای بازسازی چهره شخص مدنظر استفاده خواهد کرد.
یکی از ویژگیهای اصلی شبکهی محققان انویدیا که در سال ۲۰۱۹ توصیف شد، مخصوص یک چهره نبود؛ بلکه شبکهای واحد را میتوان برای - تعمیرات سولاردام بوتان کاشانی - تولید فایلهای ویدئویی از افراد مختلف آن هم براساس تصاویر ارائهشده بهعنوان ورودی آموزش داد. مزیت عملی پلتفرم Maxine این است که به آموزش شبکهی جدید بهازای هر کاربر نیازی نیست. توجه کنید که انویدیا میتواند شبکهی تولیدکنندهی از قبل آموزشدیدهای ارائه دهد تا چهرهی هر فردی را ترسیم کند. استفاده از شبکهی آموزشدیده درمقایسهبا شبکهی جدید از این نظر بهتر است که به - تعمیرات سولاردام بوتان کاشانی - قدرت - تعمیرات سولاردام بوتان کاشانی - محاسباتی کمتری نیاز خواهد بود.
رویکرد و هدف انویدیا را میتوان ویرایش فایل ویدئویی خروجی آن هم با - تعمیرات سولاردام بوتان کاشانی - چندین روش ساده عنوان کرد. بهعنوان مثال، یکی از مشکلات رایج در فناوریهای کنفرانس ویدئویی، موقعیت نامناسب دوربین است و بهنظر میرسد که فرد در حال نگاهکردن به محیط اطراف خود است. شبکهی عصبی انویدیا میتواند با چرخاندن نقاط اصلی چهرهی کاربر، مشکل را رفع کند تا در مرکز قرار بگیرند. گفتنی است انویدیا اولین شرکتی نیست - تعمیرات سولاردام بوتان کاشانی - که چنین کاری - تعمیرات سولاردام بوتان کاشانی - انجام - تعمیرات سولاردام بوتان کاشانی - میدهد؛ - تعمیرات سولاردام بوتان کاشانی - زیرا اپل مشغول کار روی نسخهی اختصاصی این ویژگی برای FaceTime است. بااینحال، این امکان وجود دارد - تعمیرات سولاردام بوتان کاشانی - رویکرد مبتنیبر GAN انویدیا قدرتمندتر باشد و بهجای چشمها، تغییرات را در تمام چهره امکانپذیر کند.
پلتفرم Maxine میتواند سر فرد مدنظر را با شخصیتی متحرک هم جایگزین کند؛ البته این هم قابلیت جدیدی بهحساب نمیآید و اسنپ چند سال پیش این قابلیت را معرفی کرد و درحالحاضر، معمولا در برنامههای چت ویدئویی استفاده میشود. هماکنون سؤالاتی در ذهن مبنیبر تفاوت اقدام انویدیا با سایر پلتفرمها شکل خواهد گرفت و پاسخ روشن است: رویکرد مبتنیبر شبکهی مولد تخاصمی انویدیا میتواند تصاویر واقعبینانهتری فراهم کند که در طیف گستردهای از موقعیتهای مختلف عمل خواهد - تعمیرات سولاردام بوتان کاشانی - کرد.
همانطورکه در قسمتهای قبل هم گفته شد، ماکسین محصول مصرفی نیست؛ بلکه کیت توسعهی نرمافزار برای ساخت نرمافزار کنفرانس ویدئویی است. انویدیا تعدادی از قابلیتهای مختلف را به توسعهدهندگان ارائه و اجازه میدهد تا دربارهی چگونگی ترکیب آنها و ارائهی محصولی کاربردی تصمیمگیری کنند.
حداقل نسخهی اولیهی Maxine با محدودیت مهم یا همان پردازندهی - تعمیرات سولاردام بوتان کاشانی - گرافیکی قدرتمندی همراه خواهد بود که اخیرا انویدیا معرفی کرده است. این پلتفرم بهمنظور دریافت جریان ویدئو به پردازندهی گرافیکی قدرتمند انویدیا احتیاج - تعمیرات سولاردام بوتان کاشانی - دارد و در بالای هستههای تنسور قرار گرفته است و واحدهای محاسبهگر در کارت گرافیک جدید - تعمیرات سولاردام بوتان کاشانی - انویدیا که بهمنظور عملیات یادگیری ماشین بهینهسازی شدهاند. Maxine با محصولات مربوط - تعمیرات سولاردام بوتان کاشانی - به کنفرانسهای ویدئویی رقابت خواهد کرد و دلیل آن را میتوان انتظار کاربرانی دانست که تمایل دارند محصول دلخواهشان از سختافزارهای گسترده پشتیبانی کند.
وقتی سؤالاتی برای دریافت پاسخ از نمایندهی شرکت انویدیا مطرح شد، او استدلال کرد که توسعهدهندگان میتوانند پلتفرم Maxine را روی سرور ابری مجهز به سختافزارهای موردنیاز انویدیا اجرا و درادامه فایلهای ویدئویی را در سیستمهای کاربران پخش کنند. با استفاده از پلتفرم ماکسین با روشهای ذکرشده، میتوانید پهنای باند را در لینک ویدئویی کاربر هم ذخیره کنید. دلیل این امر را میتوان نیازنداشتن فناوری Maxine Keypoint Extraction به پردازندهی گرافیکی انویدیا عنوان کرد.
هنوزهم قویترین ویژگی در فروش پلتفرم ماکسین - تعمیرات سولاردام بوتان کاشانی - را - تعمیرات سولاردام بوتان کاشانی - میتوان نیاز به پهنای باند بسیار کم و - تعمیرات سولاردام بوتان کاشانی - چشمگیر آن عنوان کرد؛ البته صرفهجویی در پهنای باند آن هم بهطورکامل زمانی امکانپذیر خواهد بود که ویدئو در دستگاه کاربر تولید شود. برای انجام این کار، پلتفرم ماکسین نیازمند پشتیبانی از دستگاههای بدون پردازندهی گرافیکی است.
هنگامیکه سؤالی مبنیبر پشتیبانی از پردازندههای گرافیکی بهغیر انویدیا از - تعمیرات سولاردام بوتان کاشانی - مسئولان شرکت مطرح شد، آنها از اظهارنظر دربارهی محصولات آینده خودداری کردند. درحالحاضر، پلتفرم Maxine در مرحلهی دسترسی اولیه برای توسعه است. درحقیقت، انویدیا اجازهی دسترسی محدود را به گروهی از توسعهدهندگان داده تا بدینترتیب، بتواند مشکلات احتمالی را رفع کند. در آیندهی نزدیک - تعمیرات سولاردام بوتان کاشانی - که البته زمان دقیقش مشخص نیست، انویدیا بستر را برای تمام توسعهدهندگان فراهم خواهد کرد.
بعید بهنظر میرسد انویدیا بتواند انحصار این رویکرد را در زمینهی کنفرانس ویدئویی حفظ کند. تاکنون سایر - تعمیرات سولاردام بوتان کاشانی - شرکتهای بزرگ فناوری برنامهای برای استفاده از GAN بهمنظور بهبود شرایط کنفرانسهای ویدئویی اعلام نکردهاند؛ اما گوگل و اپل و کوالکام برای تولید تراشههای قدرتمندتر بهمنظور پشتیبانی از یادگیری ماشین در - تعمیرات سولاردام بوتان کاشانی - گوشیهای هوشمند در حال تلاش هستند - تعمیرات سولاردام بوتان کاشانی - و در این زمینه، گامهای موفقی برداشتهاند. قطعا مهندسان این شرکتها - تعمیرات سولاردام بوتان کاشانی - در حال بررسی امکان فشردهسازی فایلهای ویدئویی - تعمیرات سولاردام بوتان کاشانی - با استفاده از شبکهی عصبی هستند. اپل باتوجهبه یکپارچهسازی سختافزار و نرمافزار خود، بهویژه در توسعهی نرمافزاری مشابه این پلتفرم، موقعیت مطلوبی دارد.