دنیای پردازش گرافیکی روزبهروز پیچیدهتر و جذابتر میشود. غولهای بازار یعنی AMD و Nvidia همهی تلاش خود را به کار میگیرند تا حرفهایترین - تعمیرات مایکروویو زانوسی شهرک طلاییه - کاربران دنیای کامپیوتر یعنی گیمرها و متخصصان تولید محتوای گرافیکی را به خود جذب کنند. کاربران مذکور پس - تعمیرات مایکروویو زانوسی شهرک طلاییه - از مطالعهی عمیق اخبار و بررسیها پیرامون محصولات گرافیکی، هزینهی بالایی را برای خرید کارت گرافیک از هر یک از بازیگران اصلی بازار، پرداخت میکنند. سختافزاری که توسط آنها خریداری میشود، یک پردازندهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - گرافیکی بسیار قدرتمند - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارد که میلیاردها ترانزیستور در آن قرار گرفته است؛ ترانزیستورهایی که با سرعت عملیاتی ما فوق تصور فعالیت میکنند.
شاید تفاوت - تعمیرات مایکروویو زانوسی شهرک طلاییه - معماری و زیرساخت کارتهای گرافیکی برای همهی کاربران جذاب نباشد. اکثر آنها با اعتماد به بررسیهای موجود در اینترنت یا بنچمارکها، محصولی - تعمیرات مایکروویو زانوسی شهرک طلاییه - را خریداری میکنند و عموما هم نیازهایشان بهخوبی برطرف میشود. با این حال برخی از کاربران و کارشناسان به جزئیات عملکردی و معماری سختافزارهای گرافیکی اهمیت میدهند. بهعنوان مثال آنها تمایل دارند تا تفاوت قلب تپندهی کارت گرافیک Radeon RX 5700 را با خانوادهی GeForce RTX درک کنند. در ادامهی این مطلب - تعمیرات مایکروویو زانوسی شهرک طلاییه - زومیت، بررسی عمیقی روی این پردازندههای گرافیکی تحولآفرین داریم و جدیدترین معماری پردازندههای AMD و انویدیا را بررسی میکنیم: Navi در برابر Turing.
پیش از آنکه به بررسی عمیق ساختار کلی تراشهها و سیستمها بپردازیم، نگاهی کلی به ساختار پردازندههای گرافیکی (GPU) مدرن خالی از لطف نخواهد بود. - تعمیرات مایکروویو زانوسی شهرک طلاییه - سهم عمدهای از ساختار این پردازندهها، - تعمیرات مایکروویو زانوسی شهرک طلاییه - محاسبهگرهای ممیز شناور هستند. به بیان دیگر آنها فقط عملیات - تعمیرات مایکروویو زانوسی شهرک طلاییه - ریاضی را در مقادیر اعشاری و کسری انجام میدهند. درنتیجه هر پردازندهی گرافیکی باید یک - تعمیرات مایکروویو زانوسی شهرک طلاییه - بخش منطقی برای انجام چنین وظایفی داشته باشد که بهنام FF ALU یا Floating Point Arithmetic Logic Units - تعمیرات مایکروویو زانوسی شهرک طلاییه - شناخته میشود. در اکثر نوشتهها از عبارت اختصاری FPU برای این عملگرهای منطقی استفاده میشود.
همهی محاسباتی که توسط پردازندهی گرافیکی انجام میشود، در واحد ممیز شناور نیستند. درنتیجه باید یک ALU برای محاسبات ریاضی اعداد صحیح (کامل) هم وجود داشته باشد. در برخی موارد - تعمیرات مایکروویو زانوسی شهرک طلاییه - همان واحد قبلی چنین عملیاتی را هم انجام میدهد.
واحدهای منطقی که در بالا به آنها اشاره شد، نیاز به بخشی برای سازماندهی دارند. بهبیان دیگر بخشی - تعمیرات مایکروویو زانوسی شهرک طلاییه - برای رمزگشایی ارتباطها باید وجود داشته باشد تا واحدهای منطقی را مشغول کند. برای این منظور حداقل به یک گروه از واحدهای منطقی اختصاصی نیاز خواهد بود. - تعمیرات مایکروویو زانوسی شهرک طلاییه - گروه مذکور برخلاف ALUها قابلیت برنامهریزی را به کاربر نهایی نمیدهد، بلکه تولیدکنندهی سختافزار آن را برای مدیریت توسط پردازندهی گرافیکی و درایورهای مرتبط، طراحی میکند.
برای ذخیرهسازی دستورهای عملکردی و دادههایی - تعمیرات مایکروویو زانوسی شهرک طلاییه - که باید پردازش شوند، باید زیرساخت حافظه هم در سختافزار وجود داشته باشد. در سادهترین سطح ساختار حافظه، دو نوع - تعمیرات مایکروویو زانوسی شهرک طلاییه - زیرساخت طراحی میشود: حافظهی نهان یا کش و بخشی نیز بهعنوان حافظهی محلی در نظر گرفته میشود. بخش اول در داخل پردازندهی گرافیکی قرار میگیرد و SRAM نامیده میشود. این نوع از حافظه سرعت بالایی دارد، اما بخش زیادی از الگوی پردازنده را به خود اختصاص میدهد. حافظهی محلی بهنام DRAM شناخته میشود و عملکرد کندتری دارد. بهعلاوه آن - تعمیرات مایکروویو زانوسی شهرک طلاییه - را در پردازندهی گرافیکی تعبیه نمیکنند. اکثر کارتهای گرافیکی امروزی حافظهی محلی را بهصورت ماژولهای GDDR DRAM - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارند.
رندر گرافیکهای سهبعدی درنهایت به وظایف اضافی هم نیاز پیدا میکند تا بافتها و اجسام را به بهترین نحو نمایش دهد. چنین عملکردهایی مانند واحدهای عملکردی و کنترلی، بهصورت طبیعی توابع ثابت محسوب - تعمیرات مایکروویو زانوسی شهرک طلاییه - میشوند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - وظایف آنها و چگونگی انجام - تعمیرات مایکروویو زانوسی شهرک طلاییه - کاملا برای کاربرانی که از پردازندهی گرافیکی استفاده کرده یا برای آن برنامهنویسی میکنند، شفاف خواهد بود.
برای درک بهتر پردازندههای گرافیکی، در ادامه براساس تعاریف بالا یک GPU فرضی میسازیم:
در تصویر بالا بلوک نارنجی واحدی است که بافتها را مدیریت و طراحی میکند و بهنام Texture Mapping Unit یا TMU (واحد بافت نگاشت) شناخته میشود. بخش TA یا Texture Addressing موقعیتهای حافظه را برای استفادهی حافظهی پنهان و محلی میسازد. بخش دیگر یعنی TF یا Texture - تعمیرات مایکروویو زانوسی شهرک طلاییه - Fetch مقادیر بافتها را از حافظه دریافت کرده و با هم ترکیب میکند. امروزه واحدهای TMU تقریبا در محصول همهی تولیدکنندهها به هم شبیه هستند. آنها توانایی مشابه شناسایی، - تعمیرات مایکروویو زانوسی شهرک طلاییه - نمونهسازی و ترکیب چندین بافت را در هر چرخهی عملکرد - تعمیرات مایکروویو زانوسی شهرک طلاییه - GPU دارند.
بلوک زیرین مقادیر رنگ را برای پیکسلهای هر فریم مشخص میکند. بهعلاوه نمونهسازی (توسط واحد PO) و - تعمیرات مایکروویو زانوسی شهرک طلاییه - ترکیب (توسط واحد PB) مقادیر رنگ نیز در این بلوک انجام - تعمیرات مایکروویو زانوسی شهرک طلاییه - میشود. همین بلوک برای انجام عملیات حذف پلگی هم به کار گرفته میشود. نام بلوک مذکور Render Output Unit یا Render Backend است که بهصورت اختصار ROP (واحد خروجی رندر) یا RB خوانده میشود. این بلوک هم مانند TMU بهنوعی استاندارد شده است و توانایی مدیریت چندین پیکسل را در هر چرخهی عملیات پردازنده دارد.
پردازندهی گرافیکی سادهای که در بالا شرح دادیم، حتی با توجه - تعمیرات مایکروویو زانوسی شهرک طلاییه - به استانداردهای ۱۳ سال پیش هم عملکرد واقعا بدی خواهد داشت. در پردازندهی ما از هر واحد - تعمیرات مایکروویو زانوسی شهرک طلاییه - FPU، TMU و ROP تنها یک عدد وجود دارد. درحالی که پردازندههای سال ۲۰۰۶ همچون GeForce 8800 GTX از - تعمیرات مایکروویو زانوسی شهرک طلاییه - واحدهای فوق به ترتیب ۱۲۸، ۳۲ و ۲۴ عدد داشتند. درنتیجه - تعمیرات مایکروویو زانوسی شهرک طلاییه - برای بهبود عملکرد پردازندهی گرافیکی مدل، باید تغییراتی در آن ایجاد کنیم.
در تصویر بالا و در ادامهی مدلسازی پردازندهی گرافیکی، - تعمیرات مایکروویو زانوسی شهرک طلاییه - ما هم با اضافه کردن بخشهای جدید، محصول خود را بهروزرسانی کردیم. بهبیاندیگر اکنون تراشه توانایی پردازش دستورالعملهای بیشتری را بهصورت همزمان خواهد داشت. بهعلاوه برای - تعمیرات مایکروویو زانوسی شهرک طلاییه - افزایش پردازش همزمان، حافظهی کش را نیز کمی - تعمیرات مایکروویو زانوسی شهرک طلاییه - افزایش داده، اما این بار آن را در کنار واحدهای منطقی قرار دادیم. هرچه حافظهی کش به زیرساخت محاسباتی نزدیکتر باشد، در شروع عملیات اجرایی سریعتر عمل خواهد کرد.
مشکل اصلی طراحی جدید این است که تنها یک واحد کنترلی برای مدیریت ALUهای اضافه وجود دارد. اگر بلوکهای بیشتری برای این بخش داشتیم، عملکرد پردازنده بهتر میشد. بلوکهایی که هرکدام توسط کنترلر مجزای خود مدیریت شوند. درنتیجه عملیات بسیار متنوع و متعدد بهصورت همزمان مدیریت و کنترل میشود.
تصویر بالا نمونهی نزدیکتری به واقعیت نشان میدهد. واحدهای ALU مجزا که هرکدام مجهز به TMU و ROP اختصاصی هستند و بخشهایی از حافظهی سریع کش به آنها اختصاص داده شده است. در طراحی بالا، از هر بخش دیگر تنها یک عدد در ساختار GPU دیده میشود، اما بههرحال زیرساخت اصلی تفاوت آنچنانی با پردازندههای گرافیکی امروزی در کامپیوترهای شخصی و کنسولهای بازی - تعمیرات مایکروویو زانوسی شهرک طلاییه - ندارد.
پس از درک اولیه از ساختار پردازندههای گرافیکی، - تعمیرات مایکروویو زانوسی شهرک طلاییه - نوبت به مقایسهی جدیدترین معماری آنها یعنی Navi در - تعمیرات مایکروویو زانوسی شهرک طلاییه - برابر Turing میرسد. برای انجام مقایسه، تصاویری واقعی هم از بخشهای اصلی پردازندهها با هم مقایسه میشود که برای درک بهتر بزرگنمایی و شفافسازی شدهاند.
در سمت - تعمیرات مایکروویو زانوسی شهرک طلاییه - چپ تصویر زیر جدیدترین پردازندهی AMD را مشاهده میکنید که در کارتهای - تعمیرات مایکروویو زانوسی شهرک طلاییه - سری RX 5700 از آن استفاده شده است. این تراشه به نام - تعمیرات مایکروویو زانوسی شهرک طلاییه - Navi شناخته میشود و برخی منابع از نام Navi10 برای آن استفاده میکنند. معماری گرافیکی - تعمیرات مایکروویو زانوسی شهرک طلاییه - آن نیز RDNA - تعمیرات مایکروویو زانوسی شهرک طلاییه - نام دارد. در سمت راست تصویر پردازندهی TU102 شرکت انویدیا را مشاهده میکنیم که با جدیدترین - تعمیرات مایکروویو زانوسی شهرک طلاییه - معماری Turing ساخته شده است. شایان ذکر است تصاویر زیر، مقیاس برابر ندارند. مساحت ناوی ۲۵۱ میلیمتر مربع و - تعمیرات مایکروویو زانوسی شهرک طلاییه - مساحت پردازندهی انویدیا ۷۵۲ میلیمتر مربع است. در همین مقایسهی اولیه میبینیم که انویدیا مساحت بزرگتری را به پردازندهی گرافیکی اختصاص میدهد، - تعمیرات مایکروویو زانوسی شهرک طلاییه - اما تفاوت عملکردی آنها آنچنان زیاد نیست.
هر دو پردازنده تعداد بسیار زیادی ترانزیستور دارند. پردازندهی AMD دارای ۱۰/۳ و پردازندهی انویدیا دارای ۱۸/۶ میلیارد ترانزیستور است. البته TU102 در هر میلیمتر مربع حدود ۲۵ میلیون ترانزیستور دارد که در مقایسه با ۴۱ میلیون ترانزیستور در هر میلیمتر مربع ناوی، عدد پایینی محسوب میشود. دلیل تفاوت این است که با وجود یکی بودن سازندهی تراشهها (TSMC)، نود پردازشی تولیدی آنها با هم تفاوت دارد: انویدیا تورینگ در خط تولید قدیمیتر ۱۲ نانومتری ساخته شد، اما AMD سفارش خود را در خط جدیدتر و هفت نانومتری ساخته است.
با نگاه به تصاویر واقعی قالب پردازندهها اطلاعات زیادی از معماری آنها دریافت - تعمیرات مایکروویو زانوسی شهرک طلاییه - نمیکنیم. درنتیجه برای بررسی بهتر، دیاگرام بلوکی را بررسی میکنیم که توسط شرکتهای سازنده ارائه میشود:
تصاویر بالا نمودهای ۱۰۰٪ واقعی از الگوی پردازندهها نیستند، اما اگر آنها ۹۰ - تعمیرات مایکروویو زانوسی شهرک طلاییه - درجه بچرخانیم، بلوکهای متعدد و خطوط مرکزی آنها بهخوبی مشاهده میشود. با نگاهی کلی متوجه میشویم که - تعمیرات مایکروویو زانوسی شهرک طلاییه - هر دو معماری، بلوکهایی مشابه پردازندهای دارند که در بخش قبلی بهعنوان نمونه طراحی کردیم. البته در معماریهای بالا، - تعمیرات مایکروویو زانوسی شهرک طلاییه - از همهی بخشها بلوکهای بیشتری - تعمیرات مایکروویو زانوسی شهرک طلاییه - داریم.
هر دو طراحی، رویکردی کاملا منظم را در سازماندهی بلوکها دارند. برای شروع، معماری ناوی را بررسی میکنیم که از دو بلوک (AMD نام Shader Engines را برای آنها استفاده میکند) تشکیل میشود. هر یک از بلوکهای مذکور به دو بلوک دیگر بهنام Asynchronous Compute Engines تقسیم میشود. هر یک از بلوکهای جدید هم شامل پنج بلوک دیگر هستند که از نام Workgroup Processors برای آنها استفاده میشود. درنهایت این بلوکها هم دارای دو واحد بهنامهای Compute - تعمیرات مایکروویو زانوسی شهرک طلاییه - Units یا CU (واحد محاسباتی) هستند.
در - تعمیرات مایکروویو زانوسی شهرک طلاییه - طراحی تورینگ، نام بلوکها و تعداد آنها با ناوی تفاوت دارد. البته زیرساخت و سلسلسه مراتب آنها - تعمیرات مایکروویو زانوسی شهرک طلاییه - به هم شبیه است. ۶ بخش بهنام Graphics Processing Clusters وجود دارد که هرکدام دارای ۶ بخش بهنام Texture Processing Clusters هستند و مجددا در هرکدام از آنها دو بلوک بهنام Streaming Multiprocessor داریم.
اگر هر پردازندهی گرافیکی را به یک کارخانهی بزرگ تشبیه کنیم که هر - تعمیرات مایکروویو زانوسی شهرک طلاییه - بخش، محصول متفاوت و مجزایی را از مواد اولیهی یکسان تولید میکند، ساختاربندی بالا منطقی بهنظر میرسد. مدیرعامل کارخانه، همهی جزئیات عملکردی را به بخشهای اجرایی ارسال میکند. سپس دستورها به وظایف و روندهای کاری مجزا تقسیم - تعمیرات مایکروویو زانوسی شهرک طلاییه - میشوند. با داشتن - تعمیرات مایکروویو زانوسی شهرک طلاییه - واحدهای مستقل متعدد در کارخانه، بازدهی نیروی کاری هم افزایش مییابد. در پردازندههای گرافیکی روندی مشابه رخ میدهد و از نام Scheduling (بهترین تعریف: زمانبندی) برای آن استفاده میشود.
اگر به ساختار و روند رندر کردن بازیهای سهبعدی دقت کنیم، به این نتیجه میرسیم که پردازندههای گرافیکی چیزی بیش از یک ماشین حساب فوق سریع نیستند. این قطعات سختافزاری، عملیات ریاضی را - تعمیرات مایکروویو زانوسی شهرک طلاییه - با سرعتی بالا روی میلیونها قطعه داده انجام میدهند. در پردازندههای Navi و Turing از ساختارهای Single Instruction Multiple Data - تعمیرات مایکروویو زانوسی شهرک طلاییه - یا SIMD استفاده میشود. البته برای تعریف بهتر باید از اصطلاح Single Instruction Multiple - تعمیرات مایکروویو زانوسی شهرک طلاییه - Thread یا SIMT استفاده شود.
یک بازی مدرن سهبعدی، صدها و بعضا هزاران رشتهی پردازشی (ترد) تولید میکند، چون تعداد رئوس و پیکسلهایی که باید پردازش شوند، بسیار زیاد است. برای انجام پردازش در کمترین زمان ممکن - تعمیرات مایکروویو زانوسی شهرک طلاییه - (میکرو ثانیه) باید حداکثر واحدهای محاسبهگر منطقی (ALU) را مشغول به پردازش کنیم. درواقع نباید هیچگونه خللی بهخاطر قرار نگرفتن دادهها در - تعمیرات مایکروویو زانوسی شهرک طلاییه - موقعیت مناسب یا نبود منابع پردازشی، ایجاد شود.
ناوی و تورینگ عملکرد مشابهی در پردازش دارند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - در هر دوی آنها یک واحد مرکزی تمام رشتهها را دریافت میکند و زمانبندی و - تعمیرات مایکروویو زانوسی شهرک طلاییه - ارسال آنها را انجام میدهد. در تراشهی AMD، وظیفهی مذکور توسط Graphics Command Processor انجام میشود و در محصول انویدیا، این بخش GigaThread Engine نام دارد. رشتهها - تعمیرات مایکروویو زانوسی شهرک طلاییه - بهصورتی مدیریت و تنظیم میشوند که هر دستورالعمل حداکثر شامل ۶۴ رشتهی پردازشی است.
AMD هر مجموعهی رشتهها را - تعمیرات مایکروویو زانوسی شهرک طلاییه - Wave (جبههی موج) مینامد و انویدیا از نام Warp برای آنها استفاده میکند. AMD بر هر جبههی موج ۳۲ رشته را بارگیری میکند و هر واحد محاسباتی (با دو SIMD هر یک شامل ۳۲ محاسبهگر منطقی) توانایی پردازش آیتمهای کاری دو Wave با مجموعاً ۶۴ - تعمیرات مایکروویو زانوسی شهرک طلاییه - رشته را دارد. - تعمیرات مایکروویو زانوسی شهرک طلاییه - تمامی ۶۴ رشته بدین ترتیب در یک سیکل کلاک پردازش میشود. - تعمیرات مایکروویو زانوسی شهرک طلاییه - البته در صورت انجام فرایند روی یک Wave واحد با ۳۲ رشته زمان دو برابر میشود. در معماری تورینگ، واحد محاسباتی بهصورت همزمان با چهار Warp کار میکند. در هر دو معماری، Wave یا Warp مستقل هستند. بهبیاندیگر پیش از شروع پردازش هریک از آنها، نیازی به اتمام پردازش گروه قبلی نیست.
با نگاهی به همین تعاریف اولیه، متوجه تفاوت نهچندان زیادی میان Navi و Turing میشویم. هر دوی آنها برای مدیریت و پردازش تعداد بسیار زیادی رشته طراحی شدهاند تا عملیات رندر و فرایندهای پردازش را انجام دهند. دراینمیان برای درک بهتر تفاوت پردازندهها، - تعمیرات مایکروویو زانوسی شهرک طلاییه - باید به آنچه رشتهها را پردازش - تعمیرات مایکروویو زانوسی شهرک طلاییه - میکند، دقت کنیم.
AMD و Nvidia در واحدهای سایهزنی یکپارچهی خود رویکردهای کاملا متفاوتی را در - تعمیرات مایکروویو زانوسی شهرک طلاییه - پیش میگیرند. البته نامگذاریها و اصطلاحهای آنها شباهت - تعمیرات مایکروویو زانوسی شهرک طلاییه - زیادی به هم دارد. واحدهای - تعمیرات مایکروویو زانوسی شهرک طلاییه - اجرایی انویدیا (بهنام هستههای CUDA شناخته میشوند) طبیعت اسکالر (Scalar) دارند. بهبیان دیگر هر واحد، یک عملیات ریاضی را روی یک جزء داده انجام میدهد. درمقابل واحدهای AMD - تعمیرات مایکروویو زانوسی شهرک طلاییه - (موسوم به Stream Processors) روی بردارها (Vector) کار - تعمیرات مایکروویو زانوسی شهرک طلاییه - میکنند. درواقع آنها یک عملیات ریاضی را روی اجزای دادهی متعدد پیادهسازی میکنند. بهعلاوه واحد محاسباتی این شرکت برای عملیات اسکالر یک واحد اختصاصی دارند.
پیش از نگاه نزدیکتر به واحدهای اجرایی پردازندههای گرافیکی، ابتدا نگاهی به تغییرات AMD روی واحدهای پردازش گرافیکی خود در خلال سالیان گذشته خواهیم داشت. در هفت سال گذشته، کارتهای گرافیکی رادئون از معماری بهنام Graphics Core Next یا GCN استفاده کردند. البته - تعمیرات مایکروویو زانوسی شهرک طلاییه - هر تراشهی جدید تحت بازبینی - تعمیرات مایکروویو زانوسی شهرک طلاییه - و تغییرات متعدد طراحی قرار گرفت، اما زیرساخت و اصول آنها یکسان میماند. این شرکت با عرضهی معماری جدید، خلاصهای - تعمیرات مایکروویو زانوسی شهرک طلاییه - از تاریخچهی معماری پردازندههای گرافیکی خود - تعمیرات مایکروویو زانوسی شهرک طلاییه - هم منتشر کرد که در تصویر زیر میبینیم:
GCN بهنوعی یک نسخهی تکاملیافته از TeraScale بود که امکان - تعمیرات مایکروویو زانوسی شهرک طلاییه - پردازش Waveهای بیشتر را در زمان یکسان ایجاد میکرد. مشکل اصلی TeraScale، دشواری برنامهنویسی برای آن بود که برای حصول بهترین نتیجه، نیاز به روندهای بسیار - تعمیرات مایکروویو زانوسی شهرک طلاییه - خاص داشت. GCN چالش مذکور را حل کرده و پلتفرمی در دسترستر ارائه کرد.
واحدهای محاسباتی - تعمیرات مایکروویو زانوسی شهرک طلاییه - (CU) که امروز در معماری ناوی مشاهده میکنیم، نسخههایی بسیار بهینهسازی شده از GCN هستند و بخشی از از فرایند - تعمیرات مایکروویو زانوسی شهرک طلاییه - بهینهسازی AMD در کارتهای گرافیک - تعمیرات مایکروویو زانوسی شهرک طلاییه - محسوب میشوند. هر واحد محاسباتی شامل دو مجموعه از آیتمهای زیر میشود:
هر واحد محاسباتی علاوه بر موارد - تعمیرات مایکروویو زانوسی شهرک طلاییه - بالا دارای چهار واحد بافتدهی (Texture Unit) هم هست. بهعلاوه واحدهای دیگری هم در داخل زیرساخت وجود دارند تا خواندن و نوشتن داده را از حافظهی کش مدیریت کنند. البته آنها را در تصویر زیر مشاهده نمیکنید.
مقایسهی اولیهی واحد محاسباتی RDNA و GCN - تعمیرات مایکروویو زانوسی شهرک طلاییه - تفاوت چندانی را نشان نمیدهد، اما مدیریت و تنظیمگری فرایندها تفاوتهای اصلی را شکل میدهد. در اولین تفاوت، هر یک از ۳۲ بخش SP (یا SIMD32) در معماری جدید، واحد زمانبند دستورالعمل (Scheduler) اختصاصی خود را دارد. درمقابل، معماری GCN برای چهار دستهی ۱۶ تایی از SPها (یا SIMD16)، تنها یک زمانبند ارائه میکند.
تغییر یادشده - تعمیرات مایکروویو زانوسی شهرک طلاییه - اهمیت زیادی دارد؛ چون در معماری جدید میتوان هر جبههی موج متشکل از ۳۲ رشته را در هر چرخهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - پردازش - تعمیرات مایکروویو زانوسی شهرک طلاییه - به یک دسته SP یا SIMD32 - تعمیرات مایکروویو زانوسی شهرک طلاییه - ارسال کرد. بهعلاوه معماری RDNA این امکان را ایجاد میکند تا واحدهای برداری دستورالعملهای متشکل از ۱۶ رشته را با سرعتی دوبرابر مدیریت کنند و - تعمیرات مایکروویو زانوسی شهرک طلاییه - همچنین گروههای ۶۴ رشتهای نیز با نرخ نصف مدیریت میشوند. درنتیجه تمام کدهای اختصاصی نوشته شده برای معماریهای نسل قبل، در معماری جدید هم پشتیبانی میشوند.
در طراحی جدید برای مدیریت انواع عملیات اسکالر، دو برابر واحد محاسباتی وجود دارد. درواقع در این طراحی تنها تعداد SFU یا Special Function Unit کاهش مییابد که وظیفهی انجام عملیات ریاضی بسیار خاص را بر عهده دارد. منظور از عملیات ریاضی بسیار خاص در اینجا فرایندهایی همچون مثلثات، - تعمیرات مایکروویو زانوسی شهرک طلاییه - وارون ضربی و ریشه دوم هستند. در - تعمیرات مایکروویو زانوسی شهرک طلاییه - معماری RDNA در مقایسه با GCN، تعداد - تعمیرات مایکروویو زانوسی شهرک طلاییه - کمتری از چنین عملیاتهای ریاضی انجام میشود، اما بههرحال میتوان این عملیاتها را روی مجموعهدادههایی با ابعاد دوبرابر معماری قبلی انجام داد.
تغییرات - تعمیرات مایکروویو زانوسی شهرک طلاییه - معماری AMD که در بالا به آن اشاره کردیم، - تعمیرات مایکروویو زانوسی شهرک طلاییه - برای توسعهدهندههای بازی اهمیت زیادی دارند. کارتهای گرافیک قدیمی رادئون - تعمیرات مایکروویو زانوسی شهرک طلاییه - ظرفیت کارایی بالایی داشتند، اما بهرهبرداری از آنها بسیار دشوار بود. امروز AMD قدم بزرگی را در مسیر کاهش تأخیر در اجرای دستورالعملهای پردازشی برداشته است. بهعلاوه قابلیت سازگاری نیز برای راحتی کار با نسخههای قبلی برنامههای مبتنی بر GCN در معماری جدید پیشبینی شده است.
اکنون این سؤال ایجاد میشود که تغییرات جدید AMD چه تأثیری بر بازار پردازش حرفهای و کاربری حرفهای گرافیک کامپیوتری دارند؟ آیا تغییرات به نفع آنها خواهند بود؟ قطعا پاسخ کوتاه به سؤال مذکور، مثبت خواهد بود. بهعنوان مثالی برای مقایسه، نسخهی کنونی از تراشههای ناوی (که در محصولاتی همچون Radeon RX 5700 XT دیده میشوند) تعداد پردازندههای جریانی (SP) کمتری نسبت به طراحی قبلی یعنی Vega دارند، اما - تعمیرات مایکروویو زانوسی شهرک طلاییه - از لحاظ کارایی بهراحتی محصولاتی همچون Radeon RX Vega - تعمیرات مایکروویو زانوسی شهرک طلاییه - را پشت سر میگذارند.
بخشی از برتری کارت گرافیک RX 5700 نسبت به RX Vega 56 بهخاطر سرعت کلاک بالاتر آن به دست میآید (سرعت بالاتر یعنی پیکسلهای بیشتری در واحد ثانیه در حافظهی محلی نوشته میشوند). البته کارتهای جدید از نظر سقف عملکرد عدد صحیح (Integer) - تعمیرات مایکروویو زانوسی شهرک طلاییه - و ممیز شناور کاهش ۱۵ درصدی دارند. درنهایت مجموع - تعمیرات مایکروویو زانوسی شهرک طلاییه - کارایی - تعمیرات مایکروویو زانوسی شهرک طلاییه - کارت ناوی نسبت به وگا، بهبود ۱۸ درصدی را نشان میدهد.
برنامههای رندر حرفهای و دانشمندان علوم کامپیوتر که الگوریتمهای پیچیده را اجرا میکنند، قطعا کاربری متفاوتی نسبت به گیمرها از پردازندهی گرافیکی استخراج خواهند کرد. البته وقتی - تعمیرات مایکروویو زانوسی شهرک طلاییه - عملیات اسکالر، برداری و ماتریسی در موتورهای بازی با سرعت بالاتری پردازش شود، قطعا در کاربردهای پردازشی حرفهای هم نقش خود را نشان میدهد. درحالحاضر نمیدانیم که کدامیک از برنامهها و تغییرات AMD در کارتهای گرافیک با هدف بازار - تعمیرات مایکروویو زانوسی شهرک طلاییه - حرفهای هستند. بههرحال آنها میتوانند با پایبندی به معماری وگا و تنها بهبود طراحی، علاوه بر صرفهجویی در هزینههای تولید، نیازهای آن بخش از بازار را هم رفع کنند؛ اما با توجه به پیشرفتهای عالی Navi نسبت به نسل قبل، تغییر مسیر تمامی بخش تولید به سمت معماری جدید، منطقیتر خواهد بود.
طراحی پردازندههای گرافیکی انویدیا نیز از سال ۲۰۰۶ تاکنون روند تکاملی مشابهی را طی کرده است. این شرکت در آن سال سری GeForce 8 را به بازار معرفی کرد. تغییرات آنها نسبت به رقیب، آنچنان اساسی و زیرساختی نبوده است. سری کارتهای گرافیک مذکور از انویدیا برای اولینبار از معماری Tesla استفاده میکردند که اولین رویکرد سایهزنی یکپارچه را در معماری اجرایی پیادهسازی میکرد. در تصویر زیر، تغییرات ساختار بلوکهای SM را از معماری پیش از تسلا یعنی Fermi تا معماری کنونی تورینگ (از چپ به راست Fermi, Kepler, Maxwell, Volta) مشاهده میکنیم.
همانطور که قبلا اشاره کردیم، هستههای CUDA رویکرد اسکالر دارند. آنها در هر چرخهی پردازش یک دستورالعمل صحیح و یک دستورالعمل - تعمیرات مایکروویو زانوسی شهرک طلاییه - شناور - تعمیرات مایکروویو زانوسی شهرک طلاییه - را روی یک جزء داده انجام میدهند. فراموش نکنید که هر دستورالعمل - تعمیرات مایکروویو زانوسی شهرک طلاییه - میتواند تا چند سیکل کلاک را اشغال کند. بههرحال واحدهای زمانبندی دستورالعملها را بهصورتی گروهبندی میکنند که توانایی انجام عملیات برداری را داشته باشند. رویکردی که درنهایت به نفع برنامهنویس خواهد بود. با - تعمیرات مایکروویو زانوسی شهرک طلاییه - نگاهی به پیشرفت پردازندههای انویدیا به این نتیجه میرسیم که علاوه بر افزایش واحدهای موجود در پردازنده، روش ساختاردهی و برنامهریزی آنها نیز بهبود یافته است.
در معماری Kepler، تراشه شامل پنج واحد GPC بود که هرکدام سه بلوک SM (یا Streaming Multiprocessor) داشتند. پس از رونمایی از معماری Pascal، شاهد تقسیم واحدهای GPC به TPC بودیم که در هریک از آنها دو واحد SM وجود داشت. این تقسیمبندی مانند معماری ناوی اهمیت زیادی - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارد. تقسیمبندی مذکور این امکان را ایجاد میکند که کل پردازندهی گرافیکی در حداکثر کارایی وظایف خود را انجام دهد. درنتیجهی تقسیمبندیهای مذکور، گروههای متعددی از دستورالعملهای مستقل بهصورت موازی پردازش میشوند و درنهایت کارایی سایهزنی و پردازش پردازنده افزایش - تعمیرات مایکروویو زانوسی شهرک طلاییه - مییابد.
در تصویر زیر معادل تورینگ یک واحد محاسباتی RDNA ترسیم - تعمیرات مایکروویو زانوسی شهرک طلاییه - شده است:
هر واحد SM در معماری تورینگ - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارای چهار بلوک پردازشی است که هرکدام از بخشهای زیر تشکیل شدهاند:
علاوه بر موارد بالا در هر SM دو واحد FP64 هم وجود دارد، اما - تعمیرات مایکروویو زانوسی شهرک طلاییه - انویدیا در دیاگرامهای بلوکی خود آنها را نمایش نمیدهد. هر - تعمیرات مایکروویو زانوسی شهرک طلاییه - واحد SM هم متشکل از چهار واحد بافت میشود که سیستمهای - تعمیرات مایکروویو زانوسی شهرک طلاییه - فیلترینگ و شناسایی بافتها را شامل میشوند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - بهعلاوه یک هستهی Ray Tracing (یا RT) نیز در هر واحد SM وجود دارد.
واحدهای ALU از نوع FP32 و INT32 توانایی فعالیت بهصورت همزمان - تعمیرات مایکروویو زانوسی شهرک طلاییه - و موازی دارند. این قابلیت اهمیت زیادی دارد چون اگرچه موتورهای رندر سهبعدی اکثرا به محاسبات ممیز شناور نیاز دارند، باز هم عملیات اعداد صحیح هم باید توسط هستههای پردازشی انجام شوند.
هستههای تنسور (Tensor Cores) واحدهای ALU هستههایی اختصاصی هستند که انجام عملیات ماتریسی را بر عهده میگیرند. ماتریسها به بیان ساده ردیفهای دادهای مربعی هستند و تنسورها در ماتریسهای ۴*۴ فعالیت میکنند. هستهها بهگونهای طراحی شدهاند تا دادههای FP16، INT8 و INT4 را مدیریت کنند. بهعلاوه مدیریت دادهها باید بهنوعی انجام شود تا حداکثر ۶۴ عملیات شناور FMA را در هر چرخهی پردازش انجام دهد. - تعمیرات مایکروویو زانوسی شهرک طلاییه - در اینجا FMA به اختصار برای عملیات Fused multiply-then-add به کار میرود.
محاسباتی که در بالا شرح دادیم، اکثرا در کاربردهایی همچون شبکههای عصبی و فرایندهای استنباطی استفاده میشوند. چنین عملیاتی کمتر در کاربردهایی همچون بازیهای سهبعدی دیده میشوند. در مواردی همچون الگوریتمهای تحلیل دادهی فیسبوک - تعمیرات مایکروویو زانوسی شهرک طلاییه - یا سیستمهای موجود در خودروهای خودران، نیاز شدیدی به چنین پردازشیهایی وجود دارد. معماری ناوی - تعمیرات مایکروویو زانوسی شهرک طلاییه - هم توانایی انجام محاسبات ماتریسی را دارد، اما برای انجام آن به تعداد زیادی واحد SP نیاز خواهد داشت. در سیستمهای مبتنی بر تورینگ، عملیات ماتریسی بهراحتی انجام میشود و بهصورت همزمان، هستههای CUDA فعالیتهای ریاضی دیگر را مدیریت خواهند کرد.
هستهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - RT یکی دیگر از واحدهای مهمی است که در معماری تورینگ وجود دارد و الگوریتمهای ریاضی خاص را مدیریت میکند. این الگوریتمها بهصورت اختصاصی برای سیستم رهگیری پرتو (Ray Tracing) شرکت انویدیا استفاده میشوند. تحلیل کامل فرایندهای مذکور از حوصلهی این مقاله خارج است، اما بهصورت ساده میتوان هستهی RT را متشکل از دو سیستم دانست که بهصورت مجزا با سایر اجزای SM به فعالیت میپردازند.
مقایسهی تورینگ و ناوی در سطوح پایهای نشان میدهد که هردو دارای واحدهای اجرایی با قابلیتهای مشابه هستند. البته هریک از آنها رویکرد متفاوتی را برای انجام فرایند با قابلیتهای مذکور در پیش میگیرند. برای انتخاب طراحی بهتر، باید نحوهی استفاده از آنها را بررسی - تعمیرات مایکروویو زانوسی شهرک طلاییه - کنیم: برنامهای که رشتههای متعددی را - تعمیرات مایکروویو زانوسی شهرک طلاییه - با محاسبات برداری FP32 ایجاد - تعمیرات مایکروویو زانوسی شهرک طلاییه - میکند و وظایف متفرقهی زیادی - تعمیرات مایکروویو زانوسی شهرک طلاییه - ندارد، با - تعمیرات مایکروویو زانوسی شهرک طلاییه - معماری ناوی عملکرد بهتری خواهد داشت. درمقابل برنامهای که ترکیبی از محاسبات صحیح، شناور، اسکالر و برداری دارد، از انعطافپذیری تورینگ بهره خواهد برد.
پردازندههای گرافیکی مدرن، پردازندههای جریانی هستند. بهبیاندیگر آنها بهگونهای طراحی شدهاند تا به اجرای مجموعهای از عملیاتها روی هر جزء از یک جریان داده اقدام کنند. درنتیجه این پردازندهها انعطافپذیری کمتری نسبت به پردازندههای مرکزی - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارند و سلسلهمراتب حافظه هم باید بهصورت بهینهتری در - تعمیرات مایکروویو زانوسی شهرک طلاییه - آنها پیادهسازی شود. درواقع حافظه باید بهگونهای طراحی - تعمیرات مایکروویو زانوسی شهرک طلاییه - شود تا داده و دستورالعمل را - تعمیرات مایکروویو زانوسی شهرک طلاییه - در سریعترین حالت و صرفنظر از تعداد جریانها از ALU دریافت کند. در اثر پیشفرضهای بالا، GPU حافظهی کش کمتری نسبت به CPU - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارد؛ چرا که دسترسی اجزای مختلف تراشه به حافظهی کش مهمتر از میزان این حافظه است.
انویدیا و AMD هردو از سطوح متعدد کش - تعمیرات مایکروویو زانوسی شهرک طلاییه - در داخل تراشه استفاده میکنند. ابتدا - تعمیرات مایکروویو زانوسی شهرک طلاییه - نگاهی به زیرساخت معماری ناوی خواهیم داشت:
در پایینترین سطح سلسلهمراتب حافظهی Navi دو بلوک از پردازندههای جریانی (SP) وجود دارند که ۲۵۶ کیلوبایت ثبات چندمنظورهی (General Purpose Register) برداری (موسوم به Register File) را بهکار میگیرند. این مقدار در معماری Vega هم دیده میشد، اما در آنجا شاهد چهار بلوک SP بودیم. تکمیل ظرفیت ثباتهای پردازنده خصوصا زمانیکه تعداد زیادی رشته در حال پردازش باشند، اثر منفی شدیدی روی کارایی - تعمیرات مایکروویو زانوسی شهرک طلاییه - خواهد داشت. درنتیجه در پایینترین سطح طراحی حافظهی ناوی شاهد بهبود قابلتوجهی نسبت به نسل قبل هستیم. بهعلاوه AMD - تعمیرات مایکروویو زانوسی شهرک طلاییه - حجم Register File اسکالر را نیز افزایش داده است. قبلا برای هر واحد اسکالر، حجم فایل، ۴ کیلوبایت بود که امروز به ۳۲ کیلوبایت برای هر واحد - تعمیرات مایکروویو زانوسی شهرک طلاییه - اسکالر میرسد.
در سطح بعدی دو واحد - تعمیرات مایکروویو زانوسی شهرک طلاییه - محاسباتی داریم که ۳۲ کیلوبایت کش L0 دستورالعملی و ۱۶ کیلوبایت کش دادهی اسکالر را به اشتراک میگذارند. البته هر CU کش L0 برداری اختصاصی با حجم ۳۲ کیلوبایت خواهد داشت. برای ارتباط همهی این حافطهها با بخشهای ALU از واحد ۱۲۸ کیلوبایتی Local Data Share استفاده میشود.
در معماری Navi، دو موتور محاسباتی یک پردازندهی گروهی را تشکیل میدهند و پنج عدد از آنها یک ACE میسازند. هر ACE به حافظهی اختصاصی کش - تعمیرات مایکروویو زانوسی شهرک طلاییه - L1 با حجم ۱۲۸ کیلوبایت دسترسی دارد. بهعلاوه کل پردازندهی گرافیکی با ۴ مگابایت حافظهی L2 پشتیبانی میشود. این حافظهی کش، به - تعمیرات مایکروویو زانوسی شهرک طلاییه - حافظههای L1 و دیگر بخشهای پردازنده متصل میشود.
توضیحات بالا بهصورت کلی نوعی از معماری اتصالات داخلی اختصاصی AMD را بهنام Infinity Fabric نشان میدهند. سیستم مذکور برای مدیریت ۱۶ کنترلر GDDR6 طراحی شده است. بهعلاوه Navi - تعمیرات مایکروویو زانوسی شهرک طلاییه - برای به حداکثر رساندن پهنای باند حافظه، از فشردهسازی حرفهای بین حافظههای L1, L2 و GDDR6 استفاده - تعمیرات مایکروویو زانوسی شهرک طلاییه - میکند.
همهی تغییرات بالا قدمی مثبت در جهت بهینهسازی عملکردی تراشههای AMD بودهاند. تراشههای قبلی هیچگاه حافظهی کش کافی در - تعمیرات مایکروویو زانوسی شهرک طلاییه - سطح پایین نداشتند. بهبیان ساده، اکنون با افزایش حافظهی کش به پهنای باند داخلی بیشتر میرسیم. بهعلاوه دستورالعملهای کمتری هم به توقف میرسند و مجموع اتفاقها، پردازندهای با کارایی بهتر را نتیجه میدهد.
انویدیا در ارائهی اطلاعات دقیق پیرامون سلسله مراتب حافظهی تورینگ، روند مناسبی ندارد. بههرحال در بخشهای قبلی مقاله دیدیم که هر واحد SM در معماری تورینگ به چهار بلوک پردازشی تقسیم میشود و هریک از آنها فایل رجیستر ۶۴ کیلوبایتی دارند. درنتیجه فایل رجیستر کوچکتری نسبت به ناوی در اختیار داریم. البته فراموش نکنید که ALU در معماری تورینگ طبعیت برداری ندارد و اسکالر است.
در سطح بعدی برای هر SM یک حافظهی اشتراکی ۹۶ کیلوبایتی داریم که - تعمیرات مایکروویو زانوسی شهرک طلاییه - میتواند بهصورت ۶۴ کیلوبایت کش دادهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - L1 و ۳۲ کیلوبایت کش بافت استفاده شود. بهعلاوه میتوان از آن بهعنوان فضای - تعمیرات مایکروویو زانوسی شهرک طلاییه - ثبات مجزا استفاده کرد. در حالت Compute Mode میتوان حافظهی اشتراکی را بهصورت دیگری تقسیمبندی کرد. بهعنوان مثال میتوان ۳۲ کیلوبایت حافظهی اشتراکی و ۶۴ کیلوبایت حافظهی کش L1 تعریف کرد. بههرحال در تمامی موارد تنها باید ترکیب ۳۲+۶۴ را بهکار برد.
بهخاطر کمبود اطلاعات پیرامون ساختار حافظهی معماری تورینگ، کارشناسان فناوری به منابع دیگر و شرکتهای تحقیقاتی در حوزهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - پردازندهی گرافیکی مراجعه کردهاند تا اطلاعات کاملتری از تحلیل پردازندهها استخراج شود. محققان مورد نظر در شرکت Citadel Enterprise Americas فعالیت میکنند. آنها تاکنون دو مقاله پیرامون تحلیل معماریهای Volta و Turing منتشر کردهاند. تصویر بالا طرحی از بررسی عمیق تراشهی TU104 توسط این تیم است.
تیم تحقیقاتی تأیید کردند که توان عملیاتی حافظهی L1 به ۶۴ بیت در هر چرخه میرسد. آنها تأکید کردند که بازدهی حافظهی کش L1 در معماری تورینگ از همهی معماریهای انویدیا بیشتر است. درنهایت این بازدهی با بازدهی حافظهی ناوی برابر میکند. درواقع اگرچه معماری AMD سرعت خواندن بیشتری در Local Data Store دارد، اما نرخ کش ثابت آن پایینتر است.
هر دو پردازندهی گرافیکی از حافظهی محلی GDDR6 استفاده میکنند که جدیدترین نسخهی DDR SDRAM مخصوص پردازش گرافیکی است. بهعلاوه هردوی آنها با پهنای باس (تعداد کانکشنهای تبادل داده میان هر تراشهی حافظه و پردازندهی گرافیکی) ۳۲ بیتی با ماژولهای حافظه در ارتباط هستند. یک کارت گرافیک - تعمیرات مایکروویو زانوسی شهرک طلاییه - Radeon RTX 5700 XT هشت تراشهی حافظه دارد و به - تعمیرات مایکروویو زانوسی شهرک طلاییه - پهنای باند حداکثری ۲۵۶ گیگابایت بر ثانیه با هشت گیگابایت فضا میرسد. درمقابل کارت گرافیک - تعمیرات مایکروویو زانوسی شهرک طلاییه - GeForce RTX 2080 Ti با تراشهی TU102 دارای ۱۱ - تعمیرات مایکروویو زانوسی شهرک طلاییه - ماژول از انواع مذکور است که به پهنای باند ۳۵۲ گیگابایت بر ثانیه و ۱۱ گیگابایت - تعمیرات مایکروویو زانوسی شهرک طلاییه - حافظه میرسد.
اگرچه AMD در بحث حافظه اطلاعات بیشتری ارائه میکند، برخی از اسناد آنها مبهم هستند. در اولین دیاگرام بلوکی که از ناوی مشاهده کردیم، چهار کنترلر - تعمیرات مایکروویو زانوسی شهرک طلاییه - حافظهی ۶۴ بیتی وجود داشتند، درحالی که تصویر بعدی ۱۶ عدد - تعمیرات مایکروویو زانوسی شهرک طلاییه - کنترلر را نمایش میدهد. از آنجایی که تولیدکنندههای حافظه همچون سامسونگ تنها ماژولهای حافظهی ۳۲ بیتی GDDR6 ارائه میکنند، احتمالا تصویر دوم تنها نشاندهندهی تعداد اتصال بین سیستم Infinity Fabric و کنترلرهای حافظه است. درنتیجه احتمالا ۴ کنترلر حافظه داریم که هرکدام به دو ماژول متصل میشوند.
درنهایت بهنظر نمیرسد که در بحث حافظهی داخلی و کش، تفاوت زیادی بین ناوی و تورینگ وجود داشته باشد. Navi در بحث فرایندهای اجرایی مزیتهایی دارد و حافظهی L1 ثابت آن بزرگتر است، البته هردوی آنها امکانات کاملی دارند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - هر دو نمونه در موقعیتهای ممکن از فشردهسازی رنگ استفاده میکنند و - تعمیرات مایکروویو زانوسی شهرک طلاییه - هردو فضای اختصاصی GPU دارند تا دسترسی حافظه و پهنای باند را به - تعمیرات مایکروویو زانوسی شهرک طلاییه - حداکثر برسانند.
تولیدکنندههای پردازندهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - گرافیکی ۱۵ سال پیش قرارداد مهمی - تعمیرات مایکروویو زانوسی شهرک طلاییه - را برای تعیین تعداد مثلثهای پردازشی در تراشهها ثبت کردند. در همان قرارداد به تعداد المانهای بافتی قابل فیلتر کردن در هر چرخه و ظرفیت واحدهای خروجی رندر (ROP) هم اشاره شد. این المانها امروزه هم در - تعمیرات مایکروویو زانوسی شهرک طلاییه - دنیای پردازش گرافیکی اهمیت دارند، اما از آنجایی که فناوریهای رندر - تعمیرات مایکروویو زانوسی شهرک طلاییه - سهبعدی بیش از گذشته نیاز به کارایی پردازشی دارند، تمرکز عملکردی بیشتر روی بخشهای اجرایی معطوف میشود.
بههرحال واحدهای بافتی و ROP هنوز جای بررسی دارند. به هر حال این بررسی نیز بار دیگر نشان خواهد داد که تفاوت آنچنانی در حوزهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - مذکور بین کارتهای گرافیک انویدیا و AMD وجود ندارد. واحدهای بافتی در هر دو معماری توانایی شناسایی و جذب چهار المان بافتی - تعمیرات مایکروویو زانوسی شهرک طلاییه - را دارند. بهعلاوه آنها المانها را بهصورت دوتایی فیلتر و به یک المان تبدیل کرده و طی یک چرخه روی حافظهی کش مینویسند.
تنظیم و ساختاردهی ROB/RB در محصولات انویدیا و AMD با هم تفاوت دارد، اما باز هم تفاوتها بسیار جزئی هستند. تراشهی AMD در هر بخش ACE، چهار RB دارد که هرکدام در یک چرخهی پردازشی چهار پیکسل ترکیبی را به خروجی میفرستند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - در معماری تورینگ، هر GPC متشکل از دو بخش RB خواهد بود که هرکدام هشت پیکسل را در یک چرخه ارائه - تعمیرات مایکروویو زانوسی شهرک طلاییه - میکنند. درنهایت - تعمیرات مایکروویو زانوسی شهرک طلاییه - میتوان تعداد ROP را در هر GPU معیاری برای نرخ خروجی پیکسل دانست. درنتیجه یک تراشهی کامل ناوی خروجی ۶۴ پیکسل در هر کلاک را - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارد و این - تعمیرات مایکروویو زانوسی شهرک طلاییه - آمار برای TU102 به ۹۶ میرسد. البته فراموش نکنید که ابعاد تراشهی دوم، بسیار بزرگتر است.
در بحث پردازشهای مرتبط با المانهای مثلثی، اطلاعات زیادی از تولیدکنندهها در دست نیست. در حال حاضر میدانیم که ناوی هنوز حداکثر خروجی چهار دادهی Primitive را در هر چرخهی پردازش دارد (بهبیان دیگر یک عدد برای هر ACE). ازطرفی مشخص نیست که آیا AMD با طرح Primitive Shaders چالش مذکور را حل کرده است یا خیر. طرح مذکور - تعمیرات مایکروویو زانوسی شهرک طلاییه - یکی - تعمیرات مایکروویو زانوسی شهرک طلاییه - از قابلیتهایی بود که شرکت برای معماری Vega تمرکز زیادی روی آن - تعمیرات مایکروویو زانوسی شهرک طلاییه - داشت و به برنامهنویسها امکان میداد تا کنترل بیشتری روی دادههای پریمیتیو داشته باشند. درواقع آن قابلیت امکان افزایش توان پریمیتیو را - تعمیرات مایکروویو زانوسی شهرک طلاییه - با مقیاس چهار فراهم میکرد. بههرحال قابلیت مذکور به یکباره از درایورها حذف شد خبر زیادی نیز پیرامون آن وجود ندارد.
هنوز کاربران و کارشناسان به اطلاعات بیشتری پیرامون Navi نیاز دارند. درنتیجه نمیتوان قابلیتها و امکانات آن را با حدس و گمان بیان کرد. تورینگ هم در هر کلاک و برای هر GPC، توان پردازش یک پریمیتیو را دارد. البته انویدیا نیز قابلیتی بهنام Mesh Shaders دارد - تعمیرات مایکروویو زانوسی شهرک طلاییه - که شبیه به Primitive Shaders شرکت AMD عمل میکند. قابلیت مذکور ارتباطی با Direct3D یا OpenGL یا Vulkan ندارد، - تعمیرات مایکروویو زانوسی شهرک طلاییه - اما میتوان با استفاده از افزونههای مبتنی بر API از آن استفاده کرد.
با بررسی کلی بالا شاید بتوان برتری را در این بخش تا حدودی به تورینگ داد. درواقع میتوان ادعا کرد که پردازندهی گرافیکی انویدیا در مدیریت مثلثها و دادههای پریمیتیو عملکرد بهتری نسبت به رقیب - تعمیرات مایکروویو زانوسی شهرک طلاییه - دارد، اما بههرحال هنوز اطلاعات عمومی زیادی برای نتیجهگیری نهایی و قطعی - تعمیرات مایکروویو زانوسی شهرک طلاییه - وجود ندارد.
علاوه بر موارد بالا، بخشهای متعدد دیگری هم در معماریهای Navi و Turing ارزش بررسی دارند. بهعنوان مثال هر دو پردازندهی گرافیکی موتورهای تصویری و - تعمیرات مایکروویو زانوسی شهرک طلاییه - رسانهای قوی دارند. منظور از موتور تصویری، واحد مدیریت خروجی به سمت - تعمیرات مایکروویو زانوسی شهرک طلاییه - نمایشگر و موتور رسانهای، واحد انکودینگ و دیکودینگ پخش ویدئویی است.
همانطور که از یک پردازندهی حرفهای سال ۲۰۱۹ انتظار داریم، موتور تصویری ناوی رزولوشنهای بالایی را ارائه میکند و نرخ بازسازی آن نیز بسیار بالا است. بهعلاوه پشتیبانی از HDR هم در کارتهای مبتنی بر معماری مذکور ارائه - تعمیرات مایکروویو زانوسی شهرک طلاییه - میشود. از قابلیتهای دیگر ناوی میتوان به Display Stream Compression یا DSC اشاره کرد که الگوریتمی با سرعت بالا و نرخ پایین حذف جزئیات است. الگوریتم مذکور امکان ایجاد رزولوشنهای بالاتر از 4K را با نرخ تازهسازی ۶۰ هرتز فراهم میکند که - تعمیرات مایکروویو زانوسی شهرک طلاییه - توسط یک خروجی DisplayPort 1.4 قابل ارائه - تعمیرات مایکروویو زانوسی شهرک طلاییه - خواهد بود. خوشبختانه کاهش کیفیت تصویر با چنین کاهش حجمی پایین خواهد بود و حتی برخی منابع آن را نزدیک به صفر بیان میکنند.
معماری تورینگ هم از DisplayPort با اتصالهای DSC پشتیبانی میکند. البته خروجی این معماری کیفیت بالاتری نسبت به ناوی دارد. معماری انویدیا، - تعمیرات مایکروویو زانوسی شهرک طلاییه - خروجی 4K HDR را با نرخ تازهسازی ۱۴۴ هرتز ارائه میکند.
موتور رسانهای ناوی بهاندازهی موتور نمایشگر آن مدرن است و پشیبانی از Advanced Video Coding یا H.264 و High Efficiency Video Coding یا H.265 را به کاربر ارائه میکند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - قابلیتهای مذکور باز هم - تعمیرات مایکروویو زانوسی شهرک طلاییه - با رزولوشن و نرخ بازسازی بالا ارائه میشوند.
موتور ویدئویی در تورینگ هم مانند بخشهای دیگر - تعمیرات مایکروویو زانوسی شهرک طلاییه - شباهت زیادی به ناوی دارد، اما احتمالا پشتیبانی از انکودینگ 8K30 HDR در معماری انویدیا، برای برخی از - تعمیرات مایکروویو زانوسی شهرک طلاییه - کاربران یک مزیت نسبت به محصول AMD محسوب میشود.
از جنبههای دیگری که - تعمیرات مایکروویو زانوسی شهرک طلاییه - بین دو معماری گرافیکی قابل مقایسه هستند، میتوان به PCI Express 4.0 در ناوی یا NV - تعمیرات مایکروویو زانوسی شهرک طلاییه - Link در - تعمیرات مایکروویو زانوسی شهرک طلاییه - تورینگ اشاره کرد. البته آنها بخشهایی بسیار جزئی از کل معماری هستند. با وجود این شرکتهای سازنده مانور تبلیغاتی زیادی روی چنین قابلیتهایی دارند و شاید برخی کاربران را به خود جذب کنند. شایان ذکر - تعمیرات مایکروویو زانوسی شهرک طلاییه - است قابلیتهای جزئی مذکور با احتمال بالا - تعمیرات مایکروویو زانوسی شهرک طلاییه - برای بسیاری از - تعمیرات مایکروویو زانوسی شهرک طلاییه - کاربران تأثیر خاصی نخواهند داشت.
مقالهی حاضر بررسی و مقایسهای میان طراحیهای معماری، قابلیتها و کاربردهای دو رقیب در دنیای پردازش است. ازطرفی مقایسهی کارایی آنها میتواند بهعنوان روشی مناسب برای جمعبندی مقایسه به کار گرفته شود. بههرحال مقایسهی تراشهی Navi در کارت گرافیک Radeon RX 5700 XT با پردازندهی - تعمیرات مایکروویو زانوسی شهرک طلاییه - Turing TU102 در GeForce RTX 2080 Ti عادلانه نیست چون - تعمیرات مایکروویو زانوسی شهرک طلاییه - کارت گرافیک دوم دو برابر محصول اول واحدهای یکپارچهی سایهزنی دارد. بههرحال نسخهای از تراشهی TU104 تورینگ در GeForce RTX 2070 Super وجود دارد که میتوان برای مقایسهی بهینه آن را در نظر گرفت. جدول زیر، مقایسهای از دو تراشهی Navi و Turing در کارتهای گرافیک موجود در بازار است.
Radeon RX 5700 XT | GeForce RTX 2070 Super | |
---|---|---|
پردازندهی گرافیکی | معماری | Navi 10 | RDNA | TU104 | Turing |
فرایند تولید | 7nm TSMC | 12nm TSMC |
مساحت قالب (میلیمتر) | ۲۵۱ | ۵۴۵ |
تعداد ترانزیستورها (میلیارد) | ۱۰/۳ | ۱۳/۶ |
ساختار بلوک | 2SE | 4ACE | 40CU | 5GPC | 20TPC | 40SM |
هستههای سایهزنی متحد | 2560SP | 2560CUDA |
واحدهای TMU | ۱۶۰ | ۱۶۰ |
واحدهای ROP | ۶۴ | ۶۴ |
کلاک پایهی پردازنده | ۱۶۰۵ مگاهرتز | ۱۶۰۵ مگاهرتز |
Game Clock | ۱۷۵۵ مگاهرتز | نامشخص |
Boost Clock | ۱۹۰۵ مگاهرتز | ۱۷۷۰ مگاهرتز |
حافظه | 8GB - تعمیرات مایکروویو زانوسی شهرک طلاییه - 256-bit - تعمیرات مایکروویو زانوسی شهرک طلاییه - GDDR6 | 8GB 256-bit GDDR6 |
پهنای باند حافظه | ۴۴۸ گیگابایت بر ثانیه | ۴۴۸ گیگابایت بر ثانیه |
توان طراحی گرمایی (TDP) | ۲۲۵ وات | ۲۱۵ وات |
در بررسی بالا باید بگوییم که RTX 2070 Super دربرگیرندهی یک پردازندهی TU104 کامل نیست و یکی از واحدهای GPC - تعمیرات مایکروویو زانوسی شهرک طلاییه - در آن غیرفعال است. درنتیجه همهی ۱۳/۶ میلیارد ترانزیستور در فرایندهای پردازشی فعال نیستند. درنهایت میتوان ادعا کرد که تراشههای بالا از لحاظ تعداد ترانزیستور با هم برابر هستند. با نگاهی اولیه به مقایسهی بالا، شباهت زیادی بین آنها دیده میشود. خصوصا در بخشهایی همچون تعداد واحدهای سایهزنی، TMU، ROP و سیستم - تعمیرات مایکروویو زانوسی شهرک طلاییه - اصلی حافظه تفاوت زیادی بین تراشهها دیده نمیشود.
در پردازندهی انویدیا هر واحد SM - تعمیرات مایکروویو زانوسی شهرک طلاییه - توانایی مدیریت و پردازش ۳۲ عدد Warp را - تعمیرات مایکروویو زانوسی شهرک طلاییه - بهصورت همزمان دارد. هر Warp نیز از ۳۲ رشته تشکیل میشود. در مجموع یک کارت گرافیک GeForce RTX - تعمیرات مایکروویو زانوسی شهرک طلاییه - 2070 Super در حداکثر بار پردازشی توانایی پردازش ۴۰،۹۶۰ رشته را در سطح کل منابع در دسترس تراشه دارد. همین بررسی برای Navi نشان میدهد که هر واحد CU توانایی پردازش ۱۶ عدد Wave را در هر واحد SIMD32 ALU دارد که مجموع رشتهها را باز هم به ۴۰،۹۶۰ عدد میرساند. اعداد مذکور، تراشهها را بسیار مشابه هم نشان میدهند، اما باید در نظر داشت که واحدهای CU و SM این - تعمیرات مایکروویو زانوسی شهرک طلاییه - دو معماری متفاوت از هم طراحی و نظمدهی شدهاند. درنهایت میدانیم که پردازندهی انویدیا - تعمیرات مایکروویو زانوسی شهرک طلاییه - در پردازش INT و FP برتری دارد، اما بههرحال همه چیز به کدهای برنامهی اجرایی روی پردازندهها بستگی دارد.
با مقایسهی بالا به این نتیجه میرسیم که بازیها در کارتهای گرافیک متنوع بازدهی و عملکرد متفاوتی را نشان میدهند؛ چرا که یکی از آنها شاید برای یک معماری مناسبتر از دیگری باشد. تفاوت نیز براساس دستورالعملهایی روشن میشود - تعمیرات مایکروویو زانوسی شهرک طلاییه - که برای پردازندهی گرافیکی ارسال میشوند. چنین تفاوتی را میتوان بهراحتی در بررسیهای عملی کارتهای گرافیک مشاهده کرد.
همهی بازیهایی که در بررسیها آزمایش شدند، برای معماری AMD GCN برنامهنویسی شده بودند. - تعمیرات مایکروویو زانوسی شهرک طلاییه - درواقع بازیها بهگونهای طراحی - تعمیرات مایکروویو زانوسی شهرک طلاییه - شدهاند که برای کامپیوترهای شخصی مبتنی بر کارتهای گرافیک رادئون کامپیوترهای شخصی یا پردازندههای گرافیکی مبتنی بر GCN در کنسولهای بازی همچون پلیاستیشن یا ایکسباکس اجرا شوند. البته این امکان - تعمیرات مایکروویو زانوسی شهرک طلاییه - وجود دارد که برخی از نمونههای جدید برای اجرای بهتر با تغییرات RDNA هماهنگ شده باشند، اما درنهایت تفاوت موجود در بنچمارکها به احتمال - تعمیرات مایکروویو زانوسی شهرک طلاییه - زیاد به خاطر تفاوت در موتورهای رندر و شیوهی مدیریت دادهها و دستورالعملها است.
در پایان تمامی بررسیها هنوز این سؤال مطرح میشود که آیا یک معماری بهتر از دیگری است؟ معماری تورینگ قطعا بهخاطر هستههای Tensor و RT، قابلیتهای بیشتری را به کاربران ارائه میکند. البته درنهایت نمیتوان دادههای مقایسهای از ۱۲ نمونهی بازی - تعمیرات مایکروویو زانوسی شهرک طلاییه - را بهعنوان معیاری نهایی و اصلی برای مقایسه در نظر گرفت.
برنامههای AMD برای معماری Navi در سال ۲۰۱۶ معرفی شدند. البته توضیحات زیادی از برنامههای توسعهای در آن زمان مطرح نشد و شرکت سازنده تنها سال ۲۰۱۸ را بهعنوان زمان رونمایی اعلام کرد. بههرحال در سال گذشته همه خبری از رونمایی نهایی معماری گرافیکی AMD نبود و برنامهها به امسال موکول - تعمیرات مایکروویو زانوسی شهرک طلاییه - شدند. در جزئیات جدید، خبر از بهکارگیری فرایند تولید هفت نانومتری و بهبود کلی پردازنده بهمنظور بهبود کارایی بود.
آنچه در مقالهی حاضر خواندیم، تأییدی بر تغییرات رو به جلوی AMD در دنیای پردازندههای گرافیکی بود؛ تغییراتی که قطعا با هدف پیشرفت در رقابت با محصولات انویدیا در کارتهای گرافیک لحاظ شدند. بهعلاوه، مزیت طراحیهای جدید تنها به کامپیوترهای شخصی محدود نمیشود. از آنجایی که سونی و مایکروسافت از طراحیهای مشابه در کنسولهای آتی یعنی پلیاستیشن ۵ و ایکسباکس استفاده خواهند کرد، قطعا شاهد پیشرفت قابلتوجهی در عملکرد گرافیکی محصولات آنها خواهیم بود.
اگر - تعمیرات مایکروویو زانوسی شهرک طلاییه - به ابتدای مقاله بازگردید و نگاهی بر طراحی زیرساختی Shader Engines شرکت AMD و همچنین ابعاد کلی قالب و تعداد تراتزیستورها داشته باشید، متوجه برنامهی جدی شرکت برای استفاده از تراشهی بزرگ Navi در کارتهای گرافیک حرفهای میشوید. AMD قبلا اعلام کرده بود که این برنامه در طرحهای توسعهای جاری شرکت قرار دارد و در یک تا دو سال آینده هم بهبود معماری و روندهای تولید تراشه در دستور کار قرار خواهد گرفت.
انویدیا برای آینده چه برنامههایی دارد؟ آنها برای نسلهای بعدی و توسعهی تورینگ چه طرحهایی دارند؟ تاکنون اخبار و اطلاعات زیادی از سوی شرکت منتشر نشده و اکثر اطلاعات مربوط به بهروزرسانی نقشهی راه شرکت در سال ۲۰۱۴ است. در آن زمان معماری Pascal برای رونمایی در سال ۲۰۱۶ معرفی شد که شرکت - تعمیرات مایکروویو زانوسی شهرک طلاییه - در اجرای آن موفق بود. در سال ۲۰۱۷، Tesla V100 معرفی شد که از معماری Volta بهره میبرد. همان معماری بعدا به تولد Turing - تعمیرات مایکروویو زانوسی شهرک طلاییه - در سال ۲۰۱۸ انجامید.
از سال گذشته و رونمایی تورینگ، انویدیا بهنوعی در سکوت خبری عمل کرده است و اکثر اطلاعات مبتنی بر شایعهها هستند. اکثر آنها هم تنها به نام معماری بعدی شرکت یعنی Ampere اشاره میکنند که توسط سامسونگ و مبتنی بر فرایند نود پردازشی هفت نانومتری و احتمالا تا سال ۲۰۲۰ تولید خواهد شد. علاوه بر اطلاعات مذکور، جزئیات زیادی از برنامههای انویدیا در - تعمیرات مایکروویو زانوسی شهرک طلاییه - دسترس نیست. بههرحال برخی موارد را میتوان با حدس و گمان پیش برد. دراینمیان احتمال تغییر مسیر از واحدهای اجرایی اسکالر یا هستههای Tensor در تراشههای انویدیا دور از ذهن است، چون مشکلات متعددی در حوزهی هماهنگی با نسخههای پیشین ایجاد میکند.
با توجه به روندهای قبلی شرکت انویدیا میتوان پیشبینیها و تخمینهایی کلی از برنامههای آتی آنها داشت. شرکت سرمایهگذاری زمانی و پولی زیادی روی - تعمیرات مایکروویو زانوسی شهرک طلاییه - فناوری ری تریسینگ انجام داده است و پشتیبانی از آن در بازیها نیز روزبهروز افزایش مییابد. درنتیجه میتوان انتظار بهبود هستههای RT را در محصولات شرکت بالا دانست. بهبود - تعمیرات مایکروویو زانوسی شهرک طلاییه - مورد نظر نیز میتواند در قابلیت و ظرفیت هستهها یا تعداد آنها در هر SM باشد. اگر شایعهی استفاده از فناوری تولید هفت نانومتری را واقعی تصور کنیم، انویدیا به احتمال زیادی بیش از افزایش سرعت کلاک به کاهش مصرف نیرو - تعمیرات مایکروویو زانوسی شهرک طلاییه - فکر میکند تا در نهایت امکان افزایش واحدهای GPC را داشته باشد. البته این احتمال هم وجود دارد که شرکت از فرایندهای هفت نانومتری عبور کرده و برای کسب برتری نسبت به AMD، سراغ فرایندهای پنج نانومتری برود.
انویدیا و AMD هردو رقیب جدیدی بهنام اینتل را در مقابل خود میبینند. غول - تعمیرات مایکروویو زانوسی شهرک طلاییه - صنعت پردازنده قصد دارد تا - تعمیرات مایکروویو زانوسی شهرک طلاییه - پس از ۲۰ سال مجددا وارد بازر شود. البته توانایی محصول بعدی آنها (که احتمالا نام Xe دارد) در رقابت با تورینگ و - تعمیرات مایکروویو زانوسی شهرک طلاییه - ناوی مشخص نیست. بههرحال اینتل در دو دههی گذشته با تولید گرافیکهای داخلی برای پردازندههای خود، روند مناسبی در بازار داشته است. آخرین پردازندهی گرافیکی آنها موسوم به Gen 11 معماری نزدیکی به ناوی شرکت AMD دارد و از ALUهای برداری - تعمیرات مایکروویو زانوسی شهرک طلاییه - با توانایی پردازش FP32 و INT32 استفاده میکند. درنهایت هنوز - تعمیرات مایکروویو زانوسی شهرک طلاییه - مشخص نیست که آیا کارتهای گرافیک جدید آنها بهنوعی محصولات تکاملیافته از این طراحی هستند یا خیر.
درنهایت میتوان سالهای پیش رو را برای صنعت پردازندههای گرافیکی جذاب دانست، چون سه غول بزرگ صنعت رقابت شدیدی را برای افزایش سهم و درآمد خود - تعمیرات مایکروویو زانوسی شهرک طلاییه - در بازار در پیش میگیرند. طراحی جدید برای پردازندههای گرافیکی و معماری آنها، باعث بهبودهایی همچون افزایش تعداد ترانزیستور، ابعاد کش و ظرفیتهای سایهزنی محصولات میشود. Navi - تعمیرات مایکروویو زانوسی شهرک طلاییه - و RDNA را میتوان جدیدترین اعضای خانوادههای گرافیکی دانست. آنها نشان دادهاند که هر قدم رو - تعمیرات مایکروویو زانوسی شهرک طلاییه - به جلو و هرچند کوچک تغییرات عظیمی را بههمراه خواهد داشت.