Apple M1: चिप की बेजोड़ CPU शक्ति के पीछे का रहस्य

हाल ही में, Apple M1 chip को लेकर बड़े पैमाने पर चर्चा हुई, और उचित कारण से। कई उपयोगकर्ता यह देखकर आश्चर्यचकित रह गए कि M1 ने hi-stop Intel-तैयार Mac से भी बेहतर performance किया। इस लेख में, हम उन technology तत्वों पर चर्चा करेंगे जो M1 को इतना fast बनाते हैं और इस incredible overall performance को प्राप्त करने के लिए Apple द्वारा चुने गए विकल्पों की खोज करेंगे।

कुछ YouTubers और world उपयोगकर्ताओं ने real-life test आयोजित किए हैं, M1 को शक्तिशाली Intel-based Mac के सामने खड़ा किया है, और Result आंखें खोलने वाले थे। लोग आश्चर्यचकित रह जाते हैं: M1 को इतनी high speed वाला क्या बनाता है?

शुरुआत करने के लिए, Apple ने M1 chip को Design करने में एक पूरी तरह से अनूठी विधि अपनाई है। उन्होंने सटीक technology चयन किए हैं जिनसे समग्र performance के मामले में अच्छा लाभ मिला है। M1 कई अत्याधुनिक क्षमताओं को unified करता है, जिसमें processing दक्षता को अनुकूलित करने के लिए विस्तृत निर्देश डिकोडर और बड़े रीऑर्डरिंग बफ़र्स (आरओबी) एल्गोरिदम शामिल हैं।

अब, आपको संभवतः आश्चर्य होगा कि ये technology निर्णय इतने अभूतपूर्व हैं कि कुछ अन्य लोगों ने इनका पता लगाने का साहस किया है। और उत्तर है, निश्चित! Apple ने M1 के साथ innovation की सीमाओं को आगे बढ़ाया है, और इसने उन्हें बेहतर CPU performance की दौड़ में आगे ला दिया है।

बेशक, आप समाधान के लिए Google पर खोज कर सकते हैं, लेकिन सावधान रहें कि कुछ कारण काफी technology हो सकते हैं। Apple ने भी अपनी प्रगति काफी कठिन शर्तों में प्रदान की है। इसे बेहतर ढंग से समझने के लिए, आपको पहले CPU Architecture के कुछ सरल principles को समझना होगा, जिसमें Instruction सेट Architecture (ISA), pipelining, Data Load/Shop Architecture और micro-code और micro-operations के बीच अंतर शामिल हैं।

हालाँकि, जो लोग एक Short Review चुनते हैं, मैं M1 chip कैसे operated होता है, इस पर विचार करने से पहले कुछ important ideas का short में स्पष्टीकरण दूंगा।

तो, आइये जानते हैं Apple M1 के पीछे का जादू और कैसे इसने CPU performance में क्रांति ला दी है!

Microprocessor chip (CPU) के बारे में पूरी जानकारी

एक Microprocessor chip, जिसे अक्सर CPU के रूप में जाना जाता है, Intel और AMD जैसे organizations के माध्यम से बनाए गए devices में एक आवश्यक Constituent है। इसका प्राथमिक कार्य Computer की memory से निर्देशों को प्राप्त करना और उन्हें प्राप्त होने के क्रम के अनुसार क्रमिक रूप से Execution करना है।

Registers और M1 chip की Structure को समझना

Computing के संदर्भ में, processing के लिए मूल्यों को संग्रहीत करने में register महत्वपूर्ण भूमिका निभाते हैं। उदाहरण के लिए, आइए r1 और r2 के रूप में classified register को न भूलें। Modern RISC CPU में, memory (Ram) में मूल्यों के साथ direct operation संभव नहीं है। इसके बजाय, CPU को पहले सटीक memory स्थानों (उदाहरण के लिए, RAM पर 150 और 200) से मानों को क्रमशः R 1 और R 2 जैसे registers में transferred करना होगा। एक बार coaching sign up में load हो जाने पर, CPU अतिरिक्त calculations कर सकता है।

instructions sign in की Idea लंबे समय से मौजूद है, यहां तक कि mechanical calculator में भी जिसमें जोड़ और घटाव के लिए stored integer मानों की एक mechanical जांच होती है। इसी तरह, इस विचार ने नकदी registers में सुधार लाया, जिसमें प्रवेश रिकॉर्ड मूल्यों को दर्ज किया गया था।

हालाँकि, Apple की M1 chip पारंपरिक CPU से अतिरिक्त है। यह एक विशाल silicone bundle में शामिल एक से अधिक semiconductor chip से बना एक संपूर्ण gadget का Representation करता है। जबकि CPU M1 chip का एक Important हिस्सा है, यह कई Constituent में से केवल एक Constituent है।

संक्षेप में, M1 semiconductor chip के आकार में संघनित एक full pc के समान है। इसमें न केवल CPU बल्कि एक picture processing unit (GPU), memory, इनपुट और आउटपुट Control और कई अलग-अलग Constituent शामिल हैं जो एक साथ मिलकर एक पूरी तरह से कार्यात्मक Computer बनाते हैं। इस एकीकरण विचार को आम तौर पर system on a chip (SoC) के रूप में जाना जाता है।

संक्षेप में, registers ने लंबे समय तक computing में एक बड़ी भूमिका निभाई है, और M 1 chip पारंपरिक CPU से आगे निकल रही है, chip Structure पर system के माध्यम से एक अधिक परिष्कृत और सम्मिलित Technique को अपना रही है।

M1 Chip Design का विकास: Apple का पीछे का रहस्य

अतीत में, Intel या AMD से chips खरीदते समय, आपको एक बंडल मिलेगा जिसमें एक से अधिक semiconductor chips होंगे, जिनमें से प्रत्येक में multiple processors होंगे। हालाँकि, technology प्रगति ने एक semiconductor chip डाई पर अरबों transistor के Combination को सक्षम किया है। इस छलांग से एक ही chip के अंदर कई processors का उदय हुआ, जिन्हें कोर कहा जाता है, जिससे मदरबोर्ड पर कई स्वतंत्र Microprocessor chips की आवश्यकता बदल गई।

परंपरागत रूप से, processing के समग्र performance को बेहतर बनाने के लिए, विधि एक CPU chip पर जितना संभव हो उतने आधुनिक-उद्देश्य वाले CPU कोर को लैस करने की थी। लेकिन Apple ने, अपनी अभूतपूर्व M1 chip के साथ, एक अनोखा कोर्स अपनाया है – विषम compute chip विधि।

पूरी तरह से आधुनिक CPU कोर पर निर्भर रहने के बजाय, Apple ने System ON A chip (SoC) में बहुत सारे विशेष semiconductor chips को unified किया। यह तकनीक जबरदस्त लाभ देती है, क्योंकि विशिष्ट chips पारंपरिक फैशनेबल-उद्देश्य वाले Microprocessors की तुलना में बेहतर समग्र performance और बिजली performance के साथ विशिष्ट जिम्मेदारियों को प्रबंधित करने में excellence प्राप्त कर सकते हैं।

हालांकि यह अवधारणा पूरी तरह से नई नहीं है, Nvidia और AMD के snapshot card में GPU ने विशेष-उद्देश्य वाले semiconductor chips की शक्ति को लंबे समय से Verified किया है। वे graphics से जुड़ी गणनाओं में लोकप्रिय-कारण CPU से बेहतर performance करते हैं। Apple का innovation इस विचार को M1 chip पर लागू करने के साथ-साथ इसे बढ़ाने में भी निहित है। M1 को कई मानक-मकसद processor core के साथ पैक करने के बजाय, इसमें विशेष processor की एक various series शामिल है:

CPU: SoC का “दिमाग”, कार्य प्रणाली और कार्यक्रमों को निष्पादित करने के लिए जिम्मेदार है।

GPU: images से जुड़े कर्तव्यों को संभालता है, जिसमें interface render करना और 2D/3D game को process करना शामिल है।

Image processor (ISP): photo processing जिम्मेदारियों को तेज करता है।

Digital Signal Processor (DSP): CPU को अधिक जटिल गणनाओं में सहायता करता है, जिसमें virtual audio फ़ाइलों को डिकोड करना शामिल है।

Neural Processing Unit (NPU): speech पहचान और Picture processing जैसी एआई-संबंधित जिम्मेदारियों में उपयोग किया जाता है।

video codec: video फ़ाइलों और codex को कुशलतापूर्वक संचालित करता है।

Safe Enclave: sensitive facts का निरंतर प्रबंधन सुनिश्चित करता है।

Shared Memory: CPU, GPU और अन्य processor के बीच तेज़ रिकॉर्ड व्यापार को सक्षम बनाता है।

यह रचना बताती है कि macbook M1 पर फिल्मों और चित्रों के साथ काम करते समय innovative professionals को समग्र performance में बड़े सुधार का अनुभव क्यों होता है। M1 general overall performance को अनुकूलित करते हुए प्रभावी ढंग से विशिष्ट processors को विशेष जिम्मेदारियां सौंपता है। परिणामस्वरूप, Mac Mini M1 बड़ी Video फ़ाइलों को आसानी से managed कर सकता है, जबकि पूरी तरह से लोड किया गया iMac बनाए रखने के लिए संघर्ष करता है।

Apple के unified memory Architecture (UMA) को समझने के लिए computing इतिहास पर दोबारा गौर करने की जरूरत है। अतीत में, कम-मूल्य वाले laptop system में समान semiconductor डाई पर CPU और GPU होते थे, हालांकि उनका performance धीमा हो जाता था। unified pictures ने CPU और GPU के लिए अलग-अलग memory क्षेत्रों के कारण विशेष रूप से कमजोर GPU performance का संकेत दिया। Data को उन क्षेत्रों में copy करने की आवश्यकता है, जिससे performance में बाधा आ रही है।

इसके विपरीत, Apple का UMA memory नियंत्रण को streamline करता है, जिससे CPU और GPU को साझा memory तक कुशलतापूर्वक पहुंचने की अनुमति मिलती है। यह research analysis data copy करने के overhead को हटा देता है और standard system के समग्र performance को पूरक बनाता है। विशेष chips और unified memory Structure का उपयोग करके, Apple ने अपने M1 chip के साथ computing अवसरों को फिर से परिभाषित किया है।

इसके साथ ही, parallel processing के लिए GPU को व्यापक मात्रा में statistics की आवश्यकता होती है। यह built-in function CPU और GPU दोनों को समान semiconductor डाई पर unified करना अव्यावहारिक बनाता है। CPU की तेज रिकॉर्ड recovery GPU को भूखा रखती है, जो System ON A chip (SoC) में high-performance GPU chip को शामिल करने की कोशिश करने वाली एजेंसियों के लिए एक पूर्ण आकार का उपक्रम है। यहां तक कि एक असाधारण रूप से मामूली GPU भी अपनी रिकॉर्ड-व्यापक प्रकृति के कारण memory का एक बड़ा हिस्सा खा सकता है।

SoC में एक शक्तिशाली GPU को unified करते समय एक और मुद्दा उठता है – GPU chip की लंबाई और परिणामी वार्मनेस Technology। व्यवहार्य गर्मी अपव्यय समाधान के बिना इसे CPU के साथ उसी semiconductor डाई पर रखना मुश्किल हो जाएगा। अलग-अलग फोटो कार्ड इस मुद्दे का उदाहरण देते हैं:

वे बड़े होते हैं, प्रेमियों और heat-sink से सुसज्जित होते हैं, और यहां तक कि मांग वाले GPU chip की सहायता के लिए समर्पित अलग memory भी रखते हैं।

यही कारण है कि अलग-अलग picture card अत्यधिक शक्ति का दावा करते हैं, हालाँकि उनकी अपनी कमजोरियाँ भी होती हैं, उनकी “achilles heel”। हर जब उन्हें CPU की Committed memory से आंकड़ों की आवश्यकता होती है, तो उन्हें Computer के motherboard पर copper-tile वाले paths को पार करना चाहिए, जिन्हें PCIE लेन के रूप में जाना जाता है। एक बहुत ही narrow straw से पानी पीने की कोशिश करते हुए चित्र – आप तेजी से घूंट भर सकते हैं, हालांकि प्रवाह प्रतिबंधित रहता है।

यहीं पर Apple का यूनिफाइड memory Architecture (UMA) काम आता है। UMA का लक्ष्य पारंपरिक CPU-GPU memory शेयरिंग तकनीकों से जुड़ी कमियों के बिना उपरोक्त सभी समस्याओं से निपटना है। Apple ने निम्नलिखित तरीकों से memory Architecture को फिर से तैयार करके इसे हासिल किया:

अलग-अलग memory क्षेत्रों को खत्म करना: UMA CPU और GPU दोनों के लिए साझा memory को अपनाता है। जैसा कि पिछली तकनीकों में देखा गया है, प्रत्येक chip data copy करने की आवश्यकता के बिना RAM chip के किसी भी क्षेत्र तक पहुंच सकती है।

High-Speed RAM: Apple RAM chips का उपयोग करता है जो न्यूनतम समय में महत्वपूर्ण मात्रा में आंकड़े transferred करने में सक्षम है। यह विशेषता, जिसे Computer technology ज्ञान के शब्दों में कम विलंबता और उच्च bandwidth के रूप में जाना जाता है, CPU और GPU के लिए विशेष memory प्रकारों की आवश्यकता को हटा देती है।

Controlled GPU बिजली की खपत: apple ने GPU की बिजली की खपत को विनियमित करने के लिए तंत्र तैयार किया है, जिससे पूरी मशीन को गर्म करने के जोखिम के बिना उच्च performance वाले GPU को Soc में शामिल किया जा सकता है।

संक्षेप में, UMA memory प्रबंधन में क्रांतिकारी बदलाव लाता है, CPU-GPU जानकारी साझा करने और overall gadget performance में सुधार के लिए एक अखंड समाधान प्रदान करता है। बाधाओं को दूर करके और statistics switch दक्षता को अधिकतम करके, Apple ने unified memory Architecture के लिए एक new fashion स्थापित किया है।

यह वास्तव में सही है, क्योंकि shared memory systems का उपयोग past में भी ठीक से किया गया है। हालाँकि, उस समय किसी स्तर पर, CPU और GPU के बीच memory उपयोग में असमानता इतनी बड़ी नहीं थी जितनी आज है। Nvidia ने “unified memory” के विचार की भी खोज की है, लेकिन उनका दृष्टिकोण Apple के UMA से काफी अलग है।

Nvidia की unified memory के लिए, प्रत्येक hardware और software प्रोग्राम को CPU और GPU से जुड़ी memory दीवारों के बीच automatic information transfer की सुविधा प्रदान करना आवश्यक है। जबकि unified memory प्राप्त करने के Target Nvidia और apple दोनों के लिए समान हैं, उनके द्वारा नियुक्त built-in processing Mechanism पूरी तरह से अद्भुत हैं।

निश्चित रूप से, Apple के दृष्टिकोण में कुछ वैकल्पिक बदलाव शामिल हैं। SoC में high-speed और high-bandwidth Mass memory के एकीकरण के लिए Apple को memory को पूरी तरह से एम्बेड करने की आवश्यकता होती है, जिससे पहले की तरह Mac devices पर RAM में सुधार करना असंभव हो जाता है।

हालाँकि, इस दुविधा के बदले में, Apple ने एक क्षतिपूर्ति सुविधा पेश की है। M1 chip को एसएसडी के साथ अविश्वसनीय रूप से उच्च गति से इंटरैक्ट करने के लिए Design किया गया है, जिससे एसएसडी को पूरे Computer सिस्टम के लिए memory के रूप में कार्य करने की अनुमति मिलती है। यह तकनीक गैर-अपग्रेडेबल RAM के प्रभाव को कम करने में मदद करती है, जिससे मानक performance में काफी वृद्धि होती है।

अब, किसी को शायद आश्चर्य होगा कि यदि SoC इतना प्रभावी है तो Intel और AMD इस पद्धति का अनुकरण क्यों नहीं करते। वास्तव में, न केवल Apple, बल्कि ARM या x86 Architecture का उपयोग करने वाले कई अन्य chip निर्माता भी समान semiconductor डाई में विशेष हार्डवेयर शामिल कर रहे हैं। स्नैपड्रैगन, एक्सिनोस और किरिन जैसे निर्माताओं ने स्मार्टफोन के लिए Soc पर CPU, GPU, आईएसपी, डीएसपी या एनपीयू को प्रभावी ढंग से मिश्रित किया है। हालाँकि, लैपटॉप या लैपटॉप पीसी के लिए ऐसे Design को अपनाना हमेशा उतना सामान्य नहीं होता है।

AMD के मामले में, उन्होंने समय के साथ एपीयू मॉडल तैयार किए हैं, जो CPU और GPU दोनों को समान डाई पर जोड़ते हैं, जिससे गेमिंग के लिए उपयुक्त उच्च-समग्र performance वाले GPU कोर मिलते हैं। यह विधि SoC का दूसरा रूप है, जो एक ही semiconductor डाई के अंदर एक से अधिक chips का Combination करती है।

संक्षेप में, जबकि Apple विभिन्न कार्यक्षमताओं को एक ही SoC में unified करने में सबसे आगे रहा है, अन्य chip निर्माताओं ने भी सटीक devices के लिए comparable strategies की खोज की है, जिनमें Smartphone और gaming-oriented Structures शामिल हैं। प्रत्येक enterprise विभिन्न बाज़ार आवश्यकताओं और उपयोग परिदृश्यों को पूरा करने के लिए अपने Design तैयार करता है।

हालाँकि, एक आवश्यक कारण है कि AMD, Intel, या अन्य जैसी एजेंसियां आसानी से यह प्रतिबिंबित नहीं कर सकती हैं कि Apple ने क्या किया है। System on a chip (Soc) Design अनिवार्य रूप से एक संपूर्ण Computer Device को एक semiconductor chip के अंदर समाहित करता है। ये उत्पाद Computer निर्माताओं के business model के साथ बेहतर ढंग से मेल खाते हैं जो बंडल समाधान प्रदान करते हैं, जिसमें Dell, HP या शायद Apple के PC भी शामिल हैं। यदि किसी एजेंसी का मुख्य ध्यान पूरी तरह से processor chips के उत्पादन और बिक्री पर है, तो complete pc system के उत्पादन में परिवर्तन उतना संभव नहीं हो सकता है।

मूल्यांकन में, ARM को ऐसी किसी बाधा का सामना नहीं करना पड़ता। Computer व्यवसायों के पास ARM के semiconductor chip Architecture Design को लाइसेंस देने और अतिरिक्त chips बनाने के लिए highbrow assets हासिल करने की सुविधा है, जिसमें वे अपनी पसंद की किसी भी विशेष कार्यक्षमता को शामिल कर सकते हैं, जैसा कि Apple ने M1 के साथ पूरा किया था। इसके बाद, वे chip निर्माण को TSMC, Samsung, या GlobalFoundries जैसी semiconductor foundries को आउटसोर्स कर सकते हैं, जो Apple, AMD, या Nvidia जैसे उद्योग के दिग्गजों के लिए chips का उत्पादन भी करते हैं।

व्यावसायिक फैशन और licensing लचीलेपन में यह अंतर ARM-आधारित एजेंसियों को Soc Designs को अधिक स्वतंत्र रूप से खोजने और Computer Structureओं और devices की एक miscellaneous series की आपूर्ति करने के लिए विभिन्न सहयोगियों के साथ सहयोग करने की अनुमति देता है।

Intel और AMD के बिजनेस मॉडल पर लौटते हुए, उनकी उपलब्धि आधुनिक CPU chips को बढ़ावा देने पर आधारित है। complete laptop system बनाने के लिए उपभोक्ता इन chips को Motherboard, RAM, SSD, या अलग GPU के साथ खरीदते हैं। यह Technique Computer एजेंसियों के बीच जबरदस्त है।

हालाँकि, परिदृश्य विकसित हो रहा है, और हम धीरे-धीरे traditional pc version से दूर जा रहे हैं जो मुख्य रूप से अलग-अलग additives पर आधारित है। SoCs की बिल्कुल नई दुनिया में, विशिष्ट निर्माताओं से Constituents की तलाश करने की कोई आवश्यकता नहीं होगी। इसके बजाय कंपनियाँ अपने द्वारा प्राप्त highbrow assets को unified करेंगी, In-House SoCs बनाने के लिए GPU, CPU, Modem, IO controllers और अन्य additives से Design elements को संयोजित करेंगी। एक बार SoC Design तैयार हो जाने के बाद, वे chip के निर्माण के लिए एक उपयुक्त फाउंड्री ढूंढ सकते हैं।

यह परिवर्तन एक चुनौती सामने लाता है, क्योंकि Intel, AMD, या Nvidia जैसी कंपनियां अपनी highbrow properties को Dell or HP जैसे पीसी निर्माताओं को लाइसेंस देने के लिए इच्छुक नहीं हो सकती हैं, ताकि वे desktop और laptop के लिए अपने Individual Soc की supply कर सकें।

आखिरकार, एक समय आएगा जब Intel और AMD स्वतंत्र रूप से परिपक्व Soc का लेआउट, निर्माण और विपणन करेंगे। हालाँकि, इन SoCs में शामिल किए जाने वाले additives को लेकर न केवल PC निर्माताओं के साथ, बल्कि Microsoft के साथ भी असहमति हो सकती है, क्योंकि प्रत्येक PC निर्माता की अपनी विशिष्ट आवश्यकताएं और विचार होते हैं।

मूल्यांकन में, Apple के पास अधिक विश्वसनीय रणनीति है। हार्डवेयर से लेकर Software तक पूरी मशीन को नियंत्रित करके, वे अपने SoCs में उपयोग किए गए Constituents और chips को निर्देशित कर सकते हैं। वे developers को system learning system बनाने के लिए core ML library प्रदान करते हैं जो CPU या समर्पित neural processing chip पर चलते हैं, जिससे underlying hardware पर बिल्डरों की कठिनाई कम हो जाती है।

अब, IA M1 chip के hyper-holistic performance CPU core के performance को संबोधित करते हैं, जिसे firestorm के रूप में जाना जाता है। ये Core उल्लेखनीय रूप से तेज़ साबित हुए हैं, जो पहले जारी किए गए ARM CPU Core से काफी असाधारण benchmark नंबर दे रहे हैं, जो Intel या AMD CPU की तुलना में तुलनात्मक रूप से कमजोर थे।

शक्तिशाली CPU Core बनाने के लिए, निर्माताओं को एक साथ 2 important techniques को पूरा करना होगा:

Single-Thread Performance को customized करें: अत्यधिक performance के साथ system व्यक्ति दायित्वों के लिए CPU की क्षमता को बढ़ाएं, जिसके परिणामस्वरूप Single-Thread अनुप्रयोगों का instant निष्पादन होगा।

Scale multi-thread performance: सामान्य मल्टी-थ्रेड समग्र performance में सुधार करते हुए, एक साथ कुछ कार्यों को संबोधित करने के लिए CPU की क्षमता को मजबूत करें।

उन techniques को संतुलित करके, firestorm का execute excellent performance होता है, जो कई Intel CPU से बेहतर performance करता है और AMD Ryzen के सबसे प्रभावी CPU के साथ Competition करने के करीब आता है। इन बुनियादी अवधारणाओं को समझने से हमें यह समझने में मदद मिलती है कि firestorm M1 chip में एक मजबूत CPU केंद्र की तरह क्यों है।

1980 के दशक में, Computer performance में सुधार करना reliable हो गया – बस घड़ी की speed बढ़ाएं, और commend तेजी से Execution हो सकते हैं। प्रत्येक घड़ी चक्र एक चुनौती को पूरा करने में लगने वाले समय को दर्शाता है। हालाँकि, उन कार्यों की लंबाई अलग-अलग हो सकती है, जिनमें से कुछ अन्य की तुलना में अधिक जटिल हैं। result, positive आदेशों को समाप्त करने के लिए कई घड़ी चक्रों की आवश्यकता होती है, क्योंकि उनमें कई minor duties शामिल होते हैं।

आज, घड़ी की गति को भी बढ़ाने की संभावना काफी हद तक सीमित है। इससे यह व्यापक धारणा बनी कि “moore regulation बेकार है,” यह भावना कई वर्षों से कायम है। moore का regulation, जिसने लगभग हर 2 साल में एक chip पर transistor को दोगुना करने का अनुमान लगाया था, को बनाए रखना कठिन हो गया है, जिससे हम computing Performance को बढ़ाने की तकनीक में बदलाव ला रहे हैं।

CPU performance को बढ़ाने की strategy अब समवर्ती रूप से commend के processing को अधिकतम करने पर निर्भर करती है। इस इरादे को प्राप्त करने के लिए आवश्यक तरीके हैं:

Multi-centre CPU का उपयोग करना या out-of-order execution CPU का उपयोग करना।

Multi-center CPU चुनते समय, programmer एक से अधिक कार्यों को एक साथ संबोधित करने के लिए अतिरिक्त thread जोड़ सकते हैं। प्रत्येक CPU केंद्र एक चयनित उपक्रम को संसाधित करने के लिए जिम्मेदार hardware thread का प्रतिनिधित्व करता है। उदाहरण के लिए, 1 2-center CPU एक साथ कार्यों को संभाल सकता है, जिसे 2 thread कहा जाता है। इन thread को memory में सहेजे गए स्वतंत्र “application” या 2 बार किए गए प्रोग्राम के रूप में माना जा सकता है। प्रत्येक thread को अपने व्यक्तिगत आँकड़ों के प्रबंधन की आवश्यकता होती है, जैसे कि thread की memory क्षेत्र और Independent Short आँकड़े गैराज को निर्देशित करने वाले निर्देशों का क्रम।

in concept, एक processor केवल एक core के साथ कई thread चलाने की सुविधा चाहता है। ऐसे मामलों में, processor केंद्र अस्थायी रूप से किसी उपक्रम थ्रेड के processing को रोक सकता है, अधूरे प्रभावों को संग्रहीत कर सकता है, हर दूसरे उपक्रम thread में transferred कर सकता है, और बाद में रुके हुए उपक्रम को पूरा करने के लिए वापस जा सकता है। हालाँकि, यह तकनीक अब समग्र performance में बहुत अधिक वृद्धि नहीं करती है और आमतौर पर इसका उपयोग तब किया जाता है जब processing का एक धागा अक्सर धीमे कनेक्शन के कारण उपयोगकर्ता के आदेशों या आंकड़ों की प्रतीक्षा करना बंद कर देता है। यह software program processing hardware threading के साथ flow contrasts के साथ चलती है, जिसमें अतिरिक्त physical hardware, जिसमें additional processor cores शामिल होते हैं, का उपयोग Computer के समग्र performance को बढ़ाने के लिए किया जाता है।

एक से अधिक hardware thread वाली परियोजना यह है कि प्रोग्रामर को एक साथ कुछ CPU कोर की processing शक्ति को अनुकूलित करने के लिए software program लिखने की आवश्यकता होती है। कुछ कर्तव्य, जैसे server software program, इस प्रकार आसानी से लिखे जाते हैं। server के माध्यम से processed कार्य आमतौर पर एक-दूसरे से Neutral होते हैं, जिससे अधिक CPU कोर अधिक उपयोगकर्ताओं को संभालने के लिए उपयोगी हो जाते हैं। परिणामस्वरूप, Xeon या Threadripper जैसी मशीनें cloud computing सेवाओं के लिए शानदार विकल्प हैं।

ARM Architecture के भीतर, semiconductor chip निर्माताओं ने आश्चर्यजनक CPU model तैयार किए हैं, जिसमें एम्पीयर का Ultra-Max भी शामिल है, जो एक असाधारण 128 processor core का प्रस्ताव करता है। ये CPU विशेष रूप से cloud computing पैकेज के लिए विकसित किए गए हैं, जिसमें प्राथमिकता समानांतर thread और बिजली की खपत के अनुपात में होती है। इसका उद्देश्य पूरी तरह से एकल-मध्यम performance पर ध्यान केंद्रित करने के बजाय कई उपयोगकर्ताओं को possible प्रभावी ढंग से सेवा प्रदान करना है।

मूल्यांकन में, Apple Spectrum के दूसरे छोर पर काम करता है, संरक्षक Gadget वाले अंतिम उपयोगकर्ताओं को सेवाएं प्रदान करता है। उनके लिए, processor core की विशाल विविधता हमेशा सबसे आवश्यक लाभ नहीं होती है। Apple के उपकरण image processing, video editing और software विकास जैसे कार्यों में उत्कृष्टता प्राप्त करते हैं, जिसमें सुखद चित्र और super element का होना most important है।

इसके अलावा, personal laptop software को अक्सर दसियों या सैकड़ों concurrent CPU core की processing शक्ति का प्रभावी ढंग से उपयोग करने के लिए अनुकूलित नहीं किया जाता है। गेमिंग, अत्याधुनिक computers के लिए सबसे दर्दनाक कार्यों में से 1, 8-core CPU के लिए अच्छी तरह से अनुकूलित हो सकता है, लेकिन गेमिंग के लिए 128-core CPU के उपयोग की व्यावहारिकता लागत-निषेधात्मक हो जाती है। personal Computer system के क्षेत्र में, सर्वर की तुलना में कम लेकिन अधिक प्रभावी CPU कोर रखने पर जोर दिया जाता है।

दिलचस्प बात यह है कि out-of-order (OOO) task processing CPU को multiple threads की आवश्यकता के बिना एक साथ कई निर्देशों को संभालने का एक साधन देता है। प्रोग्रामर भी OoO प्रबंधन को self optimized करने के लिए software program लिखना नहीं चाहते हैं। एक प्रोग्रामर के दृष्टिकोण से, यह तकनीक सीधी है, क्योंकि प्रत्येक CPU medium speed से operated होता है।

Out-of-order processing की बेहतर समझ हासिल करने के लिए, यह पहचानना महत्वपूर्ण है कि Laptop memory कैसे काम करती है। स्मृति में किसी विशेष विभाजन से तथ्यों को पुनः प्राप्त करना एक समय खाने वाला मिशन है। दिलचस्प बात यह है कि RAM से CPU तक Data मांगते समय, वापसी का समय और विलंबता समान रूप से तेज़ होती है, चाहे आप 1 byte या 128 byte data मांगें। यह रिकॉर्ड वैकल्पिक रूप से एक database के माध्यम से होता है, जो original रूप से RAM memory और CPU chip के विभिन्न वर्गों के बीच एक सुरंग है, जहां data को इधर-उधर प्रसारित किया जाता है। database में motherboard पर copper-plated लाइनें होती हैं जो बिजली उत्पन्न करने में सक्षम होती हैं। एक व्यापक database अधिक से अधिक तथ्यों को एक साथ transferred करने की अनुमति देता है।

अब, जबकि CPU को विधि के लिए निर्देशों का एक क्रम प्राप्त होता है, उन्हें आम तौर पर एक के बाद एक निष्पादित करने के लिए प्रोग्राम किया जाता है। हालाँकि, वर्तमान Microprocessor Out-of-order processing नामक फ़ंक्शन के साथ आते हैं।

Out-of-order processing CPU को बड़ी मात्रा में निर्देशों का तेजी से विश्लेषण करने और यह तय करने की अनुमति देती है कि कौन से ऑपरेशन जुड़े हुए हैं।

Multiplication operations addition operations की Compare में स्वाभाविक रूप से धीमी होती हैं। ऐसे परिदृश्य पर विचार करें जहां एक गुणन को समाप्त होने में many clock cycles लगते हैं। 2d count, जो first count के अंतिम परिणाम पर आधारित है, को first count के समाप्त होने तक इंतजार करना होगा। हालाँकि, third count पिछली दोनों गणनाओं से निष्पक्ष है। Out-of-order Mechanism के साथ, CPU first count के साथ-साथ 1/3 गणना को संसाधित करना शुरू कर सकता है, जिससे पहली गणना के साथ ही r6 की लागत का पता लगाया जा सकता है।

आधुनिक CPU 2D के अनुसार अरबों गणनाएं कर सकते हैं, प्रत्येक clock cycles में सैकड़ों आदेशों को संसाधित कर सकते हैं, साथ ही एक-एक तरह की calculations के बीच सहसंबंध भी निर्धारित कर सकते हैं। उदाहरण के लिए, निर्देश “Upload r4, r1, 5” आँकड़ों r1 पर निर्भर करता है, जो कि गणना “mul r1, r2, r3” से उत्पन्न होता है। programmer इन गणनाओं को एक स्प्रेडशीट-जैसे layout में व्यवस्थित कर सकते हैं, जिससे CPU उन्हें सही ढंग से Execution कर सके।

कई गणनाएँ पहले से की जा सकती हैं, हालाँकि उनके परिणामों को अंतिम मान के रूप में नहीं लिया जा सकता है। वे उस कोचिंग अनुक्रम के भीतर स्थित होते हैं जिसे CPU को संचालित करना होता है। प्रोसेसर कार्यों को क्रमबद्ध तरीके से निष्पादित करना जारी रखता है, उन दायित्वों को अलग कर देता है जो अभी तक सभी गणनाओं के पूरा होने तक काम करने के लिए नए दायित्वों के लिए जगह बनाने के लिए अच्छे मूल्यों तक नहीं पहुंचे हैं।

यह Out-of-order processing का मूल आधार है, जो मूल रूप से CPU को ऐसा दिखता है जैसे उसे सभी कार्यों को संभालने के लिए केवल एक थ्रेड की आवश्यकता होती है। हालाँकि, प्रोग्रामर के लिए, Out-of-order processing समानांतर कार्यों के quick software की अनुमति देता है।

इस क्षमता के लिए धन्यवाद, apple के M1 chip में firestorm CPU center अद्भुत performance दिखाता है, Intel और AMD के अधिकांश खरीदार उत्पादों के साथ-साथ semiconductor chip बाजार में विभिन्न प्रतिस्पर्धाओं को पार करता है।

अब आइए जानें कि Apple M1 की तुलना में Intel और AMD CPU की Out-of-order processing क्षमता कम क्यों है।

यहां मुख्य विचार reorder buffer (rob) है। आरओबी में processing के लिए स्मृति से खींचे गए लोकप्रिय Project Management निर्देश शामिल नहीं हैं। इसके बजाय, यह micro-operations (micro-ops or μops) प्रदान करता है जो CPU के लिए मार्गदर्शन सेट Architecture का एक निष्पक्ष सेट बनाता है। ये माइक्रो-ऑप्स बड़े पैमाने पर लक्षित हैं और इनमें मेटाडेटा के विभिन्न रूप शामिल हो सकते हैं।

Micro-ops लाभ प्रदान करते हैं क्योंकि वे CPU को अधिक सही ढंग से कार्य करने की अनुमति देते हैं, प्रत्येक ऑपरेशन एक सरल चुनौती प्रतीत होता है। इसके विपरीत, पारंपरिक ISA command जटिल हो सकते हैं, जिससे sudden outcome मिल सकते हैं। CISC CPU के साथ प्रभावी ढंग से काम करने के लिए, micro-ops का उपयोग लगभग Indispensable है, जबकि RISC Architecture CPU की अपनी विशेषताएं हैं। उदाहरण के लिए, छोटे ARM CPU आमतौर पर Micro-ops पर बारीकी से निर्भर नहीं होते हैं, जिसका अर्थ है कि वे अब out-of-order पैकेजों का व्यापक उपयोग नहीं कर सकते हैं।

Apple M1 के साथ Intel और AMD की तुलना करने पर, CPU performance को निर्धारित करने वाला key element यह है कि ROB cache कितनी तेजी से भरे जाते हैं और उनमें कितने प्रकार के micro-ops होते हैं। तेजी से ROB लिखने से CPU के लिए समानांतर processing के लिए commend “pick out” करने की संभावना बढ़ जाती है, जिससे लंबे समय में processing performance में प्रगति होती है।

Apple M1 और CPU और Intel और AMD के बीच सबसे महत्वपूर्ण अंतर decoders की विविधता में है। जबकि Intel और AMD CPU में आमतौर पर अधिकतम चार decoder होते हैं, M1 में 8 decoder और तीन गुना बड़ा reorder buffer (rob) आकार होता है। यह M1 को एक साथ काफी बेहतर मात्रा में निर्देश रखने और व्यवस्थित करने की सुविधा देता है। बाज़ार में वर्तमान में उपलब्ध कोई अन्य chip M1 की decoder क्षमता के अनुकूल नहीं है।

Intel और AMD अपने CPU में अधिक decoder नहीं जोड़ते हैं, इसका कारण x86 training set की जटिलता है, जो 1 से 15 bytes तक लंबा हो सकता है। दूसरी ओर, आरआईएससी Architecture, M1 की तरह, decoding techniques को सरल बनाते हुए एक कठिन और fast coaching set length का उपयोग करता है। x86 CPU को तैयारी की अवधि में सीमा को संबोधित करने की आवश्यकता होती है, जिससे एक अतिरिक्त complicated और mistakes-susceptible decryption system तैयार होता है। x86 CPU में 4 से अधिक decoder जोड़ने से अतिरिक्त समस्याएं और सीमाएं पैदा होती हैं, यही कारण है कि वे आमतौर पर उस संख्या से आगे नहीं बढ़ते हैं।

जबकि AMD का Zen 3 वर्तमान में M1 के firestorm CPU से बेहतर performance कर सकता है, उस समग्र performance को प्राप्त करने के लिए बेहतर clock speed (M1 के 3.2 गीगाहर्ट्ज़ की तुलना में 5 गीगाहर्ट्ज़) पर चलने की आवश्यकता है। Apple energy efficiency और cooling को प्राथमिकता देता है, और घड़ी की गति बढ़ाने से अधिक गर्मी generate हो सकती है, जिसके लिए बड़े आकार के cooling solution की आवश्यकता होती है। इसके बजाय, apple अधिक उच्च-समग्र performance वाले CPU core को जोड़कर overall performance को बढ़ाने पर ध्यान केंद्रित करता है, जो उन्हें performance में सुधार करते हुए optimum power consumption level बनाए रखने की अनुमति देता है।

जहां तक AMD और Intel के भविष्य का सवाल है, उन्हें कई मोर्चों पर कठिन परिस्थितियों का सामना करना पड़ता है:

x86 Structure की जटिलता और सीमाएँ, समानांतर processing के लिए अतिरिक्त decoder जोड़ना कठिन बनाती हैं।
M1 के performance के साथ प्रतिस्पर्धा करने के लिए high clock speed की आवश्यकता है, जिसके मुख्य कारण विस्तारित ताकत की खपत और शीतलन आवश्यकताएं हैं।

अन्य chip निर्माताओं से प्रतिस्पर्धा, जैसे एआरएम-आधारित Architecture का उपयोग करने वाले, जो पहले से ही Apple के M1 सहित SoCs में विशेष हार्डवेयर को शामिल कर रहे हैं।

कुल मिलाकर, AMD और Intel दोनों को chip उत्पादन में प्रगति को बनाए रखने और बाजार में प्रभावी ढंग से प्रतिस्पर्धा करने के लिए अपने Design चयन और रणनीतियों को ध्यान से याद रखने की आवश्यकता होगी।

निश्चित रूप से, इसका मतलब Intel या AMD को छोड़ना नहीं है। उनके पास अभी भी अपने CPU को बेहतर बनाने के विकल्प हैं, जिसमें घड़ी की गति को बेहतर बनाना, अधिक core सहित cooling समाधानों में सुधार करना और विभिन्न तकनीकों के साथ CPU cache को बढ़ाना शामिल है। हालाँकि, उन्हें कुछ चुनौतियों का सामना करना पड़ता है। Intel, विशेष रूप से, एक कठिन कार्य में है, क्योंकि उनके CPU कोर apple के M 1 के firestorm की energy को फिट नहीं कर सकते हैं, और उनके GPU high-composite performance Soc systems के लिए पर्याप्त effective नहीं हो सकते हैं।

एक Solo CPU chip में एक से अधिक processor core होने का negative side यह है कि, सामान्य स्टॉप-व्यक्ति कर्तव्यों के लिए, बहुत अधिक core होने पर लाभ कम होने लगते हैं, जो संबंधित कीमतों को उचित नहीं ठहराते हैं। जबकि 64 या 128 core वाले chips cloud server के लिए अद्भुत चयन बने हुए हैं, amazon और ampere जैसे समूह भी Intel के business model के साथ प्रतिस्पर्धा करते हुए 128 कोर से लैस राक्षस CPU के साथ दृश्य में आ रहे हैं।

शुक्र है, AMD और Intel के पास एक बचत की सुविधा है – Apple केवल अपने internal उपयोग के लिए M 1 chip का उत्पादन करता है और इसे बाजार में प्रचारित नहीं करता है। परिणामस्वरूप, PC बाजार अभी भी अक्सर हर साल जारी होने वाले AMD और Intel उत्पादों पर निर्भर रहेगा। हालाँकि कुछ PC उपयोगकर्ता अतिरिक्त रूप से Mac पर switch कर सकते हैं, Infection धीरे-धीरे होगा, क्योंकि ग्राहक अक्सर उस Platform को छोड़ने के लिए अनिच्छुक होते हैं जिसमें उन्होंने काफी निवेश किया है।

हालाँकि, financial flexibility और PC या Mac System से मजबूत लगाव वाले experts के लिए, वे भाग्य में Apple के उत्तरों को अधिक से अधिक चुनेंगे। इससे professional और high-dropping वाले tool बाज़ार में Apple के अनुपात में वृद्धि होनी चाहिए, और समय के साथ, सामान्य Pc बाज़ार पर भी प्रभाव पड़ सकता है।