लेनोवो एलएलएम साइज़िंग व्यापक फ्रेमवर्क उपयोगकर्ता गाइड

लेनोवो एलएलएम आकार गाइड
योजना / कार्यान्वयन

अंतर्वस्तु छिपाना

1 एलएलएम आकार निर्धारण व्यापक रूपरेखा

2 अंगूठे का नियम

3 आवश्यकताओं को एकत्रित करना

4 तकनीकी जानकारी: एलएलएम को समझना

5 एलएलएम अनुमान माप मेट्रिक्स

6 बेंचमार्क को समझना

7 स्वामित्व की कुल लागत: क्लाउड बनाम ऑन-प्रीम

8 अतिरिक्त जानकारी – आकार निर्धारण के लिए ग्राफ़ पढ़ना

9 संबंधित उत्पाद परिवार

10 दस्तावेज़ / संसाधन

10.1 संदर्भ

एलएलएम आकार निर्धारण व्यापक रूपरेखा

बड़े भाषा मॉडल (एलएलएम) ने प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में क्रांति ला दी है, जिससे टेक्स्ट जनरेशन, भावना विश्लेषण और भाषा अनुवाद जैसे अनुप्रयोगों को सक्षम किया जा सका है। हालाँकि, इन मॉडलों को चलाने के लिए कम्प्यूटेशनल आवश्यकताएँ बहुत अधिक हो सकती हैं, जिससे समाधान आर्किटेक्ट के लिए अपने ग्राहकों की ज़रूरतों को पूरा करने वाले सिस्टम को डिज़ाइन और कॉन्फ़िगर करना चुनौतीपूर्ण हो जाता है।
इस चुनौती का समाधान करने के लिए, यह LLM साइज़िंग गाइड आपको LLM के काम करने के तरीके, उनकी कम्प्यूटेशनल आवश्यकताओं और उनके प्रदर्शन को प्रभावित करने वाले प्रमुख कारकों की व्यापक समझ प्रदान करने के लिए डिज़ाइन किया गया है। इस गाइड का लक्ष्य आपको ग्राहक आवश्यकताओं का आकलन करने, सक्षम सिस्टम डिज़ाइन करने और जल्दी और सटीक रूप से सफल LLM परिनियोजन देने के लिए आवश्यक ज्ञान और उपकरणों से लैस करना है।

यह गाइड, निम्नलिखित से प्रेरित है NVIDIA का LLM अनुमान आकार, अनुमान लगाने और प्रशिक्षण/फाइन-ट्यूनिंग के लिए GPU मेमोरी आवश्यकताओं का अनुमान लगाने के लिए अंगूठे के नियम, ग्राहकों से आवश्यकताओं को इकट्ठा करना, बेंचमार्क और प्रदर्शन मीट्रिक को समझना और स्वामित्व की कुल लागत का अनुमान लगाना जैसे महत्वपूर्ण विषयों को कवर करेगा। इस गाइड का पालन करके, आप LLM के जटिल परिदृश्य को नेविगेट करने और अपने ग्राहकों को उनकी विशिष्ट आवश्यकताओं को पूरा करने वाले अनुकूलित समाधान प्रदान करने में सक्षम होंगे।
इस गाइड के दौरान, हम व्यावहारिक उदाहरण प्रदान करेंगेampसमाधान आर्किटेक्ट को विभिन्न एलएलएम परिदृश्यों के लिए कम्प्यूटेशनल आवश्यकताओं का अनुमान लगाने में मदद करने के लिए सूत्र, सूत्र और दिशानिर्देश। हम ग्राहक आवश्यकताओं, जैसे मॉडल, क्वांटिज़ेशन, टोकन आकार और विलंबता आवश्यकताओं को समझने के महत्व पर भी चर्चा करेंगे और यह भी कि ये कारक सिस्टम डिज़ाइन और प्रदर्शन को कैसे प्रभावित करते हैं।
अगले भाग में, हम GPU मेमोरी आवश्यकताओं का अनुमान लगाने के लिए "अंगूठे का नियम" पेश करेंगे, जो अनुमान लगाने से शुरू होगा। यह आपको उत्पादन वातावरण में LLM चलाने के लिए न्यूनतम GPU मेमोरी आवश्यकताओं का अनुमान लगाने का एक सरल और प्रभावी तरीका प्रदान करेगा।

अंगूठे का नियम

अंगूठे का नियम बड़े भाषा मॉडल (LLM) चलाने के लिए कम्प्यूटेशनल आवश्यकताओं का अनुमान लगाने के लिए एक सरलीकृत दृष्टिकोण प्रदान करता है। यह खंड GPU मेमोरी आवश्यकताओं को प्रभावित करने वाले प्रमुख कारकों को रेखांकित करता है और अनुमान लगाने और फ़ाइन-ट्यूनिंग/प्रशिक्षण के लिए न्यूनतम मेमोरी आवश्यकताओं का त्वरित अनुमान लगाने के लिए सूत्र प्रदान करता है।

अनुमान लगाना
अनुमान लगाना एक प्रशिक्षित LLM का उपयोग करके पाठ उत्पन्न करने या नए, अनदेखे डेटा पर पूर्वानुमान लगाने की प्रक्रिया को संदर्भित करता है। अनुमान लगाने के लिए न्यूनतम GPU मेमोरी आवश्यकता का अनुमान लगाने के लिए, हम कर सकते हैं निम्नलिखित सूत्र का उपयोग करें:
एम =पी*जेड* 1.2

कहाँ:

M = गीगाबाइट में व्यक्त GPU मेमोरी
P = मॉडल (पैरामीटर) का आकार अरबों में
Z = बाइट्स में क्वांटाइजेशन फैक्टर (1 बाइट = 8 बिट्स) - नीचे देखें

1.2 = GPU मेमोरी में अतिरिक्त डेटा लोड करने के लिए 20% ओवरहेड का प्रतिनिधित्व करता है

परिमाणीकरण कारक Z प्रयुक्त परिशुद्धता के आधार पर भिन्न होता है:

INT4: = 0.5
एफपी8/आईएनटी8: = 1
एफपी16: = 2
एफपी32: = 4

उदाहरणार्थampउदाहरण के लिए, 3.1-बिट क्वांटिज़ेशन (FP70) पर 16 बिलियन पैरामीटर्स के साथ Llama 16 चलाने के लिए न्यूनतम GPU मेमोरी आवश्यकता का अनुमान लगाने के लिए, हम निम्न प्रकार से मान डाल सकते हैं:
एम = 70 ∗ 2 ∗ 1.2 = 168 जीबी

यह सूत्र अनुमान लगाने के लिए न्यूनतम GPU मेमोरी आवश्यकता का अनुमान लगाने का एक त्वरित और सरल तरीका प्रदान करता है, जिससे समाधान आर्किटेक्ट्स को अपने ग्राहकों की आवश्यकताओं को पूरा करने वाली प्रणालियों को डिजाइन करने की अनुमति मिलती है।

फाइन-ट्यूनिंग/प्रशिक्षण
लार्ज लैंग्वेज मॉडल (LLM) को फाइन-ट्यूनिंग या प्रशिक्षण देने के लिए अनुमान लगाने की तुलना में काफी अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। फाइन-ट्यूनिंग/प्रशिक्षण के लिए न्यूनतम GPU मेमोरी की आवश्यकता का अनुमान निम्नलिखित सूत्र का उपयोग करके लगाया जा सकता है:
कुल = (Z + 12 + Z) बाइट्स/पैरामीटर = P (2Z+12) GB मेमोरी की आवश्यकता
कहाँ:

P = मॉडल (पैरामीटर) का आकार अरबों में
Z = बाइट्स में क्वांटिज़ेशन कारक (1 बाइट = 8 बिट्स)

हालाँकि, यह सूत्र एक चरम अनुमान प्रदान करता है, क्योंकि यह मानता है कि पूर्ण मॉडल पैरामीटर, ऑप्टिमाइज़र स्थितियाँ और ग्रेडिएंट मेमोरी में संग्रहीत हैं। व्यवहार में, जैसी तकनीकें निम्न-रैंक अनुकूलन (LoRA) और क्वांटाइज्ड LoRA (QLORA) मेमोरी की आवश्यकता को काफी हद तक कम किया जा सकता है।
आपको बेहतर जानकारी देने के लिए, विभिन्न विधियों और परिशुद्धताओं का उपयोग करके LLMs को फाइन-ट्यूनिंग करने के लिए कुछ अनुमानित GPU मेमोरी आवश्यकताएं यहां दी गई हैं:

तालिका 1. VRAM आवश्यकताओं की तुलना विभिन्न मॉडल आकारों और फ़ाइन-ट्यूनिंग तकनीकों के लिए

तरीका	शुद्धता	7B	13बी	30बी	70बी	110बी
भरा हुआ	16	67जीबी	125जीबी	288जीबी	672जीबी	1056जीबी
लोरा	16	15जीबी	28जीबी	63जीबी	146जीबी	229जीबी
क्यूएलओआरए	8	9जीबी	17जीबी	38जीबी	88जीबी	138जीबी
क्यूएलओआरए	4	5जीबी	9जीबी	20जीबी	46जीबी	72जीबी

जैसा कि आप देख सकते हैं, LoRA या QLoRA का उपयोग करके पूर्ण फ़ाइन-ट्यूनिंग विधि की तुलना में मेमोरी की आवश्यकता 75-90% तक कम हो सकती है। ऐसा इसलिए है क्योंकि ये तकनीकें केवल अनुकूलित मापदंडों को संग्रहीत करती हैं, न कि पूरे मॉडल को, जिसके परिणामस्वरूप महत्वपूर्ण मेमोरी बचत होती है।
एलएलएम को ठीक करने/प्रशिक्षण देने के लिए सिस्टम डिजाइन करते समय, उपयोग की जाने वाली विशिष्ट विधि और परिशुद्धता, साथ ही मॉडल आकार पर विचार करना महत्वपूर्ण है, ताकि यह सुनिश्चित हो सके कि सिस्टम आवश्यक कम्प्यूटेशनल संसाधनों को पूरा करता है। LoRA या QLoRA जैसी तकनीकों का उपयोग करके, समाधान आर्किटेक्ट अपने ग्राहकों की ज़रूरतों को पूरा करने वाले अधिक कुशल और लागत प्रभावी सिस्टम डिज़ाइन कर सकते हैं।

आवश्यकताओं को एकत्रित करना

लार्ज लैंग्वेज मॉडल (LLM) परिनियोजन के लिए आवश्यक सिस्टम कॉन्फ़िगरेशन को सटीक रूप से निर्धारित करने के लिए, ग्राहक से विशिष्ट आवश्यकताओं को इकट्ठा करना महत्वपूर्ण है। ये आवश्यकताएं अनुमान प्रदर्शन का अनुमान लगाने और यह सुनिश्चित करने में मदद करेंगी कि सिस्टम वांछित लक्ष्यों को पूरा करता है।

अनुमान प्रदर्शन का अनुमान लगाने से पहले निम्नलिखित पाँच जानकारी एकत्र की जानी चाहिए:
1. मॉडल चयन:
इस परियोजना में उपयोग के लिए इच्छित LLM मॉडल की पहचान करें। मॉडल का आकार अनुमान प्रदर्शन को उल्लेखनीय रूप से प्रभावित करता है, बड़े मॉडल धीमे और अधिक महंगे होते हैं। ध्यान दें कि छोटे मॉडल में अनुमान लागत को कम करते हुए विशिष्ट कार्यों के लिए उत्कृष्ट गुणवत्ता हो सकती है। इसलिए, छोटे मॉडलों का भी पता लगाने की सिफारिश की जाती है। चुने गए मॉडल की विशेषताओं को समझने से आवश्यक कम्प्यूटेशनल संसाधनों का अनुमान लगाने में मदद मिलेगी।
एलएलएम उपयोग मामले के लिए आवश्यकताओं को इकट्ठा करते समय, इनपुट टोकन की लंबाई पर विचार करना महत्वपूर्ण है, जो मॉडल के प्रदर्शन को निर्धारित करने वाले कारकों में से एक है। संदर्भ विंडो, जिसे इनपुट और आउटपुट टोकन के योग के रूप में परिभाषित किया गया है, इस प्रक्रिया में एक महत्वपूर्ण भूमिका निभाती है। नए मॉडल, जैसे कि लामा 3.1, 128,000 टोकन तक की बड़ी संदर्भ विंडो का समर्थन करते हैं।

2. इनपुट टोकन:
एलएलएम के प्रॉम्प्ट में टोकन की औसत संख्या निर्धारित करें, जिसमें शामिल हैं:

सिस्टम प्रॉम्प्ट
प्रसंग
उपयोगकर्ता संकेत

अंग्रेजी भाषा मॉडल के लिए, एक टोकन लगभग एक शब्द का 0.75 होता है। टोकन गणना में सिस्टम प्रॉम्प्ट और संदर्भ को शामिल करने से यह सुनिश्चित होता है कि प्रदर्शन का अनुमान लगाते समय संपूर्ण इनपुट अनुक्रम पर विचार किया जाता है।
इनपुट टोकन की गिनती की सटीक गणना करने के लिए, इसमें योगदान देने वाले सभी तत्वों को शामिल करें, जैसे कि सिस्टम प्रॉम्प्ट (कस्टम निर्देश), पुनर्प्राप्त किए गए दस्तावेज़ (पुनर्प्राप्ति संवर्धित पीढ़ी पाइपलाइनों में), और चैट इतिहास (पिछली बातचीत का आदान-प्रदान)। इनमें से प्रत्येक घटक टोकन के अधिकतम बजट की ओर गिना जाता है जिसे मॉडल में पारित किया जा सकता है।
बड़ी इनपुट लंबाई अनुमान प्रदर्शन को प्रभावित कर सकती है, क्योंकि शब्दों को एम्बेडिंग में बदल दिया जाता है और केवी कैश द्विघात रूप से बढ़ता है। RAG पाइपलाइनों जैसे अनुप्रयोगों को बड़ी इनपुट लंबाई की आवश्यकता हो सकती है, जिसके परिणामस्वरूप संसाधित किए जा रहे डेटा की पर्याप्त मात्रा के कारण पहले-टोकन विलंबता में वृद्धि होती है।
हम इस पेपर में बाद में टोकन और विलंबता पर उनके प्रभाव पर गहराई से चर्चा करेंगे, तथा यह पता लगाएंगे कि वे एलएलएम के प्रदर्शन को कैसे प्रभावित करते हैं और इष्टतम मॉडल संचालन के लिए क्या विचार आवश्यक हैं।

3. आउटपुट टोकन:
एलएलएम आउटपुट में टोकन की औसत संख्या स्थापित करें। यह आवश्यक है क्योंकि अधिक टोकन बनाने के लिए अधिक कम्प्यूटेशनल संसाधनों और समय की आवश्यकता होती है। अपेक्षित आउटपुट आकार को समझने से एक ऐसी प्रणाली को डिजाइन करने में मदद मिलेगी जो विलंबता या गुणवत्ता से समझौता किए बिना आवश्यक थ्रूपुट को संभाल सके।

4. प्रति सेकंड औसत अनुरोध (आरपीएस):
इष्टतम प्रदर्शन और कुशल संसाधन उपयोग सुनिश्चित करने के लिए, सिस्टम द्वारा प्रति सेकंड संसाधित किए जाने वाले अनुरोधों की अधिकतम संख्या निर्धारित करें। ऑन-प्रिमाइसेस परिनियोजन के लिए आकार निर्धारित करते समय, औसत उपयोग के बजाय अधिकतम उपयोग पर गणना करना महत्वपूर्ण है।
अनुरोध पैटर्न में परिवर्तनशीलता को ध्यान में रखने के लिए, हम औसत RPS (प्रति सेकंड अनुरोध) के पॉइसन PPF (बिंदु संभाव्यता फ़ंक्शन) के 95वें प्रतिशतक का उपयोग करते हैं। यह पहुच अधिकतम अपेक्षित भार की पहचान करने में मदद करता है, जिससे हमें एक ऐसी प्रणाली डिजाइन करने में मदद मिलती है जो गैर-पीक अवधि के दौरान कम उपयोग किए बिना पीक मांगों को संभाल सकती है।
इस प्रक्रिया में ग्राहक से औसत अनुरोध दर प्राप्त करना और पॉइसन वितरण के 95वें प्रतिशत का उपयोग करके अधिकतम अनुरोध दर की गणना करना शामिल है। यह विधि सिस्टम की आवश्यकताओं का अधिक सटीक प्रतिनिधित्व प्रदान करती है, क्योंकि यह अनुरोध पैटर्न में प्राकृतिक परिवर्तनशीलता पर विचार करती है। यह ध्यान रखना विशेष रूप से महत्वपूर्ण है कि यदि सिस्टम अधिकतम क्षमता पर नहीं चल रहा है, तो प्रति टोकन प्रभावी लागत काफी बढ़ सकती है।

5. विलंबता आवश्यकताएँ:
ग्राहक के विलंबता लक्ष्यों और सीमाओं को समझें, जिनमें शामिल हैं:

प्रथम-टोकन विलंबता: मॉडल को प्रतिक्रिया का पहला टोकन उत्पन्न करने में लगने वाला समय।
अंतिम-टोकन विलंबता: मॉडल को संपूर्ण प्रतिक्रिया उत्पन्न करने में लगने वाला कुल समय।

कई अनुप्रयोगों में विलंबता एक महत्वपूर्ण कारक है, क्योंकि उच्च विलंबता उपयोगकर्ता अनुभव को नकारात्मक रूप से प्रभावित कर सकती है। कम प्रथम-टोकन विलंबता (TTFT) पर प्रतिबंध लगाने से काफी हद तक नुकसान होगाampइसका अर्थ यह है कि सिस्टम की एक साथ कई अनुरोधों को संसाधित करने की क्षमता प्रभावित होगी।
इसलिए, ग्राहक की विशिष्ट आवश्यकताओं के आधार पर विलंबता और थ्रूपुट के बीच संतुलन बनाना आवश्यक है।
ये आवश्यकताएँ अनुमान प्रदर्शन का अनुमान लगाने, सिस्टम का आकार निर्धारित करने और यह सुनिश्चित करने के लिए महत्वपूर्ण हैं कि यह ग्राहक की अपेक्षाओं को पूरा करता है। इस जानकारी को इकट्ठा करके, आप ग्राहक की ज़रूरतों को बेहतर ढंग से समझ पाएंगे और एक उपयुक्त सिस्टम कॉन्फ़िगरेशन डिज़ाइन कर पाएंगे जो प्रदर्शन, लागत और गुणवत्ता को संतुलित करता है। अगले अनुभागों में, हम इनमें से कुछ आवश्यकताओं पर गहराई से विचार करेंगे और पता लगाएंगे कि वे LLM परिनियोजन को कैसे प्रभावित करते हैं।

तकनीकी जानकारी: एलएलएम को समझना

इस खंड में, हम बड़े भाषा मॉडल (एलएलएम) के तकनीकी पहलुओं में गोता लगाकर उनके जटिल कामकाज का पता लगाएंगे।tagएलएलएम निष्पादन के सिद्धांतों को समझें, प्रमुख मापन मीट्रिक्स को समझें, तथा अनुमान लगाने की गति बढ़ाने वाली तकनीकों पर गौर करें।

दो एसtagएलएलएम निष्पादन की मुख्य बातें: प्रीफिल बनाम डिकोडिंग
बड़े भाषा मॉडल (एलएलएम) जटिल प्रणालियाँ हैं जिनमें कई भाषाएँ शामिल होती हैं।tagमानव-जैसी पाठ प्रतिक्रियाएँ उत्पन्न करने के लिए प्रसंस्करण की प्रक्रियाएँ। इन तकनीकों को समझनाtagयह प्रदर्शन को अनुकूलित करने, विलंबता को कम करने और समग्र उपयोगकर्ता अनुभव को बेहतर बनाने में सहायक है। इस अनुभाग में, हम इस पर गहराई से चर्चा करेंगे दो प्राथमिक एसtagएलएलएम निष्पादन की विशेषताएं: प्रीफिल और डिकोडिंग.

प्रीफ़िल एसtage
प्रीफिलtage उस समय को संदर्भित करता है जो LLM को उपयोगकर्ता के इनपुट प्रॉम्प्ट को संसाधित करने और पहला आउटपुट टोकन बनाने में लगता है, जो लगभग एक शब्द के बराबर होता है।tagइसमें निम्नलिखित चरण शामिल हैं:

उपयोगकर्ता प्रॉम्प्ट लोड करना: उपयोगकर्ता का इनपुट प्राप्त किया जाता है और सिस्टम में लोड किया जाता है।
केवी-कैश भरना: इस दौरानtagई, एलएलएम अपने की-वैल्यू (केवी) कैश को इनपुट टोकन से जानकारी के साथ भरता है। इस कैश का उपयोग प्रासंगिक संदर्भ-विशिष्ट डेटा को संग्रहीत करने और पुनर्प्राप्त करने के लिए किया जाता है।

प्रथम टोकन के लिए अनुरोध प्राप्ति : LLM को इनपुट प्रॉम्प्ट को संसाधित करने और प्रथम आउटपुट टोकन उत्पन्न करने में लगने वाला समय।

प्रीफिलtagई मुख्य रूप से कंप्यूट-बाउंड है, जिसका अर्थ है कि इसका प्रदर्शन काफी हद तक उपलब्ध कम्प्यूटेशनल संसाधनों पर निर्भर करता है। इस एस को पूरा करने में लगने वाला समयtage केवल इनपुट टोकन की संख्या पर निर्भर करता है, जिससे यह एक पूर्वानुमानित और सुसंगत प्रक्रिया बन जाती है।

डिकोडिंग एसtage
डिकोडिंगtagई, जिसे पीढ़ी या विस्तार के रूप में भी जाना जाता है, वह जगह है जहां एलएलएम एक-एक करके प्रतिक्रिया टोकन उत्पन्न करता है, प्रीफिल प्रक्रिया के दौरान उत्पादित प्रारंभिक आउटपुट टोकन पर निर्माण करता हैtagइ। यहtagइसमें शामिल है:

अंतर-टोकन विलंबता: पहले टोकन के बाद प्रत्येक अगले टोकन को उत्पन्न करने में लगने वाला समय।
टोकन-दर-टोकन पीढ़ी: एलएलएम प्रीफिल प्रक्रिया के दौरान एकत्रित संदर्भ और जानकारी का उपयोग करके शब्द दर शब्द प्रतिक्रिया टोकन उत्पन्न करता है।tage.
इनपुट और आउटपुट टोकन पर निर्भरता: अंतर-टोकन विलंबता इनपुट टोकन की संख्या और उत्पन्न होने वाले आउटपुट टोकन की संख्या दोनों पर निर्भर करती है।

प्रीफिल के विपरीतtagई, डिकोडिंग आम तौर पर मेमोरी-बाउंड होती है, जिसका अर्थ है कि इसका प्रदर्शन मेमोरी संसाधनों की उपलब्धता से काफी प्रभावित होता है। जैसे-जैसे LLM अधिक टोकन उत्पन्न करता है, उसे बढ़ते संदर्भ को संग्रहीत करने और प्रबंधित करने के लिए अधिक मेमोरी की आवश्यकता होती है, जिससे विलंबता बढ़ सकती है।

एलएलएम अनुमान माप मेट्रिक्स

बड़े भाषा मॉडल (एलएलएम) के प्रदर्शन का मूल्यांकन करते समय, अनुमान की गति को मापने के लिए कई प्रमुख मीट्रिक का उपयोग किया जाता है। इनमें शामिल हैं:

प्रथम टोकन हेतु समय (TTFT): इनपुट को संसाधित करने और प्रथम टोकन उत्पन्न करने में लगने वाला समय।
अंतर-टोकन विलंबता (आईटीएल): पहले टोकन के बाद प्रत्येक अगले टोकन को उत्पन्न करने में लगने वाला समय, जिसे प्रति आउटपुट टोकन समय (टीपीओटी) भी कहा जाता है।
अंत-से-अंत विलंबता (E2E) : किसी प्रॉम्प्ट को संसाधित करने और इनपुट से आउटपुट तक सभी टोकन उत्पन्न करने में लगने वाला कुल समय।

ये मेट्रिक्स मॉडल के प्रदर्शन के बारे में जानकारी प्रदान करते हैं, बाधाओं की पहचान करने और अनुमान की गति को अनुकूलित करने में मदद करते हैं।

इनफ्लाइट बैचिंग
इनफ्लाइट बैचिंग (आईएफबी) यह एक विशेष तकनीक है जिसका उपयोग बड़े भाषा मॉडल (LLM) अनुमान के दौरान GPU मेमोरी और कंप्यूट उपयोग के बीच संतुलन बनाने के लिए किया जाता है, जिससे अंततः विलंबता कम हो जाती है। यह विधि ऑटो-रिग्रैसिव अनुमान में विशेष रूप से प्रभावी है, जहाँ LLM क्रमिक रूप से टोकन उत्पन्न करता है, अगले टोकन बनाने के लिए पहले से उत्पन्न टोकन पर निर्भर करता है।
IFB विभिन्न स्थानों पर अनुक्रम की अनुमति देता हैtagसभी अनुरोधों (प्रीफिल और डिकोडिंग दोनों) को नए अनुरोधों को शुरू करने से पहले सभी अनुरोधों के पूरा होने की प्रतीक्षा किए बिना एक ही बैच में संसाधित किया जाना चाहिए। यह दृष्टिकोण कई प्रमुख लाभ प्रदान करता है:

स्थिर बैच आकार: IFB प्रत्येक टोकन पीढ़ी के लिए लगभग स्थिर बैच आकार को सक्षम करता है, जिससे GPU का उपयोग अधिक होता है।
त्वरित निष्पादन प्रारंभ: जब स्लॉट उपलब्ध हो जाते हैं, तो नए अनुरोधों का निष्पादन अधिक तेजी से शुरू हो सकता है, क्योंकि शेड्यूलर वर्तमान अनुरोधों के पूरा होने के बजाय केवल अगले टोकन के निर्माण की प्रतीक्षा करता है।

टेंसरआरटी-एलएलएम LLM सेवा के दौरान GPU उपयोग को अनुकूलित करने के लिए कस्टम इनफ़्लाइट बैचिंग को शामिल किया गया है। यह सुविधा:

बैच में पूर्ण हो चुके अनुरोधों को प्रतिस्थापित करता है.
अनुक्रम समाप्ति (EoS) मार्कर के बाद अनुरोधों को हटाता है और नए अनुरोध सम्मिलित करता है।
थ्रूपुट, प्रथम टोकन तक का समय, तथा समग्र GPU उपयोगिता में सुधार करता है।

इसके अलावा, IFB को TensorRT-LLM Triton बैकएंड में सहजता से एकीकृत किया गया है और इसे TensorRT-LLM बैच मैनेजर के माध्यम से प्रबंधित किया जा सकता है। जब इसे मेमोरी-बाउंड और कंप्यूट-बाउंड ऑपरेशन, चंक्ड डिकोडिंग, स्पेकुलेटिव डिकोडिंग और स्पार्सिटी को संतुलित करने जैसी अन्य तकनीकों के साथ जोड़ा जाता है, तो IFB LLM के थ्रूपुट को बढ़ाता है, जिससे यह एक बेहतरीन विकल्प बन जाता है। कुशल एलएलएम अनुमान के लिए अपरिहार्य उपकरण.

टेंसर समानांतरवाद
टेंसर पैरेललिज्म (टीपी) एक ऐसी तकनीक है जिसका उपयोग लार्ज लैंग्वेज मॉडल (एलएलएम) इंफरेंस में कई जीपीयू में कम्प्यूटेशनल लोड वितरित करने के लिए किया जाता है। इस विधि में एक मॉडल को कई जीपीयू में विभाजित करना शामिल है, जो इन जीपीयू के बीच कुशल डेटा एक्सचेंज पर बहुत अधिक निर्भर करता है। टीपी विशेष रूप से बड़े मॉडल के लिए फायदेमंद है जहां मेमोरी की आवश्यकता एकल जीपीयू की क्षमता से अधिक होती है।

टेंसर समानांतरवाद की मुख्य विशेषताएं:

कम विलंबता लेकिन कम थ्रूपुट: जबकि टीपी संगणनाओं को समानांतर करके विलंबता को कम कर सकता है, यह अंतर-जीपीयू संचार से जुड़े ओवरहेड के कारण कम समग्र थ्रूपुट को भी जन्म दे सकता है।
बड़े मॉडल के लिए आवश्यकता: LLaMa-70B जैसे बड़े मॉडल के लिए, कम से कम 2 (TP >= 2) का टेंसर समानांतरता आवश्यक है। यह सुनिश्चित करता है कि मॉडल को उपलब्ध मेमोरी और कम्प्यूटेशनल संसाधनों के भीतर फिट होने के लिए कई GPU में पर्याप्त रूप से विभाजित किया जा सकता है।

NVLink-सक्षम सर्वर के लिए अनुशंसा: जब TP 2 से अधिक हो जाता है, तो NVIDIA अनुमान के लिए NVLink-सक्षम सर्वर का उपयोग करने की दृढ़ता से अनुशंसा करता है। NVLink एक उच्च-बैंडविड्थ, कम विलंबता वाला इंटरकनेक्ट प्रदान करता है जो पारंपरिक PCIe कनेक्शन की तुलना में GPU के बीच डेटा ट्रांसफ़र को काफी बेहतर बनाता है।

बेंचमार्क को समझना

बेंचमार्क ग्राहकों के लिए आदर्श कॉन्फ़िगरेशन का आकार निर्धारित करने और चुनने में महत्वपूर्ण भूमिका निभाते हैं, क्योंकि वे थ्रूपुट, विलंबता और अनुरोध दर जैसे प्रमुख मीट्रिक के बीच ट्रेडऑफ़ का मूल्यांकन करते हैं। इन बेंचमार्क को समझने से बड़े भाषा मॉडल (एलएलएम) अनुमान के लिए इष्टतम कॉन्फ़िगरेशन निर्धारित करने में मदद मिलती है, जिससे हार्डवेयर और सॉफ़्टवेयर आवश्यकताओं के बारे में सूचित निर्णय लेने में मदद मिलती है।

थ्रूपुट बनाम विलंबता
एलएलएम अनुमान के संदर्भ में, थ्रूपुट और विलंबता के बीच संतुलन हासिल करना महत्वपूर्ण है। थ्रूपुट अनुरोधों की संख्या को संदर्भित करता है जिन्हें प्रति यूनिट समय में संसाधित किया जा सकता है, जबकि विलंबता एक अनुरोध को शुरू से अंत तक संसाधित करने में लगने वाला समय है।

अदला - बदली:
विलंबता सीमाएँ लागू करने से उपलब्ध थ्रूपुट कम हो सकता है। इसके विपरीत, विलंबता बाधाओं को शिथिल करने से बहुत अधिक थ्रूपुट प्राप्त हो सकता है। ग्राहक उपयोग मामलों को समझने से इनपुट टोकन, आउटपुट टोकन और प्रति यूनिट समय औसत अनुरोधों का अनुमान मिलता है, जिससे आवश्यक विलंबता बनाए रखते हुए आवश्यक थ्रूपुट से मेल खाने वाले विशिष्ट हार्डवेयर के प्रस्ताव की अनुमति मिलती है।
थ्रूपुट बढ़ाने के लिए कई अनुरोधों को संयोजित करने से देरी हो सकती है, जिससे व्यक्तिगत अनुरोधों के लिए विलंबता बढ़ सकती है। LLM अनुमान में दो चरण शामिल हैं - प्रीफ़िल (उच्च विलंबता, समानांतर प्रसंस्करण से लाभ) और डिकोड (कम विलंबता, कम कंप्यूट उपयोग)।

व्यवहारिक निहितार्थ:

उच्च थ्रूपुट: उच्च अनुरोध मात्रा वाले बड़े पैमाने पर परिनियोजन के लिए आदर्श।
कम विलंबता: वास्तविक समय प्रतिक्रिया अनुप्रयोगों के लिए महत्वपूर्ण, जैसे कि संवादात्मक AI या इंटरैक्टिव सिस्टम।

थ्रूपुट-विलंबता ट्रेडऑफ़ को समझकर और प्रबंधित करके, LLM अनुमान प्रणालियों को विशिष्ट अनुप्रयोग आवश्यकताओं को पूरा करने के लिए अनुकूलित किया जा सकता है। कस्टम बेंचमार्किंग के लिए, जैसे उपकरण NVIDIA द्वारा GenAI-Perf किसी सिस्टम पर किसी विशेष मॉडल के प्रदर्शन के बारे में बहुमूल्य जानकारी प्रदान कर सकता है।

बेंचमार्क ग्राफ़ की व्याख्या करने के तरीके को जानने के लिए, इस दस्तावेज़ के अंत में विषय देखें, अतिरिक्त जानकारी - आकार निर्धारण के लिए ग्राफ़ को पढ़ना।

अधिकतम बैच आकार, समवर्तीता, अनुरोध दर और थ्रूपुट को समझना
सभी शब्दावली को समझना थोड़ा भ्रमित करने वाला हो सकता है, इसलिए आइए प्रत्येक अवधारणा को तोड़कर उनके संबंध और प्रणाली मूल्यांकन में महत्व को स्पष्ट करें।

अधिकतम बैच आकार
max_batch_size पैरामीटर की दो भूमिकाएँ हैं: एक इंजन निर्माण के दौरान और दूसरी रनटाइम पर।

इंजन बिल्ड: यह सेटिंग सुनिश्चित करती है कि परिणामी सिस्टम, एक निश्चित बैच आकार के लिए अपनी क्षमता के साथ, उपलब्ध मेमोरी के भीतर फिट हो। यह अनिवार्य रूप से निष्पादन के दौरान मेमोरी समस्याओं को रोकने के लिए क्षमता नियोजन के बारे में है।
रनटाइम: यह सेटिंग निर्धारित करती है कि संसाधित होने से पहले कितने अनुरोधों को एक साथ बैच किया जा सकता है। रनटाइम max_batch_size बिल्ड-टाइम max_batch_size से कम या बराबर होना चाहिए। वास्तविक परिदृश्यों में अनुरोधों की वास्तविक बैचिंग इस पैरामीटर से प्रभावित होती है, जो सीधे दक्षता और प्रदर्शन को प्रभावित करती है।

बैच आकार और समवर्तीता

समवर्ती (C) < अधिकतम बैच आकार (MBS) : जब समवर्ती अनुरोधों की संख्या अधिकतम बैच आकार से कम होती है, तो इंजन आम तौर पर समवर्ती स्तर के बराबर आकार वाले बैचों को संसाधित करता है। इसका मतलब है कि प्रत्येक बैच में खाली स्लॉट उपलब्ध हैं, क्योंकि बैच में सभी संभावित स्थान भरे नहीं हैं।
समवर्ती (C) >= अधिकतम बैच आकार (MBS) : यदि समवर्ती अधिकतम बैच आकार के बराबर या उससे अधिक है, तो बैच आमतौर पर पूर्ण होते हैं, अधिकतम क्षमता पर प्रसंस्करण करते हैं। नए अनुरोधों के लिए कतार बढ़ने लगेगी, औसत आकार C - MBS के साथ, क्योंकि आने वाले अनुरोध पिछले बैचों के समाप्त होने की प्रतीक्षा करते हैं।

परिणाम मीट्रिक के रूप में समवर्तीता और अनुरोध दर
सिस्टम के प्रदर्शन को व्यापक रूप से मापने के लिए, निम्नलिखित पर विचार करें:

थ्रूपुट: अनुरोधों की वह संख्या जिसे सिस्टम प्रति इकाई समय में संसाधित कर सकता है।
अंत-से-अंत विलंबता: किसी अनुरोध को शुरू से अंत तक संसाधित करने में लगने वाला कुल समय।
समवर्तीता: अनुरोधों की वह संख्या जिसे एक साथ संभाला जा सकता है।

उच्च समवर्तीता और उच्च विलंबता वाला सिस्टम कम समवर्तीता लेकिन कम विलंबता वाले सिस्टम के समान ही थ्रूपुट प्राप्त कर सकता है। हालाँकि, बाद वाला सिस्टम अधिक कुशल है क्योंकि यह व्यक्तिगत अनुरोधों पर तेज़ी से प्रतिक्रिया करता है।
इसलिए, सिस्टम का आकार निर्धारित करने और हितधारकों के साथ प्रदर्शन पर चर्चा करने के लिए प्राथमिक उपाय के रूप में "प्रति मिनट अनुरोध" (या समान समय-आधारित मीट्रिक) का उपयोग करना एक संतुलित परिणाम प्रदान करता है। view सिस्टम क्षमता की। यह समवर्तीता और विलंबता दोनों आवश्यकताओं को ध्यान में रखने में मदद करता है, जिससे यह स्पष्ट तस्वीर मिलती है कि सिस्टम क्या कुशलतापूर्वक संभाल सकता है।

इनपुट पैरामीटर के रूप में समवर्तीता और अनुरोध दर
सटीक गति माप (थ्रूपुट) के लिए, एक प्रसंस्करण चक्र से दूसरे तक इंजन बैच आकार को स्थिर बनाए रखना अपरिहार्य है।

इनपुट के रूप में समवर्तीता का उपयोग करना: यह दृष्टिकोण सुनिश्चित करता है कि बैच का आकार सुसंगत बना रहे, जिससे विश्वसनीय माप प्राप्त हो।

इनपुट पैरामीटर के रूप में अनुरोध दर सेट करना: यह समस्याग्रस्त हो सकता है क्योंकि यदि अनुरोध दर सिस्टम के थ्रूपुट से अधिक है, तो कतार लगातार बढ़ती रहेगी, जिससे विलंबता बढ़ेगी। इसके विपरीत, सिस्टम के थ्रूपुट से नीचे अनुरोध दर सेट करने का मतलब है कि सभी उपलब्ध स्लॉट का उपयोग नहीं किया जाता है, जिससे प्रदर्शन कम होता है।

सिफारिशों

इनपुट मेट्रिक्स के रूप में टोकन आकारों के साथ समवर्तीता का उपयोग करें: यह नियंत्रित प्रयोगों की अनुमति देता है जो सिस्टम को इसकी सीमाओं तक तनाव दे सकता है या हल्के भार के तहत इसकी प्रतिक्रियाशीलता को माप सकता है।
परिणाम मीट्रिक के रूप में अनुरोध दर का उपयोग करें: यह इस बारे में जानकारी प्रदान करता है कि सिस्टम वास्तव में किसी निश्चित समय सीमा के भीतर कितने अनुरोधों को संसाधित कर सकता है, जो इसकी क्षमता और दक्षता दोनों को दर्शाता है।

इन मापदंडों को नियंत्रित करके और सही मैट्रिक्स पर ध्यान केंद्रित करके, उद्यम अधिक कुशल प्रणालियां डिजाइन कर सकते हैं जो थ्रूपुट, विलंबता और संसाधन उपयोग को प्रभावी ढंग से संतुलित करती हैं।

स्वामित्व की कुल लागत: क्लाउड बनाम ऑन-प्रीम

आधुनिक व्यवसायों के लिए लार्ज लैंग्वेज मॉडल (LLM) इन्फ़रेंसिंग को लागू करना ज़रूरी होता जा रहा है। इसके दो मुख्य विकल्प हैं: क्लाउड-आधारित और ऑन-प्रिमाइसेस। हम आपको सूचित निर्णय लेने में मदद करने के लिए प्रत्येक विकल्प के लाभों और सीमाओं का पता लगाएंगे।

क्लाउड-आधारित परिनियोजन
क्लाउड-आधारित परिनियोजन एक “भुगतान-जैसा-आप-करते-हैं” मॉडल प्रदान करता है, जहां आप केवल उपयोग किए गए संसाधनों के लिए भुगतान करते हैं।
हालाँकि, इसमें कुछ कमियाँ भी हैं जिन पर विचार करना होगा:

डेटा सुरक्षा: जब तक एंटरप्राइज़-ग्रेड लाइसेंस नहीं खरीदा जाता है, तब तक आपके डेटा का उपयोग भविष्य के मॉडलों को प्रशिक्षित करने के लिए किया जा सकता है, जिससे संभावित रूप से डेटा लीक हो सकता है।
मूल्य अनिश्चितता: कीमतें परिवर्तन के अधीन हैं, और आपके पास मॉडल पर कम नियंत्रण है, जो फ़ाइन-ट्यूनिंग या अनुकूलन का समर्थन नहीं कर सकता है।
सीमित नियंत्रण: आपके पास संकेतों की विलंबता और प्रवाह पर सीमित नियंत्रण है।

क्लाउड-आधारित परिनियोजन की लागत की गणना आम तौर पर इनपुट और आउटपुट टोकन के आधार पर की जाती है, जिसमें प्रति टोकन एक निश्चित कीमत होती है। उदाहरण के लिएampउदाहरण के लिए, एक मिलियन इनपुट टोकन की कीमत 15 डॉलर हो सकती है, जबकि एक मिलियन आउटपुट टोकन की कीमत 60 डॉलर हो सकती है।
लागत का अनुमान लगाने के लिए, आप कैलकुलेटर का उपयोग कर सकते हैं जो इनपुट और आउटपुट टोकन की संख्या पर विचार करता है।

ऑन-प्रिमाइसेस परिनियोजन
ऑन-प्रिमाइसेस परिनियोजन के लिए पर्याप्त प्रारंभिक निवेश की आवश्यकता होती है, लेकिन इसके कई लाभ हैं:

पूर्ण नियंत्रण: आपके पास सिस्टम पर पूर्ण नियंत्रण है, जिससे आवश्यकतानुसार परिवर्तन किया जा सकता है।

लागत प्रभावी: क्षमता के निकट एक निश्चित उपयोग के साथ, ऑन-प्रिमाइसेस परिनियोजन दीर्घावधि में लागत प्रभावी हो सकता है।
सुरक्षा: आपका डेटा सुरक्षित है, और सिस्टम पर आपका पूर्ण नियंत्रण है।

ऑन-प्रिमाइसेस परिनियोजन से जुड़ी लागतों में शामिल हैं:

GPU सर्वर खरीद: GPU सर्वर खरीदने की कीमत, जो हार्डवेयर और सिस्टम के प्रकार के आधार पर भिन्न होती है।

डेटासेंटर लागत: बिजली, किराये की जगह, स्टाफ और अन्य खर्चों से संबंधित लागतें।
लाइसेंस शुल्क: किसी भी अतिरिक्त सेवा के लिए वार्षिक लाइसेंस शुल्क, जैसे, NVAIE

प्रति 1M प्रॉम्प्ट (कॉल) की लागत जानने के लिए:

कहाँ

Z = प्रति 1M प्रॉम्प्ट की लागत
C = एक वर्ष में औसतन कुल ऑन प्रीम लागत

X = सिस्टम पर प्रति सेकंड संकेत (थ्रूपुट)

क्लाउड और ऑन-प्रिमाइसेस परिनियोजन की तुलना
क्लाउड और ऑन-प्रिमाइसेस परिनियोजन के बीच निष्पक्ष तुलना करने के लिए, हम मानते हैं कि:

दोनों प्लेटफार्मों पर तैनात मॉडल गुणवत्ता में समान हैं।
दोनों प्लेटफार्मों पर प्राप्त विलंबता और थ्रूपुट समान हैं।

हम प्रति 1M प्रॉम्प्ट पर ऑन-प्रीम लागत की तुलना प्रति 1M प्रॉम्प्ट पर ऑन-क्लाउड लागत से कर सकते हैं ताकि निष्पक्ष तुलना हो सके। हम ऑन-प्रीम के लिए प्रति इनपुट टोकन और आउटपुट टोकन लागत का भी पता लगा सकते हैं।

लागत पुनर्कथन
निष्कर्षतः, क्लाउड-आधारित और ऑन-प्रिमाइसेस परिनियोजन विकल्पों के अपने लाभ और सीमाएँ हैं।
क्लाउड-आधारित परिनियोजन एक लचीला और स्केलेबल समाधान प्रदान करता है, लेकिन डेटा सुरक्षा और नियंत्रण पर समझौता कर सकता है। ऑन-प्रिमाइसेस परिनियोजन पूर्ण नियंत्रण और सुरक्षा प्रदान करता है, लेकिन इसके लिए अग्रिम निवेश की आवश्यकता होती है।
दीर्घावधि में, एक ऐसा ब्रेक-ईवन बिंदु आ जाता है, जहां ऑन-प्रिमाइसेस परिनियोजन, ऑन-क्लाउड इंस्टैंसेज की तुलना में वित्तीय रूप से अधिक समझदारी भरा होता है।

सिफारिश
क्लाउड-आधारित और ऑन-प्रिमाइसेस परिनियोजन के बीच निर्णय लेते समय, निम्नलिखित पर विचार करें:

डेटा सुरक्षा: यदि यह आपकी सर्वोच्च प्राथमिकता है, तो ऑन-प्रिमाइसेस परिनियोजन बेहतर है।
स्केलेबिलिटी: यदि आपको शीघ्रता से स्केल करने की आवश्यकता है, तो क्लाउड-आधारित परिनियोजन अधिक उपयुक्त हो सकता है।
बजट: यदि बजट चिंता का विषय है, तो ऑन-प्रिमाइसेस परिनियोजन दीर्घावधि में लागत प्रभावी हो सकता है।

अंततः निर्णय आपकी विशिष्ट आवश्यकताओं और प्राथमिकताओं पर निर्भर करता है।

निष्कर्ष
निष्कर्ष में, लार्ज लैंग्वेज मॉडल (LLM) परिनियोजन के लिए सिस्टम डिज़ाइन करते समय प्रदर्शन और कम्प्यूटेशनल आवश्यकताओं का सटीक अनुमान लगाना महत्वपूर्ण है। इसे प्राप्त करने के लिए, मॉडल चयन, इनपुट टोकन लंबाई, क्वांटिज़ेशन और विलंबता आवश्यकताओं सहित ग्राहकों से विशिष्ट आवश्यकताओं को इकट्ठा करें। GPU मेमोरी आवश्यकताओं का अनुमान लगाने के लिए "अंगूठे का नियम" जैसे प्रदान किए गए सूत्र और दिशानिर्देश, समाधान आर्किटेक्ट के लिए मूल्यवान उपकरण के रूप में काम करते हैं ताकि वे ग्राहकों की मांगों को पूरा करने वाले सक्षम सिस्टम का त्वरित मूल्यांकन और डिज़ाइन कर सकें।
मॉडल आकार, परिशुद्धता और परिमाणीकरण जैसे प्रमुख कारकों पर विचार करके, आप प्रदर्शन और लागत को संतुलित करने के लिए सिस्टम कॉन्फ़िगरेशन को अनुकूलित कर सकते हैं। इसके अतिरिक्त, लो-रैंक एडेप्टेशन (LoRA) और क्वांटाइज्ड LoRA (QLoRA) जैसी तकनीकें फ़ाइन-ट्यूनिंग और प्रशिक्षण के दौरान मेमोरी की आवश्यकताओं को मौलिक रूप से कम कर सकती हैं, जिससे अधिक कुशल और लागत-प्रभावी समाधान प्राप्त हो सकते हैं।
यह एलएलएम इंफरेंस साइजिंग गाइड एलएलएम के जटिल परिदृश्य को नेविगेट करने, सफल तैनाती देने और अपने ग्राहकों की अनूठी जरूरतों को पूरा करने वाले अनुरूप समाधान प्रदान करने के लिए आवश्यक ज्ञान और विशेषज्ञता के साथ सशक्त बनाता है। इन दिशानिर्देशों और सर्वोत्तम प्रथाओं का पालन करके, आप इष्टतम प्रदर्शन सुनिश्चित कर सकते हैं, लागत कम कर सकते हैं और प्राकृतिक भाषा प्रसंस्करण के तेजी से विकसित हो रहे क्षेत्र में व्यावसायिक सफलता प्राप्त कर सकते हैं।

अतिरिक्त जानकारी – आकार निर्धारण के लिए ग्राफ़ पढ़ना

पर आधारित एक ग्राफ NVIDIA NIMs से बेंचमार्क डेटा इस तरह दिखता है:

चित्र 5: एसamp3 इनपुट और 8 आउटपुट टोकन के साथ लामा 2000 2000B मॉडल के लिए थ्रूपुट बनाम पहला टोकन विलंबता ग्राफ
इंटरेक्टिव ग्राफ़ आपको मॉडल, डिवाइस, इनपुट + आउटपुट टोकन संयोजन, एक्स-एक्सिस मीट्रिक और वाई-एक्सिस परिणाम चुनने की अनुमति देते हैं। एक्स-एक्सिस के लिए हमारे पास टोकन के लिए TTFT, TTLT या ITL जैसे इनपुट पैरामीटर हो सकते हैं। वाई-एक्सिस के लिए हमारे पास प्रति सेकंड प्रति सिस्टम प्रॉम्प्ट या प्रति सेकंड प्रति सिस्टम या प्रति GPU इंस्टेंस आउट_टोकन जैसे आउटपुट पैरामीटर हैं।
एक पूर्वampले आकार:
एक ग्राहक llama2000 2000B मॉडल के साथ 3 इन, 8 आउट टोकन चाहता है और 1 सेकंड से कम समय में TTFT चाहता है। बाधाओं का उपयोग करके हम ग्राफ पर 1 सेकंड TTFT (FTL) के बाईं ओर एक बिंदु पाते हैं, यह इस तरह दिखेगा:

यह आपको बताता है कि एक एकल 8xH100 सिस्टम TRT-LLM का उपयोग करते समय 400 समवर्ती (पीक) उपयोगकर्ताओं को संभालने में सक्षम होगा। हालाँकि, हम देखते हैं कि इसमें कुल विलंबता 38 सेकंड से अधिक है। यदि हम कम कुल विलंबता चाहते हैं (मान लें कि 20 सेकंड से कम), तो हमें थ्रूपुट का त्याग करना होगा, एक्स-अक्ष को कुल विलंबता (TTLT) के रूप में सुधारना होगा, हमारे पास है:

यहाँ हमारे पास 100ms TTFT और 358s से कम TTLT के साथ 20 समवर्ती उपयोगकर्ताओं वाला एक बिंदु है। जैसा कि हम देखते हैं, विलंबता प्रतिबंध सेट करने से थ्रूपुट और अधिकतम समवर्तीता पर भारी प्रभाव पड़ता है।
अपने सिस्टम पर बेंचमार्क चलाने के लिए, देखें NVIDIA की NIM फॉर LLM बेंचमार्किंग गाइड उपयोग करने के लिए जेनएआईपरफ एलएलएम मेट्रिक्स प्राप्त करने के लिए.

लेखक
सचिन गोपाल वानी लेनोवो में एक एआई डेटा साइंटिस्ट हैं, जो अलग-अलग ग्राहकों के लिए एंड-टू-एंड मशीन लर्निंग (एमएल) अनुप्रयोगों पर काम कर रहे हैं, और न्यूटॉक एआई फ्रेमवर्क विकसित कर रहे हैं। उन्होंने मशीन लर्निंग में विशेषज्ञता के साथ रटगर्स विश्वविद्यालय से स्वर्ण पदक प्राप्त किया है, और जेएन टाटा छात्रवृत्ति प्राप्त की है।
डेविड एलिसन लेनोवो ISG के मुख्य डेटा वैज्ञानिक हैं। लेनोवो के यूएस और यूरोपीय एआई डिस्कवर सेंटर के माध्यम से, वह एक ऐसी टीम का नेतृत्व करते हैं जो बाहरी ग्राहकों के लिए समाधान देने के लिए अत्याधुनिक एआई तकनीकों का उपयोग करती है, जबकि आंतरिक रूप से वर्ल्ड वाइड इंफ्रास्ट्रक्चर सॉल्यूशंस ग्रुप के लिए समग्र एआई रणनीति का समर्थन करती है। लेनोवो में शामिल होने से पहले, उन्होंने एक अंतरराष्ट्रीय वैज्ञानिक विश्लेषण और उपकरण कंपनी चलाई और यूएस पोस्टल सर्विस के लिए डेटा साइंटिस्ट के रूप में काम किया। उससे पहले, उन्होंने जॉन्स हॉपकिंस यूनिवर्सिटी से बायोमेडिकल इंजीनियरिंग में पीएचडी प्राप्त की। नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही में दो सहित शीर्ष स्तरीय पत्रिकाओं में उनके कई प्रकाशन हैं।

दस्तावेज़ / संसाधन

लेनोवो एलएलएम आकार व्यापक फ्रेमवर्क [पीडीएफ] उपयोगकर्ता गाइड
एलएलएम साइजिंग व्यापक रूपरेखा, एलएलएम साइजिंग, व्यापक रूपरेखा, रूपरेखा

संदर्भ

उपयोगकर्ता पुस्तिका