एआई छवि पीढ़ी ने धुंधले, विकृत चेहरों का उत्पादन करने से लेकर एक मिनट से भी कम समय में फोटोरियालिस्टिक दृश्य और विस्तृत चित्रण बनाने तक का सफर तय किया है। लेकिन कंप्यूटर एक पाठ विवरण से एक तस्वीर "कल्पना" कैसे करता है? यह मार्गदर्शिका मिडज़र्नी, डीएलएल-ई, और स्टेबल डिफ्यूजन जैसे टूल्स के पीछे की मूल तकनीक की व्याख्या करती है - गणित के बिना, लेकिन आपको वास्तव में क्या भुगतान कर रहे हैं इसकी गहराई के साथ।

शोर से छवि तक: कैसे काम करते हैं विसरण मॉडल

अधिकांश आधुनिक छवि जनरेटर एक तकनीक का उपयोग करते हैं जिसे विसरण कहा जाता है। यह विचार विपरीत है: मॉडल एक छवि से शोर को हटाना सीखता है, इसे खींचने के लिए नहीं।

प्रशिक्षण के दौरान, सिस्टम लाखों वास्तविक छवियों को लेता है और उन्हें धीरे-धीरे यादृच्छिक शोर जोड़ता है जब तक कि वे शुद्ध स्थिर नहीं हो जातीं। फिर यह प्रत्येक चरण में मूल छवि की तरह दिखता है, यह पूर्वानुमान सीखता है। पीढ़ी के समय में, यह शुद्ध शोर से शुरू होता है और आपके पाठ प्रॉम्प्ट द्वारा निर्देशित प्रक्रिया में इसे एक सुसंगत चित्र में "शोर-मुक्त" करता है।

यही कारण है कि नमूना चरणों की संख्या का महत्व है: अधिक चरण आम तौर पर अधिक विस्तार और परिष्करण का अर्थ है, लेकिन धीमी पीढ़ी और उच्च कम्प्यूटे लागत भी है।

लेटेंट स्पेस: क्यों पीढ़ी व्यावहारिक होने के लिए पर्याप्त तेज है

पूर्ण-रिज़ॉल्यूशन पिक्सेल डेटा के साथ सीधे काम करना बहुत धीमा होगा। आधुनिक सिस्टम जैसे स्टेबल डिफ्यूजन इस समस्या का समाधान लेटेंट स्पेस में काम करके करते हैं - एक संकुचित गणितीय प्रतिनिधित्व छवि। एक एनकोडर छवि को इस कॉम्पैक्ट फॉर्म में संकुचित करता है, विसरण प्रक्रिया वहां चलती है (बहुत तेजी से), और एक डीकोडर परिणाम को पिक्सेल में वापस बढ़ाता है।

यही कारण है कि इन मॉडलों को "लेटेंट विसरण मॉडल" कहा जाता है। संपीड़न हानिपूर्ण है, लेकिन आश्चर्यजनक रूप से प्रभावी है: 512x512 छवि को 64x64 लेटेंट टेंसर के रूप में प्रतिनिधित्व किया जा सकता है पीढ़ी प्रक्रिया के दौरान।

सीएलआईपी: पाठ को छवियों से जोड़ना

मॉडल को आपके प्रॉम्प्ट को समझने की आवश्यकता है ताकि एक प्रासंगिक छवि उत्पन्न की जा सके। यहीं सीएलआईपी (विपरीत भाषा-छवि पूर्व-प्रशिक्षण) आता है। सीएलआईपी को इंटरनेट से सैकड़ों मिलियन छवि-पाठ जोड़े पर प्रशिक्षित किया गया था, पाठ विवरण और छवियों को एक ही गणितीय स्थान में मैप करना सीखा।

जब आप "एक सुनहरे रिट्रीवर को धूप के चश्मे पहने हुए समुद्र तट पर सूर्यास्त पर" टाइप करते हैं, तो सीएलआईपी उस पाठ को एक संख्यात्मक वेक्टर में परिवर्तित करता है जो अर्थ को एनकोड करता है। विसरण मॉडल इस वेक्टर का उपयोग शोर को आपके विवरण से मेल खाने वाली छवि की ओर निर्देशित करने के लिए प्रक्रिया के दौरान मार्गदर्शन के रूप में करता है। इस मार्गदर्शन की ताकत सीएफजी स्केल (वर्गीकरण-मुक्त मार्गदर्शन) नामक एक पैरामीटर द्वारा नियंत्रित होती है - उच्च मूल्य प्रॉम्प्ट का अधिक साक्षर अनुसरण करते हैं, निम्न मूल्य मॉडल को अधिक रचनात्मक स्वतंत्रता देते हैं।

फाइन-ट्यूनिंग और लोरा: आउटपुट को अनुकूलित करना

बेस मॉडल सामान्य-उद्देश्य हैं, लेकिन कई उपयोगकर्ताओं को विशिष्ट शैलियों या विषयों की आवश्यकता होती है। फाइन-ट्यूनिंग मॉडल को एक छोटे, विशेषज्ञता डेटासेट पर पुनः प्रशिक्षित करता है - उदाहरण के लिए, उत्पाद फोटो का एक सेट या एक विशेष चित्रण शैली।

पूर्ण फाइन-ट्यूनिंग महंगा है, इसलिए लोरा (लो-रैंक अनुकूलन) तकनीक मानक बन गई है। मॉडल के सभी पैरामीटर को संशोधित करने के बजाय, लोरा छोटे प्रशिक्षित परतें जोड़ता है जो न्यूनतम कम्प्यूटे के साथ आउटपुट को समायोजित करती हैं। आप 20-50 छवियों के एक विशिष्ट विषय पर एक लोरा को प्रशिक्षित कर सकते हैं और इसे बेस मॉडल पर एक फिल्टर की तरह लागू कर सकते हैं। कई सामुदायिक-निर्मित लोरा डाउनलोड के लिए उपलब्ध हैं और मिश्रित और मेल khा जा सकते हैं।

नकारात्मक प्रॉम्प्ट और नियंत्रण पैरामीटर

मुख्य प्रॉम्प्ट के अलावा, अधिकांश टूल आपको एक नकारात्मक प्रॉम्प्ट निर्दिष्ट करने देते हैं - चीजें जिन्हें आप विशेष रूप से छवि में नहीं चाहते हैं। "कोई पाठ, कोई जलमार्क, कोई अतिरिक्त उंगलियां" एक सामान्य नकारात्मक प्रॉम्प्ट है। मॉडल इसका उपयोग प्रक्रिया के दौरान अवांछित आउटपुट से दूर रहने के लिए करता है।

अन्य मुख्य पैरामीटर जिनका आप सामना करेंगे:

  • बीज: एक यादृच्छिक संख्या जो शुरुआती शोर को निर्धारित करती है। समान बीज + समान प्रॉम्प्ट = समान छवि, जो पुनरुत्पादन के लिए उपयोगी है।
  • नमूना चरण: कितने शोर-मुक्त करने वाले प्रक्रियाओं को चलाना है (आम तौर पर 20-50)।
  • सीएफजी स्केल: मॉडल प्रॉम्प्ट का कितनी सख्ती से पालन करता है बनाम मुक्त रूप से उत्पन्न करता है (आम तौर पर 5-15)।
  • रिज़ॉल्यूशन: आउटपुट छवि आयाम। उच्च रिज़ॉल्यूशन के लिए अधिक वीआरएएम और समय की आवश्यकता होती है।
मुख्य शर्तें

विसरण मॉडल: एक न्यूरल नेटवर्क जो छवियों को उत्पन्न करने के लिए एक शोर-जोड़ने की प्रक्रिया को उल्टा करना सीखता है, यादृच्छिक स्थिर को एक सुसंगत चित्र में परिष्कृत करता है।

लेटेंट स्पेस: एक संकुचित गणितीय प्रतिनिधित्व छवि डेटा जहां वास्तविक पीढ़ी होती है, जो प्रक्रिया को गणनात्मक रूप से व्यावहारिक बनाता है।

सीएलआईपी: एक मॉडल जो पाठ और छवियों के बीच संबंध को समझता है, आपके प्रॉम्प्ट के आधार पर पीढ़ी को निर्देशित करने के लिए उपयोग किया जाता है।

सीएफजी स्केल: वर्गीकरण-मुक्त मार्गदर्शन - आपके पाठ प्रॉम्प्ट का पालन करने की सख्तता को नियंत्रित करता है बनाम मुक्त रूप से उत्पन्न करता है।

लोरा: लो-रैंक अनुकूलन - एक हल्के फाइन-ट्यूनिंग विधि जो आपको एक छोटे सेट प्रशिक्षण छवियों के साथ मॉडल के आउटपुट को अनुकूलित करने देती है।

नकारात्मक प्रॉम्प्ट: एक पाठ विवरण जो तत्वों को निर्दिष्ट करता है जिन्हें आप मॉडल को उत्पन्न छवि में शामिल करने से रोकना चाहते हैं।

एक छवि पीढ़ी टूल चुनते समय क्या देखना है

अंतर्निहित प्रौद्योगिकी टूल्स में समान है, लेकिन व्यावहारिक अंतर मायने रखता है। विचार करें: आप प्रति माह कितनी छवियों का उत्पादन कर सकते हैं (कोटा नाटकीय रूप से भिन्न होते हैं), क्या टूल स्थानीय रूप से या क्लाउड में चलता है (स्थानीय = अधिक नियंत्रण लेकिन जीपीयू की आवश्यकता होती है), व्यावहारिक उपयोग के लिए लाइसेंस शर्तें, और क्या आप फाइन-ट्यून या कस्टम लोरा का उपयोग कर सकते हैं। कुछ टूल फोटोरियालिज़म में उत्कृष्ट हैं, अन्य चित्रण या अवधारणा कला में। इस साइट पर तुलना टूल द्वारा इन मतभेदों को तोड़ती है।