diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md new file mode 100644 index 000000000..caaf0c506 --- /dev/null +++ b/1-Introduction/01-defining-data-science/translations/README.hi.md @@ -0,0 +1,164 @@ +# डेटा विज्ञान को परिभाषित करना + +| ](/sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +--- + +[](https://youtu.be/beZ7Mb_oz9I) + +## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) + +## डेटा क्या है? +अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं। + +हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है। + +इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं। +> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था? + +## डेटा साइंस क्या है? + +[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) में, **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. + +यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है:: + +* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना। +* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है। +* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं। +* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे। +* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि। + +> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है। + +(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए: +* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं +* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं +* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं +* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित + +## अन्य संबंधित क्षेत्र + +चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है। + +
+
+यहां हम **अंतर-चतुर्थक श्रेणी** IQR=Q3-Q1, और तथाकथित **आउटलेयर** - मानों की भी गणना करते हैं, जो सीमाओं के बाहर होते हैं [Q1-1.5*IQR,Q3+1.5*IQR]।
+
+परिमित वितरण के लिए जिसमें कम संख्या में संभावित मान होते हैं, एक अच्छा "विशिष्ट" मान वह होता है जो सबसे अधिक बार प्रकट होता है, जिसे **मोड** कहा जाता है। इसे अक्सर रंग जैसे श्रेणीबद्ध डेटा पर लागू किया जाता है। एक ऐसी स्थिति पर विचार करें जब हमारे पास लोगों के दो समूह हों - कुछ जो लाल रंग को अधिक पसंद करते हैं, और अन्य जो नीले रंग को पसंद करते हैं। यदि हम रंगों को संख्याओं के आधार पर कोडित करते हैं, तो पसंदीदा रंग का माध्य मान नारंगी-हरे रंग के स्पेक्ट्रम में कहीं होगा, जो किसी भी समूह पर वास्तविक वरीयता को इंगित नहीं करता है। हालांकि, मोड या तो रंगों में से एक होगा, या दोनों रंग, यदि उनके लिए मतदान करने वाले लोगों की संख्या बराबर है (इस मामले में हम नमूने को **मल्टीमॉडल** कहते हैं)।
+
+## वास्तविक दुनिया का डेटा
+
+जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया ह। (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं):
+
+
+```
+[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
+```
+
+> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें।
+
+हमारे डेटा के लिए माध्य, माध्यिका और चतुर्थक दिखाने वाला बॉक्स प्लॉट यहां दिया गया है:
+
+
+
+चूंकि हमारे डेटा में अलग-अलग खिलाड़ी **भूमिकाएं** के बारे में जानकारी है, इसलिए हम भूमिका के आधार पर बॉक्स प्लॉट भी कर सकते हैं - यह हमें यह विचार प्राप्त करने की अनुमति देगा कि कैसे पैरामीटर मान भूमिकाओं में भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे:
+
+
+
+यह आरेख बताता है कि, औसतन, पहले बेसमेन की ऊंचाई दूसरे बेसमेन की ऊंचाई से अधिक होती है। बाद में इस पाठ में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और यह कैसे प्रदर्शित करें कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है।
+
+> वास्तविक दुनिया के डेटा के साथ काम करते समय, हम मानते हैं कि सभी डेटा बिंदु कुछ संभाव्यता वितरण से लिए गए नमूने हैं। यह धारणा हमें मशीन लर्निंग तकनीकों को लागू करने और कार्यशील भविष्य कहनेवाला मॉडल बनाने की अनुमति देती है।
+
+यह देखने के लिए कि हमारे डेटा का वितरण क्या है, हम एक ग्राफ बना सकते हैं जिसे **हिस्टोग्राम** कहा जाता है। एक्स-अक्ष में कई अलग-अलग वज़न अंतराल (तथाकथित **बिन्स**) होंगे, और ऊर्ध्वाधर अक्ष दिखाएगा कि हमारा यादृच्छिक चर नमूना किसी दिए गए अंतराल के अंदर कितनी बार था।
+
+
+
+इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान निश्चित औसत वजन के आसपास केंद्रित होते हैं, और हम उस वजन से जितना आगे जाते हैं - उस मान के कम वजन का सामना करना पड़ता है। यानी, यह बहुत ही असंभव है कि बेसबॉल खिलाड़ी का वजन औसत वजन से बहुत अलग होगा। भार में भिन्नता यह दर्शाती है कि भार किस हद तक माध्य से भिन्न होने की संभावना है।
+
+> अगर हम बेसबॉल लीग से नहीं, बल्कि अन्य लोगों का वजन लेते हैं, तो वितरण अलग होने की संभावना है। हालाँकि, वितरण का आकार समान होगा, लेकिन माध्य और विचरण बदल जाएगा। इसलिए, यदि हम अपने मॉडल को बेसबॉल खिलाड़ियों पर प्रशिक्षित करते हैं, तो विश्वविद्यालय के छात्रों पर लागू होने पर यह गलत परिणाम देने की संभावना है, क्योंकि अंतर्निहित वितरण अलग है।
+
+## सामान्य वितरण
+
+वजन का वितरण जो हमने ऊपर देखा है वह बहुत विशिष्ट है, और वास्तविक दुनिया से कई माप एक ही प्रकार के वितरण का पालन करते हैं, लेकिन अलग-अलग माध्य और भिन्नता के साथ। इस वितरण को **सामान्य वितरण** कहा जाता है, और यह आंकड़ों में बहुत महत्वपूर्ण भूमिका निभाता है।
+
+सामान्य वितरण का उपयोग करना संभावित बेसबॉल खिलाड़ियों के यादृच्छिक भार उत्पन्न करने का एक सही तरीका है। एक बार जब हम माध्य वजन `माध्य` और मानक विचलन `एसटीडी` जान लेते हैं, तो हम निम्नलिखित तरीके से 1000 वजन के नमूने तैयार कर सकते हैं:
+```python
+samples = np.random.normal(mean,std,1000)
+```
+
+यदि हम उत्पन्न नमूनों के हिस्टोग्राम की साजिश करते हैं तो हम ऊपर दिखाए गए चित्र के समान ही चित्र देखेंगे। और अगर हम नमूनों की संख्या और डिब्बे की संख्या में वृद्धि करते हैं, तो हम एक सामान्य वितरण की एक तस्वीर उत्पन्न कर सकते हैं जो आदर्श के अधिक करीब है:
+
+
+
+
+*माध्य = 0 और std.dev=1* के साथ सामान्य वितरण
+
+## विश्वास अंतराल
+
+जब हम बेसबॉल खिलाड़ियों के वजन के बारे में बात करते हैं, तो हम मानते हैं कि कुछ निश्चित **यादृच्छिक चर W** है जो सभी बेसबॉल खिलाड़ियों (तथाकथित **जनसंख्या**) के वजन के आदर्श संभाव्यता वितरण से मेल खाती है। वजन का हमारा क्रम सभी बेसबॉल खिलाड़ियों के एक उपसमुच्चय से मेल खाता है जिसे हम **नमूना** कहते हैं। एक दिलचस्प सवाल यह है कि क्या हम डब्ल्यू के वितरण के मापदंडों को जान सकते हैं, यानी जनसंख्या का माध्य और विचरण?
+
+सबसे आसान उत्तर हमारे नमूने के माध्य और विचरण की गणना करना होगा। हालाँकि, ऐसा हो सकता है कि हमारा यादृच्छिक नमूना पूर्ण जनसंख्या का सटीक रूप से प्रतिनिधित्व नहीं करता है। इस प्रकार **कॉन्फिडेंस इंटरवल** के बारे में बात करना समझ में आता है।
+
+> **विश्वास अंतराल** हमारे नमूने को देखते हुए जनसंख्या के वास्तविक माध्य का अनुमान है, जो एक निश्चित प्रायिकता (या **विश्वास का स्तर**) सटीक है।
+
+मान लीजिए हमारे पास हमारे वितरण से एक नमूना X1, ..., Xn है। हर बार जब हम अपने वितरण से एक नमूना लेते हैं, तो हम अलग-अलग माध्य मान के साथ समाप्त होते हैं। इस प्रकार μ एक यादृच्छिक चर माना जा सकता है। एक **विश्वास अंतराल** विश्वास के साथ p मानों की एक जोड़ी है (Lp,Rp), जैसे कि **P**(Lp ≤μ≤Rp) = p, यानी अंतराल के भीतर मापे गए माध्य मान के गिरने की प्रायिकता p के बराबर होती है।
+
+यह विस्तार से चर्चा करने के लिए हमारे संक्षिप्त परिचय से परे है कि उन आत्मविश्वास अंतराल की गणना कैसे की जाती है। कुछ और विवरण [विकिपीडिया पर](https://en.wikipedia.org/wiki/Confidence_interval) देखे जा सकते हैं। संक्षेप में, हम जनसंख्या के वास्तविक माध्य के सापेक्ष परिकलित नमूना माध्य के वितरण को परिभाषित करते हैं, जिसे **छात्र वितरण** कहा जाता है।
+
+> **दिलचस्प तथ्य**: छात्र वितरण का नाम गणितज्ञ विलियम सीली गॉसेट के नाम पर रखा गया है, जिन्होंने छद्म नाम "स्टूडेंट" के तहत अपना पेपर प्रकाशित किया था। उन्होंने गिनीज शराब की भठ्ठी में काम किया, और, एक संस्करण के अनुसार, उनके नियोक्ता नहीं चाहते थे कि आम जनता को पता चले कि वे कच्चे माल की गुणवत्ता निर्धारित करने के लिए सांख्यिकीय परीक्षणों का उपयोग कर रहे थे।
+
+यदि हम माध्य का अनुमान लगाना चाहते हैं μ हमारी जनसंख्या का विश्वास p के साथ, हमें छात्र वितरण A का *(1-p)/2-th प्रतिशत* लेने की आवश्यकता है, जिसे या तो तालिकाओं से लिया जा सकता है, या कंप्यूटर सांख्यिकीय सॉफ़्टवेयर के कुछ अंतर्निहित कार्यों का उपयोग करके (उदाहरण के लिए पायथन, आर, आदि)। फिर अंतराल के लिए μ X±A*D/√n द्वारा दिया जाएगा, जहां X नमूने का प्राप्त माध्य है, D मानक विचलन है।
+
+> **नोट**: हम [स्वतंत्रता की डिग्री](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) की एक महत्वपूर्ण अवधारणा की चर्चा को भी छोड़ देते हैं, जो छात्र वितरण के संबंध में महत्वपूर्ण है। इस अवधारणा को गहराई से समझने के लिए आप सांख्यिकी पर अधिक संपूर्ण पुस्तकों का उल्लेख कर सकते हैं।
+
+वजन और ऊंचाई के लिए आत्मविश्वास अंतराल की गणना का एक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में दिया गया है।
+
+| p | Weight mean |
+|-----|-----------|
+| 0.85 | 201.73±0.94 |
+| 0.90 | 201.73±1.08 |
+| 0.95 | 201.73±1.28 |
+
+ध्यान दें कि आत्मविश्वास की संभावना जितनी अधिक होगी, विश्वास अंतराल उतना ही व्यापक होगा।
+
+## परिकल्पना परीक्षण
+
+हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) देखें):
+
+| Role | Height | Weight | Count |
+|------|--------|--------|-------|
+| Catcher | 72.723684 | 204.328947 | 76 |
+| Designated_Hitter | 74.222222 | 220.888889 | 18 |
+| First_Baseman | 74.000000 | 213.109091 | 55 |
+| Outfielder | 73.010309 | 199.113402 | 194 |
+| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
+| Second_Baseman | 71.362069 | 184.344828 | 58 |
+| Shortstop | 71.903846 | 182.923077 | 52 |
+| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
+| Third_Baseman | 73.044444 | 200.955556 | 45 |
+
+हम देख सकते हैं कि पहले बेसमेन की औसत ऊंचाई दूसरे बेसमेन की तुलना में अधिक है। इस प्रकार, हम यह निष्कर्ष निकालने के लिए ललचा सकते हैं कि **पहले बेसमेन दूसरे बेसमेन से अधिक हैं**।
+
+> इस कथन को **एक परिकल्पना** कहा जाता है, क्योंकि हम नहीं जानते कि तथ्य वास्तव में सत्य है या नहीं।
+
+हालांकि, यह हमेशा स्पष्ट नहीं होता है कि क्या हम यह निष्कर्ष निकाल सकते हैं। ऊपर की चर्चा से हम जानते हैं कि प्रत्येक माध्य का एक संबद्ध विश्वास अंतराल होता है, और इस प्रकार यह अंतर केवल एक सांख्यिकीय त्रुटि हो सकता है। हमें अपनी परिकल्पना का परीक्षण करने के लिए कुछ और औपचारिक तरीके की आवश्यकता है।
+
+आइए पहले और दूसरे बेसमेन की ऊंचाई के लिए अलग-अलग आत्मविश्वास अंतराल की गणना करें:
+
+| Confidence | First Basemen | Second Basemen |
+|------------|---------------|----------------|
+| 0.85 | 73.62..74.38 | 71.04..71.69 |
+| 0.90 | 73.56..74.44 | 70.99..71.73 |
+| 0.95 | 73.47..74.53 | 70.92..71.81 |
+
+हम देख सकते हैं कि बिना किसी विश्वास के अंतराल ओवरलैप हो जाते हैं। इससे हमारी परिकल्पना सिद्ध होती है कि पहले बेसमेन दूसरे बेसमेन से ऊंचे होते हैं।
+
+अधिक औपचारिक रूप से, हम जिस समस्या को हल कर रहे हैं वह यह देखना है कि क्या **दो संभाव्यता वितरण समान हैं**, या कम से कम समान पैरामीटर हैं। वितरण के आधार पर, हमें उसके लिए विभिन्न परीक्षणों का उपयोग करने की आवश्यकता है। यदि हम जानते हैं कि हमारे वितरण सामान्य हैं, तो हम **[स्टूडेंट टी-टेस्ट](https://en.wikipedia.org/wiki/Student%27s_t-test)** लागू कर सकते हैं।
+
+स्टूडेंट टी-टेस्ट में, हम तथाकथित **टी-वैल्यू** की गणना करते हैं, जो भिन्नता को ध्यान में रखते हुए, साधनों के बीच अंतर को इंगित करता है। यह प्रदर्शित किया जाता है कि टी-मान **छात्र वितरण** का अनुसरण करता है, जो हमें दिए गए आत्मविश्वास स्तर **p** के लिए थ्रेशोल्ड मान प्राप्त करने की अनुमति देता है (इसकी गणना की जा सकती है, या संख्यात्मक तालिकाओं में देखा जा सकता है)। फिर हम परिकल्पना को स्वीकृत या अस्वीकार करने के लिए टी-मान की तुलना इस सीमा से करते हैं।
+
+पायथन में, हम **SciPy** पैकेज का उपयोग कर सकते हैं, जिसमें `ttest_ind` फ़ंक्शन शामिल है (कई अन्य उपयोगी सांख्यिकीय कार्यों के अलावा!)। यह हमारे लिए टी-वैल्यू की गणना करता है, और कॉन्फिडेंस पी-वैल्यू की रिवर्स लुकअप भी करता है, ताकि हम निष्कर्ष निकालने के लिए कॉन्फिडेंस को देख सकें।
+
+उदाहरण के लिए, पहले और दूसरे बेसमेन की ऊंचाई के बीच हमारी तुलना हमें निम्नलिखित परिणाम देती है:
+
+```python
+from scipy.stats import ttest_ind
+
+tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
+print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
+```
+```
+T-value = 7.65
+P-value: 9.137321189738925e-12
+```
+
+हमारे मामले में, पी-वैल्यू बहुत कम है, जिसका अर्थ है कि इस बात का समर्थन करने वाले मजबूत सबूत हैं कि पहले बेसमेन लम्बे होते हैं।
+
+अन्य विभिन्न प्रकार की परिकल्पनाएँ भी हैं जिनका हम परीक्षण करना चाहते हैं, उदाहरण के लिए:
+* यह साबित करने के लिए कि दिया गया नमूना कुछ वितरण का अनुसरण करता है। हमारे मामले में हमने मान लिया है कि ऊंचाई सामान्य रूप से वितरित की जाती है, लेकिन इसके लिए औपचारिक सांख्यिकीय सत्यापन की आवश्यकता होती है।
+* यह सिद्ध करने के लिए कि नमूने का माध्य मान कुछ पूर्वनिर्धारित मान से मेल खाता है
+* कई नमूनों के साधनों की तुलना करना (उदाहरण के लिए विभिन्न आयु समूहों में खुशी के स्तर में क्या अंतर है)
+
+## बड़ी संख्या का नियम और केंद्रीय सीमा प्रमेय
+
+सामान्य वितरण के इतना महत्वपूर्ण होने का एक कारण तथाकथित **केंद्रीय सीमा प्रमेय** है। मान लीजिए कि हमारे पास स्वतंत्र N मानों X1, ..., XN का एक बड़ा नमूना है, जिसे माध्य μ और विचरण &सिग्मा;2. फिर, पर्याप्त रूप से बड़े N के लिए (दूसरे शब्दों में, जब N→∞), माध्य ΣiXi को सामान्य रूप से माध्य &mu के साथ वितरित किया जाएगा; और विचरण σ2/N.
+
+> केंद्रीय सीमा प्रमेय की व्याख्या करने का एक अन्य तरीका यह कहना है कि वितरण की परवाह किए बिना, जब आप किसी भी यादृच्छिक चर मानों के योग के माध्य की गणना करते हैं तो आप सामान्य वितरण के साथ समाप्त होते हैं।
+
+केंद्रीय सीमा प्रमेय से यह भी पता चलता है कि, जब N&rar;∞, नमूने के माध्य की प्रायिकता μ बन जाता है 1. इसे **बड़ी संख्या का नियम** कहते हैं।
+
+## सहप्रसरण और सहसंबंध
+
+डेटा साइंस द्वारा की जाने वाली चीजों में से एक डेटा के बीच संबंध ढूंढ रहा है। हम कहते हैं कि दो अनुक्रम **सहसम्बन्ध** तब होते हैं जब वे एक ही समय में समान व्यवहार प्रदर्शित करते हैं, अर्थात वे या तो एक साथ उठते/गिरते हैं, या एक क्रम ऊपर उठता है जब दूसरा गिरता है और इसके विपरीत। दूसरे शब्दों में, दो अनुक्रमों के बीच कुछ संबंध प्रतीत होता है।
+
+> सहसंबंध आवश्यक रूप से दो अनुक्रमों के बीच कारण संबंध को इंगित नहीं करता है; कभी-कभी दोनों चर किसी बाहरी कारण पर निर्भर हो सकते हैं, या यह विशुद्ध रूप से संयोग से दो अनुक्रम सहसंबद्ध हो सकते हैं। हालांकि, मजबूत गणितीय सहसंबंध एक अच्छा संकेत है कि दो चर किसी न किसी तरह से जुड़े हुए हैं।
+
+गणितीय रूप से, मुख्य अवधारणा जो दो यादृच्छिक चर के बीच संबंध दिखाती है, वह है **सहप्रसरण**, जिसकी गणना इस प्रकार की जाती है: Cov(X,Y) = **E**\[(X-**E**(X) ))(वाई-**ई**(वाई))\]। हम दोनों चरों के विचलन की गणना उनके माध्य मानों से करते हैं, और फिर उन विचलनों के गुणनफल की गणना करते हैं। यदि दोनों चर एक साथ विचलित होते हैं, तो उत्पाद हमेशा एक सकारात्मक मूल्य होगा, जो कि सकारात्मक सहप्रसरण को जोड़ देगा। यदि दोनों चर आउट-ऑफ-सिंक विचलित हो जाते हैं (अर्थात एक औसत से नीचे गिर जाता है जब दूसरा औसत से ऊपर उठता है), तो हमें हमेशा ऋणात्मक संख्याएँ मिलेंगी, जो कि ऋणात्मक सहप्रसरण को जोड़ देंगी। यदि विचलन निर्भर नहीं हैं, तो वे लगभग शून्य तक जोड़ देंगे।
+
+सहप्रसरण का निरपेक्ष मान हमें यह नहीं बताता कि सहसंबंध कितना बड़ा है, क्योंकि यह वास्तविक मूल्यों के परिमाण पर निर्भर करता है। इसे सामान्य करने के लिए, हम **सहसंबंध** प्राप्त करने के लिए, दोनों चरों के मानक विचलन द्वारा सहप्रसरण को विभाजित कर सकते हैं। अच्छी बात यह है कि सहसंबंध हमेशा [-1,1] की सीमा में होता है, जहां 1 मूल्यों के बीच मजबूत सकारात्मक सहसंबंध को इंगित करता है, -1 - मजबूत नकारात्मक सहसंबंध, और 0 - बिल्कुल भी कोई संबंध नहीं (चर स्वतंत्र हैं)।
+
+**उदाहरण**: हम ऊपर बताए गए डेटासेट से बेसबॉल खिलाड़ियों के वज़न और ऊंचाई के बीच सहसंबंध की गणना कर सकते हैं:
+
+```python
+print(np.corrcoef(weights,heights))
+```
+नतीजतन, हमें इस तरह **सहसंबंध मैट्रिक्स** मिलता है:
+```
+array([[1. , 0.52959196],
+ [0.52959196, 1. ]])
+```
+
+> सहसंबंध मैट्रिक्स C की गणना किसी भी इनपुट अनुक्रम S1, ..., Sn के लिए की जा सकती है। Cij का मान Si और Sj के बीच सहसंबंध है, और विकर्ण तत्व हमेशा 1 होते हैं (जो कि स्व-सहसंबंध भी है एस<उप>मैं)।
+
+हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वजन और ऊंचाई के बीच कुछ संबंध है। हम रिश्ते को देखने के लिए दूसरे के खिलाफ एक मूल्य का स्कैटर प्लॉट भी बना सकते हैं:
+
+
+
+> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में पाए जा सकते हैं।
+
+## निष्कर्ष
+
+इस भाग में हमने सीखा है:
+
+* डेटा के बुनियादी सांख्यिकीय गुण, जैसे माध्य, विचरण, मोड और चतुर्थक
+* सामान्य वितरण सहित यादृच्छिक चर के विभिन्न वितरण
+* विभिन्न गुणों के बीच सहसंबंध कैसे खोजें
+* कुछ परिकल्पनाओं को सिद्ध करने के लिए गणित और सांख्यिकी के ध्वनि उपकरण का उपयोग कैसे करें,
+* यादृच्छिक चर दिए गए डेटा नमूने के लिए विश्वास अंतराल की गणना कैसे करें
+
+हालांकि यह निश्चित रूप से उन विषयों की संपूर्ण सूची नहीं है जो संभाव्यता और आंकड़ों के भीतर मौजूद हैं, यह आपको इस पाठ्यक्रम में एक अच्छी शुरुआत देने के लिए पर्याप्त होना चाहिए।
+
+## चुनौती
+
+अन्य परिकल्पना का परीक्षण करने के लिए नोटबुक में नमूना कोड का उपयोग करें जो:
+1. पहले बेसमेन दूसरे बेसमेन से बड़े होते हैं
+2. पहले बेसमेन तीसरे बेसमेन से लम्बे होते हैं
+3. शॉर्टस्टॉप दूसरे बेसमेन से लम्बे होते हैं
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/7)
+
+## समीक्षा और आत्म अध्ययन
+
+संभाव्यता और सांख्यिकी इतना व्यापक विषय है कि यह अपने पाठ्यक्रम के योग्य है। यदि आप सिद्धांत में गहराई तक जाने में रुचि रखते हैं, तो आप निम्नलिखित में से कुछ पुस्तकों को पढ़ना जारी रख सकते हैं:
+
+1. न्यूयॉर्क विश्वविद्यालय के [कार्लोस फर्नांडीज-ग्रांडा](https://cims.nyu.edu/~cfgranda/) के पास डेटा साइंस के लिए [संभाव्यता और सांख्यिकी](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ऑनलाइन उपलब्ध) के लिए महान व्याख्यान नोट्स हैं।
+1. [पीटर और एंड्रयू ब्रूस। डेटा वैज्ञानिकों के लिए व्यावहारिक सांख्यिकी](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) । [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
+1. [जेम्स डी. मिलर। डेटा विज्ञान के लिए सांख्यिकी](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
+
+## कार्यभार
+
+[लघु मधुमेह अध्ययन](assignment.hi.md)
+
+## क्रेडिट
+
+यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है।
diff --git a/1-Introduction/04-stats-and-probability/translations/assignment.hi.md b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md
new file mode 100644
index 000000000..f65156d4e
--- /dev/null
+++ b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md
@@ -0,0 +1,25 @@
+# लघु मधुमेह अध्ययन
+इस असाइनमेंट में, हम [यहाँ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) से लिए गए मधुमेह रोगियों के एक छोटे डेटासेट के साथ काम करेंगे।
+
+| | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y |
+|---|-----|-----|-----|----|----|----|----|----|----|----|----|
+| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
+| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
+| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
+| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
+
+## निर्देश
+
+* ज्यूपिटर नोटबुक वातावरण में [असाइनमेंट नोटबुक] (असाइनमेंट.आईपीएनबी) खोलें
+* नोटबुक में सूचीबद्ध सभी कार्यों को पूरा करें, अर्थात्:
+ * [ ] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें
+ * [ ] लिंग के आधार पर बीएमआई, बीपी और वाई के लिए प्लॉट बॉक्सप्लॉट
+ * [ ] आयु, लिंग, बीएमआई और वाई चर का वितरण क्या है?
+ * [ ] विभिन्न चर और रोग प्रगति के बीच सहसंबंध का परीक्षण करें (Y)
+ * [ ] इस परिकल्पना का परीक्षण करें कि पुरुषों और महिलाओं के बीच मधुमेह की प्रगति की डिग्री अलग है
+
+## सरनामा
+
+अनुकरणीय | पर्याप्त | सुधार की जरूरत
+--- | --- | -- |
+सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है
diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md
new file mode 100644
index 000000000..9a4eb85fe
--- /dev/null
+++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md
@@ -0,0 +1,179 @@
+# डेटा के साथ कार्य करना: संबंधपरक डेटाबेस
+
+| ](/sketchnotes/05-RelationalData.png)|
+|:---:|
+| डेटा के साथ कार्य करना: संबंधपरक डेटाबेस - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
+
+संभावना है कि आपने जानकारी संग्रहीत करने के लिए अतीत में एक स्प्रेडशीट का उपयोग किया है। आपके पास पंक्तियों और स्तंभों का एक सेट था, जहाँ पंक्तियों में जानकारी (या डेटा) होती थी, और स्तंभों में जानकारी (कभी-कभी मेटाडेटा कहा जाता है) का वर्णन होता था। तालिकाओं में स्तंभों और पंक्तियों के इस मूल सिद्धांत पर एक संबंधपरक डेटाबेस बनाया गया है, जिससे आप कई तालिकाओं में जानकारी फैला सकते हैं। इससे आप अधिक जटिल डेटा के साथ काम कर सकते हैं, दोहराव से बच सकते हैं, और डेटा को एक्सप्लोर करने के तरीके में लचीलापन रख सकते हैं। आइए एक रिलेशनल डेटाबेस की अवधारणाओं का पता लगाएं।
+
+## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8)
+
+## यह सब टेबल से शुरू होता है
+
+एक रिलेशनल डेटाबेस में इसकी कोर टेबल होती है। स्प्रैडशीट की तरह ही, तालिका स्तंभों और पंक्तियों का एक संग्रह है। पंक्ति में वह डेटा या जानकारी होती है जिसके साथ हम काम करना चाहते हैं, जैसे किसी शहर का नाम या वर्षा की मात्रा। कॉलम उनके द्वारा संग्रहीत डेटा का वर्णन करते हैं।
+
+आइए शहरों के बारे में जानकारी संग्रहीत करने के लिए एक तालिका शुरू करके अपनी खोज शुरू करें। हम उनके नाम और देश से शुरुआत कर सकते हैं। आप इसे एक टेबल में इस प्रकार स्टोर कर सकते हैं:
+
+| City | Country |
+| -------- | ------------- |
+| Tokyo | Japan |
+| Atlanta | United States |
+| Auckland | New Zealand |
+
+ध्यान दें कि **शहर**, **देश** और **जनसंख्या** के कॉलम नाम संग्रहीत किए जा रहे डेटा का वर्णन करते हैं, और प्रत्येक पंक्ति में एक शहर के बारे में जानकारी होती है।
+
+## सिंगल टेबल अप्रोच की कमियां
+
+संभावना है, ऊपर दी गई तालिका आपको अपेक्षाकृत परिचित लगती है। आइए अपने बढ़ते डेटाबेस में कुछ अतिरिक्त डेटा जोड़ना शुरू करें - वार्षिक वर्षा (मिलीमीटर में)। हम वर्ष 2018, 2019 और 2020 पर ध्यान केंद्रित करेंगे। अगर हम इसे टोक्यो के लिए जोड़ते हैं, तो यह कुछ इस तरह दिख सकता है:
+
+| City | Country | Year | Amount |
+| ----- | ------- | ---- | ------ |
+| Tokyo | Japan | 2020 | 1690 |
+| Tokyo | Japan | 2019 | 1874 |
+| Tokyo | Japan | 2018 | 1445 |
+
+आप हमारी तालिका के बारे में क्या देखते हैं? आप देख सकते हैं कि हम शहर के नाम और देश को बार-बार दोहरा रहे हैं। इसमें काफी स्टोरेज लग सकता है, और इसकी कई प्रतियां रखने के लिए काफी हद तक अनावश्यक है। आखिरकार, टोक्यो का केवल एक ही नाम है जिसमें हम रुचि रखते हैं।
+
+ठीक है, चलो कुछ और कोशिश करते हैं। आइए प्रत्येक वर्ष के लिए नए कॉलम जोड़ें:
+
+| City | Country | 2018 | 2019 | 2020 |
+| -------- | ------------- | ---- | ---- | ---- |
+| Tokyo | Japan | 1445 | 1874 | 1690 |
+| Atlanta | United States | 1779 | 1111 | 1683 |
+| Auckland | New Zealand | 1386 | 942 | 1176 |
+
+हालांकि यह पंक्ति दोहराव से बचा जाता है, लेकिन यह कुछ अन्य चुनौतियों को भी जोड़ता है। हर बार नया साल आने पर हमें अपनी तालिका की संरचना को संशोधित करने की आवश्यकता होगी। इसके अतिरिक्त, जैसे-जैसे हमारा डेटा बढ़ता है, वैसे-वैसे हमारे वर्षों में कॉलम के रूप में मूल्यों को पुनः प्राप्त करना और गणना करना मुश्किल हो जाएगा।
+
+यही कारण है कि हमें कई तालिकाओं और संबंधों की आवश्यकता है। अपने डेटा को अलग करके हम दोहराव से बच सकते हैं और हम अपने डेटा के साथ काम करने के तरीके में अधिक लचीलापन रखते हैं।
+
+## रिश्तों की अवधारणा
+
+आइए अपने डेटा पर वापस लौटें और निर्धारित करें कि हम चीजों को कैसे विभाजित करना चाहते हैं। हम जानते हैं कि हम अपने शहरों के लिए नाम और देश को संग्रहित करना चाहते हैं, इसलिए यह शायद एक टेबल में सबसे अच्छा काम करेगा।
+
+| City | Country |
+| -------- | ------------- |
+| Tokyo | Japan |
+| Atlanta | United States |
+| Auckland | New Zealand |
+
+लेकिन इससे पहले कि हम अगली तालिका बनाएं, हमें यह पता लगाना होगा कि प्रत्येक शहर को कैसे संदर्भित किया जाए। हमें किसी पहचानकर्ता, आईडी या (तकनीकी डेटाबेस के संदर्भ में) प्राथमिक कुंजी की आवश्यकता है। प्राथमिक कुंजी एक मान है जिसका उपयोग किसी तालिका में एक विशिष्ट पंक्ति की पहचान करने के लिए किया जाता है। हालांकि यह स्वयं एक मूल्य पर आधारित हो सकता है (उदाहरण के लिए, हम शहर के नाम का उपयोग कर सकते हैं), यह लगभग हमेशा एक संख्या या अन्य पहचानकर्ता होना चाहिए। हम नहीं चाहते कि आईडी कभी बदले क्योंकि इससे रिश्ता टूट जाएगा। आप ज्यादातर मामलों में पाएंगे कि प्राथमिक कुंजी या आईडी एक स्वतः उत्पन्न संख्या होगी।
+
+> प्राथमिक कुंजी को अक्सर पीके के रूप में संक्षिप्त किया जाता है
+
+### शहरों
+
+| city_id | City | Country |
+| ------- | -------- | ------------- |
+| 1 | Tokyo | Japan |
+| 2 | Atlanta | United States |
+| 3 | Auckland | New Zealand |
+
+> ✅ आप देखेंगे कि हम इस पाठ के दौरान "आईडी" और "प्राथमिक कुंजी" शब्दों का परस्पर उपयोग करते हैं। यहाँ की अवधारणाएँ DataFrames पर लागू होती हैं, जिन्हें आप बाद में एक्सप्लोर करेंगे। डेटाफ़्रेम "प्राथमिक कुंजी" की शब्दावली का उपयोग नहीं करते हैं, हालांकि आप देखेंगे कि वे उसी तरह से बहुत अधिक व्यवहार करते हैं।
+
+हमारे शहरों की तालिका बनाने के साथ, आइए वर्षा को संग्रहित करें। हम शहर के बारे में पूरी जानकारी की नकल करने के बजाय आईडी का उपयोग कर सकते हैं। हमें यह भी सुनिश्चित करना चाहिए कि नई बनाई गई तालिका में एक *id* कॉलम भी हो, क्योंकि सभी तालिकाओं में एक आईडी या प्राथमिक कुंजी होनी चाहिए।
+
+### बारिश
+
+| rainfall_id | city_id | Year | Amount |
+| ----------- | ------- | ---- | ------ |
+| 1 | 1 | 2018 | 1445 |
+| 2 | 1 | 2019 | 1874 |
+| 3 | 1 | 2020 | 1690 |
+| 4 | 2 | 2018 | 1779 |
+| 5 | 2 | 2019 | 1111 |
+| 6 | 2 | 2020 | 1683 |
+| 7 | 3 | 2018 | 1386 |
+| 8 | 3 | 2019 | 942 |
+| 9 | 3 | 2020 | 1176 |
+
+नव निर्मित **वर्षा** तालिका के अंदर **city_id** कॉलम पर ध्यान दें। इस कॉलम में वे मान हैं जो **शहरों** तालिका में आईडी का संदर्भ देते हैं। तकनीकी संबंधपरक डेटा के संदर्भ में, इसे **विदेशी कुंजी** कहा जाता है; यह किसी अन्य तालिका से प्राथमिक कुंजी है। आप इसे केवल एक संदर्भ या सूचक के रूप में सोच सकते हैं। **सिटी_आईडी** 1 संदर्भ टोक्यो।
+
+> [!नोट] विदेशी कुंजी को अक्सर FK . के रूप में संक्षिप्त किया जाता है
+
+## डेटा पुनर्प्राप्त करना
+
+हमारे डेटा को दो तालिकाओं में विभाजित करके, आप सोच रहे होंगे कि हम इसे कैसे पुनः प्राप्त करते हैं। यदि हम एक रिलेशनल डेटाबेस जैसे MySQL, SQL सर्वर या Oracle का उपयोग कर रहे हैं, तो हम स्ट्रक्चर्ड क्वेरी लैंग्वेज या SQL नामक भाषा का उपयोग कर सकते हैं। SQL (कभी-कभी उच्चारित अगली कड़ी) एक मानक भाषा है जिसका उपयोग रिलेशनल डेटाबेस में डेटा को पुनः प्राप्त करने और संशोधित करने के लिए किया जाता है।
+
+डेटा पुनर्प्राप्त करने के लिए आप `SELECT` कमांड का उपयोग करते हैं। इसके मूल में, आप उन स्तंभों को **चुनते हैं जिन्हें आप देखना चाहते हैं **से** उस तालिका में जिसमें वे शामिल हैं। यदि आप केवल शहरों के नाम प्रदर्शित करना चाहते हैं, तो आप निम्न का उपयोग कर सकते हैं:
+
+```sql
+SELECT city
+FROM cities;
+
+-- Output:
+-- Tokyo
+-- Atlanta
+-- Auckland
+```
+
+`चयन` वह जगह है जहां आप कॉलम सूचीबद्ध करते हैं, और `से` वह जगह है जहां आप टेबल सूचीबद्ध करते हैं।
+
+> [नोट] SQL सिंटैक्स केस-असंवेदनशील है, जिसका अर्थ है `चुनें` और `चयन` का मतलब एक ही है। हालाँकि, आप जिस प्रकार के डेटाबेस का उपयोग कर रहे हैं उसके आधार पर कॉलम और टेबल केस संवेदनशील हो सकते हैं। नतीजतन, प्रोग्रामिंग में हर चीज को हमेशा केस संवेदी की तरह व्यवहार करना सबसे अच्छा अभ्यास है। SQL क्वेरी लिखते समय सामान्य परंपरा यह है कि कीवर्ड को सभी अपर-केस अक्षरों में रखा जाए।
+
+उपरोक्त क्वेरी सभी शहरों को प्रदर्शित करेगी। आइए कल्पना करें कि हम केवल न्यूजीलैंड में शहरों को प्रदर्शित करना चाहते थे। हमें किसी प्रकार के फ़िल्टर की आवश्यकता है। इसके लिए SQL कीवर्ड `WHERE` या "जहां कुछ सच है" है।
+
+```sql
+SELECT city
+FROM cities
+WHERE country = 'New Zealand';
+
+-- Output:
+-- Auckland
+```
+
+## डेटा में शामिल होना
+
+अब तक हमने एक ही टेबल से डेटा रिकवर किया है। अब हम **शहरों** और **वर्षा** दोनों के डेटा को एक साथ लाना चाहते हैं। यह उन्हें एक साथ *शामिल करके* किया जाता है। आप प्रभावी रूप से दो तालिकाओं के बीच एक सीम बनाएंगे, और प्रत्येक तालिका से एक कॉलम के मानों का मिलान करेंगे।
+
+हमारे उदाहरण में, हम **वर्षा** में **शहर_आईडी** कॉलम का मिलान **शहरों** में **शहर_आईडी** कॉलम से करेंगे। यह अपने संबंधित शहर के साथ वर्षा मूल्य से मेल खाएगा। हम जिस प्रकार के जॉइन करेंगे, उसे *इनर* जॉइन कहा जाता है, जिसका अर्थ है कि यदि कोई पंक्तियाँ दूसरी टेबल की किसी भी चीज़ से मेल नहीं खाती हैं तो वे प्रदर्शित नहीं होंगी। हमारे मामले में हर शहर में बारिश होती है, इसलिए सब कुछ प्रदर्शित किया जाएगा।
+
+आइए हमारे सभी शहरों के लिए 2019 की वर्षा को पुनः प्राप्त करें।
+
+हम इसे चरणों में करने जा रहे हैं। पहला कदम सीम के लिए कॉलम को इंगित करके डेटा को एक साथ जोड़ना है - **city_id** जैसा कि पहले हाइलाइट किया गया था।
+
+```sql
+SELECT cities.city
+ rainfall.amount
+FROM cities
+ INNER JOIN rainfall ON cities.city_id = rainfall.city_id
+```
+
+हमने उन दो कॉलमों को हाइलाइट किया है जो हम चाहते हैं, और तथ्य यह है कि हम टेबल्स को **city_id** द्वारा एक साथ जोड़ना चाहते हैं। अब हम केवल वर्ष 2019 को फ़िल्टर करने के लिए `WHERE` स्टेटमेंट जोड़ सकते हैं।
+
+```sql
+SELECT cities.city
+ rainfall.amount
+FROM cities
+ INNER JOIN rainfall ON cities.city_id = rainfall.city_id
+WHERE rainfall.year = 2019
+
+-- Output
+
+-- city | amount
+-- -------- | ------
+-- Tokyo | 1874
+-- Atlanta | 1111
+-- Auckland | 942
+```
+
+## सारांश
+
+रिलेशनल डेटाबेस कई तालिकाओं के बीच सूचनाओं को विभाजित करने के आसपास केंद्रित होते हैं जिन्हें बाद में प्रदर्शन और विश्लेषण के लिए एक साथ लाया जाता है। यह गणना करने और अन्यथा डेटा में हेरफेर करने के लिए उच्च स्तर की लचीलापन प्रदान करता है। आपने रिलेशनल डेटाबेस की मूल अवधारणाओं को देखा है, और दो तालिकाओं के बीच जुड़ने का तरीका देखा है।
+
+## चुनौती
+
+इंटरनेट पर कई रिलेशनल डेटाबेस उपलब्ध हैं। आप ऊपर सीखे गए कौशल का उपयोग करके डेटा का पता लगा सकते हैं।
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9)
+
+## समीक्षा और आत्म अध्ययन
+
+आपके लिए SQL और रिलेशनल डेटाबेस अवधारणाओं की खोज जारी रखने के लिए [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa) पर कई संसाधन उपलब्ध हैं
+
+- [संबंधपरक डेटा की अवधारणाओं का वर्णन करें](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa)
+- [Transact-SQL के साथ क्वेरी करना प्रारंभ करें](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (ट्रांजैक्ट-एसक्यूएल एसक्यूएल का एक संस्करण है)
+- [Microsoft पर SQL सामग्री जानें](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa)
+
+## कार्यभार
+
+[असाइनमेंट शीर्षक](assignment.hi.md)
diff --git a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md
new file mode 100644
index 000000000..fef55d357
--- /dev/null
+++ b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md
@@ -0,0 +1,59 @@
+# हवाईअड्डा डेटा प्रदर्शित करना
+
+आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.visualstudio.com/) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-40229-cxa) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए।
+
+## निर्देश
+
+असाइनमेंट के साथ आरंभ करने के लिए, आपको कुछ चरणों का पालन करना होगा। आपको कुछ टूलींग स्थापित करने और नमूना डेटाबेस डाउनलोड करने की आवश्यकता होगी।
+
+### अपना सिस्टम सेटअप करें
+
+आप डेटाबेस के साथ इंटरैक्ट करने के लिए विजुअल स्टूडियो कोड और SQLite एक्सटेंशन का उपयोग कर सकते हैं।
+
+1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-40229-cxa) पर नेविगेट करें और विजुअल स्टूडियो कोड इंस्टॉल करने के लिए निर्देशों का पालन करें
+1. मार्केटप्लेस पेज पर दिए निर्देशों के अनुसार [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) एक्सटेंशन इंस्टॉल करें
+
+### डेटाबेस डाउनलोड करें और खोलें
+
+इसके बाद आप एक ओपन डेटाबेस डाउनलोड करेंगे।
+
+1. [GitHub से डेटाबेस फ़ाइल](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) डाउनलोड करें और इसे एक निर्देशिका में सहेजें
+1. विजुअल स्टूडियो कोड खोलें
+1. SQLite एक्सटेंशन में डेटाबेस को **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) चुनकर और `SQLite: Open database` टाइप करके खोलें।
+1. **फ़ाइल से डेटाबेस चुनें** चुनें और **airports.db** फ़ाइल खोलें जिसे आपने पहले डाउनलोड किया था
+1. डेटाबेस खोलने के बाद (आप स्क्रीन पर अपडेट नहीं देखेंगे), **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) का चयन करके एक नई क्वेरी विंडो बनाएं। और `SQLite: new query` टाइप करना
+
+एक बार खुलने के बाद, नई क्वेरी विंडो का उपयोग डेटाबेस के विरुद्ध SQL कथन चलाने के लिए किया जा सकता है। डेटाबेस के विरुद्ध क्वेरी चलाने के लिए आप **Ctl-Shift-Q** (या मैक पर **Cmd-Shift-Q**) कमांड का उपयोग कर सकते हैं।
+
+> [!नोट] SQLite एक्सटेंशन के बारे में अधिक जानकारी के लिए, आप [दस्तावेज़ीकरण](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) से परामर्श कर सकते हैं।
+
+## डेटाबेस स्कीमा
+
+एक डेटाबेस की स्कीमा इसकी टेबल डिजाइन और संरचना है। **airports** डेटाबेस दो तालिकाओं के रूप में, `cities`, जिसमें यूनाइटेड किंगडम और आयरलैंड के शहरों की सूची है, और `airports`, जिसमें सभी हवाई अड्डों की सूची है। क्योंकि कुछ शहरों में कई हवाई अड्डे हो सकते हैं, जानकारी संग्रहीत करने के लिए दो टेबल बनाए गए थे। इस अभ्यास में आप विभिन्न शहरों की जानकारी प्रदर्शित करने के लिए जॉइन का उपयोग करेंगे।
+
+| Cities |
+| ---------------- |
+| id (PK, integer) |
+| city (text) |
+| country (text) |
+
+| Airports |
+| -------------------------------- |
+| id (PK, integer) |
+| name (text) |
+| code (text) |
+| city_id (FK to id in **Cities**) |
+
+## कार्यभार
+
+निम्नलिखित जानकारी वापस करने के लिए प्रश्न बनाएं:
+
+1. `Cities` तालिका में सभी शहर के नाम
+1. आयरलैंड के सभी शहर `Cities` तालिका . में
+1. सभी हवाई अड्डों के नाम उनके शहर और देश के साथ
+1. लंदन, यूनाइटेड किंगडम में सभी हवाई अड्डे
+
+## रूब्रिक
+
+| अनुकरणीय | पर्याप्त | सुधार की जरूरत |
+| --------- | -------- | ----------------- |
diff --git a/2-Working-With-Data/06-non-relational/translations/README.hi.md b/2-Working-With-Data/06-non-relational/translations/README.hi.md
new file mode 100644
index 000000000..648120d88
--- /dev/null
+++ b/2-Working-With-Data/06-non-relational/translations/README.hi.md
@@ -0,0 +1,148 @@
+# डेटा के साथ कार्य करना: गैर-संबंधपरक डेटा
+
+| ](../../../sketchnotes/06-NoSQL.png)|
+|:---:|
+|NoSQL डेटा के साथ काम करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
+
+## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/10)
+
+डेटा रिलेशनल डेटाबेस तक सीमित नहीं है। यह पाठ गैर-संबंधपरक डेटा पर केंद्रित है और इसमें स्प्रेडशीट और NoSQL की मूल बातें शामिल होंगी।
+
+## स्प्रेडशीट
+
+स्प्रेडशीट डेटा को स्टोर और एक्सप्लोर करने का एक लोकप्रिय तरीका है क्योंकि इसे सेटअप करने और आरंभ करने के लिए कम काम की आवश्यकता होती है। इस पाठ में आप स्प्रेडशीट के बुनियादी घटकों के साथ-साथ सूत्रों और कार्यों के बारे में जानेंगे। उदाहरणों को Microsoft Excel के साथ चित्रित किया जाएगा, लेकिन अधिकांश भागों और विषयों में अन्य स्प्रेडशीट सॉफ़्टवेयर की तुलना में समान नाम और चरण होंगे।
+
+
+
+स्प्रैडशीट एक फ़ाइल है और इसे कंप्यूटर, डिवाइस या क्लाउड आधारित फ़ाइल सिस्टम के फ़ाइल सिस्टम में एक्सेस किया जा सकता है। सॉफ़्टवेयर स्वयं ब्राउज़र आधारित या एक एप्लिकेशन हो सकता है जिसे कंप्यूटर पर इंस्टॉल किया जाना चाहिए या ऐप के रूप में डाउनलोड किया जाना चाहिए। Excel में इन फ़ाइलों को **कार्यपुस्तिका** के रूप में भी परिभाषित किया जाता है और इस शब्दावली का उपयोग इस पाठ के शेष भाग में किया जाएगा।
+
+किसी कार्यपुस्तिका में एक या अधिक **कार्यपत्रक** होते हैं, जहां प्रत्येक कार्यपत्रक को टैब द्वारा लेबल किया जाता है। वर्कशीट के भीतर **सेल्स** नामक आयत होते हैं, जिनमें वास्तविक डेटा होगा। एक सेल एक पंक्ति और स्तंभ का प्रतिच्छेदन है, जहां स्तंभों को वर्णानुक्रमिक वर्णों और पंक्तियों को संख्यात्मक रूप से लेबल किया जाता है। कुछ स्प्रैडशीट्स में सेल में डेटा का वर्णन करने के लिए पहली कुछ पंक्तियों में हेडर होंगे।
+
+Excel कार्यपुस्तिका के इन बुनियादी तत्वों के साथ, हम उपयोग करेंगे और [माइक्रोसॉफ्ट टेम्पलेट्स](https://templates.office.com/) के एक उदाहरण का उपयोग एक स्प्रैडशीट के कुछ अतिरिक्त भागों के माध्यम से चलने के लिए एक इन्वेंट्री पर केंद्रित होगा।
+
+### एक सूची का प्रबंधन
+
+"इन्वेंटरी उदाहरण" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है।
+
+
+
+ऐसे उदाहरण हैं जहां एक सेल अपना मूल्य उत्पन्न करने के लिए अन्य कोशिकाओं के मूल्यों पर निर्भर है। इन्वेंटरी लिस्ट स्प्रैडशीट अपनी इन्वेंट्री में प्रत्येक आइटम की लागत का ट्रैक रखती है, लेकिन क्या होगा यदि हमें इन्वेंट्री में हर चीज का मूल्य जानने की आवश्यकता है? [**सूत्र**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) सेल डेटा पर कार्रवाई करते हैं और इसका उपयोग गणना करने के लिए किया जाता है इस उदाहरण में सूची की लागत। इस स्प्रैडशीट ने प्रत्येक आइटम के मूल्य की गणना करने के लिए इन्वेंटरी वैल्यू कॉलम में एक सूत्र का उपयोग किया है, जो कि QTY हेडर के तहत मात्रा को गुणा करके और इसकी लागत को COST हेडर के तहत सेल द्वारा गुणा करके किया जाता है। किसी सेल पर डबल क्लिक या हाईलाइट करना फॉर्मूला दिखाएगा। आप देखेंगे कि सूत्र बराबर चिह्न से शुरू होते हैं, उसके बाद गणना या संचालन होता है।
+
+
+
+हम इसका कुल मूल्य प्राप्त करने के लिए इन्वेंटरी वैल्यू के सभी मूल्यों को एक साथ जोड़ने के लिए एक अन्य सूत्र का उपयोग कर सकते हैं। योग उत्पन्न करने के लिए प्रत्येक सेल को जोड़कर इसकी गणना की जा सकती है, लेकिन यह एक कठिन काम हो सकता है। Excel में [**functions**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), या सेल मानों पर गणना करने के लिए पूर्वनिर्धारित सूत्र हैं . फ़ंक्शंस के लिए तर्कों की आवश्यकता होती है, जो इन गणनाओं को करने के लिए उपयोग किए जाने वाले आवश्यक मान हैं। जब फ़ंक्शंस को एक से अधिक तर्क की आवश्यकता होती है, तो उन्हें किसी विशेष क्रम में सूचीबद्ध करने की आवश्यकता होगी या फ़ंक्शन सही मान की गणना नहीं कर सकता है। यह उदाहरण SUM फ़ंक्शन का उपयोग करता है, और पंक्ति 3, कॉलम B (जिसे B3 भी कहा जाता है) के तहत सूचीबद्ध कुल जोड़ने के तर्क के रूप में इन्वेंट्री वैल्यू के मानों का उपयोग करता है।
+
+## नोएसक्यूएल (NoSQL)
+
+NoSQL गैर-संबंधपरक डेटा को संग्रहीत करने के विभिन्न तरीकों के लिए एक छत्र शब्द है और इसे "गैर-एसक्यूएल", "गैर-संबंधपरक" या "न केवल एसक्यूएल" के रूप में व्याख्या किया जा सकता है। इस प्रकार के डेटाबेस सिस्टम को 4 प्रकारों में वर्गीकृत किया जा सकता है।
+
+
+> [माइकल बियालेकी ब्लॉग](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) से स्रोत
+
+[मौलिक मूल्य](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) डेटाबेस अद्वितीय कुंजी जोड़ते हैं, जो एक मूल्य से जुड़े एक अद्वितीय पहचानकर्ता हैं। इन जोड़ियों को एक उपयुक्त हैशिंग फ़ंक्शन के साथ [हैश टेबल](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) का उपयोग करके संग्रहीत किया जाता है।
+
+
+> [माइक्रोसॉफ्ट](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) से स्रोत
+
+[ग्राफ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) डेटाबेस डेटा में संबंधों का वर्णन करते हैं और उनका प्रतिनिधित्व करते हैं नोड्स और किनारों के संग्रह के रूप में। एक नोड एक इकाई का प्रतिनिधित्व करता है, कुछ ऐसा जो वास्तविक दुनिया में मौजूद है जैसे कि छात्र या बैंक स्टेटमेंट। किनारे दो संस्थाओं के बीच संबंध का प्रतिनिधित्व करते हैं प्रत्येक नोड और किनारे में ऐसे गुण होते हैं जो प्रत्येक नोड और किनारों के बारे में अतिरिक्त जानकारी प्रदान करते हैं।
+
+
+
+[Columnar](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) डेटा स्टोर डेटा को कॉलम और पंक्तियों में व्यवस्थित करता है एक संबंधपरक डेटा संरचना की तरह लेकिन प्रत्येक कॉलम को एक कॉलम परिवार नामक समूहों में विभाजित किया जाता है, जहां एक कॉलम के तहत सभी डेटा संबंधित होते हैं और एक इकाई में पुनर्प्राप्त और बदला जा सकता है।
+
+### Azure Cosmos DB के साथ दस्तावेज़ डेटा स्टोर
+
+[दस्तावेज़](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) डेटा स्टोर एक की अवधारणा पर निर्मित होते हैं कुंजी-मूल्य डेटा स्टोर और फ़ील्ड और ऑब्जेक्ट्स की एक श्रृंखला से बना है। यह खंड कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटाबेस का पता लगाएगा।
+
+एक Cosmos DB डेटाबेस "न केवल SQL" की परिभाषा में फिट बैठता है, जहाँ Cosmos DB का दस्तावेज़ डेटाबेस डेटा को क्वेरी करने के लिए SQL पर निर्भर करता है। SQL पर [पिछला पाठ](../../05-relational-databases/README.md) भाषा की मूल बातें शामिल करता है, और हम यहां दस्तावेज़ डेटाबेस में कुछ समान प्रश्नों को लागू करने में सक्षम होंगे। हम Cosmos DB Emulator का उपयोग करेंगे, जो हमें कंप्यूटर पर स्थानीय रूप से एक दस्तावेज़ डेटाबेस बनाने और एक्सप्लोर करने की अनुमति देता है। एमुलेटर के बारे में और पढ़ें [यहां](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)।
+
+एक दस्तावेज़ फ़ील्ड और ऑब्जेक्ट मानों का संग्रह है, जहां फ़ील्ड वर्णन करते हैं कि ऑब्जेक्ट मान क्या दर्शाता है। नीचे एक दस्तावेज़ का एक उदाहरण है।
+
+```json
+{
+ "firstname": "Eva",
+ "age": 44,
+ "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
+ "_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
+ "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
+ "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
+ "_attachments": "attachments/",
+ "_ts": 1630544034
+}
+```
+
+इस दस्तावेज़ में रुचि के क्षेत्र हैं: `firstname`, `id`, और `age`। अंडरस्कोर के साथ बाकी फ़ील्ड कॉसमॉस डीबी द्वारा उत्पन्न किए गए थे।
+
+#### कॉसमॉस डीबी एम्यूलेटर के साथ डेटा एक्सप्लोर करना
+
+आप एमुलेटर [यहां विंडोज के लिए](https://aka.ms/cosmosdb-emulator) डाउनलोड और इंस्टॉल कर सकते हैं। इस [दस्तावेज़ीकरण](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) को देखें। macOS और Linux के लिए एमुलेटर चलाएँ।
+
+एमुलेटर एक ब्राउज़र विंडो लॉन्च करता है, जहां एक्सप्लोरर व्यू आपको दस्तावेजों का पता लगाने की अनुमति देता है।
+
+
+
+यदि आप साथ चल रहे हैं, तो नमूना डीबी नामक नमूना डेटाबेस उत्पन्न करने के लिए "नमूना के साथ प्रारंभ करें" पर क्लिक करें। यदि आप तीर पर क्लिक करके नमूना डीबी का विस्तार करते हैं तो आपको `Persons` नामक एक कंटेनर मिलेगा, एक कंटेनर में वस्तुओं का संग्रह होता है, जो कंटेनर के भीतर दस्तावेज होते हैं। आप `Items` के तहत चार अलग-अलग दस्तावेजों का पता लगा सकते हैं।
+
+
+
+#### कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटा को क्वेरी करना
+
+हम नए SQL क्वेरी बटन (बाएं से दूसरा बटन) पर क्लिक करके नमूना डेटा को क्वेरी कर सकते हैं।
+
+`SELECT * FROM c` कंटेनर में सभी दस्तावेज लौटाता है। आइए एक क्लॉज जोड़ें और 40 से कम उम्र के सभी लोगों को खोजें।
+
+`SELECT * FROM c where c.age < 40`
+
+ 
+
+क्वेरी दो दस्तावेज़ लौटाती है, ध्यान दें कि प्रत्येक दस्तावेज़ के लिए आयु मान 40 . से कम है.
+
+#### JSON और दस्तावेज़
+
+यदि आप जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON) से परिचित हैं, तो आप देखेंगे कि दस्तावेज़ JSON के समान दिखते हैं। इस निर्देशिका में अधिक डेटा वाली एक `PersonsData.json` फ़ाइल है जिसे आप `Upload Item` बटन के माध्यम से एम्यूलेटर में व्यक्ति कंटेनर में अपलोड कर सकते हैं।
+
+ज्यादातर मामलों में, JSON डेटा लौटाने वाले API को सीधे दस्तावेज़ डेटाबेस में स्थानांतरित और संग्रहीत किया जा सकता है। नीचे एक और दस्तावेज है, यह माइक्रोसॉफ्ट ट्विटर अकाउंट से ट्वीट्स का प्रतिनिधित्व करता है जिसे ट्विटर एपीआई (API) का उपयोग करके पुनर्प्राप्त किया गया था, फिर कॉसमॉस डीबी में डाला गया था।
+
+```json
+{
+ "created_at": "2021-08-31T19:03:01.000Z",
+ "id": "1432780985872142341",
+ "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
+ "_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
+ "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
+ "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
+ "_attachments": "attachments/",
+ "_ts": 1630537000
+}
+```
+
+इस दस्तावेज़ में रुचि के क्षेत्र हैं: `created_at`, `id`, और `text`।
+
+## चुनौती
+
+
+एक `TwitterData.json` फ़ाइल है जिसे आप नमूना डीबी डेटाबेस पर अपलोड कर सकते हैं। यह अनुशंसा की जाती है कि आप इसे एक अलग कंटेनर में जोड़ें। इसके द्वारा किया जा सकता है:
+
+1. ऊपर दाईं ओर नए कंटेनर बटन पर क्लिक करना
+1. कंटेनर के लिए एक कंटेनर आईडी बनाने के लिए मौजूदा डेटाबेस (SampleDB) का चयन करना
+1. विभाजन कुंजी को `/id` . पर सेट करना
+1. ओके पर क्लिक करना (आप इस दृश्य में शेष जानकारी को अनदेखा कर सकते हैं क्योंकि यह आपकी मशीन पर स्थानीय रूप से चलने वाला एक छोटा डेटासेट है)
+1. अपना नया कंटेनर खोलें और 'आइटम अपलोड करें' बटन के साथ Twitter डेटा फ़ाइल अपलोड करें
+
+टेक्स्ट फ़ील्ड में Microsoft वाले दस्तावेज़ ढूँढने के लिए कुछ चुनिंदा क्वेरीज़ चलाने का प्रयास करें। संकेत: [LIKE कीवर्ड](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) का उपयोग करने का प्रयास करें
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/11)
+
+
+
+## समीक्षा और आत्म अध्ययन
+
+- इस स्प्रैडशीट में कुछ अतिरिक्त स्वरूपण और विशेषताएं जोड़ी गई हैं जिन्हें इस पाठ में शामिल नहीं किया गया है। यदि आप अधिक सीखने में रुचि रखते हैं, तो Microsoft के पास एक्सेल पर [दस्तावेज़ीकरण और वीडियो की बड़ी लाइब्रेरी](https://support.microsoft.com/excel) है।
+
+- यह वास्तु दस्तावेज विभिन्न प्रकार के गैर-संबंधपरक डेटा में विशेषताओं का विवरण देता है: [गैर-संबंधपरक डेटा और NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data))
+
+- कॉसमॉस डीबी एक क्लाउड आधारित गैर-संबंधपरक डेटाबेस है जो इस पाठ में उल्लिखित विभिन्न नोएसक्यूएल प्रकारों को भी संग्रहीत कर सकता है। इस [कॉसमॉस डीबी माइक्रोसॉफ्ट लर्न मॉड्यूल](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/) में इन प्रकारों के बारे में और जानें
+
+## कार्यभार
+
+[सोडा लाभ](assignment.hi.md)
diff --git a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
index d4a8f86ee..7f5ab759f 100644
--- a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
+++ b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
@@ -2,13 +2,13 @@
## निर्देश
-[कोका कोला कंपनी स्प्रेडशीट](CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है:
+[कोका कोला कंपनी स्प्रेडशीट](../CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है:
1. वित्त वर्ष '15, '16, '17, और '18' के सकल लाभ की गणना करें
- सकल लाभ = शुद्ध परिचालन राजस्व - बेची गई वस्तुओं की लागत
1. सभी सकल लाभ के औसत की गणना करें। इसे एक फ़ंक्शन के साथ करने का प्रयास करें।
- औसत = वित्तीय वर्षों की संख्या से विभाजित सकल लाभ का योग (10)
- - [औसत फ़ंक्शन] पर दस्तावेज़ीकरण(https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6)
+ - [औसत फ़ंक्शन](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) पर दस्तावेज़ीकरण
1. यह एक एक्सेल फाइल है, लेकिन इसे किसी भी स्प्रेडशीट प्लेटफॉर्म में संपादित किया जा सकता है
[यीयी वांग को डेटा स्रोत क्रेडिट](https://www.kaggle.com/yiyiwang0826/cocacola-excel)