diff --git a/1-Introduction/01-defining-data-science/translations/README.hi.md b/1-Introduction/01-defining-data-science/translations/README.hi.md
new file mode 100644
index 000000000..caaf0c506
--- /dev/null
+++ b/1-Introduction/01-defining-data-science/translations/README.hi.md
@@ -0,0 +1,164 @@
+# डेटा विज्ञान को परिभाषित करना
+
+| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](/sketchnotes/01-Definitions.png)  |
+| :----------------------------------------------------------------------------------------------------: |
+|              डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_               |
+
+---
+
+[![डेटा विज्ञान वीडियो को परिभाषित करना](/1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I)
+
+## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0)
+
+## डेटा क्या है?
+अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं।
+
+हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है।
+
+इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं।
+> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था? 
+
+## डेटा साइंस क्या है?
+
+[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) में, **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. 
+
+यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है::
+
+* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना।
+* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है।
+* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं।
+* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे।
+* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि।
+
+> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है।
+
+(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए:
+* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं
+* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं
+* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं
+* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित
+
+## अन्य संबंधित क्षेत्र
+
+चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है।
+
+<dl>
+<dt>डेटाबेस</dt>
+<dd>
+डेटा को **कैसे स्टोर करें** एक महत्वपूर्ण विचार है, यानी इसे इस तरह से कैसे संरचित किया जाए जिससे तेजी से प्रोसेसिंग हो सके। विभिन्न प्रकार के डेटाबेस हैं जो संरचित और असंरचित डेटा संग्रहीत करते हैं, <a href="../../2-Working-With-Data/README.md">जिन पर हम अपने पाठ्यक्रम में विचार करेंगे</a>.
+</dd>
+<dt>बड़ा डेटा</dt>
+<dd>
+अक्सर हमें अपेक्षाकृत सरल संरचना के साथ बहुत बड़ी मात्रा में डेटा को स्टोर और संसाधित करने की आवश्यकता होती है। उस डेटा को एक कंप्यूटर क्लस्टर पर वितरित तरीके से संग्रहीत करने और इसे कुशलतापूर्वक संसाधित करने के लिए विशेष दृष्टिकोण और उपकरण हैं।
+</dd>
+<dt>यंत्र अधिगम</dt>
+<dd>
+डेटा को समझने का एक तरीका **एक मॉडल बनाना** है जो वांछित परिणाम की भविष्यवाणी करने में सक्षम होगा। डेटा से मॉडल विकसित करना **मशीन लर्निंग** कहलाता है। इसके बारे में अधिक जानने के लिए आप हमारे <a href="https://aka.ms/ml-beginners">मशीन लर्निंग फॉर बिगिनर्स</a> पाठ्यक्रम को देखना चाहेंगे।.
+</dd>
+<dt>कृत्रिम होशियारी</dt>
+<dd>
+आर्टिफिशियल इंटेलिजेंस (एआई) के रूप में जाना जाने वाला मशीन लर्निंग का एक क्षेत्र भी डेटा पर निर्भर करता है, और इसमें उच्च जटिलता वाले मॉडल बनाना शामिल है जो मानव विचार प्रक्रियाओं की नकल करते हैं। एआई विधियां अक्सर हमें असंरचित डेटा (जैसे प्राकृतिक भाषा) को संरचित अंतर्दृष्टि में बदलने की अनुमति देती हैं।
+</dd>
+<dt>प्रत्योक्षकरण</dt>
+<dd>
+एक इंसान के लिए बड़ी मात्रा में डेटा समझ से बाहर है, लेकिन एक बार जब हम उस डेटा का उपयोग करके उपयोगी विज़ुअलाइज़ेशन बनाते हैं, तो हम डेटा की अधिक समझ बना सकते हैं, और कुछ निष्कर्ष निकाल सकते हैं। इस प्रकार, जानकारी की कल्पना करने के कई तरीके जानना महत्वपूर्ण है - कुछ ऐसा जिसे हम अपने पाठ्यक्रम के <a href="../../3-Data-Visualization/README.md">धारा 3</a> में शामिल करेंगे। . संबंधित क्षेत्रों में सामान्य रूप से **इन्फोग्राफिक्स**, और **मानव-कंप्यूटर इंटरैक्शन** भी शामिल हैं।
+</dd>
+</dl>
+
+## डेटा के प्रकार
+
+जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। बस जरूरत है इसे सही तरीके से पकड़ने की! **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। पूर्व को आम तौर पर कुछ अच्छी तरह से संरचित रूप में दर्शाया जाता है, अक्सर तालिका या तालिकाओं की संख्या के रूप में, जबकि बाद वाला केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें किसी प्रकार की संरचना होती है जो बहुत भिन्न हो सकती है।
+
+| संरचित                                                                   | अर्ध-संरचित                                                                                | असंरचित                            |
+| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
+| उन लोगों की सूची जिनके फ़ोन नंबर हैं | विकिपीडिया पृष्ठ लिंक के साथ | एनसाइक्लोपीडिया ब्रिटानिका का पाठ |
+| पिछले 20 वर्षों से हर मिनट एक इमारत के सभी कमरों में तापमान | लेखकों के साथ JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह, प्रकाशन का डेटा, और सार | कॉर्पोरेट दस्तावेज़ों के साथ फ़ाइल साझा करें |
+| भवन में प्रवेश करने वाले सभी लोगों की आयु और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फ़ीड |
+## डेटा कहाँ से प्राप्त करें
+
+डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालाँकि, आइए कुछ विशिष्ट स्थानों का उल्लेख करें जहाँ आप डेटा प्राप्त कर सकते हैं:
+
+* **संरचित**
+  - **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें तापमान या दबाव सेंसर जैसे विभिन्न सेंसर के डेटा शामिल हैं, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि कोई कार्यालय भवन IoT सेंसर से लैस है, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और प्रकाश व्यवस्था को नियंत्रित कर सकते हैं।
+  - **सर्वेक्षण** जो हम उपयोगकर्ताओं को खरीदारी के बाद, या किसी वेब साइट पर जाने के बाद पूरा करने के लिए कहते हैं।
+  - **व्यवहार का विश्लेषण**, उदाहरण के लिए, यह समझने में हमारी सहायता कर सकता है कि उपयोगकर्ता किसी साइट में कितनी गहराई तक जाता है, और साइट छोड़ने का सामान्य कारण क्या है।
+* **असंरचित**
+  - **पाठ** अंतर्दृष्टि का एक समृद्ध स्रोत हो सकता है, जैसे समग्र **भावना स्कोर**, या कीवर्ड और अर्थ अर्थ निकालना।
+  - **छवियां** या **वीडियो**। सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए एक निगरानी कैमरे से एक वीडियो का उपयोग किया जा सकता है।
+  - वेब सर्वर **लॉग** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पृष्ठ सबसे अधिक बार देखे जाते हैं, और कितने समय के लिए।
+* **अर्ध-संरचित**
+  - **सोशल नेटवर्क** ग्राफ़ उपयोगकर्ता के व्यक्तित्व के बारे में डेटा के महान स्रोत हो सकते हैं और जानकारी के प्रसार में संभावित प्रभावशीलता हो सकती है।
+  - जब हमारे पास किसी पार्टी से तस्वीरों का एक गुच्छा होता है, तो हम एक दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **ग्रुप डायनेमिक्स** डेटा निकालने का प्रयास कर सकते हैं।
+
+डेटा के विभिन्न संभावित स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोचने की कोशिश कर सकते हैं जहां स्थिति को बेहतर तरीके से जानने और व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए डेटा विज्ञान तकनीकों को लागू किया जा सकता है।
+
+## आप डेटा के साथ क्या कर सकते हैं
+
+डेटा साइंस में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं:
+
+<dl>
+<dt>1) डेटा अधिग्रहण</dt>
+<dd>
+पहला कदम डेटा एकत्र करना है। जबकि कई मामलों में यह एक सीधी प्रक्रिया हो सकती है, जैसे वेब एप्लिकेशन से डेटाबेस में डेटा आना, कभी-कभी हमें विशेष तकनीकों का उपयोग करने की आवश्यकता होती है। उदाहरण के लिए, IoT सेंसर से डेटा भारी हो सकता है, और आगे की प्रक्रिया से पहले सभी डेटा एकत्र करने के लिए IoT हब जैसे बफरिंग एंडपॉइंट का उपयोग करना एक अच्छा अभ्यास है।
+</dd>
+<dt>2) डाटा स्टोरेज</dt>
+<dd>
+डेटा स्टोर करना चुनौतीपूर्ण हो सकता है, खासकर अगर हम बड़े डेटा के बारे में बात कर रहे हैं। डेटा को स्टोर करने का तरीका तय करते समय, भविष्य में डेटा को क्वेरी करने के तरीके का अनुमान लगाना समझ में आता है। डेटा को स्टोर करने के कई तरीके हैं:
+<ul>
+<li>एक रिलेशनल डेटाबेस तालिकाओं के संग्रह को संग्रहीत करता है, और उन्हें क्वेरी करने के लिए SQL नामक एक विशेष भाषा का उपयोग करता है। आमतौर पर, तालिकाओं को विभिन्न समूहों में व्यवस्थित किया जाता है जिन्हें स्कीमा कहा जाता है। कई मामलों में हमें स्कीमा को फिट करने के लिए डेटा को मूल रूप से परिवर्तित करने की आवश्यकता होती है।</li>
+<li><a href="https://en.wikipedia.org/wiki/NoSQL">एक NoSQL</a> डेटाबेस, जैसे कि <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-31812-dmitryso">CosmosDB</a>, करता है डेटा पर स्कीमा लागू नहीं करता है, और अधिक जटिल डेटा संग्रहीत करने की अनुमति देता है, उदाहरण के लिए, पदानुक्रमित JSON दस्तावेज़ या ग्राफ़। हालाँकि, NoSQL डेटाबेस में SQL की समृद्ध क्वेरी क्षमता नहीं होती है, और यह संदर्भात्मक अखंडता को लागू नहीं कर सकता है, अर्थात डेटा को तालिकाओं में कैसे संरचित किया जाता है और तालिकाओं के बीच संबंधों को नियंत्रित करने के नियम।</li>
+<li><a href="https://en.wikipedia.org/wiki/Data_lake">डेटा लेक</a> संग्रहण का उपयोग कच्चे, असंरचित रूप में डेटा के बड़े संग्रह के लिए किया जाता है। डेटा झीलों का उपयोग अक्सर बड़े डेटा के साथ किया जाता है, जहां सभी डेटा एक मशीन पर फिट नहीं हो सकते हैं, और सर्वरों के एक समूह द्वारा संग्रहीत और संसाधित किया जाना है। <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> डेटा प्रारूप है जिसे अक्सर बड़े डेटा के संयोजन में उपयोग किया जाता है।</li>
+</ul>
+</dd>
+<dt>3) डाटा प्रोसेसिंग</dt>
+<dd>
+यह डेटा यात्रा का सबसे रोमांचक हिस्सा है, जिसमें डेटा को उसके मूल रूप से एक ऐसे रूप में परिवर्तित करना शामिल है जिसका उपयोग विज़ुअलाइज़ेशन/मॉडल प्रशिक्षण के लिए किया जा सकता है। टेक्स्ट या इमेज जैसे असंरचित डेटा के साथ काम करते समय, हमें डेटा से **फीचर्स** निकालने के लिए कुछ एआई तकनीकों का उपयोग करने की आवश्यकता हो सकती है, इस प्रकार इसे संरचित रूप में परिवर्तित किया जा सकता है।
+</dd>
+<dt>4) विज़ुअलाइज़ेशन / मानव अंतर्दृष्टि</dt>
+<dd>
+अक्सर, डेटा को समझने के लिए, हमें इसकी कल्पना करने की आवश्यकता होती है। हमारे टूलबॉक्स में कई अलग-अलग विज़ुअलाइज़ेशन तकनीकें होने से, हम एक अंतर्दृष्टि बनाने के लिए सही दृश्य ढूंढ सकते हैं। अक्सर, एक डेटा वैज्ञानिक को "डेटा के साथ खेलने" की आवश्यकता होती है, इसे कई बार विज़ुअलाइज़ करना और कुछ रिश्तों की तलाश करना। इसके अलावा, हम एक परिकल्पना का परीक्षण करने या डेटा के विभिन्न टुकड़ों के बीच संबंध साबित करने के लिए सांख्यिकीय तकनीकों का उपयोग कर सकते हैं।   
+</dd>
+<dt>5) एक भविष्य कहनेवाला मॉडल प्रशिक्षण</dt>
+<dd>
+चूंकि डेटा विज्ञान का अंतिम लक्ष्य डेटा के आधार पर निर्णय लेने में सक्षम होना है, इसलिए हम <a href="http://github.com/microsoft/ml-for-beginners">मशीन लर्निंग की तकनीकों का उपयोग करना चाह सकते हैं। </a> एक भविष्य कहनेवाला मॉडल बनाने के लिए। इसके बाद हम समान संरचनाओं वाले नए डेटा सेट का उपयोग करके भविष्यवाणियां करने के लिए इसका उपयोग कर सकते हैं।
+</dd>
+</dl>
+
+बेशक, वास्तविक डेटा के आधार पर, कुछ चरण गायब हो सकते हैं (उदाहरण के लिए, जब हमारे पास पहले से ही डेटाबेस में डेटा है, या जब हमें मॉडल प्रशिक्षण की आवश्यकता नहीं है), या कुछ चरणों को कई बार दोहराया जा सकता है (जैसे डेटा प्रोसेसिंग )
+
+## डिजिटलीकरण और डिजिटल परिवर्तन
+
+पिछले दशक में, कई व्यवसायों ने व्यावसायिक निर्णय लेते समय डेटा के महत्व को समझना शुरू कर दिया। व्यवसाय चलाने के लिए डेटा विज्ञान सिद्धांतों को लागू करने के लिए, पहले कुछ डेटा एकत्र करने की आवश्यकता होती है, अर्थात व्यावसायिक प्रक्रियाओं का डिजिटल रूप में अनुवाद करना। इसे **डिजिटलाइजेशन** के नाम से जाना जाता है। निर्णयों को निर्देशित करने के लिए इस डेटा में डेटा विज्ञान तकनीकों को लागू करने से उत्पादकता (या यहां तक ​​कि व्यावसायिक धुरी) में उल्लेखनीय वृद्धि हो सकती है, जिसे **डिजिटल परिवर्तन** कहा जाता है।
+
+आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह एक) जिसे हम छात्रों को ऑनलाइन वितरित करते हैं, और हम इसे सुधारने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम यह कैसे कर सकते हैं?
+
+हम "क्या डिजीटल किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे आसान तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल को पूरा करने में लगने वाले समय को मापें, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षा देकर प्राप्त ज्ञान को मापें। सभी छात्रों में औसत समय-से-पूरा करके, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाइयों का कारण बनते हैं, और उन्हें सरल बनाने पर काम करते हैं।
+
+> आप तर्क दे सकते हैं कि यह दृष्टिकोण आदर्श नहीं है, क्योंकि मॉड्यूल अलग-अलग लंबाई के हो सकते हैं। मॉड्यूल की लंबाई (वर्णों की संख्या में) से समय को विभाजित करना शायद अधिक उचित है, और इसके बजाय उन मानों की तुलना करें।
+
+जब हम बहुविकल्पीय परीक्षणों के परिणामों का विश्लेषण करना शुरू करते हैं, तो हम यह निर्धारित करने का प्रयास कर सकते हैं कि छात्रों को किन अवधारणाओं को समझने में कठिनाई होती है, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षणों को इस तरह से डिजाइन करने की आवश्यकता है कि प्रत्येक प्रश्न एक निश्चित अवधारणा या ज्ञान के हिस्से से मेल खाता हो।
+
+यदि हम और अधिक जटिल होना चाहते हैं, तो हम छात्रों की आयु वर्ग के विरुद्ध प्रत्येक मॉड्यूल के लिए लिए गए समय को प्लॉट कर सकते हैं। हमें पता चल सकता है कि कुछ आयु वर्गों के लिए मॉड्यूल को पूरा करने में अनुचित रूप से लंबा समय लगता है, या छात्र इसे पूरा करने से पहले छोड़ देते हैं। यह हमें मॉड्यूल के लिए उम्र की सिफारिशें प्रदान करने में मदद कर सकता है, और गलत उम्मीदों से लोगों के असंतोष को कम कर सकता है।
+
+## 🚀 चुनौती
+
+इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे:
+
+![डेटा साइंस के लिए वर्ड क्लाउड](/1-Introduction/01-defining-data-science/images/ds_wordcloud.png)
+
+Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है।
+
+> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [यह लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
+
+
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1)
+
+## कार्य (Assignments)
+
+* **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें
+* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.hi.md)
+
+## क्रेडिट
+
+यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है
diff --git a/1-Introduction/02-ethics/translations/README.hi.md b/1-Introduction/02-ethics/translations/README.hi.md
index a83a7e037..65f2aa398 100644
--- a/1-Introduction/02-ethics/translations/README.hi.md
+++ b/1-Introduction/02-ethics/translations/README.hi.md
@@ -10,7 +10,7 @@
 
 बाजार के रुझान यह दर्शाते हैं कि २०२२ तक, तीन में से एक बड़ी संस्था अपना डाटा कि खरीद और बेचना ऑनलाइन [दुकानों](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) द्वारा करेंगी | **ऐप डेवलपर** के रूप में, हम डेटा-संचालित अंतर्दृष्टि और एल्गोरिथम-चालित स्वचालन को दैनिक उपयोगकर्ता अनुभवों में एकीकृत करना आसान और सस्ता पाएंगे। लेकिन जैसे-जैसे AI व्यापक होता जाएगा, हमें इस तरह के एल्गोरिदम के [हथियारीकरण](https://www.youtube.com/watch?v=TQHs8SA1qpk) से होने वाले संभावित नुकसान को भी समझना होगा ।
 
-रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है ।
+रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 ज़ेटाबाइट्स](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है ।
 
 डेटा नैतिकता अब डेटा विज्ञान और इंजीनियरिंग का  _आवश्यक रक्षक_ हैं, जिससे हमें अपने डेटा-संचालित कार्यों से संभावित नुकसान और अनपेक्षित परिणामों को नीचे रखने में मदद मिलती है । [AI के लिए गार्टनर हाइप साइकिल](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) डिजिटल नैतिकता में उचित रुझानों की पहचान करता है AI के _democratization_ और _industrialization_ के आसपास बड़े मेगाट्रेंड के लिए प्रमुख ड्राइवर के रूप में जिम्मेदार AI की ज़िम्मेदारी और AI शासन ।
 
@@ -44,9 +44,9 @@
 
 प्रत्येक डेटा नैतिकता रणनीति _नैतिक सिद्धांतों_ को परिभाषित करके शुरू होती है - "साझा मूल्य" जो स्वीकार्य व्यवहारों का वर्णन करते हैं, और हमारे डेटा और AI परियोजनाओं में अनुपालन कार्यों का मार्गदर्शन करते हैं । लेकिन, अधिकांश बड़े संगठन इन्हें एक _नैतिक AI_ मिशन स्टेटमेंट या फ्रेमवर्क में रेखांकित करते हैं जो कॉर्पोरेट स्तर पर परिभाषित होता है और सभी टीमों में लगातार लागू होता है ।
 
-**उदाहरण:** माइक्रोसॉफ्ट की [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है :
+**उदाहरण:** माइक्रोसॉफ्ट की [जिम्मेदार एआई](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है :
 
-![माइक्रोसॉफ्ट की Responsible AI](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
+![माइक्रोसॉफ्ट की जिम्मेदार एआई](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
 
 आइए संक्षेप में इन सिद्धांतों के बारे में सीखे | _पारदर्शिता_ और _जवाबदेही_ वह मूलभूत मूल्य हैं जिन पर अन्य सिद्धांतों का निर्माण किया गया है - तो चलिए वहां शुरु करते हैं :
 
@@ -57,7 +57,7 @@
 * [**निजता एवं सुरक्षा**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - डेटा वंश को समझने, और उपयोगकर्ताओं को _डेटा गोपनीयता और संबंधित सुरक्षा_ प्रदान करने के बारे में है ।
 * [**समग्रता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI समाधानों को इरादे से डिजाइन करना एवं उन्हें _मानवीय आवश्यकताओं की एक विस्तृत श्रृंखला_ और क्षमताओं को पूरा करने के लिए अनुकूलित करने के बारे में है ।
 
-> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित AI उत्पाद या उद्योग से कैसे संबंधित हैं ?
+> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित एआई उत्पाद या उद्योग से कैसे संबंधित हैं ?
 
 ### 2. नैतिकता से जुडी चुनौतियां
 
@@ -72,7 +72,7 @@
 
 #### 2.1 डेटा स्वामित्व
 
-डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [_उपयोगकर्ता अधिकारो_](https://permission.io/blog/data-ownership)के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है । 
+डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [उपयोगकर्ता अधिकारो(https://permission.io/blog/data-ownership) के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है । 
 
 हमें जो नैतिक प्रश्न पूछने चाहिए, वे हैं : 
  * डेटा का मालिक कौन है ? (उपयोगकर्ता या संगठन)
@@ -108,7 +108,6 @@
  * क्या डेटा साझा या प्रसारित होने पर उपयोगकर्ताओं की गोपनीयता बनी रहती है ?
  * क्या किसी उपयोगकर्ता की पहचान अज्ञात डेटासेट से की जा सकती है ?
 
-
 #### 2.5 भूला दिया जाने का अधिकार
 
 [भूला दिया जाने का अधिकार](https://en.wikipedia.org/wiki/Right_to_be_forgotten) अतिरिक्त सुविधाएं प्रदान करता है उपयोगकर्ताओं के लिए व्यक्तिगत डेटा सुरक्षा। विशेष रूप से, यह उपयोगकर्ताओं को इंटरनेट खोजों और अन्य स्थानों से व्यक्तिगत डेटा को हटाने या हटाने का अनुरोध करने का अधिकार देता है, _विशिष्ट परिस्थितियों में_ - उन्हें उनके खिलाफ पिछली कार्रवाई किए बिना ऑनलाइन एक नई शुरुआत करने की अनुमति देता है ।
@@ -179,15 +178,15 @@
 | **सूचित सहमति** | १९७२ - [टस्केगी सिफलिस अध्ययन](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - अध्ययन में भाग लेने वाले अफ्रीकी अमेरिकी पुरुषों को उन शोधकर्ताओं द्वारा मुफ्त चिकित्सा देखभाल का वादा किया गया था जो उनके निदान या उपचार की उपलब्धता के बारे में विषयों को सूचित करने में विफल रहे। कई विषयों की मृत्यु हो गई और साथी या बच्चे प्रभावित हुए; अध्ययन 40 साल तक चला । | 
 | **डाटा प्राइवेसी** |  २००७ - [नेटफ्लिक्स डेटा प्राइज](https://www.wired.com/2007/12/why-anonymous-data-only-isnt/) ने शोधकर्ताओं को सिफारिश एल्गोरिदम को बेहतर बनाने में मदद करने के लिए 50K ग्राहकों_ से _10M अनाम मूवी रैंकिंग प्रदान की। हालांकि, शोधकर्ता अज्ञात डेटा को व्यक्तिगत रूप से पहचाने जाने योग्य डेटा के साथ _बाहरी डेटासेट_ (उदाहरण के लिए, IMDb टिप्पणियों) में सहसंबंधित करने में सक्षम थे - कुछ नेटफ्लिक्स ग्राहकों को प्रभावी रूप से "डी-अनामीकरण" ।|
 | **संग्रह पूर्वाग्रह**  | २०१३ - द सिटी ऑफ़ बोस्टन [विकसित स्ट्रीट बम्प](https://www.boston.gov/transportation/street-bump), एक ऐप जो नागरिकों को गड्ढों की रिपोर्ट करने देता है, जिससे शहर को समस्याओं को खोजने और ठीक करने के लिए बेहतर रोडवे डेटा मिलता है । हालांकि, [निम्न आय वर्ग के लोगों के पास कारों और फोन तक कम पहुंच थी](https://hbr.org/2013/04/the-hidden-biases-in-big-data), जिससे इस ऐप में उनके सड़क संबंधी मुद्दे अदृश्य हो गए थे। . डेवलपर्स ने शिक्षाविदों के साथ निष्पक्षता के लिए _न्यायसंगत पहुंच और डिजिटल विभाजन_ मुद्दों पर काम किया । |
-| **एल्गोरिथम निष्पक्षता**  | २०१८ - एमआईटी [जेंडर शेड्स स्टडी] (http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।|
+| **एल्गोरिथम निष्पक्षता**  | २०१८ - एमआईटी [जेंडर शेड्स स्टडी](http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।|
 | **डेटा गलत बयानी** | २०२० - [जॉर्जिया डिपार्टमेंट ऑफ पब्लिक हेल्थ ने जारी किया COVID-19 चार्ट](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) जो एक्स-अक्ष पर गैर-कालानुक्रमिक क्रम के साथ पुष्टि किए गए मामलों में रुझानों के बारे में नागरिकों को गुमराह करने के लिए प्रकट हुए। यह विज़ुअलाइज़ेशन ट्रिक्स के माध्यम से गलत बयानी दिखाता है । |
 | **स्वतंत्र चुनाव का भ्रम** | २०२० - लर्निंग ऐप [एबीसीमाउस ने एफटीसी शिकायत को निपटाने के लिए 10 मिलियन डॉलर का भुगतान किया](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) जहां माता-पिता भुगतान करने में फंस गए थे सदस्यता वे रद्द नहीं कर सके । यह पसंद वास्तुकला में काले पैटर्न को दिखाता है, जहां उपयोगकर्ता संभावित रूप से हानिकारक विकल्पों की ओर झुकाव कर रहे थे । |
 | **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । |
 
 अधिक केस स्टडी के बारे में चाहते हैं ? इन संसाधनों की जाँच करें :
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा । 
-* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन ।
-* [Where things have gone wrong](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट |
+* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा । 
+* [डेटा साइंस एथिक्स कोर्स](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन ।
+* [जहां चीजें गलत हो गई हैं](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट |
 
 > 🚨 आपके द्वारा देखी गई केस स्टडी के बारे में सोचें - क्या आपने अपने जीवन में इसी तरह की नैतिक चुनौती का अनुभव किया है, या इससे प्रभावित हुए हैं ? क्या आप कम से कम एक अन्य केस स्टडी के बारे में सोच सकते हैं जो इस खंड में चर्चा की गई नैतिक चुनौतियों में से एक को दर्शाती है ?
 
@@ -207,17 +206,17 @@
 
 > 🚨 क्या आप एक पेशेवर इंजीनियरिंग या डेटा विज्ञान संगठन से संबंधित हैं ? यह देखने के लिए कि क्या वे पेशेवर आचार संहिता को परिभाषित करते हैं, उनकी साइट का अन्वेषण करें । यह उनके नैतिक सिद्धांतों के बारे में क्या कहता है ? वे सदस्यों को कोड का पालन करने के लिए "प्रोत्साहित" कैसे कर रहे हैं ?
 
-### 2. Ethics Checklists
+### 2. नैतिकता जाँच सूची
 
 जबकि पेशेवर कोड चिकित्सकों से आवश्यक _नैतिक व्यवहार_ को परिभाषित करते हैं, वे प्रवर्तन में [विशेष रूप से बड़े पैमाने पर परियोजनाओं में](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) [ज्ञात सीमाएं हैं] । इसके बजाय, कई डेटा विज्ञान विशेषज्ञ [चेकलिस्ट के वकील](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), जो **सिद्धांतों को अभ्यासों से जोड़ सकते हैं** अधिक नियतात्मक और कार्रवाई योग्य तरीके ।
 
 चेकलिस्ट प्रश्नों को "हां/नहीं" कार्यों में परिवर्तित करते हैं जिन्हें संचालित किया जा सकता है, जिससे उन्हें मानक उत्पाद रिलीज वर्कफ़्लो के हिस्से के रूप में ट्रैक किया जा सकता है ।
 
 उदाहरणों में शामिल :
- * [Deon](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट ।
- * [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है ।
- * [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया ।
- * [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा ।
+ * [डियोन](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट ।
+ * [गोपनीयता ऑडिट चेकलिस्ट](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है ।
+ * [एआई फेयरनेस चेकलिस्ट](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया ।
+ * [डेटा और एआई में नैतिकता के लिए 22 प्रश्न](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा ।
  
 ### 3. नैतिकता विनियम
 
@@ -227,12 +226,12 @@
 
 डेटा सुरक्षा और गोपनीयता नियमों के उदाहरण :
 
- * `१९७४`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है ।
- * `१९९६`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है ।
- * `१९९८`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है ।
- * `२०१८`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है ।
- * `२०१८`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है ।
- * `२०२१`, चीन का [Personal Information Protection Law](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना ।
+ * `१९७४`, [यूएस गोपनीयता अधिनियम](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है ।
+ * `१९९६`, [अमेरिकी स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है ।
+ * `१९९८`, [यूएस चिल्ड्रन ऑनलाइन प्राइवेसी प्रोटेक्शन एक्ट (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है ।
+ * `२०१८`, [सामान्य डेटा संरक्षण विनियमन (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है ।
+ * `२०१८`, [कैलिफोर्निया उपभोक्ता गोपनीयता अधिनियम (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है ।
+ * `२०२१`, चीन का [व्यक्तिगत सूचना संरक्षण कानून](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना ।
 
 > 🚨 यूरोपीय संघ परिभाषित GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन) आज सबसे प्रभावशाली डेटा गोपनीयता नियमों में से एक है । क्या आप जानते हैं कि यह नागरिकों की डिजिटल गोपनीयता और व्यक्तिगत डेटा की सुरक्षा के लिए [8 उपयोगकर्ता अधिकार](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) को भी परिभाषित करता है ? जानें कि ये क्या हैं, और क्यों मायने रखते हैं ।
 
@@ -241,7 +240,7 @@
 
 ध्यान दें कि _अनुपालन_ ("कानून के पत्र को पूरा करने के लिए पर्याप्त प्रयास करना") और [प्रणालीगत मुद्दों](https://www.coursera.org/learn/data-science-ethics/home/week) को संबोधित करने के बीच एक अमूर्त अंतर है । / 4) (जैसे ossification, सूचना विषमता, और वितरण संबंधी अनुचितता) जो AI के शस्त्रीकरण को गति दे सकता है ।
 
-बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने] की अनुमति देता है (https:/ /en.wikipedia.org/wiki/Andon_(manufacturing)) (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना ।
+बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने](https://en.wikipedia.org/wiki/Andon_(manufacturing)) की अनुमति देता है (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना ।
 
 ---
 ## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/3) 🎯
@@ -249,12 +248,12 @@
 
 पाठ्यक्रम और पुस्तकें मूल नैतिकता अवधारणाओं और चुनौतियों को समझने में मदद करती हैं, जबकि केस स्टडी और उपकरण वास्तविक दुनिया के संदर्भों में लागू नैतिकता प्रथाओं के साथ मदद करते हैं। शुरू करने के लिए यहां कुछ संसाधन दिए गए हैं।
 
-* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ ।
-* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ ।
-* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
-* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम ।
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज ।
+* [शुरुआती के लिए मशीन लर्निंग](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ ।
+* [जिम्मेदार एआई के सिद्धांत](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ ।
+* [नैतिकता और डेटा विज्ञान](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
+* [डेटा विज्ञान नैतिकता](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम ।
+* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज ।
 
 # कार्यभार
 <!-- need to change the link once assignment is translated -->
-[डेटा एथिक्स केस स्टडी लिखें](assignment.md)
+[डेटा एथिक्स केस स्टडी लिखें](assignment.hi.md)
diff --git a/1-Introduction/02-ethics/translations/assignment.hi.md b/1-Introduction/02-ethics/translations/assignment.hi.md
new file mode 100644
index 000000000..40ca448ac
--- /dev/null
+++ b/1-Introduction/02-ethics/translations/assignment.hi.md
@@ -0,0 +1,19 @@
+## डेटा एथिक्स केस स्टडी लिखें
+
+## निर्देश
+
+आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.hi.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.hi.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ
+
+इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें:
+
+1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.hi.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivendata.org/examples/) जैसे ऑनलाइन उदाहरण देखें।
+
+2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है।
+
+3. `संबंधित संसाधन सूची प्रदान करें`। यह साबित करने के लिए कि यह एक वास्तविक दुनिया की घटना थी, एक या अधिक संसाधन (एक लेख, एक व्यक्तिगत ब्लॉग पोस्ट या छवि, ऑनलाइन शोध पत्र आदि के लिंक) साझा करें। बोनस अंक: संसाधनों को साझा करें जो घटना से संभावित नुकसान और परिणामों को भी प्रदर्शित करते हैं, या इसकी पुनरावृत्ति को रोकने के लिए उठाए गए सकारात्मक कदमों को उजागर करते हैं।
+
+## सरनामा
+
+अनुकरणीय | पर्याप्त | सुधार की जरूरत
+--- | --- | -- |
+एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है। <br/> <br/> केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है। <br/><br/> यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है। <br/><br/> कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है। <br/><br/> हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है। <br/><br/> हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। |
diff --git a/1-Introduction/03-defining-data/translations/README.hi.md b/1-Introduction/03-defining-data/translations/README.hi.md
index 146ef5928..e81f7d7f3 100644
--- a/1-Introduction/03-defining-data/translations/README.hi.md
+++ b/1-Introduction/03-defining-data/translations/README.hi.md
@@ -57,7 +57,7 @@ Kaggle यह के मुक्त डेटाबेस का बहुत 
 ## [पाठ के पश्चात परीक्षा](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5)
 
 ## समीक्षा और स्वअध्ययन
-- माइक्रोसॉफ्ट लर्न का [Classify your data](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) पाठ संरचित, असंरचित और मिश्र संरचित डेटा के बारे में और अच्छे से बताता है। 
+- माइक्रोसॉफ्ट लर्न का [अपना डेटा वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) पाठ संरचित, असंरचित और मिश्र संरचित डेटा के बारे में और अच्छे से बताता है। 
 
 ## अभ्यास 
-[डेटा का वर्गीकरण](../assignment.md)
+[डेटा का वर्गीकरण](assignment.hi.md)
diff --git a/1-Introduction/04-stats-and-probability/translations/README.hi.md b/1-Introduction/04-stats-and-probability/translations/README.hi.md
new file mode 100644
index 000000000..ff7331cfc
--- /dev/null
+++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md
@@ -0,0 +1,268 @@
+# सांख्यिकी और संभाव्यता का संक्षिप्त परिचय
+
+|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](/sketchnotes/04-Statistics-Probability.png)|
+|:---:|
+| सांख्यिकी और संभावना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
+
+सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए अत्यधिक प्रासंगिक हैं। गणित के गहन ज्ञान के बिना डेटा के साथ काम करना संभव है, लेकिन कम से कम कुछ बुनियादी अवधारणाओं को जानना अभी भी बेहतर है। यहां हम एक संक्षिप्त परिचय प्रस्तुत करेंगे जो आपको आरंभ करने में मदद करेगा।
+
+[![Intro Video](/1-Introduction/04-stats-and-probability/images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw)
+
+
+## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6)
+
+## प्रायिकता और यादृच्छिक चर
+
+**प्रायिकता** 0 और 1 के बीच की एक संख्या है जो यह व्यक्त करती है कि **ईवेंट** कितनी संभावित है। इसे कई सकारात्मक परिणामों के रूप में परिभाषित किया गया है (जो घटना की ओर ले जाते हैं), परिणामों की कुल संख्या से विभाजित, यह देखते हुए कि सभी परिणाम समान रूप से संभावित हैं। उदाहरण के लिए, जब हम एक पासे को उछालते हैं, तो हमें एक सम संख्या प्राप्त होने की प्रायिकता 3/6 = 0.5 होती है।
+
+जब हम घटनाओं के बारे में बात करते हैं, तो हम **यादृच्छिक चर** का उपयोग करते हैं। उदाहरण के लिए, यादृच्छिक चर जो एक पासे को घुमाते समय प्राप्त संख्या का प्रतिनिधित्व करता है, 1 से 6 तक मान लेगा। 1 से 6 तक की संख्याओं के सेट को **नमूना स्थान** कहा जाता है। हम एक निश्चित मान लेने वाले यादृच्छिक चर की संभावना के बारे में बात कर सकते हैं, उदाहरण के लिए पी (एक्स = 3) = 1/6।
+
+पिछले उदाहरण में यादृच्छिक चर को **असतत** कहा जाता है, क्योंकि इसमें एक गणनीय नमूना स्थान होता है, अर्थात अलग-अलग मान होते हैं जिन्हें गिना जा सकता है। ऐसे मामले हैं जब नमूना स्थान वास्तविक संख्याओं की एक श्रृंखला है, या वास्तविक संख्याओं का पूरा सेट है। ऐसे चरों को **सतत** कहा जाता है। एक अच्छा उदाहरण वह समय है जब बस आती है।
+
+## प्रायिकता वितरण
+
+असतत यादृच्छिक चर के मामले में, फ़ंक्शन P(X) द्वारा प्रत्येक घटना की प्रायिकता का वर्णन करना आसान है। नमूना स्थान *S* से प्रत्येक मान *s* के लिए यह 0 से 1 तक की संख्या देगा, जैसे कि सभी घटनाओं के लिए P(X=s) के सभी मानों का योग 1 होगा।
+
+सबसे प्रसिद्ध असतत वितरण **समान वितरण** है, जिसमें N तत्वों का एक नमूना स्थान होता है, जिनमें से प्रत्येक के लिए 1/N की समान संभावना होती है।
+
+एक सतत चर के संभाव्यता वितरण का वर्णन करना अधिक कठिन है, कुछ अंतराल [ए, बी], या वास्तविक संख्याओं के पूरे सेट से लिए गए मानों के साथ &Ropf;। बस आगमन समय के मामले पर विचार करें। वास्तव में, प्रत्येक सटीक आगमन समय *t* के लिए, ठीक उसी समय पर बस के आने की प्रायिकता 0 है!
+
+> अब आप जानते हैं कि 0 प्रायिकता वाली घटनाएँ होती हैं, और बहुत बार! कम से कम हर बार जब बस आती है!
+
+हम केवल दिए गए मानों के अंतराल में एक चर के गिरने की प्रायिकता के बारे में बात कर सकते हैं, उदाहरण के लिए। P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>)। इस मामले में, प्रायिकता बंटन को **प्रायिकता घनत्व फलन** p(x) द्वारा वर्णित किया जाता है, जैसे कि
+
+![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](/1-Introduction/04-stats-and-probability/images/probability-density.png)
+  
+एकसमान वितरण के एक सतत एनालॉग को **निरंतर वर्दी** कहा जाता है, जिसे एक सीमित अंतराल पर परिभाषित किया जाता है। एक संभावना है कि मान X लंबाई l के अंतराल में आता है l के समानुपाती है, और 1 तक बढ़ जाता है।
+
+एक अन्य महत्वपूर्ण वितरण **सामान्य वितरण** है, जिसके बारे में हम नीचे विस्तार से बात करेंगे।
+
+## माध्य, प्रसरण और मानक विचलन
+मान लीजिए कि हम एक यादृच्छिक चर X के n नमूनों का एक क्रम बनाते हैं: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>। हम पारंपरिक तरीके से अनुक्रम के **माध्य** (या **अंकगणित औसत**) मान को परिभाषित कर सकते हैं (x<sub>1</sub>+x<sub>2</sub>+x<sub >एन</उप>)/एन। जैसे-जैसे हम नमूने का आकार बढ़ाते हैं (अर्थात n&rr;&infin; के साथ सीमा लेते हैं), हम वितरण का माध्य (जिसे **अपेक्षा** भी कहते हैं) प्राप्त करेंगे। हम उम्मीद को **E**(x) से निरूपित करेंगे।
+> यह प्रदर्शित किया जा सकता है कि मूल्यों के साथ किसी भी असतत वितरण के लिए {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} और संबंधित संभावनाएं p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, उम्मीद के बराबर होगा E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
+
+यह पहचानने के लिए कि मान कितनी दूर तक फैले हुए हैं, हम प्रसरण की गणना कर सकते हैं &sigma;<sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/ एन, जहां & एमयू; अनुक्रम का माध्य है। मूल्य &सिग्मा; इसे **मानक विचलन** कहा जाता है, और &sigma;<sup>2</sup> को **विचरण** कहा जाता है।
+
+## बहुलक, माध्यिका और चतुर्थक
+
+कभी-कभी, माध्य डेटा के लिए "विशिष्ट" मान का पर्याप्त रूप से प्रतिनिधित्व नहीं करता है। उदाहरण के लिए, जब कुछ चरम मान पूरी तरह से सीमा से बाहर होते हैं, तो वे माध्य को प्रभावित कर सकते हैं। एक और अच्छा संकेत एक **माध्य** है, एक मान ऐसा है कि आधा डेटा बिंदु इससे कम है, और दूसरा आधा - अधिक है।
+
+डेटा के वितरण को समझने में हमारी मदद करने के लिए, **चतुर्थक** के बारे में बात करना मददगार होगा:
+
+* प्रथम चतुर्थक, या Q1, एक मान है, जैसे कि 25% डेटा इससे नीचे आता है
+* तीसरा चतुर्थक, या Q3, एक मान है कि 75% डेटा इससे नीचे आता है
+
+ग्राफिक रूप से हम **बॉक्स प्लॉट** नामक आरेख में माध्यिका और चतुर्थक के बीच संबंध का प्रतिनिधित्व कर सकते हैं:
+
+<img src="/1-Introduction/04-stats-and-probability/images/boxplot_explanation.png" width="50%"/>
+
+यहां हम **अंतर-चतुर्थक श्रेणी** IQR=Q3-Q1, और तथाकथित **आउटलेयर** - मानों की भी गणना करते हैं, जो सीमाओं के बाहर होते हैं [Q1-1.5*IQR,Q3+1.5*IQR]।
+
+परिमित वितरण के लिए जिसमें कम संख्या में संभावित मान होते हैं, एक अच्छा "विशिष्ट" मान वह होता है जो सबसे अधिक बार प्रकट होता है, जिसे **मोड** कहा जाता है। इसे अक्सर रंग जैसे श्रेणीबद्ध डेटा पर लागू किया जाता है। एक ऐसी स्थिति पर विचार करें जब हमारे पास लोगों के दो समूह हों - कुछ जो लाल रंग को अधिक पसंद करते हैं, और अन्य जो नीले रंग को पसंद करते हैं। यदि हम रंगों को संख्याओं के आधार पर कोडित करते हैं, तो पसंदीदा रंग का माध्य मान नारंगी-हरे रंग के स्पेक्ट्रम में कहीं होगा, जो किसी भी समूह पर वास्तविक वरीयता को इंगित नहीं करता है। हालांकि, मोड या तो रंगों में से एक होगा, या दोनों रंग, यदि उनके लिए मतदान करने वाले लोगों की संख्या बराबर है (इस मामले में हम नमूने को **मल्टीमॉडल** कहते हैं)।
+
+## वास्तविक दुनिया का डेटा
+
+जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया ह। (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं):
+
+
+```
+[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
+```
+
+> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें।
+
+हमारे डेटा के लिए माध्य, माध्यिका और चतुर्थक दिखाने वाला बॉक्स प्लॉट यहां दिया गया है:
+
+![वेट बॉक्स प्लॉट](/1-Introduction/04-stats-and-probability/images/weight-boxplot.png)
+
+चूंकि हमारे डेटा में अलग-अलग खिलाड़ी **भूमिकाएं** के बारे में जानकारी है, इसलिए हम भूमिका के आधार पर बॉक्स प्लॉट भी कर सकते हैं - यह हमें यह विचार प्राप्त करने की अनुमति देगा कि कैसे पैरामीटर मान भूमिकाओं में भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे:
+
+![भूमिका के अनुसार बॉक्स प्लॉट](/1-Introduction/04-stats-and-probability/images/boxplot_byrole.png)
+
+यह आरेख बताता है कि, औसतन, पहले बेसमेन की ऊंचाई दूसरे बेसमेन की ऊंचाई से अधिक होती है। बाद में इस पाठ में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और यह कैसे प्रदर्शित करें कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है।
+
+> वास्तविक दुनिया के डेटा के साथ काम करते समय, हम मानते हैं कि सभी डेटा बिंदु कुछ संभाव्यता वितरण से लिए गए नमूने हैं। यह धारणा हमें मशीन लर्निंग तकनीकों को लागू करने और कार्यशील भविष्य कहनेवाला मॉडल बनाने की अनुमति देती है।
+
+यह देखने के लिए कि हमारे डेटा का वितरण क्या है, हम एक ग्राफ बना सकते हैं जिसे **हिस्टोग्राम** कहा जाता है। एक्स-अक्ष में कई अलग-अलग वज़न अंतराल (तथाकथित **बिन्स**) होंगे, और ऊर्ध्वाधर अक्ष दिखाएगा कि हमारा यादृच्छिक चर नमूना किसी दिए गए अंतराल के अंदर कितनी बार था।
+
+![वास्तविक विश्व डेटा का हिस्टोग्राम](/1-Introduction/04-stats-and-probability/images/weight-histogram.png)
+
+इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान निश्चित औसत वजन के आसपास केंद्रित होते हैं, और हम उस वजन से जितना आगे जाते हैं - उस मान के कम वजन का सामना करना पड़ता है। यानी, यह बहुत ही असंभव है कि बेसबॉल खिलाड़ी का वजन औसत वजन से बहुत अलग होगा। भार में भिन्नता यह दर्शाती है कि भार किस हद तक माध्य से भिन्न होने की संभावना है।
+
+> अगर हम बेसबॉल लीग से नहीं, बल्कि अन्य लोगों का वजन लेते हैं, तो वितरण अलग होने की संभावना है। हालाँकि, वितरण का आकार समान होगा, लेकिन माध्य और विचरण बदल जाएगा। इसलिए, यदि हम अपने मॉडल को बेसबॉल खिलाड़ियों पर प्रशिक्षित करते हैं, तो विश्वविद्यालय के छात्रों पर लागू होने पर यह गलत परिणाम देने की संभावना है, क्योंकि अंतर्निहित वितरण अलग है।
+
+## सामान्य वितरण
+
+वजन का वितरण जो हमने ऊपर देखा है वह बहुत विशिष्ट है, और वास्तविक दुनिया से कई माप एक ही प्रकार के वितरण का पालन करते हैं, लेकिन अलग-अलग माध्य और भिन्नता के साथ। इस वितरण को **सामान्य वितरण** कहा जाता है, और यह आंकड़ों में बहुत महत्वपूर्ण भूमिका निभाता है।
+
+सामान्य वितरण का उपयोग करना संभावित बेसबॉल खिलाड़ियों के यादृच्छिक भार उत्पन्न करने का एक सही तरीका है। एक बार जब हम माध्य वजन `माध्य` और मानक विचलन `एसटीडी` जान लेते हैं, तो हम निम्नलिखित तरीके से 1000 वजन के नमूने तैयार कर सकते हैं:
+```python
+samples = np.random.normal(mean,std,1000)
+```
+
+यदि हम उत्पन्न नमूनों के हिस्टोग्राम की साजिश करते हैं तो हम ऊपर दिखाए गए चित्र के समान ही चित्र देखेंगे। और अगर हम नमूनों की संख्या और डिब्बे की संख्या में वृद्धि करते हैं, तो हम एक सामान्य वितरण की एक तस्वीर उत्पन्न कर सकते हैं जो आदर्श के अधिक करीब है:
+
+![माध्य = 0 और एसटीडी.देव = 1 के साथ सामान्य वितरण](/1-Introduction/04-stats-and-probability/images/normal-histogram.png)
+
+
+*माध्य = 0 और std.dev=1* के साथ सामान्य वितरण
+
+## विश्वास अंतराल
+
+जब हम बेसबॉल खिलाड़ियों के वजन के बारे में बात करते हैं, तो हम मानते हैं कि कुछ निश्चित **यादृच्छिक चर W** है जो सभी बेसबॉल खिलाड़ियों (तथाकथित **जनसंख्या**) के वजन के आदर्श संभाव्यता वितरण से मेल खाती है। वजन का हमारा क्रम सभी बेसबॉल खिलाड़ियों के एक उपसमुच्चय से मेल खाता है जिसे हम **नमूना** कहते हैं। एक दिलचस्प सवाल यह है कि क्या हम डब्ल्यू के वितरण के मापदंडों को जान सकते हैं, यानी जनसंख्या का माध्य और विचरण?
+
+सबसे आसान उत्तर हमारे नमूने के माध्य और विचरण की गणना करना होगा। हालाँकि, ऐसा हो सकता है कि हमारा यादृच्छिक नमूना पूर्ण जनसंख्या का सटीक रूप से प्रतिनिधित्व नहीं करता है। इस प्रकार **कॉन्फिडेंस इंटरवल** के बारे में बात करना समझ में आता है।
+
+> **विश्वास अंतराल** हमारे नमूने को देखते हुए जनसंख्या के वास्तविक माध्य का अनुमान है, जो एक निश्चित प्रायिकता (या **विश्वास का स्तर**) सटीक है।
+
+मान लीजिए हमारे पास हमारे वितरण से एक नमूना X<sub>1</sub>, ..., X<sub>n</sub> है। हर बार जब हम अपने वितरण से एक नमूना लेते हैं, तो हम अलग-अलग माध्य मान के साथ समाप्त होते हैं। इस प्रकार &mu; एक यादृच्छिक चर माना जा सकता है। एक **विश्वास अंतराल** विश्वास के साथ p मानों की एक जोड़ी है (L<sub>p</sub>,R<sub>p</sub>), जैसे कि **P**(L<sub>p </sub>&leq;&mu;&leq;R<sub>p</sub>) = p, यानी अंतराल के भीतर मापे गए माध्य मान के गिरने की प्रायिकता p के बराबर होती है।
+
+यह विस्तार से चर्चा करने के लिए हमारे संक्षिप्त परिचय से परे है कि उन आत्मविश्वास अंतराल की गणना कैसे की जाती है। कुछ और विवरण [विकिपीडिया पर](https://en.wikipedia.org/wiki/Confidence_interval) देखे जा सकते हैं। संक्षेप में, हम जनसंख्या के वास्तविक माध्य के सापेक्ष परिकलित नमूना माध्य के वितरण को परिभाषित करते हैं, जिसे **छात्र वितरण** कहा जाता है।
+
+> **दिलचस्प तथ्य**: छात्र वितरण का नाम गणितज्ञ विलियम सीली गॉसेट के नाम पर रखा गया है, जिन्होंने छद्म नाम "स्टूडेंट" के तहत अपना पेपर प्रकाशित किया था। उन्होंने गिनीज शराब की भठ्ठी में काम किया, और, एक संस्करण के अनुसार, उनके नियोक्ता नहीं चाहते थे कि आम जनता को पता चले कि वे कच्चे माल की गुणवत्ता निर्धारित करने के लिए सांख्यिकीय परीक्षणों का उपयोग कर रहे थे।
+
+यदि हम माध्य का अनुमान लगाना चाहते हैं &mu; हमारी जनसंख्या का विश्वास p के साथ, हमें छात्र वितरण A का *(1-p)/2-th प्रतिशत* लेने की आवश्यकता है, जिसे या तो तालिकाओं से लिया जा सकता है, या कंप्यूटर सांख्यिकीय सॉफ़्टवेयर के कुछ अंतर्निहित कार्यों का उपयोग करके (उदाहरण के लिए पायथन, आर, आदि)। फिर अंतराल के लिए &mu; X&pm;A*D/&radic;n द्वारा दिया जाएगा, जहां X नमूने का प्राप्त माध्य है, D मानक विचलन है।
+
+> **नोट**: हम [स्वतंत्रता की डिग्री](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) की एक महत्वपूर्ण अवधारणा की चर्चा को भी छोड़ देते हैं, जो छात्र वितरण के संबंध में महत्वपूर्ण है। इस अवधारणा को गहराई से समझने के लिए आप सांख्यिकी पर अधिक संपूर्ण पुस्तकों का उल्लेख कर सकते हैं।
+
+वजन और ऊंचाई के लिए आत्मविश्वास अंतराल की गणना का एक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में दिया गया है।
+
+| p | Weight mean |
+|-----|-----------|
+| 0.85 | 201.73±0.94 |
+| 0.90 | 201.73±1.08 |
+| 0.95 | 201.73±1.28 |
+
+ध्यान दें कि आत्मविश्वास की संभावना जितनी अधिक होगी, विश्वास अंतराल उतना ही व्यापक होगा।
+
+## परिकल्पना परीक्षण 
+
+हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) देखें):
+
+| Role | Height | Weight | Count |
+|------|--------|--------|-------|
+| Catcher | 72.723684 | 204.328947 | 76 |
+| Designated_Hitter | 74.222222 | 220.888889 | 18 |
+| First_Baseman | 74.000000 | 213.109091 | 55 |
+| Outfielder | 73.010309 | 199.113402 | 194 |
+| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
+| Second_Baseman | 71.362069 | 184.344828 | 58 |
+| Shortstop | 71.903846 | 182.923077 | 52 |
+| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
+| Third_Baseman | 73.044444 | 200.955556 | 45 |
+
+हम देख सकते हैं कि पहले बेसमेन की औसत ऊंचाई दूसरे बेसमेन की तुलना में अधिक है। इस प्रकार, हम यह निष्कर्ष निकालने के लिए ललचा सकते हैं कि **पहले बेसमेन दूसरे बेसमेन से अधिक हैं**।
+
+> इस कथन को **एक परिकल्पना** कहा जाता है, क्योंकि हम नहीं जानते कि तथ्य वास्तव में सत्य है या नहीं।
+
+हालांकि, यह हमेशा स्पष्ट नहीं होता है कि क्या हम यह निष्कर्ष निकाल सकते हैं। ऊपर की चर्चा से हम जानते हैं कि प्रत्येक माध्य का एक संबद्ध विश्वास अंतराल होता है, और इस प्रकार यह अंतर केवल एक सांख्यिकीय त्रुटि हो सकता है। हमें अपनी परिकल्पना का परीक्षण करने के लिए कुछ और औपचारिक तरीके की आवश्यकता है।
+
+आइए पहले और दूसरे बेसमेन की ऊंचाई के लिए अलग-अलग आत्मविश्वास अंतराल की गणना करें:
+
+| Confidence | First Basemen | Second Basemen |
+|------------|---------------|----------------|
+| 0.85 | 73.62..74.38 | 71.04..71.69 |
+| 0.90 | 73.56..74.44 | 70.99..71.73 |
+| 0.95 | 73.47..74.53 | 70.92..71.81 |
+
+हम देख सकते हैं कि बिना किसी विश्वास के अंतराल ओवरलैप हो जाते हैं। इससे हमारी परिकल्पना सिद्ध होती है कि पहले बेसमेन दूसरे बेसमेन से ऊंचे होते हैं।
+
+अधिक औपचारिक रूप से, हम जिस समस्या को हल कर रहे हैं वह यह देखना है कि क्या **दो संभाव्यता वितरण समान हैं**, या कम से कम समान पैरामीटर हैं। वितरण के आधार पर, हमें उसके लिए विभिन्न परीक्षणों का उपयोग करने की आवश्यकता है। यदि हम जानते हैं कि हमारे वितरण सामान्य हैं, तो हम **[स्टूडेंट टी-टेस्ट](https://en.wikipedia.org/wiki/Student%27s_t-test)** लागू कर सकते हैं।
+
+स्टूडेंट टी-टेस्ट में, हम तथाकथित **टी-वैल्यू** की गणना करते हैं, जो भिन्नता को ध्यान में रखते हुए, साधनों के बीच अंतर को इंगित करता है। यह प्रदर्शित किया जाता है कि टी-मान **छात्र वितरण** का अनुसरण करता है, जो हमें दिए गए आत्मविश्वास स्तर **p** के लिए थ्रेशोल्ड मान प्राप्त करने की अनुमति देता है (इसकी गणना की जा सकती है, या संख्यात्मक तालिकाओं में देखा जा सकता है)। फिर हम परिकल्पना को स्वीकृत या अस्वीकार करने के लिए टी-मान की तुलना इस सीमा से करते हैं।
+
+पायथन में, हम **SciPy** पैकेज का उपयोग कर सकते हैं, जिसमें `ttest_ind` फ़ंक्शन शामिल है (कई अन्य उपयोगी सांख्यिकीय कार्यों के अलावा!)। यह हमारे लिए टी-वैल्यू की गणना करता है, और कॉन्फिडेंस पी-वैल्यू की रिवर्स लुकअप भी करता है, ताकि हम निष्कर्ष निकालने के लिए कॉन्फिडेंस को देख सकें।
+
+उदाहरण के लिए, पहले और दूसरे बेसमेन की ऊंचाई के बीच हमारी तुलना हमें निम्नलिखित परिणाम देती है:
+
+```python
+from scipy.stats import ttest_ind
+
+tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
+print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
+```
+```
+T-value = 7.65
+P-value: 9.137321189738925e-12
+```
+
+हमारे मामले में, पी-वैल्यू बहुत कम है, जिसका अर्थ है कि इस बात का समर्थन करने वाले मजबूत सबूत हैं कि पहले बेसमेन लम्बे होते हैं।
+
+अन्य विभिन्न प्रकार की परिकल्पनाएँ भी हैं जिनका हम परीक्षण करना चाहते हैं, उदाहरण के लिए:
+* यह साबित करने के लिए कि दिया गया नमूना कुछ वितरण का अनुसरण करता है। हमारे मामले में हमने मान लिया है कि ऊंचाई सामान्य रूप से वितरित की जाती है, लेकिन इसके लिए औपचारिक सांख्यिकीय सत्यापन की आवश्यकता होती है।
+* यह सिद्ध करने के लिए कि नमूने का माध्य मान कुछ पूर्वनिर्धारित मान से मेल खाता है
+* कई नमूनों के साधनों की तुलना करना (उदाहरण के लिए विभिन्न आयु समूहों में खुशी के स्तर में क्या अंतर है)
+
+## बड़ी संख्या का नियम और केंद्रीय सीमा प्रमेय
+
+सामान्य वितरण के इतना महत्वपूर्ण होने का एक कारण तथाकथित **केंद्रीय सीमा प्रमेय** है। मान लीजिए कि हमारे पास स्वतंत्र N मानों X<sub>1</sub>, ..., X<sub>N</sub> का एक बड़ा नमूना है, जिसे माध्य &mu; और विचरण &सिग्मा;<sup>2</sup>. फिर, पर्याप्त रूप से बड़े N के लिए (दूसरे शब्दों में, जब N&rarr;&infin;), माध्य &Sigma;<sub>i</sub>X<sub>i</sub> को सामान्य रूप से माध्य &mu के साथ वितरित किया जाएगा; और विचरण &sigma;<sup>2</sup>/N.
+
+> केंद्रीय सीमा प्रमेय की व्याख्या करने का एक अन्य तरीका यह कहना है कि वितरण की परवाह किए बिना, जब आप किसी भी यादृच्छिक चर मानों के योग के माध्य की गणना करते हैं तो आप सामान्य वितरण के साथ समाप्त होते हैं।
+
+केंद्रीय सीमा प्रमेय से यह भी पता चलता है कि, जब N&rar;&infin;, नमूने के माध्य की प्रायिकता &mu; बन जाता है 1. इसे **बड़ी संख्या का नियम** कहते हैं।
+
+## सहप्रसरण और सहसंबंध
+
+डेटा साइंस द्वारा की जाने वाली चीजों में से एक डेटा के बीच संबंध ढूंढ रहा है। हम कहते हैं कि दो अनुक्रम **सहसम्बन्ध** तब होते हैं जब वे एक ही समय में समान व्यवहार प्रदर्शित करते हैं, अर्थात वे या तो एक साथ उठते/गिरते हैं, या एक क्रम ऊपर उठता है जब दूसरा गिरता है और इसके विपरीत। दूसरे शब्दों में, दो अनुक्रमों के बीच कुछ संबंध प्रतीत होता है।
+
+> सहसंबंध आवश्यक रूप से दो अनुक्रमों के बीच कारण संबंध को इंगित नहीं करता है; कभी-कभी दोनों चर किसी बाहरी कारण पर निर्भर हो सकते हैं, या यह विशुद्ध रूप से संयोग से दो अनुक्रम सहसंबद्ध हो सकते हैं। हालांकि, मजबूत गणितीय सहसंबंध एक अच्छा संकेत है कि दो चर किसी न किसी तरह से जुड़े हुए हैं।
+
+गणितीय रूप से, मुख्य अवधारणा जो दो यादृच्छिक चर के बीच संबंध दिखाती है, वह है **सहप्रसरण**, जिसकी गणना इस प्रकार की जाती है: Cov(X,Y) = **E**\[(X-**E**(X) ))(वाई-**ई**(वाई))\]। हम दोनों चरों के विचलन की गणना उनके माध्य मानों से करते हैं, और फिर उन विचलनों के गुणनफल की गणना करते हैं। यदि दोनों चर एक साथ विचलित होते हैं, तो उत्पाद हमेशा एक सकारात्मक मूल्य होगा, जो कि सकारात्मक सहप्रसरण को जोड़ देगा। यदि दोनों चर आउट-ऑफ-सिंक विचलित हो जाते हैं (अर्थात एक औसत से नीचे गिर जाता है जब दूसरा औसत से ऊपर उठता है), तो हमें हमेशा ऋणात्मक संख्याएँ मिलेंगी, जो कि ऋणात्मक सहप्रसरण को जोड़ देंगी। यदि विचलन निर्भर नहीं हैं, तो वे लगभग शून्य तक जोड़ देंगे।
+
+सहप्रसरण का निरपेक्ष मान हमें यह नहीं बताता कि सहसंबंध कितना बड़ा है, क्योंकि यह वास्तविक मूल्यों के परिमाण पर निर्भर करता है। इसे सामान्य करने के लिए, हम **सहसंबंध** प्राप्त करने के लिए, दोनों चरों के मानक विचलन द्वारा सहप्रसरण को विभाजित कर सकते हैं। अच्छी बात यह है कि सहसंबंध हमेशा [-1,1] की सीमा में होता है, जहां 1 मूल्यों के बीच मजबूत सकारात्मक सहसंबंध को इंगित करता है, -1 - मजबूत नकारात्मक सहसंबंध, और 0 - बिल्कुल भी कोई संबंध नहीं (चर स्वतंत्र हैं)।
+
+**उदाहरण**: हम ऊपर बताए गए डेटासेट से बेसबॉल खिलाड़ियों के वज़न और ऊंचाई के बीच सहसंबंध की गणना कर सकते हैं:
+
+```python
+print(np.corrcoef(weights,heights))
+```
+नतीजतन, हमें इस तरह **सहसंबंध मैट्रिक्स** मिलता है:
+```
+array([[1.        , 0.52959196],
+       [0.52959196, 1.        ]])
+```
+
+> सहसंबंध मैट्रिक्स C की गणना किसी भी इनपुट अनुक्रम S<sub>1</sub>, ..., S<sub>n</sub> के लिए की जा सकती है। C<sub>ij</sub> का मान S<sub>i</sub> और S<sub>j</sub> के बीच सहसंबंध है, और विकर्ण तत्व हमेशा 1 होते हैं (जो कि स्व-सहसंबंध भी है एस<उप>मैं</sub>)।
+
+हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वजन और ऊंचाई के बीच कुछ संबंध है। हम रिश्ते को देखने के लिए दूसरे के खिलाफ एक मूल्य का स्कैटर प्लॉट भी बना सकते हैं:
+
+![वजन और ऊंचाई के बीच संबंध](/1-Introduction/04-stats-and-probability/images/weight-height-relationship.png)
+
+> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में पाए जा सकते हैं।
+
+## निष्कर्ष
+
+इस भाग में हमने सीखा है:
+
+* डेटा के बुनियादी सांख्यिकीय गुण, जैसे माध्य, विचरण, मोड और चतुर्थक
+* सामान्य वितरण सहित यादृच्छिक चर के विभिन्न वितरण
+* विभिन्न गुणों के बीच सहसंबंध कैसे खोजें
+* कुछ परिकल्पनाओं को सिद्ध करने के लिए गणित और सांख्यिकी के ध्वनि उपकरण का उपयोग कैसे करें,
+* यादृच्छिक चर दिए गए डेटा नमूने के लिए विश्वास अंतराल की गणना कैसे करें
+
+हालांकि यह निश्चित रूप से उन विषयों की संपूर्ण सूची नहीं है जो संभाव्यता और आंकड़ों के भीतर मौजूद हैं, यह आपको इस पाठ्यक्रम में एक अच्छी शुरुआत देने के लिए पर्याप्त होना चाहिए।
+
+## चुनौती
+
+अन्य परिकल्पना का परीक्षण करने के लिए नोटबुक में नमूना कोड का उपयोग करें जो:
+1. पहले बेसमेन दूसरे बेसमेन से बड़े होते हैं
+2. पहले बेसमेन तीसरे बेसमेन से लम्बे होते हैं
+3. शॉर्टस्टॉप दूसरे बेसमेन से लम्बे होते हैं
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/7)
+
+## समीक्षा और आत्म अध्ययन
+
+संभाव्यता और सांख्यिकी इतना व्यापक विषय है कि यह अपने पाठ्यक्रम के योग्य है। यदि आप सिद्धांत में गहराई तक जाने में रुचि रखते हैं, तो आप निम्नलिखित में से कुछ पुस्तकों को पढ़ना जारी रख सकते हैं:
+
+1. न्यूयॉर्क विश्वविद्यालय के [कार्लोस फर्नांडीज-ग्रांडा](https://cims.nyu.edu/~cfgranda/) के पास डेटा साइंस के लिए [संभाव्यता और सांख्यिकी](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ऑनलाइन उपलब्ध) के लिए महान व्याख्यान नोट्स हैं।
+1. [पीटर और एंड्रयू ब्रूस। डेटा वैज्ञानिकों के लिए व्यावहारिक सांख्यिकी](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) । [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
+1. [जेम्स डी. मिलर। डेटा विज्ञान के लिए सांख्यिकी](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)] 
+
+## कार्यभार
+
+[लघु मधुमेह अध्ययन](assignment.hi.md)
+
+## क्रेडिट
+
+यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है।
diff --git a/1-Introduction/04-stats-and-probability/translations/assignment.hi.md b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md
new file mode 100644
index 000000000..f65156d4e
--- /dev/null
+++ b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md
@@ -0,0 +1,25 @@
+# लघु मधुमेह अध्ययन
+इस असाइनमेंट में, हम [यहाँ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) से लिए गए मधुमेह रोगियों के एक छोटे डेटासेट के साथ काम करेंगे।
+
+|   | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y  |
+|---|-----|-----|-----|----|----|----|----|----|----|----|----|
+| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
+| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
+| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
+| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
+
+## निर्देश
+
+* ज्यूपिटर नोटबुक वातावरण में [असाइनमेंट नोटबुक] (असाइनमेंट.आईपीएनबी) खोलें
+* नोटबुक में सूचीबद्ध सभी कार्यों को पूरा करें, अर्थात्:
+   * [ ] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें
+   * [ ] लिंग के आधार पर बीएमआई, बीपी और वाई के लिए प्लॉट बॉक्सप्लॉट
+   * [ ] आयु, लिंग, बीएमआई और वाई चर का वितरण क्या है?
+   * [ ] विभिन्न चर और रोग प्रगति के बीच सहसंबंध का परीक्षण करें (Y)
+   * [ ] इस परिकल्पना का परीक्षण करें कि पुरुषों और महिलाओं के बीच मधुमेह की प्रगति की डिग्री अलग है
+
+## सरनामा
+
+अनुकरणीय | पर्याप्त | सुधार की जरूरत
+--- | --- | -- |
+सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है
diff --git a/2-Working-With-Data/05-relational-databases/translations/README.hi.md b/2-Working-With-Data/05-relational-databases/translations/README.hi.md
new file mode 100644
index 000000000..9a4eb85fe
--- /dev/null
+++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md
@@ -0,0 +1,179 @@
+# डेटा के साथ कार्य करना: संबंधपरक डेटाबेस
+
+|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](/sketchnotes/05-RelationalData.png)|
+|:---:|
+| डेटा के साथ कार्य करना: संबंधपरक डेटाबेस - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
+
+संभावना है कि आपने जानकारी संग्रहीत करने के लिए अतीत में एक स्प्रेडशीट का उपयोग किया है। आपके पास पंक्तियों और स्तंभों का एक सेट था, जहाँ पंक्तियों में जानकारी (या डेटा) होती थी, और स्तंभों में जानकारी (कभी-कभी मेटाडेटा कहा जाता है) का वर्णन होता था। तालिकाओं में स्तंभों और पंक्तियों के इस मूल सिद्धांत पर एक संबंधपरक डेटाबेस बनाया गया है, जिससे आप कई तालिकाओं में जानकारी फैला सकते हैं। इससे आप अधिक जटिल डेटा के साथ काम कर सकते हैं, दोहराव से बच सकते हैं, और डेटा को एक्सप्लोर करने के तरीके में लचीलापन रख सकते हैं। आइए एक रिलेशनल डेटाबेस की अवधारणाओं का पता लगाएं।
+
+## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8)
+
+## यह सब टेबल से शुरू होता है
+
+एक रिलेशनल डेटाबेस में इसकी कोर टेबल होती है। स्प्रैडशीट की तरह ही, तालिका स्तंभों और पंक्तियों का एक संग्रह है। पंक्ति में वह डेटा या जानकारी होती है जिसके साथ हम काम करना चाहते हैं, जैसे किसी शहर का नाम या वर्षा की मात्रा। कॉलम उनके द्वारा संग्रहीत डेटा का वर्णन करते हैं।
+
+आइए शहरों के बारे में जानकारी संग्रहीत करने के लिए एक तालिका शुरू करके अपनी खोज शुरू करें। हम उनके नाम और देश से शुरुआत कर सकते हैं। आप इसे एक टेबल में इस प्रकार स्टोर कर सकते हैं:
+
+| City     | Country       |
+| -------- | ------------- |
+| Tokyo    | Japan         |
+| Atlanta  | United States |
+| Auckland | New Zealand   |
+
+ध्यान दें कि **शहर**, **देश** और **जनसंख्या** के कॉलम नाम संग्रहीत किए जा रहे डेटा का वर्णन करते हैं, और प्रत्येक पंक्ति में एक शहर के बारे में जानकारी होती है।
+
+## सिंगल टेबल अप्रोच की कमियां
+
+संभावना है, ऊपर दी गई तालिका आपको अपेक्षाकृत परिचित लगती है। आइए अपने बढ़ते डेटाबेस में कुछ अतिरिक्त डेटा जोड़ना शुरू करें - वार्षिक वर्षा (मिलीमीटर में)। हम वर्ष 2018, 2019 और 2020 पर ध्यान केंद्रित करेंगे। अगर हम इसे टोक्यो के लिए जोड़ते हैं, तो यह कुछ इस तरह दिख सकता है:
+
+| City  | Country | Year | Amount |
+| ----- | ------- | ---- | ------ |
+| Tokyo | Japan   | 2020 | 1690   |
+| Tokyo | Japan   | 2019 | 1874   |
+| Tokyo | Japan   | 2018 | 1445   |
+
+आप हमारी तालिका के बारे में क्या देखते हैं? आप देख सकते हैं कि हम शहर के नाम और देश को बार-बार दोहरा रहे हैं। इसमें काफी स्टोरेज लग सकता है, और इसकी कई प्रतियां रखने के लिए काफी हद तक अनावश्यक है। आखिरकार, टोक्यो का केवल एक ही नाम है जिसमें हम रुचि रखते हैं।
+
+ठीक है, चलो कुछ और कोशिश करते हैं। आइए प्रत्येक वर्ष के लिए नए कॉलम जोड़ें:
+
+| City     | Country       | 2018 | 2019 | 2020 |
+| -------- | ------------- | ---- | ---- | ---- |
+| Tokyo    | Japan         | 1445 | 1874 | 1690 |
+| Atlanta  | United States | 1779 | 1111 | 1683 |
+| Auckland | New Zealand   | 1386 | 942  | 1176 |
+
+हालांकि यह पंक्ति दोहराव से बचा जाता है, लेकिन यह कुछ अन्य चुनौतियों को भी जोड़ता है। हर बार नया साल आने पर हमें अपनी तालिका की संरचना को संशोधित करने की आवश्यकता होगी। इसके अतिरिक्त, जैसे-जैसे हमारा डेटा बढ़ता है, वैसे-वैसे हमारे वर्षों में कॉलम के रूप में मूल्यों को पुनः प्राप्त करना और गणना करना मुश्किल हो जाएगा।
+
+यही कारण है कि हमें कई तालिकाओं और संबंधों की आवश्यकता है। अपने डेटा को अलग करके हम दोहराव से बच सकते हैं और हम अपने डेटा के साथ काम करने के तरीके में अधिक लचीलापन रखते हैं।
+
+## रिश्तों की अवधारणा
+
+आइए अपने डेटा पर वापस लौटें और निर्धारित करें कि हम चीजों को कैसे विभाजित करना चाहते हैं। हम जानते हैं कि हम अपने शहरों के लिए नाम और देश को संग्रहित करना चाहते हैं, इसलिए यह शायद एक टेबल में सबसे अच्छा काम करेगा।
+
+| City     | Country       |
+| -------- | ------------- |
+| Tokyo    | Japan         |
+| Atlanta  | United States |
+| Auckland | New Zealand   |
+
+लेकिन इससे पहले कि हम अगली तालिका बनाएं, हमें यह पता लगाना होगा कि प्रत्येक शहर को कैसे संदर्भित किया जाए। हमें किसी पहचानकर्ता, आईडी या (तकनीकी डेटाबेस के संदर्भ में) प्राथमिक कुंजी की आवश्यकता है। प्राथमिक कुंजी एक मान है जिसका उपयोग किसी तालिका में एक विशिष्ट पंक्ति की पहचान करने के लिए किया जाता है। हालांकि यह स्वयं एक मूल्य पर आधारित हो सकता है (उदाहरण के लिए, हम शहर के नाम का उपयोग कर सकते हैं), यह लगभग हमेशा एक संख्या या अन्य पहचानकर्ता होना चाहिए। हम नहीं चाहते कि आईडी कभी बदले क्योंकि इससे रिश्ता टूट जाएगा। आप ज्यादातर मामलों में पाएंगे कि प्राथमिक कुंजी या आईडी एक स्वतः उत्पन्न संख्या होगी।
+
+> प्राथमिक कुंजी को अक्सर पीके के रूप में संक्षिप्त किया जाता है
+
+### शहरों
+
+| city_id | City     | Country       |
+| ------- | -------- | ------------- |
+| 1       | Tokyo    | Japan         |
+| 2       | Atlanta  | United States |
+| 3       | Auckland | New Zealand   |
+
+> ✅ आप देखेंगे कि हम इस पाठ के दौरान "आईडी" और "प्राथमिक कुंजी" शब्दों का परस्पर उपयोग करते हैं। यहाँ की अवधारणाएँ DataFrames पर लागू होती हैं, जिन्हें आप बाद में एक्सप्लोर करेंगे। डेटाफ़्रेम "प्राथमिक कुंजी" की शब्दावली का उपयोग नहीं करते हैं, हालांकि आप देखेंगे कि वे उसी तरह से बहुत अधिक व्यवहार करते हैं।
+
+हमारे शहरों की तालिका बनाने के साथ, आइए वर्षा को संग्रहित करें। हम शहर के बारे में पूरी जानकारी की नकल करने के बजाय आईडी का उपयोग कर सकते हैं। हमें यह भी सुनिश्चित करना चाहिए कि नई बनाई गई तालिका में एक *id* कॉलम भी हो, क्योंकि सभी तालिकाओं में एक आईडी या प्राथमिक कुंजी होनी चाहिए।
+
+### बारिश
+
+| rainfall_id | city_id | Year | Amount |
+| ----------- | ------- | ---- | ------ |
+| 1           | 1       | 2018 | 1445   |
+| 2           | 1       | 2019 | 1874   |
+| 3           | 1       | 2020 | 1690   |
+| 4           | 2       | 2018 | 1779   |
+| 5           | 2       | 2019 | 1111   |
+| 6           | 2       | 2020 | 1683   |
+| 7           | 3       | 2018 | 1386   |
+| 8           | 3       | 2019 | 942    |
+| 9           | 3       | 2020 | 1176   |
+
+नव निर्मित **वर्षा** तालिका के अंदर **city_id** कॉलम पर ध्यान दें। इस कॉलम में वे मान हैं जो **शहरों** तालिका में आईडी का संदर्भ देते हैं। तकनीकी संबंधपरक डेटा के संदर्भ में, इसे **विदेशी कुंजी** कहा जाता है; यह किसी अन्य तालिका से प्राथमिक कुंजी है। आप इसे केवल एक संदर्भ या सूचक के रूप में सोच सकते हैं। **सिटी_आईडी** 1 संदर्भ टोक्यो।
+
+> [!नोट] विदेशी कुंजी को अक्सर FK . के रूप में संक्षिप्त किया जाता है
+
+## डेटा पुनर्प्राप्त करना
+
+हमारे डेटा को दो तालिकाओं में विभाजित करके, आप सोच रहे होंगे कि हम इसे कैसे पुनः प्राप्त करते हैं। यदि हम एक रिलेशनल डेटाबेस जैसे MySQL, SQL सर्वर या Oracle का उपयोग कर रहे हैं, तो हम स्ट्रक्चर्ड क्वेरी लैंग्वेज या SQL नामक भाषा का उपयोग कर सकते हैं। SQL (कभी-कभी उच्चारित अगली कड़ी) एक मानक भाषा है जिसका उपयोग रिलेशनल डेटाबेस में डेटा को पुनः प्राप्त करने और संशोधित करने के लिए किया जाता है।
+
+डेटा पुनर्प्राप्त करने के लिए आप `SELECT` कमांड का उपयोग करते हैं। इसके मूल में, आप उन स्तंभों को **चुनते हैं जिन्हें आप देखना चाहते हैं **से** उस तालिका में जिसमें वे शामिल हैं। यदि आप केवल शहरों के नाम प्रदर्शित करना चाहते हैं, तो आप निम्न का उपयोग कर सकते हैं:
+
+```sql
+SELECT city
+FROM cities;
+
+-- Output:
+-- Tokyo
+-- Atlanta
+-- Auckland
+```
+
+`चयन` वह जगह है जहां आप कॉलम सूचीबद्ध करते हैं, और `से` वह जगह है जहां आप टेबल सूचीबद्ध करते हैं।
+
+> [नोट] SQL सिंटैक्स केस-असंवेदनशील है, जिसका अर्थ है `चुनें` और `चयन` का मतलब एक ही है। हालाँकि, आप जिस प्रकार के डेटाबेस का उपयोग कर रहे हैं उसके आधार पर कॉलम और टेबल केस संवेदनशील हो सकते हैं। नतीजतन, प्रोग्रामिंग में हर चीज को हमेशा केस संवेदी की तरह व्यवहार करना सबसे अच्छा अभ्यास है। SQL क्वेरी लिखते समय सामान्य परंपरा यह है कि कीवर्ड को सभी अपर-केस अक्षरों में रखा जाए।
+
+उपरोक्त क्वेरी सभी शहरों को प्रदर्शित करेगी। आइए कल्पना करें कि हम केवल न्यूजीलैंड में शहरों को प्रदर्शित करना चाहते थे। हमें किसी प्रकार के फ़िल्टर की आवश्यकता है। इसके लिए SQL कीवर्ड `WHERE` या "जहां कुछ सच है" है।
+
+```sql
+SELECT city
+FROM cities
+WHERE country = 'New Zealand';
+
+-- Output:
+-- Auckland
+```
+
+## डेटा में शामिल होना
+
+अब तक हमने एक ही टेबल से डेटा रिकवर किया है। अब हम **शहरों** और **वर्षा** दोनों के डेटा को एक साथ लाना चाहते हैं। यह उन्हें एक साथ *शामिल करके* किया जाता है। आप प्रभावी रूप से दो तालिकाओं के बीच एक सीम बनाएंगे, और प्रत्येक तालिका से एक कॉलम के मानों का मिलान करेंगे।
+
+हमारे उदाहरण में, हम **वर्षा** में **शहर_आईडी** कॉलम का मिलान **शहरों** में **शहर_आईडी** कॉलम से करेंगे। यह अपने संबंधित शहर के साथ वर्षा मूल्य से मेल खाएगा। हम जिस प्रकार के जॉइन करेंगे, उसे *इनर* जॉइन कहा जाता है, जिसका अर्थ है कि यदि कोई पंक्तियाँ दूसरी टेबल की किसी भी चीज़ से मेल नहीं खाती हैं तो वे प्रदर्शित नहीं होंगी। हमारे मामले में हर शहर में बारिश होती है, इसलिए सब कुछ प्रदर्शित किया जाएगा।
+
+आइए हमारे सभी शहरों के लिए 2019 की वर्षा को पुनः प्राप्त करें।
+
+हम इसे चरणों में करने जा रहे हैं। पहला कदम सीम के लिए कॉलम को इंगित करके डेटा को एक साथ जोड़ना है - **city_id** जैसा कि पहले हाइलाइट किया गया था।
+
+```sql
+SELECT cities.city
+    rainfall.amount
+FROM cities
+    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
+```
+
+हमने उन दो कॉलमों को हाइलाइट किया है जो हम चाहते हैं, और तथ्य यह है कि हम टेबल्स को **city_id** द्वारा एक साथ जोड़ना चाहते हैं। अब हम केवल वर्ष 2019 को फ़िल्टर करने के लिए `WHERE` स्टेटमेंट जोड़ सकते हैं।
+
+```sql
+SELECT cities.city
+    rainfall.amount
+FROM cities
+    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
+WHERE rainfall.year = 2019
+
+-- Output
+
+-- city     | amount
+-- -------- | ------
+-- Tokyo    | 1874
+-- Atlanta  | 1111
+-- Auckland |  942
+```
+
+## सारांश
+
+रिलेशनल डेटाबेस कई तालिकाओं के बीच सूचनाओं को विभाजित करने के आसपास केंद्रित होते हैं जिन्हें बाद में प्रदर्शन और विश्लेषण के लिए एक साथ लाया जाता है। यह गणना करने और अन्यथा डेटा में हेरफेर करने के लिए उच्च स्तर की लचीलापन प्रदान करता है। आपने रिलेशनल डेटाबेस की मूल अवधारणाओं को देखा है, और दो तालिकाओं के बीच जुड़ने का तरीका देखा है।
+
+## चुनौती
+
+इंटरनेट पर कई रिलेशनल डेटाबेस उपलब्ध हैं। आप ऊपर सीखे गए कौशल का उपयोग करके डेटा का पता लगा सकते हैं।
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9)
+
+## समीक्षा और आत्म अध्ययन
+
+आपके लिए SQL और रिलेशनल डेटाबेस अवधारणाओं की खोज जारी रखने के लिए [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa) पर कई संसाधन उपलब्ध हैं
+
+- [संबंधपरक डेटा की अवधारणाओं का वर्णन करें](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa)
+- [Transact-SQL के साथ क्वेरी करना प्रारंभ करें](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (ट्रांजैक्ट-एसक्यूएल एसक्यूएल का एक संस्करण है)
+- [Microsoft पर SQL सामग्री जानें](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa)
+
+## कार्यभार
+
+[असाइनमेंट शीर्षक](assignment.hi.md)
diff --git a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md
new file mode 100644
index 000000000..fef55d357
--- /dev/null
+++ b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md
@@ -0,0 +1,59 @@
+# हवाईअड्डा डेटा प्रदर्शित करना
+
+आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.visualstudio.com/) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-40229-cxa) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए।
+
+## निर्देश
+
+असाइनमेंट के साथ आरंभ करने के लिए, आपको कुछ चरणों का पालन करना होगा। आपको कुछ टूलींग स्थापित करने और नमूना डेटाबेस डाउनलोड करने की आवश्यकता होगी।
+
+### अपना सिस्टम सेटअप करें
+
+आप डेटाबेस के साथ इंटरैक्ट करने के लिए विजुअल स्टूडियो कोड और SQLite एक्सटेंशन का उपयोग कर सकते हैं।
+
+1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-40229-cxa) पर नेविगेट करें और विजुअल स्टूडियो कोड इंस्टॉल करने के लिए निर्देशों का पालन करें
+1. मार्केटप्लेस पेज पर दिए निर्देशों के अनुसार [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) एक्सटेंशन इंस्टॉल करें
+
+### डेटाबेस डाउनलोड करें और खोलें
+
+इसके बाद आप एक ओपन डेटाबेस डाउनलोड करेंगे।
+
+1. [GitHub से डेटाबेस फ़ाइल](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) डाउनलोड करें और इसे एक निर्देशिका में सहेजें
+1. विजुअल स्टूडियो कोड खोलें
+1. SQLite एक्सटेंशन में डेटाबेस को **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) चुनकर और `SQLite: Open database` टाइप करके खोलें।
+1. **फ़ाइल से डेटाबेस चुनें** चुनें और **airports.db** फ़ाइल खोलें जिसे आपने पहले डाउनलोड किया था
+1. डेटाबेस खोलने के बाद (आप स्क्रीन पर अपडेट नहीं देखेंगे), **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) का चयन करके एक नई क्वेरी विंडो बनाएं। और `SQLite: new query` टाइप करना
+
+एक बार खुलने के बाद, नई क्वेरी विंडो का उपयोग डेटाबेस के विरुद्ध SQL कथन चलाने के लिए किया जा सकता है। डेटाबेस के विरुद्ध क्वेरी चलाने के लिए आप **Ctl-Shift-Q** (या मैक पर **Cmd-Shift-Q**) कमांड का उपयोग कर सकते हैं।
+
+> [!नोट] SQLite एक्सटेंशन के बारे में अधिक जानकारी के लिए, आप [दस्तावेज़ीकरण](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-40229-cxa) से परामर्श कर सकते हैं।
+
+## डेटाबेस स्कीमा
+
+एक डेटाबेस की स्कीमा इसकी टेबल डिजाइन और संरचना है। **airports** डेटाबेस दो तालिकाओं के रूप में, `cities`, जिसमें यूनाइटेड किंगडम और आयरलैंड के शहरों की सूची है, और `airports`, जिसमें सभी हवाई अड्डों की सूची है। क्योंकि कुछ शहरों में कई हवाई अड्डे हो सकते हैं, जानकारी संग्रहीत करने के लिए दो टेबल बनाए गए थे। इस अभ्यास में आप विभिन्न शहरों की जानकारी प्रदर्शित करने के लिए जॉइन का उपयोग करेंगे।
+
+| Cities           |
+| ---------------- |
+| id (PK, integer) |
+| city (text)      |
+| country (text)   |
+
+| Airports                         |
+| -------------------------------- |
+| id (PK, integer)                 |
+| name (text)                      |
+| code (text)                      |
+| city_id (FK to id in **Cities**) |
+
+## कार्यभार
+
+निम्नलिखित जानकारी वापस करने के लिए प्रश्न बनाएं:
+
+1. `Cities` तालिका में सभी शहर के नाम
+1. आयरलैंड के सभी शहर `Cities` तालिका . में
+1. सभी हवाई अड्डों के नाम उनके शहर और देश के साथ
+1. लंदन, यूनाइटेड किंगडम में सभी हवाई अड्डे
+
+## रूब्रिक
+
+| अनुकरणीय  |   पर्याप्त   |   सुधार की जरूरत  |
+| --------- | -------- | ----------------- |
diff --git a/2-Working-With-Data/06-non-relational/translations/README.hi.md b/2-Working-With-Data/06-non-relational/translations/README.hi.md
new file mode 100644
index 000000000..648120d88
--- /dev/null
+++ b/2-Working-With-Data/06-non-relational/translations/README.hi.md
@@ -0,0 +1,148 @@
+# डेटा के साथ कार्य करना: गैर-संबंधपरक डेटा
+
+|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/06-NoSQL.png)|
+|:---:|
+|NoSQL डेटा के साथ काम करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
+
+## [प्री-लेक्चर क्विज](https://red-water-0103e7a0f.azurestaticapps.net/quiz/10)
+
+डेटा रिलेशनल डेटाबेस तक सीमित नहीं है। यह पाठ गैर-संबंधपरक डेटा पर केंद्रित है और इसमें स्प्रेडशीट और NoSQL की मूल बातें शामिल होंगी।
+
+## स्प्रेडशीट
+
+स्प्रेडशीट डेटा को स्टोर और एक्सप्लोर करने का एक लोकप्रिय तरीका है क्योंकि इसे सेटअप करने और आरंभ करने के लिए कम काम की आवश्यकता होती है। इस पाठ में आप स्प्रेडशीट के बुनियादी घटकों के साथ-साथ सूत्रों और कार्यों के बारे में जानेंगे। उदाहरणों को Microsoft Excel के साथ चित्रित किया जाएगा, लेकिन अधिकांश भागों और विषयों में अन्य स्प्रेडशीट सॉफ़्टवेयर की तुलना में समान नाम और चरण होंगे।
+
+![दो वर्कशीट के साथ एक खाली माइक्रोसॉफ्ट एक्सेल वर्कबुक](../images/parts-of-spreadsheet.png)
+
+स्प्रैडशीट एक फ़ाइल है और इसे कंप्यूटर, डिवाइस या क्लाउड आधारित फ़ाइल सिस्टम के फ़ाइल सिस्टम में एक्सेस किया जा सकता है। सॉफ़्टवेयर स्वयं ब्राउज़र आधारित या एक एप्लिकेशन हो सकता है जिसे कंप्यूटर पर इंस्टॉल किया जाना चाहिए या ऐप के रूप में डाउनलोड किया जाना चाहिए। Excel में इन फ़ाइलों को **कार्यपुस्तिका** के रूप में भी परिभाषित किया जाता है और इस शब्दावली का उपयोग इस पाठ के शेष भाग में किया जाएगा।
+
+किसी कार्यपुस्तिका में एक या अधिक **कार्यपत्रक** होते हैं, जहां प्रत्येक कार्यपत्रक को टैब द्वारा लेबल किया जाता है। वर्कशीट के भीतर **सेल्स** नामक आयत होते हैं, जिनमें वास्तविक डेटा होगा। एक सेल एक पंक्ति और स्तंभ का प्रतिच्छेदन है, जहां स्तंभों को वर्णानुक्रमिक वर्णों और पंक्तियों को संख्यात्मक रूप से लेबल किया जाता है। कुछ स्प्रैडशीट्स में सेल में डेटा का वर्णन करने के लिए पहली कुछ पंक्तियों में हेडर होंगे।
+
+Excel कार्यपुस्तिका के इन बुनियादी तत्वों के साथ, हम उपयोग करेंगे और [माइक्रोसॉफ्ट टेम्पलेट्स](https://templates.office.com/) के एक उदाहरण का उपयोग एक स्प्रैडशीट के कुछ अतिरिक्त भागों के माध्यम से चलने के लिए एक इन्वेंट्री पर केंद्रित होगा।
+
+### एक सूची का प्रबंधन
+
+"इन्वेंटरी उदाहरण" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है।
+
+![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया सूत्र](../images/formula-excel.png)
+
+ऐसे उदाहरण हैं जहां एक सेल अपना मूल्य उत्पन्न करने के लिए अन्य कोशिकाओं के मूल्यों पर निर्भर है। इन्वेंटरी लिस्ट स्प्रैडशीट अपनी इन्वेंट्री में प्रत्येक आइटम की लागत का ट्रैक रखती है, लेकिन क्या होगा यदि हमें इन्वेंट्री में हर चीज का मूल्य जानने की आवश्यकता है? [**सूत्र**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) सेल डेटा पर कार्रवाई करते हैं और इसका उपयोग गणना करने के लिए किया जाता है इस उदाहरण में सूची की लागत। इस स्प्रैडशीट ने प्रत्येक आइटम के मूल्य की गणना करने के लिए इन्वेंटरी वैल्यू कॉलम में एक सूत्र का उपयोग किया है, जो कि QTY हेडर के तहत मात्रा को गुणा करके और इसकी लागत को COST हेडर के तहत सेल द्वारा गुणा करके किया जाता है। किसी सेल पर डबल क्लिक या हाईलाइट करना फॉर्मूला दिखाएगा। आप देखेंगे कि सूत्र बराबर चिह्न से शुरू होते हैं, उसके बाद गणना या संचालन होता है।
+
+![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया फ़ंक्शन](../images/function-excel.png)
+
+हम इसका कुल मूल्य प्राप्त करने के लिए इन्वेंटरी वैल्यू के सभी मूल्यों को एक साथ जोड़ने के लिए एक अन्य सूत्र का उपयोग कर सकते हैं। योग उत्पन्न करने के लिए प्रत्येक सेल को जोड़कर इसकी गणना की जा सकती है, लेकिन यह एक कठिन काम हो सकता है। Excel में [**functions**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), या सेल मानों पर गणना करने के लिए पूर्वनिर्धारित सूत्र हैं . फ़ंक्शंस के लिए तर्कों की आवश्यकता होती है, जो इन गणनाओं को करने के लिए उपयोग किए जाने वाले आवश्यक मान हैं। जब फ़ंक्शंस को एक से अधिक तर्क की आवश्यकता होती है, तो उन्हें किसी विशेष क्रम में सूचीबद्ध करने की आवश्यकता होगी या फ़ंक्शन सही मान की गणना नहीं कर सकता है। यह उदाहरण SUM फ़ंक्शन का उपयोग करता है, और पंक्ति 3, कॉलम B (जिसे B3 भी कहा जाता है) के तहत सूचीबद्ध कुल जोड़ने के तर्क के रूप में इन्वेंट्री वैल्यू के मानों का उपयोग करता है।
+
+## नोएसक्यूएल (NoSQL)
+
+NoSQL गैर-संबंधपरक डेटा को संग्रहीत करने के विभिन्न तरीकों के लिए एक छत्र शब्द है और इसे "गैर-एसक्यूएल", "गैर-संबंधपरक" या "न केवल एसक्यूएल" के रूप में व्याख्या किया जा सकता है। इस प्रकार के डेटाबेस सिस्टम को 4 प्रकारों में वर्गीकृत किया जा सकता है।
+
+![एक की-वैल्यू डेटा स्टोर का ग्राफिकल प्रतिनिधित्व 4 अद्वितीय संख्यात्मक कुंजियाँ दिखा रहा है जो 4 विभिन्न मानों से जुड़ी हैं](../images/kv-db.png)
+> [माइकल बियालेकी ब्लॉग](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) से स्रोत
+
+[मौलिक मूल्य](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) डेटाबेस अद्वितीय कुंजी जोड़ते हैं, जो एक मूल्य से जुड़े एक अद्वितीय पहचानकर्ता हैं। इन जोड़ियों को एक उपयुक्त हैशिंग फ़ंक्शन के साथ [हैश टेबल](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) का उपयोग करके संग्रहीत किया जाता है।
+
+![लोगों, उनकी रुचियों और स्थानों के बीच संबंधों को दर्शाने वाले ग्राफ़ डेटा स्टोर का चित्रमय प्रतिनिधित्व](../images/graph-db.png)
+> [माइक्रोसॉफ्ट](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) से स्रोत
+
+[ग्राफ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) डेटाबेस डेटा में संबंधों का वर्णन करते हैं और उनका प्रतिनिधित्व करते हैं नोड्स और किनारों के संग्रह के रूप में। एक नोड एक इकाई का प्रतिनिधित्व करता है, कुछ ऐसा जो वास्तविक दुनिया में मौजूद है जैसे कि छात्र या बैंक स्टेटमेंट। किनारे दो संस्थाओं के बीच संबंध का प्रतिनिधित्व करते हैं प्रत्येक नोड और किनारे में ऐसे गुण होते हैं जो प्रत्येक नोड और किनारों के बारे में अतिरिक्त जानकारी प्रदान करते हैं।
+
+![पहचान और संपर्क जानकारी नामक दो स्तंभ परिवारों के साथ एक ग्राहक डेटाबेस दिखाते हुए एक स्तंभ डेटा स्टोर का चित्रमय प्रतिनिधित्व](../images/columnar-db.png)
+
+[Columnar](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) डेटा स्टोर डेटा को कॉलम और पंक्तियों में व्यवस्थित करता है एक संबंधपरक डेटा संरचना की तरह लेकिन प्रत्येक कॉलम को एक कॉलम परिवार नामक समूहों में विभाजित किया जाता है, जहां एक कॉलम के तहत सभी डेटा संबंधित होते हैं और एक इकाई में पुनर्प्राप्त और बदला जा सकता है।
+
+### Azure Cosmos DB के साथ दस्तावेज़ डेटा स्टोर
+
+[दस्तावेज़](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) डेटा स्टोर एक की अवधारणा पर निर्मित होते हैं कुंजी-मूल्य डेटा स्टोर और फ़ील्ड और ऑब्जेक्ट्स की एक श्रृंखला से बना है। यह खंड कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटाबेस का पता लगाएगा।
+
+एक Cosmos DB डेटाबेस "न केवल SQL" की परिभाषा में फिट बैठता है, जहाँ Cosmos DB का दस्तावेज़ डेटाबेस डेटा को क्वेरी करने के लिए SQL पर निर्भर करता है। SQL पर [पिछला पाठ](../../05-relational-databases/README.md) भाषा की मूल बातें शामिल करता है, और हम यहां दस्तावेज़ डेटाबेस में कुछ समान प्रश्नों को लागू करने में सक्षम होंगे। हम Cosmos DB Emulator का उपयोग करेंगे, जो हमें कंप्यूटर पर स्थानीय रूप से एक दस्तावेज़ डेटाबेस बनाने और एक्सप्लोर करने की अनुमति देता है। एमुलेटर के बारे में और पढ़ें [यहां](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)।
+
+एक दस्तावेज़ फ़ील्ड और ऑब्जेक्ट मानों का संग्रह है, जहां फ़ील्ड वर्णन करते हैं कि ऑब्जेक्ट मान क्या दर्शाता है। नीचे एक दस्तावेज़ का एक उदाहरण है।
+
+```json
+{
+    "firstname": "Eva",
+    "age": 44,
+    "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
+    "_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
+    "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
+    "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
+    "_attachments": "attachments/",
+    "_ts": 1630544034
+}
+```
+
+इस दस्तावेज़ में रुचि के क्षेत्र हैं: `firstname`, `id`, और `age`। अंडरस्कोर के साथ बाकी फ़ील्ड कॉसमॉस डीबी द्वारा उत्पन्न किए गए थे।
+
+#### कॉसमॉस डीबी एम्यूलेटर के साथ डेटा एक्सप्लोर करना
+
+आप एमुलेटर [यहां विंडोज के लिए](https://aka.ms/cosmosdb-emulator) डाउनलोड और इंस्टॉल कर सकते हैं। इस [दस्तावेज़ीकरण](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) को देखें। macOS और Linux के लिए एमुलेटर चलाएँ।
+
+एमुलेटर एक ब्राउज़र विंडो लॉन्च करता है, जहां एक्सप्लोरर व्यू आपको दस्तावेजों का पता लगाने की अनुमति देता है।
+
+![कॉसमॉस डीबी एम्यूलेटर का एक्सप्लोरर व्यू](../images/cosmosdb-emulator-explorer.png)
+
+यदि आप साथ चल रहे हैं, तो नमूना डीबी नामक नमूना डेटाबेस उत्पन्न करने के लिए "नमूना के साथ प्रारंभ करें" पर क्लिक करें। यदि आप तीर पर क्लिक करके नमूना डीबी का विस्तार करते हैं तो आपको `Persons` नामक एक कंटेनर मिलेगा, एक कंटेनर में वस्तुओं का संग्रह होता है, जो कंटेनर के भीतर दस्तावेज होते हैं। आप `Items` के तहत चार अलग-अलग दस्तावेजों का पता लगा सकते हैं।
+
+![कॉसमॉस डीबी एमुलेटर में नमूना डेटा की खोज](../images/cosmosdb-emulator-persons.png)
+
+#### कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटा को क्वेरी करना
+
+हम नए SQL क्वेरी बटन (बाएं से दूसरा बटन) पर क्लिक करके नमूना डेटा को क्वेरी कर सकते हैं।
+
+`SELECT * FROM c` कंटेनर में सभी दस्तावेज लौटाता है। आइए एक क्लॉज जोड़ें और 40 से कम उम्र के सभी लोगों को खोजें।
+
+`SELECT * FROM c where c.age < 40`
+
+ ![40 से कम आयु फ़ील्ड मान वाले दस्तावेज़ों को खोजने के लिए Cosmos DB एमुलेटर में नमूना डेटा पर एक चयन क्वेरी चला रहा है](../images/cosmosdb-emulator-persons-query.png)
+
+क्वेरी दो दस्तावेज़ लौटाती है, ध्यान दें कि प्रत्येक दस्तावेज़ के लिए आयु मान 40 . से कम है.
+
+#### JSON और दस्तावेज़
+
+यदि आप जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON) से परिचित हैं, तो आप देखेंगे कि दस्तावेज़ JSON के समान दिखते हैं। इस निर्देशिका में अधिक डेटा वाली एक `PersonsData.json` फ़ाइल है जिसे आप `Upload Item` बटन के माध्यम से एम्यूलेटर में व्यक्ति कंटेनर में अपलोड कर सकते हैं।
+
+ज्यादातर मामलों में, JSON डेटा लौटाने वाले API को सीधे दस्तावेज़ डेटाबेस में स्थानांतरित और संग्रहीत किया जा सकता है। नीचे एक और दस्तावेज है, यह माइक्रोसॉफ्ट ट्विटर अकाउंट से ट्वीट्स का प्रतिनिधित्व करता है जिसे ट्विटर एपीआई (API) का उपयोग करके पुनर्प्राप्त किया गया था, फिर कॉसमॉस डीबी में डाला गया था।
+
+```json
+{
+    "created_at": "2021-08-31T19:03:01.000Z",
+    "id": "1432780985872142341",
+    "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
+    "_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
+    "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
+    "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
+    "_attachments": "attachments/",
+    "_ts": 1630537000
+}
+```
+
+इस दस्तावेज़ में रुचि के क्षेत्र हैं: `created_at`, `id`, और `text`।
+
+## चुनौती
+
+
+एक `TwitterData.json` फ़ाइल है जिसे आप नमूना डीबी डेटाबेस पर अपलोड कर सकते हैं। यह अनुशंसा की जाती है कि आप इसे एक अलग कंटेनर में जोड़ें। इसके द्वारा किया जा सकता है:
+
+1. ऊपर दाईं ओर नए कंटेनर बटन पर क्लिक करना
+1. कंटेनर के लिए एक कंटेनर आईडी बनाने के लिए मौजूदा डेटाबेस (SampleDB) का चयन करना
+1. विभाजन कुंजी को `/id` . पर सेट करना
+1. ओके पर क्लिक करना (आप इस दृश्य में शेष जानकारी को अनदेखा कर सकते हैं क्योंकि यह आपकी मशीन पर स्थानीय रूप से चलने वाला एक छोटा डेटासेट है)
+1. अपना नया कंटेनर खोलें और 'आइटम अपलोड करें' बटन के साथ Twitter डेटा फ़ाइल अपलोड करें
+
+टेक्स्ट फ़ील्ड में Microsoft वाले दस्तावेज़ ढूँढने के लिए कुछ चुनिंदा क्वेरीज़ चलाने का प्रयास करें। संकेत: [LIKE कीवर्ड](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) का उपयोग करने का प्रयास करें
+
+## [व्याख्यान के बाद प्रश्नोत्तरी](https://red-water-0103e7a0f.azurestaticapps.net/quiz/11)
+
+
+
+## समीक्षा और आत्म अध्ययन
+
+- इस स्प्रैडशीट में कुछ अतिरिक्त स्वरूपण और विशेषताएं जोड़ी गई हैं जिन्हें इस पाठ में शामिल नहीं किया गया है। यदि आप अधिक सीखने में रुचि रखते हैं, तो Microsoft के पास एक्सेल पर [दस्तावेज़ीकरण और वीडियो की बड़ी लाइब्रेरी](https://support.microsoft.com/excel) है।
+
+- यह वास्तु दस्तावेज विभिन्न प्रकार के गैर-संबंधपरक डेटा में विशेषताओं का विवरण देता है: [गैर-संबंधपरक डेटा और NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data))
+
+- कॉसमॉस डीबी एक क्लाउड आधारित गैर-संबंधपरक डेटाबेस है जो इस पाठ में उल्लिखित विभिन्न नोएसक्यूएल प्रकारों को भी संग्रहीत कर सकता है। इस [कॉसमॉस डीबी माइक्रोसॉफ्ट लर्न मॉड्यूल](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/) में इन प्रकारों के बारे में और जानें 
+
+## कार्यभार
+
+[सोडा लाभ](assignment.hi.md)
diff --git a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
index d4a8f86ee..7f5ab759f 100644
--- a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
+++ b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
@@ -2,13 +2,13 @@
 
 ## निर्देश
 
-[कोका कोला कंपनी स्प्रेडशीट](CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है:
+[कोका कोला कंपनी स्प्रेडशीट](../CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है:
 
 1. वित्त वर्ष '15, '16, '17, और '18' के सकल लाभ की गणना करें
      - सकल लाभ = शुद्ध परिचालन राजस्व - बेची गई वस्तुओं की लागत
 1. सभी सकल लाभ के औसत की गणना करें। इसे एक फ़ंक्शन के साथ करने का प्रयास करें।
      - औसत = वित्तीय वर्षों की संख्या से विभाजित सकल लाभ का योग (10)
-     - [औसत फ़ंक्शन] पर दस्तावेज़ीकरण(https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6)
+     - [औसत फ़ंक्शन](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) पर दस्तावेज़ीकरण
 1. यह एक एक्सेल फाइल है, लेकिन इसे किसी भी स्प्रेडशीट प्लेटफॉर्म में संपादित किया जा सकता है
 
 [यीयी वांग को डेटा स्रोत क्रेडिट](https://www.kaggle.com/yiyiwang0826/cocacola-excel)