Big Data Analytics Kya Hai

पिछले एक दशक में जिस डेटा की मात्रा को डील करना है वह अकल्पनीय स्तरों तक पहुंच गया है और साथ ही डेटा स्टोरेज की कीमत व्यवस्थित रूप से कम हो गई है. निजी कंपनियां और अनुसंधान संस्थान अपने उपयोगकर्ताओं के इंटरैक्शन, व्यवसाय, सोशल मीडिया, और मोबाइल फोन और ऑटोमोबाइल जैसे उपकरणों के सेंसर के बारे में डेटा पर कब्जा करते हैं. इस युग की चुनौती डेटा के इस समुद्र का बोध कराना है. यह वह जगह है जहाँ बड़े डेटा विश्लेषण चित्र में आते हैं.

बिग डेटा एनालिटिक्स में बड़े पैमाने पर विभिन्न स्रोतों से डेटा एकत्र करना शामिल है इसे इस तरह से मून करें कि यह विश्लेषकों द्वारा उपभोग किए जाने के लिए उपलब्ध हो जाए और अंत में संगठन व्यवसाय के लिए उपयोगी डेटा उत्पादों को वितरित करें.

संगठनों के लिए उपयोगी डेटा उत्पाद के लिए विभिन्न स्रोतों से पुनर्प्राप्त की गई बड़ी मात्रा में असंरचित कच्चे डेटा को परिवर्तित करने की प्रक्रिया बिग डेटा एनालिटिक्स का मूल बनाती है.

Traditional Data Mining Life Cycle

संगठन द्वारा आवश्यक कार्य को व्यवस्थित करने और बिग डेटा से स्पष्ट जानकारी प्रदान करने के लिए एक ढांचा प्रदान करने के लिए इसे विभिन्न चरणों के साथ एक चक्र के रूप में सोचना उपयोगी है. यह किसी भी तरह से रैखिक नहीं है जिसका अर्थ है कि सभी चरण एक-दूसरे से संबंधित हैं. इस चक्र में अधिक पारंपरिक डेटा खनन चक्र के साथ सतही समानताएं हैं जैसा कि CRISP पद्धति में वर्णित है.

CRISP-DM Methodology

CRISP-DM कार्यप्रणाली जो डेटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस के लिए है एक ऐसा चक्र है जो आमतौर पर उपयोग किए जाने वाले दृष्टिकोणों का वर्णन करता है जो डेटा माइनिंग विशेषज्ञ पारंपरिक BI डेटा माइनिंग में समस्याओं से निपटने के लिए उपयोग करते हैं. यह अभी भी पारंपरिक बीआई डेटा खनन टीमों में उपयोग किया जा रहा है.

1996 में CRISP-DM की परिकल्पना की गई थी और अगले वर्ष यह ESPRIT फंडिंग पहल के तहत एक यूरोपीय संघ परियोजना के रूप में चल रही थी. इस परियोजना का नेतृत्व पांच कंपनियों ने किया था SPSS, टेराडाटा, डेमलर एजी, NCR निगम और OHRA एक बीमा कंपनी. परियोजना को अंतत SPSS में शामिल किया गया था. एक डेटा माइनिंग प्रोजेक्ट को कैसे निर्दिष्ट किया जाना चाहिए इसकी कार्यप्रणाली अत्यंत विस्तृत है.

आइये अब CRISP-DM जीवन चक्र में शामिल प्रत्येक चरण पर थोड़ा और जानें -

Business Understanding

यह प्रारंभिक चरण व्यावसायिक उद्देश्यों से परियोजना के उद्देश्यों और आवश्यकताओं को समझने और फिर इस ज्ञान को डेटा खनन समस्या की परिभाषा में परिवर्तित करने पर केंद्रित है. एक प्रारंभिक योजना उद्देश्यों को प्राप्त करने के लिए डिज़ाइन की गई है. एक निर्णय मॉडल विशेष रूप से निर्णय मॉडल और संकेतन मानक का उपयोग करके निर्मित एक का उपयोग किया जा सकता है.

Data Understanding

डेटा समझ का चरण एक प्रारंभिक डेटा संग्रह के साथ शुरू होता है और डेटा से परिचित होने के लिए डेटा की गुणवत्ता की समस्याओं की पहचान करने डेटा में पहली अंतर्दृष्टि की खोज करने के लिए या छिपी जानकारी के लिए परिकल्पना बनाने के लिए दिलचस्प सबसेट का पता लगाने के लिए गतिविधियों के साथ आगे बढ़ता है.

Data Preparation

डेटा तैयारी चरण अंतिम डेटासेट डेटा के निर्माण के लिए सभी गतिविधियों को शामिल करता है जो प्रारंभिक कच्चे डेटा से मॉडलिंग टूल में खिलाया जाएगा. डेटा तैयारी कार्य कई बार किए जाने की संभावना है और किसी भी निर्धारित क्रम में नहीं. कार्य में टेबल, रिकॉर्ड, और विशेषता चयन के साथ-साथ मॉडलिंग टूल के लिए डेटा का रूपांतरण और सफाई शामिल है.

Modeling

इस चरण में विभिन्न मॉडलिंग तकनीकों को चुना जाता है और लागू किया जाता है और उनके मापदंडों को इष्टतम मूल्यों पर कैलिब्रेट किया जाता है. आमतौर पर समान डेटा खनन समस्या प्रकार के लिए कई तकनीकें होती हैं. कुछ तकनीकों में डेटा के रूप में विशिष्ट आवश्यकताएं हैं. इसलिए अक्सर डेटा तैयारी चरण पर वापस जाने की आवश्यकता होती है.

Evaluation

प्रोजेक्ट में इस स्तर पर आपने एक मॉडल या मॉडल बनाया है जो डेटा विश्लेषण के दृष्टिकोण से उच्च गुणवत्ता वाला प्रतीत होता है. मॉडल की अंतिम तैनाती के लिए आगे बढ़ने से पहले मॉडल का अच्छी तरह से मूल्यांकन करना और मॉडल के निर्माण के लिए निष्पादित चरणों की समीक्षा करना महत्वपूर्ण है यह सुनिश्चित करने के लिए कि यह व्यवसाय के उद्देश्यों को ठीक से प्राप्त करता है.

एक महत्वपूर्ण उद्देश्य यह निर्धारित करना है कि क्या कोई महत्वपूर्ण व्यवसाय मुद्दा है जिसे पर्याप्त रूप से नहीं माना गया है. इस चरण के अंत में डेटा खनन परिणामों के उपयोग पर एक निर्णय पर पहुंचा जाना चाहिए.

Deployment

मॉडल का निर्माण आमतौर पर परियोजना का अंत नहीं है. यहां तक कि अगर मॉडल का उद्देश्य डेटा के ज्ञान को बढ़ाना है तो प्राप्त ज्ञान को ग्राहक के लिए उपयोगी तरीके से व्यवस्थित और प्रस्तुत करने की आवश्यकता होगी.

आवश्यकताओं के आधार पर तैनाती चरण एक रिपोर्ट उत्पन्न करने के रूप में सरल हो सकता है या एक दोहराए जाने वाले डेटा स्कोरिंग को लागू करने के रूप में जटिल हो सकता है. खंड आवंटन या डेटा खनन प्रक्रिया.

कई मामलों में यह ग्राहक होगा, डेटा विश्लेषक नहीं, जो परिनियोजन चरणों को पूरा करेगा. भले ही विश्लेषक मॉडल को चित्रित करता है लेकिन ग्राहक के लिए उन क्रियाओं को समझना महत्वपूर्ण है जिन्हें वास्तव में बनाए गए मॉडल का उपयोग करने के लिए बाहर ले जाने की आवश्यकता होगी.

SEMMA Methodology

SEMMA डेटा माइनिंग मॉडलिंग के लिए एसएएस द्वारा विकसित एक अन्य कार्यप्रणाली है. यह नमूना, अन्वेषण, संशोधित, मॉडल और गधे के लिए है. यहाँ इसके चरणों का संक्षिप्त विवरण दिया गया है -

  1. Sample − प्रक्रिया डेटा सैंपलिंग से शुरू होती है, उदा। मॉडलिंग के लिए डेटासेट का चयन. डेटासेट पुनः प्राप्त करने के लिए पर्याप्त जानकारी रखने के लिए पर्याप्त बड़ा होना चाहिए, फिर भी कुशलतापूर्वक उपयोग करने के लिए पर्याप्त छोटा है. यह चरण डेटा विभाजन से भी संबंधित है.

  2. Explore − यह चरण डेटा विज़ुअलाइज़ेशन की मदद से, चरों और असामान्यताओं के बीच प्रत्याशित और अप्रत्याशित संबंधों की खोज करके डेटा की समझ को कवर करता है.

  3. Modify − संशोधित चरण में डेटा मॉडलिंग के लिए तैयारी में चर का चयन, निर्माण और परिवर्तन करने के तरीके शामिल हैं.

  4. Model − मॉडल चरण में मॉडल बनाने के लिए तैयार चर पर विभिन्न मॉडलिंग डेटा खनन तकनीकों को लागू करने पर ध्यान केंद्रित किया गया है जो संभवतः वांछित परिणाम प्रदान करते हैं.

  5. Assess − मॉडलिंग परिणामों के मूल्यांकन से निर्मित मॉडलों की विश्वसनीयता और उपयोगिता का पता चलता है.

CRISM-DM और SEMMA के बीच मुख्य अंतर यह है कि SEMMA मॉडलिंग पहलू पर ध्यान केंद्रित करता है जबकि CRISP-DM, मॉडलिंग से पहले चक्र के चरणों को अधिक महत्व देता है जैसे कि डेटा की समस्या को हल करने, समझने और डेटा को प्रीप्रोसेस करने के लिए. उदाहरण के लिए मशीन लर्निंग एल्गोरिदम के रूप में प्रयोग किया जाता है.