Apache Tajo Hadoop के लिए एक ओपन-सोर्स वितरित डेटा वेयरहाउस फ्रेमवर्क है. ताजो को शुरू में दक्षिण कोरिया की एक Hadoop आधारित बुनियादी ढांचा कंपनी ग्रूट ने शुरू किया था. बाद में Intel, Etsy, NASA, Cloudera, Hortonworks के विशेषज्ञों ने भी परियोजना में योगदान दिया. ताजो कोरियाई भाषा में एक शुतुरमुर्ग को संदर्भित करता है. वर्ष 2014 के मार्च में ताज़ो को एक शीर्ष-स्तरीय ओपन सोर्स अपाचे परियोजना प्रदान की गई थी.

डेटा वेयरहाउस एक रिलेशनल डेटाबेस है जिसे लेनदेन प्रसंस्करण के बजाय क्वेरी और विश्लेषण के लिए डिज़ाइन किया गया है. यह डेटा का एक विषय-उन्मुख, एकीकृत, समय-संस्करण और गैर-वाष्पशील संग्रह है. यह डेटा विश्लेषकों को किसी संगठन में सूचित निर्णय लेने में मदद करता है लेकिन संबंधपरक डेटा वॉल्यूम दिन-ब-दिन बढ़ता जाता है.

चुनौतियों को दूर करने के लिए वितरित डेटा वेयरहाउस सिस्टम ऑनलाइन एनालिटिकल प्रोसेसिंग (OLAP) के उद्देश्य से कई डेटा रिपॉजिटरी में डेटा साझा करता है. प्रत्येक डेटा वेयरहाउस एक या अधिक संगठनों से संबंधित हो सकता है. यह लोड संतुलन और स्केलेबिलिटी करता है. मेटाडेटा को दोहराया और केंद्रीय रूप से वितरित किया जाता है.

Apache Tajo एक वितरित डेटा वेयरहाउस सिस्टम है जो स्टोरेज लेयर के रूप में Hadoop Distributed File System का उपयोग करता है और इसमें MapReduce फ्रेमवर्क के बजाय अपना स्वयं का क्वेरी निष्पादन इंजन है.

Overview of SQL on Hadoop

Hadoop एक ओपन-सोर्स फ्रेमवर्क है जो वितरित वातावरण में बड़े डेटा को स्टोर और प्रोसेस करने की अनुमति देता है. यह बेहद तेज और शक्तिशाली है. हालाँकि Hadoop में सीमित क्वेरी क्षमताएं हैं इसलिए इसका प्रदर्शन Hadoop पर SQL की सहायता से और भी बेहतर बनाया जा सकता है. यह उपयोगकर्ताओं को आसान SQL कमांड के माध्यम से Hadoop के साथ बातचीत करने की अनुमति देता है.

Hadoop अनुप्रयोगों पर SQL के कुछ उदाहरण हाइव, इम्पाला, ड्रिल, प्रेस्टो, स्पार्क, HAWQ और Apache Tajo हैं.

What is Apache Tajo

Apache Tajo एक रिलेशनल और वितरित डेटा प्रोसेसिंग फ्रेमवर्क है. यह कम विलंबता और मापनीय तदर्थ क्वेरी विश्लेषण के लिए डिज़ाइन किया गया है.

Tajo मानक SQL और विभिन्न डेटा स्वरूपों का समर्थन करता है. अधिकांश ताजो प्रश्नों को बिना किसी संशोधन के निष्पादित किया जा सकता है.

ताजो में विफल कार्यों और एक्स्टेंसिबल क्वेरी रीराइट इंजन के लिए पुनरारंभ तंत्र के माध्यम से गलती-सहिष्णुता है.

Tajo HDFS पर संग्रहीत बड़े डेटासेट को सारांशित करने के लिए आवश्यक एक्सट्रैक्ट ट्रांसफ़ॉर्म और लोड प्रक्रिया संचालन करता है. यह Hive Pig का एक वैकल्पिक विकल्प है.

Tajo के नवीनतम संस्करण में जावा प्रोग्राम और Oracle और PostGreSQL जैसे तृतीय-पक्ष डेटाबेस से अधिक कनेक्टिविटी है.

Use Cases of Apache Tajo

अपाचे ताजो के उपयोग के कुछ मामले निम्नलिखित हैं -

Data Warehousing and Analysis

कोरिया की एसके टेलीकॉम फर्म ने 1.7 टेराबाइट्स डेटा के खिलाफ ताजो को चलाया और पाया कि यह हाइव या इम्पाला की तुलना में अधिक गति के साथ प्रश्नों को पूरा कर सकता है.

Data Discovery

कोरियन म्यूजिक स्ट्रीमिंग सर्विस मेलन, ताजो का उपयोग विश्लेषणात्मक प्रसंस्करण के लिए करती है. ताजो हाइव की तुलना में 1.5 से 10 गुना तेजी से अर्क-ट्रांसफॉर्म-लोड प्रक्रिया की नौकरियों को अंजाम देता है.

Log Analysis

एक कोरियाई कंपनी ब्लूहोल स्टूडियो ने TERA विकसित किया एक काल्पनिक मल्टीप्लेयर ऑनलाइन गेम. कंपनी गेम लॉग विश्लेषण के लिए ताज़ो का उपयोग करती है और सेवा की गुणवत्ता में बाधा उत्पन्न करने के प्रमुख कारणों का पता लगाती है.

Workflow

Tajo स्टोरेज लेयर के रूप में Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम का उपयोग करता है और इसमें MapReduce फ्रेमवर्क के बजाय अपना स्वयं का क्वेरी एक्जीक्यूशन इंजन होता है. एक ताज़ो क्लस्टर में एक मास्टर नोड और क्लस्टर नोड्स में कई कार्यकर्ता होते हैं.

मास्टर क्वेरी योजना और श्रमिकों के लिए समन्वयक के लिए मुख्य रूप से जिम्मेदार है. मास्टर एक क्वेरी को छोटे कार्यों में विभाजित करता है और श्रमिकों को सौंपता है. प्रत्येक कार्यकर्ता के पास एक स्थानीय क्वेरी इंजन होता है जो भौतिक ऑपरेटरों के निर्देशित चक्रीय ग्राफ को निष्पादित करता है.

इसके अलावा Tajo वितरित डेटा प्रवाह को MapReduce की तुलना में अधिक लचीला नियंत्रित कर सकता है और अनुक्रमण तकनीकों का समर्थन करता है.

Tajo के वेब-आधारित इंटरफ़ेस में निम्नलिखित क्षमताएं हैं -

  1. सबमिट किए गए प्रश्नों की योजना बनाने का विकल्प खोजने के लिए.

  2. यह पता लगाने का विकल्प कि प्रश्नों को नोड्स में कैसे वितरित किया जाता है.

  3. क्लस्टर और नोड्स की स्थिति की जांच करने का विकल्प.