ब्रिटेन के जाने-माने गणितज्ञ और व्यवसाई Clive Humby ने कहा था “Data is the new oil” . यानी कि आने वाले समय में डेटा पेट्रोल और डीजल के जैसा महंगा और जरूरी हो जाएगा। आइए देखते हैं Big Data क्या है?
अपने इस पोस्ट में जानेंगे उन्होंने ऐसा क्यों कहा था? और यह कैसे इतना जरूरी हो गया है? कैसे कंपनियां इसका इस्तेमाल कर रही है? और कैसे यह हमारी दिनचर्या में शामिल है?
डिजिटल क्रांति के इस दौर में हर क्षण हर पल हम इंटरनेट संबंधित उपकरणों का उपयोग करते हैं चाहे वो फोन हो, लैपटॉप हो या हाथ में पहने जाने वाली फिटबिट घड़ियां हों। यह उपकरण हर समय, हर क्षण, डेटा पैदा करतें है। इसे संरक्षित करने के लिए हमें कुछ सॉफ्टवेयर की आवश्यकता पड़ती है लेकिन एक ऐसा समय आता है जब यह डेटा इतना बड़ा हो जाता है कि इसे संभाल पाना किसी भी सॉफ्टवेयर के लिए या ऑर्गेनाइजेशन / कंपनी के लिए मुश्किल होने लगता है

डेटा कितना बड़ा होता है इसका अंदाजा ऊपर लगाए गए फोटो को देखकर आपको मिल गया होगा।
आप जब किसी ई-कॉमर्स साइट जैसे फ्लिपकार्ट , अमेज़न वगैरह पर जाते हैं तो वो आपकी हर एक माउस क्लिक को संरक्षित करता है। कंपनियां इस बात पर पैसा खर्च करती हैं, और यह जानना चाहती हैं कि आप किस दिन, किस समय, किस महीने में, किस मौसम में, कौन सा चीज देखते हैं, उसके साथ कौन सी चीज देखते हैं, आप कितने दाम की चीज देखते हैं, और आप क्या देखते हैं और क्या खरीदते हैं।
यह महज एक उदाहरण है। हमारे जीवन में ऐसी हजारों चीजें हैं जो हमारा काम आसान कर रही है और कर सकती है।
जैसे: स्पीच टू टेक्स्ट , या टेक्स्ट टू स्पीच टूल्स
हम गूगल को, सीरी को या एलेक्सा को कहते हैं “एलेक्सा कोई मिल गया गाना सुनाओ” और अलेक्सा उस गाने को इंटरनेट से सर्च करके सुनाने लग जाती है। इस काम को करने के लिए हजारों लाखों लोगों के वॉयस सैंपल लिए गए होंगे , एक मशीन को उन सैंपल्स पर ट्रेनिंग दी गई होगी और उसे इतना सही बनाया गया है कि वह हमारी आवाज को पहचानता है और उसे कमांड की तरह लेता है।
इसे पाने के लिए हजारों जीबी डेटा को प्रोसेस करके उस पर काफी रिसर्च की गई होगी तब जाकर यह संभव हुआ है।
ऊपर से कंपनियों के लिए काफी फायदे का सौदा भी है क्योंकि हमेशा आपकी आवाज सुनते रहता है, तो फिर हजारों जीबी डेटा पैदा भी करता है जिन्हें संभालना पड़ता है।
- फैसियल रिकॉग्निशन
फेसबुक पर आपने किसी ग्रुप फोटो को upload किया और आपको एकदम सही सुझाव आ रहा है कि “यह उस व्यक्ति की तस्वीर है क्या आप उसे टैग करना चाहते हैं?” इसके पीछे भी फेसबुक की काफी मेहनत और रिसर्च छुपी हुई है। इसके लिए फेसबुक के वैज्ञानिकों को कंप्यूटर के क्षेत्र में दुनिया के सबसे बड़े टयूरिंग अवॉर्ड से सम्मानित किया गया था। यह डेटा के कारण हीं है कि फेसबुक पूरी दुनिया की राजनीति के लिए चिंता का विषय बन गया है। आज के समय में यह कंपनियां इतनी शक्तिशाली हो गई है और किसी भी देश की राजनीति को बदलने की शक्ति रखती हैं।
- धोखाधड़ी पहचानना
जीमेल ( Gmail ) खुद-ब-खुद हमारे बहुत सारे ईमेल्स को हमारे स्पैम फोल्डर में डाल देता है यह इतनी आसानी से संभव नहीं है इसके लिए भी काफी सारे डेटा की जरूरत पड़ती है।
- रिकमेंडेशन सिस्टम
चाहे आप स्पॉटिफाई , सावन या गाना पर गाना सुन रहे हैं या यूट्यूब पर कोई वीडियो देख रहे हैं आप को दिखाने के लिए अगला गाना या वीडियो क्या होगा इसका निर्णय करने के लिए आपके जैसे और आपका काफी सारा डेटा जमा किया जाता है।
ऐसे अनेक अनगिनत काम है जिसमें डेटा एनालिटिक्स, मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस जैसे तकनीकों का उपयोग किया जाता है।उनके बारे में हम समय-समय पर आपको ऐसी जानकारी से अवगत कराते रहेंगे।
अब आपको थोड़ी सी समझ हो गई होगी की क्यों डेटा इतना बड़ा है और इसे संभालने के लिए हमारे आम लैपटॉप पीसी या छोटे-मोटे सर्वर्स काफी नही हैं।
परिभाषा – कौन सा डेटा बिग डाटा ( Big Data ) है ?
1990 में John Mashey द्वारा यह शब्द प्रचलित किया गया था। अगर सबसे आसान परिभाषा दूँ तो वह कुछ ऐसे होगा “ बिग डेटा की शुरुआत वहां होती है जहां हमें पैरेलल कंप्यूटिंग की आवश्यकता पड़ जाए ” . ऐसी परिभाषा इसलिए क्योंकि इसका कोई खास माप या पैमाना नहीं है जिसके द्वारा हम पता कर ले कि अब यह डेटा ‘ बिग डाटा ’ हो चुका है. यह हमारी जरूरत के हिसाब से तय होता है.
पैरेलल कंप्यूटिंग क्या है ?
इसे समझने के लिए हम एक बहुत आसान उदाहरण लेंगे। आमतौर पर किसी भी उपकरण में डेटा की प्रोसेसिंग कैसे होती है? एक प्रोसेसर होता है जो लैपटॉप, कंप्यूटर या मोबाइल में लगा होता है. डेटा प्रोफेसर से गुजरता है और उस पर कुछ कमांड चलाए जाते हैं. जैसे आपको एक फोटो एडिट करनी है। आप एक फोटो खींचते हैं या डाउनलोड करते हैं और उसे किसी एप्प में खोलते हैं, वह एप्प प्रोफेसर को कमांड भेजता है की फोटो की ब्राइटनेस बढ़ानी है और फोटो की ब्राइटनेस बढ़ जाती है. मोटे तौर पर ऐसा ही होता है.
लेकिन अब कल्पना कीजिए कि आपको एक नहीं, एक करोड़ फोटो एडिट करनी है! अब तो डाउनलोड करना ही मुश्किल हो जाएगा। इसके लिए हम क्या करेंगे की फोटो जहां है वहीं रहने देंगे। उसी जगह पर हम अलग-अलग कंप्यूटर या मोबाइल लगा देंगे। मान लिया जाए कि हमने 10000 लैपटॉप लगा दिया। अब काम कई गुना तेज गति से होगा। फोटो को डाउनलोड और अपलोड करने का समय और पैसा भी बच गया। इसी तरह के कंप्यूटिंग को पैरेलल कंप्यूटिंग कहते हैं।
बिग डेटा की पहचान ?
जैसा कि हमने ऊपर बताया कि बिग डेटा (Big Data) को नापने का कोई खास पैमाना नहीं है, लेकिन निश्चित तौर पर इसकी एक पहचान है जिसके द्वारा हम पता कर सकते हैं: यह काम बिग डेटा का है? या एक साधारण सिस्टम इसे करने में समर्थ है।
- Volume (आकार )
सबसे आसान पहचान है डेटा का आकारअगर कोई कहे कि उसे एक टीवी डेटा (1TB Data) हर घंटे प्रोसेस करना है तो वह निश्चित रूप से कहा जा सकता है कि वह बिग डेटा है अब उस डेटा से कितनी जानकारी निकालनी है इस पर भी निर्भर करता है कि वह बिग डेटा है कि नहीं।
- Variety( प्रकार )
फेसबुक का डेटा देखें तो इसमें क्या कुछ नहीं है टेक्स्ट , वीडियो , ऑडियो और फोटोस कुछ डेटा की संरचना सही है तो किसी की कोई संरचना ही नहीं है। इस प्रकार के डेटा को भी हम बिग डेटा कह सकते हैं।
- Velocity( गति )
क्रिकेट मैच का डेटा देखें या ट्विटर पर आते हुए फीड्स का हर क्षण हर पल सैकड़ों जीबी डेटा पैदा हो रहा है। इस गतिमान डेटा को भी प्रोसेस करने के लिए हमें बिग डेटा टूल्स की आवश्यकता पड़ती है।
सिर्फ इन 3 चीजों से भी हम पहचान सकते हैं कि कोई सिस्टम या कोई कंपनी बिग डेटा का उपयोग कर रही है या नही.
दोस्तों मुझे उम्मीद है की आपको इस पोस्ट से जानकारी मिल गयी होगी की Big Data क्या है ? अगर हाँ तो इसे अपने दोस्तों के साथ भी शेयर करें , धन्यवाद।
you may like : KMM – कोटलिन मल्टीप्लाटफोर्म मोबाइल
Update
For tech news keep visiting here.
We keep you updated with the latest tech news.