आज तंत्रज्ञानाचा वेग आणि झपाटा इतका आहे की त्या वेगाने बावचळूनच जायला होते. त्यात सॉफ्टवेअर क्षेत्रातल्या सगळ्या ‘दादा’ कंपन्यांना ‘मार्केट शेयर’वर ताबा मिळविणे गरजेचे असल्याने त्यातली स्पर्धा अतिशय जीवघेणी झालेली आहे. त्यामुळे ‘टाइम टू मार्केट’ ह्याला इतके महत्त्व आले आहे की थोडा उशीर झाला तर स्पर्धेतून बाहेर फेकले जाण्याची शक्यता असते. त्यामुळे मग एखादी संकल्पना घेऊन बाजारात त्यावर आधरित एक गरज निर्माण करून, त्यावर आधारित प्रॉडक्ट्स बनवून ती विकण्यासाठी ‘बाजारपेठ’ तयार करण्याचे काम ह्या बलाढ्य सॉफ्टवेअर कंपन्या नेमाने करत असतात. (ते आमच्या फायद्याचेच असते म्हणा, त्यावर आमची रोजी रोटी अबलंबून असते!)

आजकाल ढगाला कळ लागल्याप्रमाणे बदाबदा कोसळणारा ‘क्लाउड कंप्युटिंग’चा मारा विरला जातो ना जातो तोच ‘बिग डेटा’चा हाकारा चहूबाजूंकडून ऐकू येऊ लागलाय. मार्केटिंग आणि सेल्सवाले ‘बिग डेटावर पेझेंटेशन तयार करा’ असली मागणी उठताबसता करू लागले आहेत. मी एकाला विचारले, “व्हाय डु यु नीड दिस?” तर त्याचे म्हणणे असे की, “आय डोंन्ट नो रे बाबा, बट क्लायंट इज आस्किंग अबाउट अवर केपेबिलीटीज ऑन बिग डेटा अॅन्ड यु हॅव टु प्रोवाइड मी दॅट इन एनी केस!” आयबीएमने तर दूरचित्रवाणीवर ह्या ‘बिग डेटा’चे तारणहार आम्हीच असा जाहिरातींचा मारा चालू केला आहे. तर आता हा ‘बिग डेटा’ म्हणजे काय असा प्रश्न पडणे साहजिकच आहे. चला तर बघूयात, काय आहे हा एवढा मोठा ‘बिग डेटा’…
बिग डेटा म्हणजे काय ते बघण्यापूर्वी ‘डेटा’ म्हणजे काय ते आधि समजून घेवुयात. संगणकात साठवल्या जाणार्या माहितीचे मूलभूत एकक असते एक बीट आणि अशा आठ बिट्सचा एक बाइट (Byte) बनतो आणि ह्या 10,48,576 बाइट म्हणजे एक मेगाबाइट (1MB). तर संगणकात साठवली जाणारी माहिती ही ह्या बाइट्समध्ये, फाइल्सच्या स्वरूपात साठवाली जाते. जेव्हा आपण ‘मायक्रोसॉफ्ट वर्ड’ चालू करतो तेव्हा ह्या प्रोग्रामची फाइल मेमरीमध्ये आणून ती फाइल ऑपरेटिंग सिस्टिमकडून रन केली जाते. आता फक्त एकाच फाइलमध्ये सर्व माहिती साठवणे शक्य नसते, फाइलच्या आकाराला मर्यादा असल्यामुळे. त्यासाठी बाकीची माहिती इतर सपोर्टिंग फाइल्समध्ये साठवून ती योग्य वेळी वापरली जाते. त्यासाठी त्या इतर फाइल्सचा संदर्भ (reference) ‘मायक्रोसॉफ्ट वर्ड’च्या मूळ एक्झीक्युटेबल फाइलमध्ये नोंदवलेला असतो. योग्य वेळी तो संदर्भ वापरून हवी असलेली सपोर्टिंग फाइल उघडून त्यातली माहिती वाचली जाऊन वापरली जाते. हा मायक्रोसॉफ्ट वर्ड प्रोग्राम वापरून आपण डॉक्युमेंट्स बनवतो. ती डॉक्युमेंट्सही ह्या बाइट्समध्ये डॉक्युमेंट फाइलमध्ये साठवली जातात. तर डेटाचे मुलभूत एकक म्हणजे बाइट आणि तो साठवला जाण्याचे माध्यम म्हणजे फाइल.
ज्यावेळी संगणकाचा वापर माहिती प्रोसेसिंग करणारी वेगवेगळी अॅप्लिकेशन्स बनाविण्यासाठी केला जाऊ लागला आणि त्यांची गुंतागुंत (complexity) वाढून, ती अधिक वेगवान असण्याची गरज निर्माण झाली तेव्हा अशा वेगवेगळ्या संदर्भ साठवून ठेवलेल्या फाइल्स वेळोवेळी उघडून त्यातून माहिती वाचणे हे अॅप्लिकेशनच्या एकंदरीत वेगावर परिणाम करू लागले आणि त्यातून मग ‘रिलेशनल डेटाबेस’चा शोध लावला गेला. ह्यात अॅप्लिकेशनसाठी लागणारा आणि एकमेकाशी संबंध असलेला डेटा ‘रो आणि कॉलम्स’च्या स्वरूपात डेटाबेस टेबल्समध्ये साठवला जाऊ लागला. जेव्हा हा परस्परसंबंधित डेटा ह्या रिलेशनल डेटाबेसमधून वाचला जायचा तो ‘डेटासेट’ स्वरूपात ह्या वेगवेगळ्या डेटाबेस टेबल्समधून एकत्र केला जायचा. पण संगणकाचा वापर वाढून, सर्व क्षेत्रांत जसेजसे संगणकीकरण होऊ लागले, तसेतसे हा डिजीटल डेटा मोठ्या प्रमाणात तयार होऊ लागला. तो प्रचंड डेटा साठवून, हवा तेव्हा वाचण्यासाठी, योग्य डेटासेटमध्ये उपलब्ध करून देण्यासाठी ओरॅकल, टेराडेटा, आयबीएम ह्यांसारख्या कंपन्यांनी त्यांची रिलेशनल डेटाबेस आणि डेटा वेअरहाउसिंगची उत्पादने विकसित करून ती बाजारात आणली. हा झाला ‘डेटा’चा मागोवा.
पण हा डेटा जसजसा वाढत होता तसा तो प्रोसेस करण्यासाठी, त्यातून हवी ती माहिती मिळविण्याची गुंतागुंत जशी जशी वाढत गेली तशी-तशी संगणकाची संगणनशक्तीही वाढणे गरजेचे होते. उदाहरणार्थ वेगवेगळ्या संदेशवाहक उपग्रहांकडून येणारा प्रचंड डेटा प्रोसेस करण्यासाठी शेकडो संगणकांची फौजही अपुरी पडू लागली तेव्हा ‘सुपरकॉम्प्युटर’चा शोध, तो प्रचंड डेटा प्रोसेस करण्यासाठी, लावला गेला. पण सुपरकॉम्प्युटर सर्वांनाच परवडणारा नव्हता आणि तेवढा प्रचंड डेटा प्रोसेस करण्याची निकडही तोपर्यंत व्यापारी तत्त्वावर भासलेली नव्हती.

पण पुढे इंटरनेट अवतरले आणि त्याने आपले दैनंदिन जीवन बघता बघता व्यापून टाकले आणि मग सुरू झाला खर्या अर्थाने माहितीचा विस्फोट. अक्षरशः लाखो टेराबाईट्स मध्ये डेटा वेगवेगळ्या डेटा सेंटर्समध्ये साठवला जाऊ लागला. आता हा माहितीचा विस्फोट म्हणजे नेमके काय? पडला ना प्रश्न? नाही? मग हा प्रश्न पडू द्या, विचारा हा प्रश्न स्वतःला? मिळाले उत्तर? नाही? हरकत नाही, सांगतो. आपल्या सर्वांच्या लाडक्या फेसबुकचे जगभरात अब्जावधी नोंदणीकृत सदस्य आहेत. ते सगळेजण फेसबुकवर आपापले स्टेटस सतत अपडेट करत असतात (कोण म्हणतंय रे मतांच्या पिंका टाकत असतात म्हणून). तर त्याचा आकडा आहे, दर दिवशी 2.7 बिलियन कमेंट्स, एक बिलियन म्हणजे एकावर 9 शून्य. ट्विटरवर 400 million ट्विट्स दिवसभरात केल्या जातात, यू-ट्यूबवर दर मिनिटाला साठ तास चालतील एवढे व्हिडियो अपलोड होत असतात. ह्या सगळ्यांचा दादा म्हणजे गूगल, ज्याला संगणक किंचितसा जरी वापरता येतो तो गूगलवर जाऊन येतोच येतो. पण नेमाने गूगल वापरणार्यांच्या हालचालींची नोंद हा गूगल नित्यनियमाने, गपगुमान करीत असतो. आता ह्या अब्जावधी वापरकर्त्यांचा हा डेटाही तेवढाच अवाढव्य असतो. ह्या शिवाय अॅमेझॉनसारखी असंख्य ऑनलाईन रिटेल दुकाने त्यांच्या वेबसाइट्सवर हजेरी लावणार्यांच्या आणि खरेदी करणार्यांच्या नोंदी त्यांच्या वेबलॉग्स मध्ये दर सेकंदाला करीत असतात. विश्वाच्या उत्पत्तीचा शोध घेण्याचा प्रयोग करणार्या सर्न (CERN) च्या प्रयोगशाळेत दर सेकंदाला 40 टेराबाइट एवढ्या नोंदी घेतल्या जात होत्या आणि घेतल्या जात आहेत. जगभरात लाखो ब्लॉगर्स त्यांच्या ब्लॉग्सवर दर मिनिटाला काही ना काही वेगवेगळ्या विषयांवर लिहीत असतात. पृथ्वीभोवती फिरणारे आणि दरवर्षी वाढत जाणारे उपग्रह पृथ्वीच्या वातावरणातली वेगवेगळी माहिती, छायाचित्रे दर सेकंदाला घेत असतात आणि ती साठवली जातात. जाऊदे मी दमलो आता, पण ही यादी संपणारी नाहीयेय. तर हा आहे सगळा ‘माहितीचा विस्फोट’.
तर, ह्या माहितीच्या विस्फोटातून तयार होणारा हा अवाढव्य डिजीटल डेटा म्हणजेच ‘बिग डेटा’. पण मग त्याचे एवढे काय विशेष, रिलेशनल डेटाबेस आहे की तो साठवायला, असे वाटणे साहजिकच आहे. पण रिलेशनल डेटाबेसमध्ये साठवली जाणारी माहिती साचेबद्ध (structured) असावी लागते. ती रिलेशनल डेटाबेसमध्ये रो आणि कॉलम्स मध्ये साठवली जाते. माहितीच्या विस्फोटातून तयार होणारा हा ‘बिग डेटा’ unstructured म्हणजेच साचेबद्ध नसतो. तो रिलेशनल डेटाबेसमध्ये साठविणे रिलेशनल डेटाबेसच्या तत्वांनुसार (Principle) पुर्णतः शक्य नाही. त्यामुळे तो बिग डेटा प्रोसेस करणे हे जिकरीचे काम होऊन बसले आहे. पण ह्या ‘बिग डेटा’वरच बर्याच कंपन्यांचा धंदा, म्हणजेच रोजीरोटी (Bread and Butter), अवलंबून असल्याने त्यावर उपाय शोधणे अपरिहार्य होऊन ह्या बिग डेटाचा उदोउदो चालू झालेला आहे.
हा अवाढव्य असा बिग डेटा तयार कसा होतो हे तर कळले पण त्याचे प्रोसेसिंग का करायचे? पडला ना प्रश्न! ठीक आहे. आपल्या लाडक्या फेसबुकचेच उदाहरण घेऊयात परत. तुमच्या फेसबुक अकाउंट मध्ये शेकडो मित्र आहेत (नसतील तर आहेत असे समजा 🙂 ). आता त्या सगळ्यांचेच अपडेट तुम्हाला न्युज फीड मध्ये मिळत नाहीत. तुम्ही कधी असा विचार केलात का की फक्त काही मित्रांचेच फीड तुम्हाला का दिसताहेत? ह्याचे कारण ‘बिजनेस इंटेलिजंस’! फेसबुक हा त्याचा बिग डेटा प्रोसेस करुन, त्याचे अॅनलिसिस (पृथःकरण) करुन त्यातुन तुमच्या उपयोगाची माहिती शोधून काढतो. त्यानुसार तुम्हाला तुमचे ‘नविन मित्र बनवा’ ह्या सूचना,सजेशन्स आणि जाहिराती फेसबुक दाखवते. लिंक्डइन (Linkdin.com) ही बिजनेस नेटवर्किंग साईटही हा त्या साइटवरचा बिग डेटा अॅनलिसिस (पृथःकरण) करुन तुम्हाला नविन मित्र, जॉब्स आणि तत्सम बिजनेस रिलेटेड माहिती सजेस्ट करते. त्यामुळे हा बिग डेटा प्रोसेस करून त्याचे पृथःकरण करणे ही आजच्या काळातील अत्यंत निकडीची आणि महत्त्वाची गोष्ट होऊन बसली आहे! हा बिग डेटा प्रोसेस कसा करायचा? हा प्रश्न मार्केटिंगच्या माध्यमातून एकदम निकडीचा बनवून आणि तापवून सर्व मोठ्या मोठ्या कंपन्या त्या तापलेल्या तव्यावर आपापली पोळी भाजून घ्यायचा प्रयत्न करत आहेत.
हा अवाढव्य असा बिग डेटा तयार कसा होतो ते कळले आणि तो प्रोसेस करण्याची निकडही समजली. आता पुढचा प्रॉब्लेम असा की ह्या अवाढव्य बिग डेटाचे प्रोसेसिंग हे नमके कसे करायचे? तो अवाढव्य डेटा प्रोसेस करण्यासाठी सुपरकॉम्प्युटरचीच गरज आहे आणि सुपरकॉम्प्युटर तर सगळ्यांना परडणार नाही, आता? अहो, तुम्ही त्याचे एवढे टेन्शन घेऊ नका. गूगलमधल्या संगणक पंडितांनी त्यावर उपाय शोधला आहे. तो म्हणजे ‘मॅप रेड्युस’ हे तंत्रज्ञान. ‘डिस्ट्रीब्युटेड कंप्युटिंग’ ह्या उच्च तंत्रज्ञानामधली पुढची पायरी म्हणजे हे ‘मॅप रेड्युस’ तंत्रज्ञान. हे संगणकीय प्रोग्रामिंगचे एका मॉडेल आहे जे बिग डेटा ह्या मोठ्या डेटासेट्सचे समांतर (Parallel) आणि विकेंद्रित (Distributed) प्रोसेसिंग शक्य करते. बोजड झाले ना? वोक्के…

समजा तुमच्या संगणकावर तुम्हाला काही आकडेमोड करायची आहे जी पूर्ण व्हायला साधारण 240 तास (म्हणजे 10 दिवस) लागणार आहेत पण त्या आकडेमोडीचा रिपोर्ट तुम्हाला आजपासून पाचव्या दिवशी असणार्या बोर्ड मीटिंगमध्ये सादर करायचा आहे. तुमच्याकडे जास्त शक्तीचे, गतिमान असे बरेच नवीन संगणक विकत घेण्याचे बजेटही नाहीयेय आणि वेळही. आता आली का पंचाईत! बोर्ड मीटिंग म्हणजे काही साधे काम नव्हे जिथे काहीतरी थातुरमातुर कारण सांगून वेळ मारून न्यायला. हो, पण जरी ‘बरेच नवीन संगणक’ विकत घेण्याचे बजेट नसले तरीही तुमच्या कंपनीत अगोदरच असलेले शेकडो संगणक आहेत की! त्यातले बरेच आधुनिक संगणक, संगणकातले काहीही कळत नसलेल्या मॅनेजरांकडे आहेत. त्यांची संख्या शेकड्यात असेल. तसेच बाकीचे कारकुनी कामे करण्यासाठी वापरले जाणारे संगणक बर्याच वेळा ‘आयडल (idle)’ असतात म्हणजे त्यांची पूर्ण संगणन शक्ती वापरलीच जात नाही. समजा ही वापरात नसलेली त्या संगणकांची संगणनशक्ती तुमची करायची असलेली आकडेमोड करण्यासाठी वापरली तर? तर, नक्कीच तुमचे काम नेमके पाचव्या दिवशी रिपोर्ट सादर करण्यासाठी पूर्ण झालेले असेल.
मॅप रेड्युस हे तंत्रज्ञान नेमके हेच साध्य करण्यास मदत करते. असंख्य सर्व्हर्स (उच्च संगणनशक्ती असलेले संगणक) चे क्लस्टर किंवा farm of servers मध्ये मोठे मोठे डेटा सेट्स (बिग डेटा) एकाच वेळी (parallel) प्रोसेस करणे हे ह्या मॅप रेड्युस तंत्रज्ञानाचे उद्दिष्ट आहे.
तर ह्या माहितीच्या विस्फोटातून तयार होणारा हा अवाढव्य डिजीटल डेटा म्हणजेच ‘बिग डेटा’ आणि तो प्रोसेस करण्यासाठी वापरायची युक्ती म्हणजे मॅप रेड्युस, ही आहे ह्या बिग डेटाच्या बॅन्ड वॅगनच्या मागची पार्श्वभूमी. ह्या बिग डेटाचे मार्केट 2010 मध्ये U$D 3.2 बिलीयन एवढे होते जे 2015 मध्ये U$D 16.9 बिलीयन एवढे होणार आहे. त्यासाठी लागणारे कुशल मनुष्यबळ हा सध्याचा मोठा क्रायसिस आहे त्यामुळे ह्या क्षेत्रात रोजगाराच्या प्रचंड संधी उपलब्ध होत आहेत त्यांचा फायदा आपण करुन घ्यायला हवा!
तर आता हा ‘बिग डेटा’ म्हणजे काय ते कळले का रे भाऊ?