अलेक्सा, डीप लर्निंग म्हणजे काय?
By ऑनलाइन लोकमत | Published: April 23, 2022 09:31 AM2022-04-23T09:31:21+5:302022-04-23T09:32:41+5:30
दिशा सांगणाऱ्या गुगलबाईचे बोलणे, बोललेले टाइप होणे, टाइप केलेले ऐकू येणे या आता सवयीच्या झालेल्या गोष्टी. हा डीप लर्निंगचाच आविष्कार!
प्रा. डॉ. विश्राम ढोले, समाजमाध्यमांचे अभ्यासक -
ऐंशीच्या दशकात अमेरिकी टपाल यंत्रणांपुढे एक नवे आव्हान निर्माण झाले होते. बटवडा करण्यासाठी पत्र आणि पाकिटांची संख्या प्रचंड प्रमाणावर वाढली होती. पत्रे वेळेत पोहोचवायची तर आधी पत्त्यानुसार त्यांचे वेगवान वर्गीकरण व्हावे लागते. त्यासाठी तिथे आपल्या पिनकोडसारख्या झिपकोड क्रमांकाची व्यवस्था आहे; पण प्रचंड संख्येमुळे झिपकोड वाचून बटवडा करणे प्रचंड वेळखाऊ आणि कष्टाचे झाले होते. यांत्रिकीकरणाशिवाय पर्याय नव्हता. मात्र, त्यात अडचण होती. बहुतेक टपालावरील पत्ते तेव्हा हाताने लिहिलेले असत. त्यामुळे पूर्ण पत्ता तर सोडा नुसता हस्तलिखित झिपकोडही यंत्राच्या साह्याने अचूक वाचायचा कसा हे आव्हान होते.
यान लिकून आणि त्यांच्या संगणकतज्ज्ञ सहकाऱ्यांनी त्यासाठी १९८९ साली कृत्रिम बुद्धिमत्तेची एका विशिष्ट पद्धती कामाला लावली. केवळ तीन दिवसांच्या प्रशिक्षणातून या कृत्रिम बुद्धिमत्तेने हस्तलिखित झिपकोड जवळजवळ शंभर टक्के अचूकतेने वाचण्यात यश मिळविले. झिपकोडनुसार बटवडा होण्याची प्रक्रिया कितीतरी पटीने वेगवान, अचूक व कार्यक्षम झाली. कृत्रिम बुद्धिमत्तेच्या क्षेत्रात आज ज्याला डीप लर्निंग असे म्हटले जाते त्याचा हा पहिला मोठा व सर्वसामान्यांच्या जगण्याला स्पर्श करणारा आविष्कार. हस्तलिखित झिपकोड वाचता येणे हा बाळबोध वाटावा इतके डीप लर्निंगचे प्रगत आविष्कार आज अनेक क्षेत्रात दिसू लागले आहेत. दिशा सांगणाऱ्या गुगलबाईचे बोलणे, बोलून माहितीचा शोध घेणे (व्हॉइस सर्च), बोललेले टाइप होणे, टाइप केलेले शब्द ऐकू येणे या आता हळूहळू कानवळणी किंवा तोंडवळणी पडत चाललेल्या गोष्टीदेखील डीप लर्निंगचाच आविष्कार. अमेझॉनची अलेक्सा, ॲपलची सिरी, मायक्रोसाफ्टची कोर्टाना, गुगलची असिस्टंट या साऱ्या आपल्या परिचयाच्या बोली सहायक यंत्रणाही डीप लर्निंगच्याच तत्त्वावर चालतात. इतकेच नव्हे तर चेहरे, वस्तू, प्राणी ओळखणाऱ्या आजच्या बहुतेक सगळ्या संगणक व्यवस्थाही डीप लर्निंगचीच उदाहरणे. इतकेच नाही तर विनाचालकाची वाहने, हवाई व अवकाश सुरक्षा यंत्रणा, कर्करोगचे निदान व उपचार, औद्योगिक सुरक्षा व स्वयंचलन अशा गुंतागुंतीच्या आणि आव्हानात्मक क्षेत्रातील आजच्या प्रगतीचा आधार डीप लर्निंग हाच आहे.
खरं तर डीप लर्निंग हा यांत्रिक स्वयंशिक्षणाच्या अनेक पद्धतींपैकी एक. आणि यांत्रिक स्वयंशिक्षण हे कृत्रिम बुद्धिमत्तेच्या प्रकारांमधील एक. पण, डीप लर्निंगच्या यशामुळे आज अनेकांना डीप लर्निंग आणि कृत्रिम बुद्धिमत्ता समानार्थी वाटू लागले आहे. असे काय वेगळेपण आहे या डीप लर्निंगच्या पद्धतीमध्ये? त्यातल्या डीप शब्दाला काय संदर्भ आहे?
मागच्या लेखात म्हटल्याप्रमाणे डीप लर्निंग हे यांत्रिक स्वयंशिक्षणाच्या पाच प्रमुख घराण्यांतील एक घराणे. फ्रॅक रोझनब्लाट हे अमेरिकी मानसशास्त्रज्ञ त्याचे आद्यप्रवर्तक. मेंदूतील चेताजाळ्याप्रमाणे इलेक्ट्रॉनिक सर्किटच्या विविध स्तरांच्या जाळ्यांमधून यंत्रांचे स्वशिक्षण करता येईल हा त्यांचा मुख्य विचार. अमेरिकी नौदलासाठी त्यांनी १९५९ साली त्यावर आधारित पर्सेप्ट्रॉन नावाची यंत्रणा उभारली. अनुभवातून शिकणारे यंत्र अशा शब्दात त्यावेळी त्याचे स्वागतही झाले; पण पुढे त्यातील मर्यादांचीच इतकी चर्चा झाली की पर्सेप्ट्रॉन आधारित संशोधनाच्या वाटाच बंद झाल्या. रोझनब्लाट यांनी मांडलेले जोडण्यांचे थर मांडत शिकण्याचे, चुकांचा माग काढत सुधारत जाण्याचे आणि काळ्या-पांढऱ्या अशा कप्पेबंद शैलीऐवजी छटांमध्ये विचार करण्याचेलतत्त्व महत्त्वाचेच होते. मानवी शिकण्याच्या पद्धतीशी अधिक जवळ जाणारे होते. म्हणून पुढे दोनेक दशकांनंतर तांत्रिक आणि संकल्पनात्मक मर्यादा जसजशा कमी होत गेल्या तसतशा रोझनब्लाट यांच्या तत्त्वाच्या क्षमताही लक्षात येत गेल्या. पुढे यान लिकून, जेफ्री हिन्टन यांच्यासारख्या अनेक तज्ज्ञांनी त्यात मोलाची भर घातली. यांत्रिक स्वयंशिक्षणाच्या नव्या शैली व गणितीय सूत्रे प्रस्थापित केली. डीप लर्निंग क्षेत्राचा पाया त्यांच्या या मूलभूत कार्यातून घातला गेला.
स्वयंशिक्षणाच्या इतर घराण्यांप्रमाणे डीप लर्निंगमध्ये संगणकाला काय आणि कोणत्या कृती करायच्या याच्या नेमक्या आणि तपशीलवार कृती सांगितलेल्या नसतात. ज्या संबंधी अचूक उत्तरे हवी आहेत त्यासंबंधीची विदा फक्त पुरवली जाते. उदाहरणार्थ कुत्र्याचे एक छायाचित्र. ती विदा जाळ्यांच्या अनेक थरांमधून पुढे पाठवली जाते. प्रत्येक थर आलेल्या विदेचे कोणाएका निकषावर विश्लेषण करतो. उदाहरणार्थ चित्रातील आकृतीच्या बाह्य कडा. त्यानुसार त्या विदेचीकाहीएक मूल्य छटा ठरवतो आणि ती पुढच्या थराकडे इनपुट म्हणून पाठवतो. तिथे दुसऱ्या एका निकषावर- उदाहरणार्थ रंगसंगती- तिचे मूल्यमापन होते आणि ती पुढे जाते. असे करत शेवटच्या स्तराकडून विदेचे एकात्मिक मूल्यमापन होते. तिला नाव दिले जाते. ते नाव बरोबर आले तर उत्तम. चुकले तरी ठीकच. कारण ते चूक असल्याचा प्रतिसाद लक्षात घेऊन प्रत्येक थर आपल्या मूल्यमापनामध्ये योग्य ठिकाणी फेरफार करतो. अशा अनेक चूक- बरोबरच्या आवर्तनातून मग ही प्रणाली ‘कुत्रा म्हणजे काय’ आणि ‘विविध कोनात आणि छायाप्रकाशात कुत्रा कसा दिसतो’ याचे काहीएक प्रतिमान ठरवते. ते सुधारत जाते. जितके थर जास्त तितके विश्लेषणाचे प्रमाण जास्त. जितकी विदा जास्त तितके शिकण्याचे प्रमाण जास्त. आणि या दोन्हीतून भाकीत बरोबर येण्याची शक्यता जास्त.
vishramdhole@gmail.com