6 ივნისი 31 წუთის საკითხავი
მონაცემთა მეცნიერება

რა არის მონაცემთა მეცნიერება? რატომ გახდა ბოლო წლებში ეს დარგი ასეთი პოპულარული? როგორ გამოიყენება ის რეალურ გარემოში? რა მოთხოვნაა ბაზარზე ამ სფეროს პროფესიონალებზე, რა უნარების მქონე ხალხია საჭირო ამ საქმის გასაკეთებლად და როგორ მივიდეთ მონაცემთა მეცნიერობამდე? - ამ კითხვებზე პასუხებს ბლოგიდან შეიტყობთ.

 

Big data is watching you

მონაცემთა მეცნიერების საშუალებით, შეიძლება შეიქმნას ჭკვიანი სისტემები, რომლებსაც გარემოზე დაკვირვებით კანონზომიერებების აღმოჩენა და გარემოსთან ადაპტაცია შეუძლიათ. ანუ, ისეთი სისტემები, რომლებიც „ტვინის ავტომატიზაციას“ ახდენენ და გადაწყვეტილებებს იღებენ. ასეთია, მაგალითად ქალაქებში განლაგებული კამერებისა და სახის ამოცნობის სისტემები, რომლებიც ყველა ადამიანის ქალაქში გავლილ გზას ხატავს.

 

მონაცემთა მეცნიერების გამოყენების მაგალითები:

 

Facebook

მონაცემთა მეცნიერების გამოყენების ერთ-ერთი ყველაზე ცნობილი მაგალითი Facebook-ის მიერ ადამიანის სახის ამოცნობაა. სახის ამოსაცნობად მოქმედებს სისტემა, რომელიც Facebook-ზე ატვირთულ სურათებში უპირველესად ამოიცნობს, რომელი სახეა დაფიქსირებული და შემდეგ ერთმანეთთან აკავშირებს ამ ადამიანის სახეს სხვადასხვა სურათზე დაფიქსირებულ იმავე ადამიანის სახესთან.

 

Youtube

Youtube-ის ვიდეოს რეკომენდაციის სისტემა საიტის სიცოცხლისა და შემოსავლის ერთ-ერთი მთავარი წყაროა. მომხმარებლები ვიდეოების 70%-ს სწორედ ამ სისტემის დახმარებით ნახულობენ და საშუალოდ, ერთი მობილური მომხმარებელი Youtube-ის აპლიკაციაში ერთ საათზე ოდნავ მეტ დროს ატარებს მხოლოდ იმიტომ, რომ უწყვეტად უყურებს რეკომენდირებულ ვიდეოებს. რეკომენდაციების სისტემა მონაცემთა მეცნიერების საშუალებით იქმნება - მონაცემებზე დაყრდნობით სისტემა ვიდეოებს ერთმანეთთან აკავშირებს.

 

მონაცემთა მეცნიერების განსაზღვრება

 

ნებისმიერ კოგნიტურ სისტემას, ისევე როგორც ადამიანს, გადაწყვეტილების მისაღებად ინფორმაცია სჭირდება, ანუ, ჩვენს შემთხვევაში, მონაცემები. შემდეგ საჭიროა თეორიული გზა იმისთვის, რომ ეს სისტემა ავაწყოთ და ინფორმაცია საბოლოო შედეგად ვაქციოთ. სისტემამ ორი მიზანი უნდა შეასრულოს:

 

  • ავტომატური გახადოს „წარსული გამოცდილების სწავლა“ - ანუ ნახოს წარსული მონაცემები და დაადგინოს კანონზომიერება ერთ პარამეტრსა და სხვა პარამეტრებს შორის;
  • ნასწავლ გამოცდილებაზე დაყრდნობით, ავტომატური გახადოს გადაწყვეტილების მიღების პროცესი.

 

თეორიული მეთოდების ერთობლიობას, რომლებიც ასეთ სისტემებს ქმნიან, სტატისტიკური მოდელირება ან/და მანქანური დასწავლა (ე.წ machine learning) ჰქვია.

 

მას შემდეგ, რაც ჭკვიანი სისტემის შესაქმნელად მონაცემები და გზა გვაქვს, საჭიროა პლატფორმა, ანუ კომპიუტერული სისტემების ერთობლიობა, სადაც ეფექტურად იქნება შესაძლებელი ამ მონაცემების მიღება, შენახვა, გაანალიზება, შემდეგ ასეთი ჭკვიანი სისტემების აგება და ბოლოს ამ აგებული სისტემებით ახალ მონაცემებზე პროგნოზის გაკეთება.

საბოლოოდ გამოდის, რომ სამი კომპონენტი გვაქვს: მონაცემები, ამ მონაცემებიდან სწავლების გზა და გამართული კომპიუტერული პლატფორმა, რომლითაც ზემოთ ჩამოთვლილი დასაწყისში მაგალითად მოყვანილი შედეგების მიღწევაა შესაძლებელი. საბოლოოდ ვიღებთ განმარტებას: მონაცემთა მეცნიერება მულტი-დისციპლინალური მიმართულებაა, რომელიც აერთიანებს სტატისტიკას, მანქანურ დასწავლასა და სხვა მსგავს მეთოდებს, რათა გააანალიზოს მომხდარი მოვლენები მონაცემებზე დაყრდნობით.

 

საინტერესოა, რატომ განვითარდა მონაცემთა მეცნიერება ახლა. ბოლო 2 ათწლეულის განმავლობაში, მონაცემების დაგროვება-შენახვა-ანალიზის სფეროში, საკმაოდ დიდი მასშტაბის მქონე და მნიშვნელოვანი შედეგების გამომწვევი „აფეთქება“ მოხდა.

 

მთელი ისტორიის განმავლობაში შექმნილი მონაცემების 90% ბოლო 2 წელიწადში შეიქმნა. მონაცემთა შექმნის სისწრაფის გამო, მისი მოცულობა ყოველ ორ წელიწადში გაორმაგდება. ანუ, 2019-2020 წლებში ჯამში იმდენი მონაცემი შეიქმნება, რამდენიც მანამდე შექმნილა. ეს იმიტომ, რომ ჩვენს გარშემო უკვე ყველაფერი ქმნის ინფორმაციას. ამ მონაცემებზე დაყრდნობით, ჩვენ შეგვიძლია მონაცემთა მეცნიერების მეთოდების გამოყენება ცხოვრების თითქმის ყველა სფეროში და შესაბამისად „ტვინის ავტომატიზაციაც“.

 

მონაცემთა მეცნიერების საჭიროება

ბაზარზე ამ დარგის სპეციალისტებზე მოთხოვნა ძალიან მაღალია, მიწოდება კი ზედმეტად ნელა იზრდება. ამერიკის დასაქმების ყველაზე პოპულარული ვებ-გვერდი - indeed.com-ის თანახმად, მონაცემთა მეცნიერებზე მოთხოვნა 2016 წლის ბოლოდან 2018 წლის ბოლომდე 70%-ით გაიზარდა. Glassdoor-ის მიხედვით კი, 2018 წლის საშუალო ანაზღაურების გათვალისწინებით, მონაცემთა მეცნიერის პოზიცია ყველაზე მაღალანაზღაურებადი იყო. იმის საილუსტრაციოდ, თუ რამხელა ნაპრალია მოთხოვნასა და მიწოდებას შორის, LinkedIn-ის სტატისტიკაც საკმარისია - 2018 წლის აგვისტოში ამერიკის მასშტაბით 151 000 მონაცემთა მეცნიერზე იყო მოთხვნა მიწოდების გარეშე.

 

თიბისი და მონაცემთა მეცნიერება

თიბისისთვის მონაცემთა მეცნიერების კუთხით, საინტერესოა მონაცემების მოძიება და მოდელირება. ყურადღებას ვაქცევთ ამ კუთხით დასაქმებული ადამიანის სამი სახის უნარს:

 

  • უპირველესად, მონაცემთა მანიპულირების უნარს, რომ შევძლოთ საჭირო მონაცემების მოძიება და მოდელირებისთვის საჭირო სახის მიცემა;
  • მოდელირების უნარები, რომ შევძლოთ მოდელის აგება;
  • და ბოლოს, ბიზნესის ცოდნა, რომ შევძლოთ აგებული მოდელის კარგად ინტეგრირება ბიზნესში.

 

აქედან გამომდინარე ამჟამად ჯამში 3 პროფილის ადამიანი გვყავს: მონაცემთა ინჟინერი, მონაცემთა მეცნიერი და ბიზნეს-მთარგმნელი.

 

მონაცემთა ინჟინერი პასუხისმგებელია მონაცემების მოძიებაზე, დამუშავებასა და მოდელირების ცხრილის აწყობაზე. ის უნდა ერკვევოდეს მონაცემთა შენახვის სხვადასხვა ტექნიკაში; უნდა შეეძლოს დიდი მოცულობის მონაცემების ეფექტურად დამუშავება.

 

მონაცემთა მეცნიერი პასუხისმგებელია მოდელის აგებასა და ბიზნესში მის დანერგვაზე. ამისათვის, ეს ადამიანი უნდა ერკვეოდეს მოდელების თეორიაში და შეეძლოს მოდელის აწყობა პროგრამირების რომელიმე ენაში, მაგალითად: Python-სა და R-ში. აუცილებელია, რომ მონაცემთა მეცნიერი ზედაპირულად მაინც ერკვეოდეს იმ ბიზნესში, რომელშიც მუშაობს; უნდა ჰქონდეს კომუნიკაციის მაღალ დონეზე განვითარებული უნარები.

 

ბიზნესის წარმომადგენლები მოდელირებაში კარგად ვერ ერკვევიან. ამიტომ, საჭიროა ახალი ადამიანი-რგოლის გაჩენა, რომელსაც ესმის - რას აკეთებს მონაცემთა მეცნიერის მიერ გაკეთებული მოდელი და სად შეიძლება და სად არ შეიძლება ამ მოდელის ბიზნესში გამოყენება. ამ როლს ბიზნეს-მთარგმელი ჰქვია. ის ასრულებს მთარგმნელის როლს მონაცემთა მეცნიერსა და ბიზნესს შორის და მისი მთავარი მოვალეობაა, რომ მოდელი ბიზნესთან იყოს შესაბამისობაში და რეალურად ჭრიდეს ბიზნესპრობლემას. ბიზნეს-მთარგმნელის მოვალეობაა, მოიფიქროს და მონაცემთა მეცნიერთან ერთად დაადასტუროს მოდელის დანერგვის წესი.

 

მონაცემთა მეცნიერის განვითარების გზები

მონაცემთა მეცნიერად ჩამოსაყალიბებლად პირველ რიგში საჭიროა მონაცემთა მართვის საშუალო დონეზე ათვისება. საჭიროა, მონაცემთა მეცნიერი ერკვეოდეს მონაცემების დამუშავების საფუძვლებში და საჭიროების შემთხვევაში შეეძლოს მონაცემთა ინჟინრისგან მიღებული მონაცემების დამუშავება. ამისათვის მონაცემთა მეცნიერი SQL-ის მუშაობის პრინციპებში უნდა ერკვეოდეს და სტრუქტურირებული მონაცემების ამოღება, გაფილტვრა, გადაბმა, დალაგება და დაჯგუფება შეეძლოს. ასევე, მონაცემთა მეცნიერს R-სა და Python-ში მონაცემებთან სამუშაოდ ყველაზე პოპულარული ბიბლიოთეკების გამოყენება უნდა შეეძლოს. R-ის შემთხვევაში, ეს არის - dplyr, Python-ის შემთხვევაში კი - Pandas.

 

მოდელირებისთვის საჭიროა წრფივი ალგებრისა და კალკულუსის ათვისება, რომ შესაძლებელი იყოს სტატისტიკისა და მანქანური დასწავლის შესწავლა. შემდეგ კი, ალბათობის თეორიის, სტატისტიკური მოდელირებისა და მანქანური დასწავლის მეთოდების ცოდნა.

 

ასევე, აუცილებელია, რომ მონაცემთა მეცნიერს შეეძლოს თავისი მოდელის შედეგებისა და მონაცემებში არსებული საინტერესო კანონზომიერებების ვიზუალიზაცია. არსებობს ვიზუალიზაციის სხვადასხვა  ხელსაწყოები - ტაბლო, PowerBI, Qlik.

 

და ბოლოს, ამ სფეროში აუცილებელია ბიზნესთან მუშაობის უნარების ფლობა იმისთვის, რომ მონაცემთა მეცნიერმა ბიზნესის საჭიროებებისათვის მოდელის მორგება შეძლოს.

 

ქართულ ბაზარზე, სულ რამდენიმე მსხვილ დამსაქმებელ კომპანიას, მათ შორის თიბისის აქვს ამ მიმართულებით მომუშავე ადამიანებზე დიდი მოთხოვნა. ამიტომ, საინტერესოა - როგორ და სად ვისწავლოთ ეს ყველაფერი? პირველ რიგში, თქვენს უნივერსიტეტში მოიძიეთ კურსები ამ მიმართულებით. ასევე, უამრავი ონლაინ-რესურსი არსებობს, რომლებიც ხელმისაწვდომი ან სულაც უფასოა: Coursera, Datacamp, Kaggle.

 

 

ავტორი: მიხეილ ნადარეიშვილი, ნინო ლაშქარაშვილი

ფოტო: Unsplash

კომენტარები