Intervju: Ilija Subašić – u susret Sprint2DataScience kursu u Subotici

Da li je Data Science ekskluzivno programersko ili uopšteno tehničko polje, u čemu je razlika između developera i nekoga ko se bavi DS-om, na koji način se edukovati i u krajnjoj liniji kako iskoristiti data science u razvoju karijere, samo su neka od pitanja čije odgovore otkriva Ilija Subašić, predavač i jedan od organizatora Sprint2DataScience kampova.

Ilija, kako nekome ko nije u ovoj oblasti objasniti šta je to data science?

DS je jednostavna stvar – kreiranje proizvoda ili donosenje odluka na bazi podataka. Bilo da je to sistem koji vam preporučuje interesantne YouTube klipove , ili sistem koji predviđa cenu nekog proizovoda, ili sistem koji predviđa da li pacijent ima ili ne neko oboljenje – svi DS sistemi su zasnovani na podacima iz kojih pokušavamo da nešto, automatski, naučimo.

Ko su ljudi koji mogu da se bave DS-om i da li to uglavnom moraju biti programeri/developeri?

Ne, većina ljudi koji se bavi DS, uključujući i mene, i ne smatra sebe za programere. Mi koristimo neke slične alate kao i programeri i uglavnom pišemo kod i samim tim ima sigurno i dosta sličnosti. Ali, bilo ko ko se bavi analizom podataka može lako da se prebaci na DS.  Istina, za određene pozicije u DS svetu, familijarnost sa kuckanjem koda čini krivu učenja malo blazom. Ali i pored toga DS nije ekskluzivno programersko ili uopsteno tehnicko polje.

Dosta je reči o tome da je Data Science zapravo odlična oblast za ljude koji su u društvenim naukama da svom poslu daju i tehnološki aspekt, u kojoj meri misliš da je to tačno?

Veliki broj ljudi sa kojima sam radio, a donekle i ja sam, dolazi iz netradicionalno tehničkih domena. Činjenica je da je mnogo statističkih metoda razvijeno od strane ljudi iz različitih domena da bi analizirali neke za njih specificne podatke. Do sada sam radio i sa novinarima, i lingvistima čak i bivšim profesionalinim muzičarima koji su se upustili u DS. Čak i za ljude kojima kucanje koda stvara nekakvu odbojnost, postoji dovoljan broj paprednih alata za DS koji rade sa minimalnim pisanim instrukcijama ili potpuno kroz UI. Pojam “citizen data scientst” se već nekoliko godina koristi da se opišu ljudi koji se bave DS a da im primarna oblast nije ni statistika, ni programiranje, ni neka analitika. DS je otvoren za sve, pa čak i za ljude koji bi da se time bave iz hobija. Uvek je bolje stavove i mišljenja dokazati kroz obzervacije i podatke.

U čemu je razlika između dnevnog posla nekog developera i nekoga ko se bavi DS-om?

Pre svega u cilju. Dnevni posao developera je pretežno izgradnja fukncionalnog sistema prema nekim definisanim formalnim specijfikacijama. U data science svetu to dolazi tek na kraju jednog posla koji je u velikoj meri istraživački. Cilj DS je da se kreira nekakav matematički model koji uči iz dostupnih podataka. Ovi modeli nikada nisu savršeni i posao je da se pronađe onaj model koji na najbolji način objašnjava ili predstavlja neki problem. Sama izgradnja nekakvog sistema koji koristi ovaj model može, ali ne mora i čak često i nije striktno posao samo za nekog ko se bavi DS.

Da li postoji dovoljno edukativnih ustanova u Srbiji/Belgiji za ovu profesiju ili se znanje o ovoj oblasti mora još uvek prikupljati na kursevima i obukama?

Nisam baš u potupnosti upoznat sa tim sta se dešava u Srbiji, jer duže vreme ne živim tu. Znam da postoji nekoliko univerzitetskih programa iz oblasti, ali su jos uvek u povoju. Većina ljudi koji se u Srbiji bavi DS su ili ad-hoc ušli u oblast ili su se školovali u inostranstvu. Probelm sa univerzitetskim kursevima je sto je izlaz iz njih čine ljudi bez iskustva. Pa čak i ako su u dobroj meri savladali oblast, uvek je teško za nekoga ko tek počinje karijeru da uskoči u neki veći i kompleksniji projekat, a posebno u situaciji gde bi početnik trebao da bude domenski ekspert. Zato mislim da obuke i kursevi pruzaju alternativu za ljude koji već imaju iskustva u radu i razvijeni neki soft –s kills skup, a nedostaje im domensko znanje.

Šta bi preporučio od kurseva za one koji žele da se samoedukuju?

Mining Massive Data Sets je verovatno najbolji onlajn kurs koji sam video, ali nije za početnike. Za ulaz u ovu oblast svima preporučujem WEKA kurseve. Towards data scince je po meni malo bolji od ostalih content resursa koji su dostupni besplatno. Mislim da ljudi često čine grešku tako što krenu od relativno kompleksnih machine learning orijentisanih kurseva. Ti kursevi su odlični za ljude koji žele da se bave tom oblasti , ali u realnosti jako malo ljudi u Srbiji, pa čak i u svetu se bavi strogo mašinskim učenjem. Puno puta sam nailazio na ljude sa velikim programerskim iskustvnom koji krenu sa kursevima o neuronskim mrežama, a zapravo ih zanima implementacija nekog DS sistema. Kada prođete početne kurseve kao sto su WEKA kursevi, lako ćete nadogratiti razne machine learnig kurseve ako vas do detalja zanima kako se vrte točkići unutar algoritama.

Šta je sve kasnije moguće raditi kada se obrazujete za data science?

Pa pre svega kao data scientist, imate mogućnost da razvijate modele i gradite sisteme koji rade na bazi velikih količina podataka. Mada danas je i u DS dosta različitih podspecijalizacija, od ljudi koji su više u inžinjerskom delu preko ljudi koji se bave samo analitikom do ljudi koji se bave mašinskim učenjem. Pored toga, sigurno postoji veliki broj inžinjera koji se bave implementacijom nekih sistema koji koriste DS razvijene modele. Po mom iskustvu od nivoa njihovog rauzmevanja DS u mnogome zavisi uspeh nekakvog projekta. Dakle, neko osnovno znanje ili razumvanje DS je vrlo korisno i za developere koji se neće baviti kreiranjem DS modela već njihovom integracijom.

Šta je obeležilo data science u prethodnim i šta nas očekuje u nadolazećim godinama u ovoj oblasti?

Previše stvari. Možda i najznačajnija stvar u 2018-toj je neka etička crta. Prvo GDPR pa posle i Cambridge Analiica doveli su pitanje privatnosti, koje je uvek postojalo u stručnim krugovima, na prvo mesto interesovanja javnosti. Polako dolazi i do smirivanja nekakvog hype perioda i malo realnijeg pogleda na trenutne domente DS/AI/ML.  2019-ta donosi jedno veće raslojavanje po specijalizacijama, i to se polako i vidi po oglasima za posao koji kruže. Sa tehničke strane, meni lično, dve najzanimljivije oblasti su autoML i transfer learning. Trenutno se previše vremena troši na to da se „ručno“ optimizuju parametri nekog modela i da se pronađe najbolji. Ove dve oblasti trebale bi da donekle olakšaju ovaj proces i donesu do jos većeg automatizma u selekciji modela.

Večita debata: Python ili R za Data Science, na kojoj si strani i zbog čega?

Mislim da je potupno svejedno. Ako znate šta radite i razumete efekate vaših odluka na model koji kreirate, nema neke velike razlike. Potpuno ličan izbor i postoji dovoljno širok izbor biblioteka i resursa kao i velika zajednica za bilo koji od ova dva jezika. I ne samo njih, neko i veliki broj drugih. Ja podjednako koristim i R i python, ali uglavnom za neki prototyping. U smislu neke efikasnosti, mala je razlika, a i sistemi koji teže ka visokoj efikasnosti vrlo često moraju da budu zasebno razvijeni gotovo ni iz čega i tada je pitanje jezika isto kao i kod razvoja bilo kog drugog programa.

Kako si ti ušao u Data Science, kako je izgledao tvoj karijerni put?

Preko business inteligence sveta jer mi se posao developera nije preterano sviđao. Kada sam naučio da kodiram i napisao par komercijalnih programa, shvatio sam da mi to i nije previše zanimljivo. Nedostajala mi je nekakva crta igranja i istrazivanja, koji su mi uvek drazi od same izgradnje. Tako da kad sam „nabasao“ na data mining, znao sam da je to nešto sto može da mi se svidi. Proveo sam neko vreme u akademskom svetu, ali više sam voleo da radim na pravim sistemima, i već jedno 10 godina  to i radim. Sve u svemu ima otprilike 15 godina od kako sam pročitao prvu knjigu o DS (data mining).

Šta ti je bio motiv da dođeš u Srbiju da bi Subotičane podučavao Data Science-u?

Pa dve stvari, prva najvažnija, ja sam iz Subotice, iako godinama ne živim tamo. Tako da mi je s vremena na vreme zanimljivo da se vratim (da se podsetim zašto sam otišao). Druga stvar je da sam veliki fan alternativnih načina obrazovanja. Mislim da neformalno obrazovanje daje konkretnije rezultate.

Kakva su ti iskustva sa prošlogodišnjeg Data Science kampa u Subotici, i da li si primetio napredak kod učesnika po njegovom okončanju?

Mislim da je bilo teško i naporno, ali sa svrhom. Pokazali smo ljudima da DS nije isto kao da se nauči, na primer, nova javascript biblioteka. Vec je to jedna oblast koja zahteva i razumevanje i način misljenja i određene veštine. Rekli smo – jeste tesko, ali vi to mozete – i mislim da smo do kraja kursa i mi predavači i polaznici to videli.  Tako da sada polaznici em znaju mnogo više nego pre, ali u isto vreme i znaju mnogo više stvari koje ne znaju i treba tek da nauče.

Više o iskustvima polaznika OVDE.

Šta kažu prošlogodišnji predavači I organizatori, saznajte OVDE.