Data scientist dilema ili pila naopako

Data scientist dilema ili pila naopako

Već me dugo muči jedna dilema. Znate ono kada vam tijek podsvjesnih misli oblikuje jednu nejasnu ideju? I nedostaje Vam final touch. I istovremeno znate da ste blizu... i jako daleko... I znate da ste u pravu. Samo ne znate u svezi čega točno. :-)

Dakle, finalni okidač bio je neprecizan (izvučen iz konteksta) članak objavljen na ovom linku. Pa tako piše sljedeće "Kopal: podatkovni znanstvenici mogu pomoći stvoriti nove proizvode i nove izvore prihoda, ali su skloni pristrano promatrati podatke". !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

P.S. ove uskličnike sam dodao ja, tužan zbog činjenice nerazumijevanja prikazanog na konferenciji, a iz kojeg konteksta je izvučena ta rečenica.

U zadnjih 7 konferencija (u 30 dana) sudionicima pokušavam objasniti da niti jedno tehnološko rješenje ovog svijeta neće riješiti problem samo od sebe.

Probleme rješavaju ljudi. A ljudi griješe. Ne uvijek, ali griješe. No, griješe manje ako su svjesni razloga svojih pogrešaka; npr. heuristika, pristranosti, predrasuda, mentalnog sklopa, logičkih pogrešaka i dr.

Još manje griješe ako su usvojili analitičke vještine i znanja kojima te pogreške svode na minimum. A data scientisti su to usvojili jer je to ujedno i 1/3 ključnih vještina i znanja data scientista.

Vidi shemu ključnih vještina i znanja data scientista (detaljnije u knjizi Kopal, Korkut, Krnjašić: Analiza (socijalnih) mreža: praktična primjena).

No, biti u pravu u krivo vrijeme je isto kao i biti u krivu.

Kako će data scientist implementirati u realnom poslovnom okruženju svoje rješenje poslovnog problema? Teško.

Zašto?

Zato što je onaj koji o tome odlučuje pod utjecajem heuristika, pristranosti, predrasuda, mentalnog sklopa, logičkih pogrešaka i dr. Npr. menadžer u tvrtki, bilo na internoj strani (tvrtka data scientista) ili eksternoj strani (tvrtka klijenta).

E sad, kako to riješiti? Nalazi li se rješenje "na strani data scientista" ili "na strani poslovnog okruženja"? Ili, treba li rješenje tražiti interno ili eksterno?

To je moja dilema.

Kao i sva "prava" rješenja, za pravo rješenje je potrebno promijeniti perspektivu. I tada sve postaje jednostavno. I samorazumljivo.

Umjesto da se podjela znanja i vještina više vrsta data scientista elaborira vodoravno (vidi sljedeću shemu iz Harlan D. Harris, Sean Patrick, Murphy, and Marck Vaisman: Analyzing the Analyzers, An Introspective Survey of Data Scientists and Their Work), tu je podjelu potrebno definirati okomito.

Dakle, podjela ključnih znanja i vještina data scientista treba ujedno opisati poslovni proces, potrebna ključna znanja i vještine te ujedno ponuditi rješenje gore navedene dileme.

Gartner opisuje ulogu data scientista kao "...osobu koja radom sa podacima i analitičkim modelima može stvoriti uvid u poslovanje te to primijeniti na poslovne procese".

To bi bilo super kada bi poslovni procesi (čitaj "poslovni problemi") bili jasno definirani.

Međutim, u stvarnom, realnom svijetu nisu svi poslovni problemi jasno definirani. Mnogi od njih se u početku vrlo sporo rješavaju. Kako bi se uopće mogli riješiti nužno je razumjeti i prepoznati poslovni kontekst. Pritom je nužan interdisciplinarni pristup koji se sastoji od više različitih vještina: razumijevanja poslovne domene odnosno poslovna ekspertiza, primijenjena matematika, tehnologija, bihevioralne znanosti i dr.

Shvatio sam da je donošenje odluka na temelju podataka jedino moguće u kontekstu razvojnog puta od podatkovnog inženjerstva ka znanosti o odlučivanju.

E sad, to podrazumijeva (a pretpostavke su majka svih...) da data engineering primjenom tehnologije omogućuje prikupljanje, skladištenje, procesiranje, transformiranje i strukturiranje podataka.

S druge strane decision science primjenom različitih disciplina omogućuje pravilan (i jedini moguć) pristup problemima koji su loše definirani, promjenjivi i nedovoljno razumljivi. Probleme koji započinju kao osjećaj (guts), nagađanje ili neka misterija pretvara u heurističke, pravilne i razumljive probleme.

A tada je moguće primijeniti npr. algoritme u kojima se uočavaju obrasci.

No, da bi to bilo moguće primijeniti trebate decision scientista.

Međutim, decision scientisti s analitičkim vještinama i znanjima o poslovanju, matematici, statistici, tehnologiji i bihevioralnim znanostima su vrlo rijetki. Njihov krajnji cilj nije "proizvodnja" modela koji radi (to radi data scientist), već omogućavanje tvrtkama donošenje odluka temeljem podataka (informed & data driven decisions).

Dok data scientisti koriste analitičke vještine za iznalaženje rješenja, decision scientisti koriste analitičke vještine omogućujući primjenu tih istih rješenja.

OK, sada, kada je to jasno, čemu onda sintagma "pila naopako" u naslovu teksta?

Pa, onaj objavljeni naslov "...podatkovni znanstvenici mogu pomoći stvoriti nove proizvode i nove izvore prihoda, ali su skloni pristrano promatrati podatke..." zapravo uopće ne govori o tome kako su svi drugi također pristrani (jer su ljudi kao i svi mi). I pristraniji jer se ne služe analitičkim tehnikama koje minimiziraju pristranost. A nepriznavanje te istine ne pridonosi rješavanju problema. Upravo suprotno.

I zato da biste mogli biti u pravu u krivo vrijeme trebate tim koji se sastoji od: data engineera, data scientista i decision scientista.