Data Science како професија

Интервју со Дејан Вакански,
Microsoft Certified Trainer и Microsoft Certified Solution Expert: Data Management and Analytics во Семос Едукација

БЛОГ ОБЈАВА
Со наједноставни зборови кажано, што претставува Data Science?

Во денешно време сѐ повеќе се спомнува терминот Data Science, но што навистина значи овој термин? Наједноставно кажано, Data Science претставува дисциплина каде што со примена на статистика, математика и програмски јазик се анализираат огромен број на податоци со цел да се најде одговор на комплексни прашања. Сложените прашања можат да бидат од најразлична природа: „Колку профит ќе остварам следната година? Бројот на клиенти кои ќе ги добијам/изгубам во следната година? Колку е оптималниот број на продукти на залиха? Кој е оптималниот начин да се мотивираат вработените?“

Клучниот збор во Data Science терминот не е Data, туку Science, затоа што при практична примена на Data Science, всушност треба да се дознае што претставува секој податок кој го имаме и истиот да се протолкува.

Која е разликата помеѓу Business Intelligence (BI) и Data Science?

Разликата помеѓу Business Intelligence и Data Science всушност е многу голема и истата може да се анализира од неколку аспекти. Првата разлика е во тоа што BI системите се дизајнирани за да гледаат назад, односно да дадат анализа што се случило во минатото, врз база на реални податоци. Data Science пак, погледот го насочува кон иднината односно да предвиди што ќе се случи во иднина. Исто така, BI системите даваат детални извештаи, Key Performance Indicators (KPI) и трендови, но не кажуваат како ќе изгледаат податоците во иднина. Традиционалните BI системи, имаат тенденција да бидат статични и компаративни.

Тие не нудат простор за истражување и експериментирање. Исто така, изворите на податоци се статични односно имаме однапред планирани извори, што за разлика од нив, кај Data Science имаме поголема флексибилност затоа што изворите може да се додаваат по потреба и тоа многу побрзо отколку кај претходните. BI системите обезбедуваат единствена верзија на вистината (single version of truth) додека пак Data Science нудат прецизност и доверливост.

Зошто се смета за брзорастечка професија на иднината?

Доволно е да направите едно пребарување на LinkedIn во огласите за работа или на некој од другите сајтови каде што се постираат огласи за работа и ќе видите дека една од најчесто бараните работни места е Data Scientist. LinkedIn минатата година објави извештај во кој се анализираат податоците (од САД) во периодот од 2012 – 2017 година и бројот на огласи во кои се бара data scientist пораснал за 6.5 пати, што ја прави оваа позиција да биде во топ 5 најбарани позиции. Ваквата состојба е поради неколку факти:

  • Зголемениот број на податоци кои се генерираат: Анализата на огромниот број на податоци бара посебни вештини и знаења кои се карактеритика на Data Scientist-ите.
  • Одлуките кои се базираат на податоци се попрофитабилни: За повеќето компании, податоците не се корисни доколку немаат бенефит од нив. Според една студија на Харвард, компаниите чии одлуки се донесени врз база на расположливите податоци се 6 пати попрофитабилни од оние чии одлуки се базираат на инстинкт или искуство.
  • Data Scientist-те го менуваат работењето на една компанија и овозможуваат да се предвиди работењето во секој поглед.

Какви знаења и вештини треба да поседува еден Data Scientist?

Иако не е едноставно да се сумираат сите вештини и знаења што треба да ги поседува еден Data Scientist, сепак можам да кажам дека според мене листата од топ 5 технички вештини и знаења, би била:

  • Програмирање – Секој Data Scientist мора да познава барем еден од најчесто користените програмски јазици во оваа област: R, Python или JAVA и секако програмски јазик за работа со релациони бази на податоци – SQL.
  • Статистика – Доброто познавање од областа на статистиката е исто така многу важно. Имено, секој Data Scientist треба да биде запознаен со статистички тестови, дистрибуција, maximum likelihood estimators/li>
  • Machine Learning – Трето по ред познавање што треба да се поседува е machine learning методите како што се k-nearest neighbors, random forests, ensemble methods, и други.
  • Hadoop – Ова е една од најчесто користените платформи за Big Data.
  • визуализација – визуализацијата како и користењето на алатки за визуализација како што се Power BI, Tableau и слични на нив, се и повеќе од важни.

#data-science
СЛИЧНИ БЛОГ ОБЈАВИ

НАЈНОВИТЕ СВЕТСКИ ТЕХНОЛОГИИ ТИ СЕ ДОСТАПНИ!

Откриј ги поволностите за учење.

НАПРАВИ ГО ПРВИОТ ЧЕКОР