Statistik v dobi velikih podatkov
Redni profesor dr. Marko Pahor
Moja raziskovalna pot
Finančni kazalci in donosnost
Analiza omrežja podjetij preko osebnih
povezav
Plačilna disciplina podjetij v Sloveniji
29
41
27
19
48
23
75
35
65
27
21
50
68
25 28 31
39
45
8
20
7
10
10
11
19
16
22
19...
Dinamika lastniških omrežij
Retail (Mercator, Era,
Emona BC)
K MB INFOND
Development
fund of RS
Viato
r/VEktor
Setev and T...
Kulturni profili
Belgiom
Greece
Italy
Finland
France
Germany
The Netherlands
Norw ay
Portugal Spain
Sw izerland
United Kin...
Organizacijsko učenje
Oziroma vse dosedanje objave v eni sliki
In pot naprej
Doba velikih podatkov (big data)
Big data?
• Za termin je verjetno večina slišala
• O njem se veliko govori v poslu
• Dobiva skoraj religiozne razsežnosti
...
Štiri značilnosti velikih podatkov (V4)
• Masovnost (volume)
• velike količine podatkov, gigabajti, terabajti…
• Raznoliko...
Véliki vs. velíki podatki
Prava revolucija, ki jo je prinesla doba velikih
podatkov je v spoznanju, da imajo podatki
vredn...
Podatkovna znanost (Data Science)
Uporaba
• podatkov
• informacijske tehnologije
• ter statistike, matematike in računalni...
Podatkovna znanost
• Sam izraz “podatkovna znanost” (data science)
prvi uporabi Chien-Fu Wu leta 1998
• Leta 2001 statisti...
Mnenja o podatkovni znanosti
• “sexiest job of the 21st century”
• (Daneport in Patil, Harvard Business
Review, Oktober 20...
Ter mnenja o statistiki
• “Vedno pravim da bo seksi poklic v naslednjih
desetih letih statistik. Ne jemljejo me resno, a
k...
Vennov diagram podatkovne znanosti
Vsebina (domenska
znanja)
Matematika in
Statistika
IT ter
programiranje Strojno
učenje
...
Kaj je torej statistika?
• Veda o razumevanju podatkov
• Kar vključuje tako zbiranje podatkov, urejanje
podatkov, obdelavo...
Podatkovna znanost in podatkovno
rudarjenje (data mining)
• Podatkovna znanost ni le na novo zapakirana
statistika, je tud...
Podatkovno rudarjenje
• netrivialni proces
• identifikacije veljavnih, novih, potencialno uporabnih
ter razumljivih
• vzor...
CRISP-DM Proces
Razumevanje
poslovanja
Razumevanje
podatkov
Priprava
podatkov
Izdelava
modela
Ovrednotenje
Implementacij
a
Razlike med (tradicionalno) statistiko in
podatkovno znanostjo
• Statistika analizira primarne podatke, ki so bili zbrani ...
Niti konfimatorna niti ekploratorna analiza sama
po sebi ni zadostna. Mešati eno z drugo pa je
čista norost. V znanosti po...
“Statistika je zelo dobra, ko je govora o zbiranju
podatkov in izdelavi modelov, zmanjka pa ji pri
postavljanju in piljenj...
Stališče ASA glede statistike in podatkovne
znanosti (1.10.2015)
• “ASA and its membership acknowledge that data
science e...
Mesto statistike v podatkovni znanosti
• Daje okvir za postavljanje pravih
vprašanj
• Omogoča ločevanje med korelacijo in
...
Prihodnost statističnega izobraževanja
• Statistiki bodo v prihodnosti potrebovali širši nabor znanj:
• verjetnost in stat...
Statistika v raziskovanju
• “Akademska statstika se ukvarja s problemi, ki
so za analizo podatkov večinoma irelevantni…
Po...
Mesto statistike v dobi velikih podatkov
• Statistika je “doma” v velikih
podatkih
• Treba je le prilagoditi komunikacijo
...
Nastopno predavanje
of 32

Nastopno predavanje

Nastopno predavanje ob izvolitvi v naziv rednega profesorja
Published on: Mar 3, 2016
Published in: Data & Analytics      
Source: www.slideshare.net


Transcripts - Nastopno predavanje

  • 1. Statistik v dobi velikih podatkov Redni profesor dr. Marko Pahor
  • 2. Moja raziskovalna pot
  • 3. Finančni kazalci in donosnost
  • 4. Analiza omrežja podjetij preko osebnih povezav
  • 5. Plačilna disciplina podjetij v Sloveniji 29 41 27 19 48 23 75 35 65 27 21 50 68 25 28 31 39 45 8 20 7 10 10 11 19 16 22 19 6 41 6 7 10 16 14 21 0 10 20 30 40 50 60 70 80 90 100 Avstrija Belgija Danska Finska Francija Nemčija Grčija Irska Italija Nizozemska Norveška Portugalska Španija Švedska Švica VelikaBritanija EU Slovenija Povprečni pogodbeni rok Povprečna zamuda
  • 6. Dinamika lastniških omrežij Retail (Mercator, Era, Emona BC) K MB INFOND Development fund of RS Viato r/VEktor Setev and Trgatev Triglav Steber KD Holding DZS Slovenian Railways KRONA State Pivo varna aL sko AKTIVA Iskra KAD Zlata Moneta Zito NFD Primorski skladi
  • 7. Kulturni profili Belgiom Greece Italy Finland France Germany The Netherlands Norw ay Portugal Spain Sw izerland United Kingdom The Czech Republic Poland Hungary Australia USA Bolgaria Romania Russia Israel Turkey India Japan Philippines Croatia Serbia Russia Austria Denmark Ireland Sw eden Canada New Zealand China Slovenia BIH Montenegro 0 10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 PARTICULARISM UNIVERSALISM COMMUNITARISMINDIVIDUALISM .
  • 8. Organizacijsko učenje
  • 9. Oziroma vse dosedanje objave v eni sliki
  • 10. In pot naprej
  • 11. Doba velikih podatkov (big data)
  • 12. Big data? • Za termin je verjetno večina slišala • O njem se veliko govori v poslu • Dobiva skoraj religiozne razsežnosti • Ne-tako-zelo-novo – sam termin leta 1997 skovala Michael Cox in David Ellsworth • Splošen konsenz: podatki, ki jih ne moremo obdelovati s tradicionalnimi orodji oz. metodami
  • 13. Štiri značilnosti velikih podatkov (V4) • Masovnost (volume) • velike količine podatkov, gigabajti, terabajti… • Raznolikost (variety) • strukturirani in nestrukturiani, interni in eksterni... • Hitrost (velocity) • nastaja velika količina podatkov, ki jo je treba obdelati v realnem času • Verodostojnost (veracity) • različni in težko določljivi nivoji šuma in procesnih napak
  • 14. Véliki vs. velíki podatki Prava revolucija, ki jo je prinesla doba velikih podatkov je v spoznanju, da imajo podatki vrednost. Zato bi morali podatke razumeti kot vélike v smislu tega, da so pomembni. Pomembni so zato, ker pripomorejo ustvarjati vrednost, ne le denarno, temveč tudi družbeno in okoljsko • (Sean Patrick Murphy, 2013).
  • 15. Podatkovna znanost (Data Science) Uporaba • podatkov • informacijske tehnologije • ter statistike, matematike in računalniških modelov, za zagotavljanje izboljšanega vpogleda v poslovanje in sprejemanje boljših, na dejstvih temelečih odločitev.
  • 16. Podatkovna znanost • Sam izraz “podatkovna znanost” (data science) prvi uporabi Chien-Fu Wu leta 1998 • Leta 2001 statistik William S. Cleveland predlaga razvoj podatkovne znanosti kot samostojne vede
  • 17. Mnenja o podatkovni znanosti • “sexiest job of the 21st century” • (Daneport in Patil, Harvard Business Review, Oktober 2012) • “hot new field that promises to revolutionize industries from business to government, health care and academia” • (New York Times, 11.4.2013)
  • 18. Ter mnenja o statistiki • “Vedno pravim da bo seksi poklic v naslednjih desetih letih statistik. Ne jemljejo me resno, a kdo je verjel, da bodo v 1990 to bili računalniški inžinirji?” • Hal Varian, Google Chief Economist, 2009 • “Z napredkom računalniške tehnologije in eksplozijo podatkov statistika ostaja pozitiven družbeni vpliv v svetu. Drznil bi si celo trdtiti, da bo statistik seksi poklic stoletja” • Jim Goodman, 2010
  • 19. Vennov diagram podatkovne znanosti Vsebina (domenska znanja) Matematika in Statistika IT ter programiranje Strojno učenje Tradicionalna analiza podatkov Minsko polje! PODATKOVNA ZNANOST
  • 20. Kaj je torej statistika? • Veda o razumevanju podatkov • Kar vključuje tako zbiranje podatkov, urejanje podatkov, obdelavo podatkov kot končno sklepanje na podlagi podatkov • Veda o proučevanju negotovosti in odločanju v pogojih negotovosti • Podatkovna znanost je statistika z boljšim marketingom
  • 21. Podatkovna znanost in podatkovno rudarjenje (data mining) • Podatkovna znanost ni le na novo zapakirana statistika, je tudi na novo zapakirano podatkovno rudarjenje • “Podatkovna znanost in podatkovno rudarjenje se pogosto uporabljata kot sinonima, pri čemer je pri prvem velik poudarek na dodani vrednosti za posel” • (Provost in Fawcett, 2013)
  • 22. Podatkovno rudarjenje • netrivialni proces • identifikacije veljavnih, novih, potencialno uporabnih ter razumljivih • vzorcev ali struktur ali modelov ali trendov ali razmerji • v podatkih • za sprejemanje ključnih odločitev
  • 23. CRISP-DM Proces Razumevanje poslovanja Razumevanje podatkov Priprava podatkov Izdelava modela Ovrednotenje Implementacij a
  • 24. Razlike med (tradicionalno) statistiko in podatkovno znanostjo • Statistika analizira primarne podatke, ki so bili zbrani z namenom preizkušanja specifičnih hipotez • Analiza primarnih podatkov • Konfirmatornega značaja • Preizkušanje domnev • Podatkovna znanost oz. rudarjenje se ukvarja s sekundarnimi podatki, zbranimi za druge razloge • Uporablja sekundarne podatke • Ekploratornega značaja • Generiranje hipotez • Odkrivanje znanja
  • 25. Niti konfimatorna niti ekploratorna analiza sama po sebi ni zadostna. Mešati eno z drugo pa je čista norost. V znanosti potrebujemo obe. John W. Tukey, 1980
  • 26. “Statistika je zelo dobra, ko je govora o zbiranju podatkov in izdelavi modelov, zmanjka pa ji pri postavljanju in piljenju vprašanj, razmišljanju o obliki podatkov, komunikaciji rezultatov in izdelavi podatkovnih produktov… Ključen rezultat analize namreč ni model, je pripoved, ki jo podatki pripovedujejo ” Hadley Wickham, Chief Scientist at Rstudio, 2014
  • 27. Stališče ASA glede statistike in podatkovne znanosti (1.10.2015) • “ASA and its membership acknowledge that data science encompasses more than statistics, but at the same time also recognize that statistical science plays a critical role in the fast-growing field ” • “At its most fundamental level, we view data science as a mutually beneficial collaboration among these three professional communities (Database Management, Statistics and Machine Learning, Distributed and Parallel Systems, op. a.), complemented with significant interactions with numerous related disciplines”
  • 28. Mesto statistike v podatkovni znanosti • Daje okvir za postavljanje pravih vprašanj • Omogoča ločevanje med korelacijo in vzročnostjo • Preko verjetnostnih porazdelitev nudi možnosti za kvantifikacijo negotovosti • Zagotavlja ponovljivost rezultatov
  • 29. Prihodnost statističnega izobraževanja • Statistiki bodo v prihodnosti potrebovali širši nabor znanj: • verjetnost in statistike • upravljanje z bazami podatkov • porazdeljenih sistemov (distributed systems) • presegnje meja tradicionalne statistične analize
  • 30. Statistika v raziskovanju • “Akademska statstika se ukvarja s problemi, ki so za analizo podatkov večinoma irelevantni… Po drugi strani je s problemi podatkovne znanosti težko objavljati v statističnih revijah” (Hadley Wickham, 2014)
  • 31. Mesto statistike v dobi velikih podatkov • Statistika je “doma” v velikih podatkih • Treba je le prilagoditi komunikacijo • Poučevati statistiko preko aplikaciji na velikih podatkih je nujno • Akademska statistika bo morala sprejeti, da se lahko “umaže” s podatki

Related Documents