Przetwarzanie danych – Big Data


Ciągły wzrost ilości danych sprawia, że współczesne firmy pilnie poszukują rozwiązań dających możliwość efektywnego składowania, przetwarzania i analizy danych. Dane te są cennym, ale wciąż nie wykorzystanym źródłem wiedzy mogącej mieć znaczący wpływ na rozwój firmy i jej konkurencyjność na rynku. Dlatego osoby posiadające kompetencje z obszaru zaawansowanej analizy danych, baz danych, zarządzania danymi  są obecnie jednymi z najbardziej poszukiwanych pracowników.

certyfikat "Studia z Przyszłością"

„PRZETWARZANIE DANYCH – BIG DATA” WYRÓŻNIONE CERTYFIKATEM „STUDIA Z PRZYSZŁOŚCIĄ”

W poniedziałek 9 kwietnia w Pałacu PAN w Jabłonnie koło Warszawy odbyła się Gala Finałowa III edycji Ogólnopolskiego Konkursu i Programu Akredytacji Kierunków Studiów organizowanego przez Fundację Rozwoju Edukacji i Szkolnictwa Wyższego oraz Agencję PRC.

Podczas Gali prowadzone na naszym Wydziale studia podyplomowe „Przetwarzanie danych – Big Data” zostały wyróżnione certyfikatem „Studia z Przyszłością”.

Certyfikat przyznawany jest kierunkom i specjalnościom realizowanym według nowoczesnych i innowacyjnych programów kształcenia, dobrze odpowiadającym na potrzeby rynku pracy, zgodnym z oczekiwaniami otoczenia społeczno-gospodarczego. O przyznaniu wyróżnień decyduje Komisja złożona z wybitnych naukowców, przedstawicieli środowiska gospodarczego i ekspertów Fundacji Rozwoju Edukacji i Szkolnictwa Wyższego.

Zachęcamy do zapoznania się z Relacją z Gali.

IMG_2559 R (1)

ANALITYKA W TRYBIE SELF-SERVICE. JAK TWORZYĆ KULTURĘ „DATA-DRIVEN”?

Wszystkich zainteresowanych tematyką Big Data serdecznie zapraszamy na kolejny wykład, który na naszym Wydziale wygłosi Olaf Piotrowski, Chief Data Officer w Allegro

Wykład odbędzie się w sobotę, 7 kwietnia, o godz. 9:00 w sali Rady Wydziału (A1-33). Po wykładzie zachęcamy do zadawania pytań i dyskusji.

Slajdy z wykładu: Self service analytics – slajdy
Literatura: Self service analytics – literatura

IMG_2559 R (1)

WYKŁAD „CZY MOŻNA ZARZĄDZAĆ JEZIOREM DANYCH?”

3 marca 2018 w sali posiedzeń Rady Wydziału (A1-33) odbył się wykład: Czy można zarządzać jeziorem danych? Czy Big Data zmienia sposób pracy z danymi? Wykład wygłosił Olaf Piotrowski, Chief Data Officer w Allegro.

Slajdy z wykładu: Czy można zarządzać jeziorem danych – slajdy
Literatura: Czy można zarządzać jeziorem danych – literatura
Nagranie z wykładu:  https://youtu.be/u378cOIac_I 

Cel studiów

Studia podyplomowe Przetwarzanie danych – Big Data przygotowują do podjęcia zadań związanych z przetwarzaniem dużych i złożonych zbiorów danych, ich analizą, eksploracją  i wizualizacją. Studia odpowiadają na ogromne  zapotrzebowanie na specjalistów w zakresie przetwarzania danych, mających wiedzę teoretyczną i praktyczną zarówno na temat baz relacyjnych jak i nierelacyjnych, hurtowni danych i Big Data. Uczestnicy studiów zostaną zapoznani z dostępnymi rozwiązaniami technologicznymi i nowoczesnymi koncepcjami  przetwarzania danych. Poznają cały proces przetwarzania danych, od momentu ich czyszczenia i składowania, poprzez odpytywanie i raportowanie, po złożoną analizę i odkrywanie wiedzy z danych.

Uczestnicy

Studia kierowane są do absolwentów kierunków informatycznych i pokrewnych, a także do osób zawodowo związanych z informatyką, pragnących poszerzyć swoją wiedzę w kierunku zagadnień związanych z przetwarzaniem danych. Studia są atrakcyjną propozycją dla firm pragnących podnieść  i uaktualnić kompetencje swoich pracowników.

Atuty

  • nowoczesny program: ponad 75% zajęć praktycznych i najbardziej aktualne zagadnienia: hurtownie danych, Big Data, przetwarzanie w chmurze, Hadoop, bazy NoSQL, analiza i eksploracja danych z wykorzystaniem języka R i Python;
  • wysoko wykwalifikowana i różnorodna kadra, na którą składają się pracownicy Uniwersytetu oraz eksperci z bogatym doświadczeniem praktycznym;
  • kontakt z rzeczywistymi problemami, udział w ciekawych projektach i możliwość spotkania wielu specjalistów z różnych dziedzin i firm.

Czas i miejsce

Studia trwają 2 semestry i obejmują 240 godzin zajęć. Zjazdy planowane są w soboty i niedziele co dwa tygodnie.

Wszystkie zajęcia odbywają się w budynku Wydziału Matematyki i Informatyki, ul. Umultowska 87.

Opłaty

Opłata za całe studia wynosi 8400 zł. Opłatę można wnosić:

  • w całości,
  • w dwóch ratach po 4200 zł,
  • w sześciu ratach po 1400 zł.

Rekrutacja na V edycję została zakończona. Serdecznie zapraszamy w przyszłym roku.

Zasady naboru

O przyjęciu na studia decyduje kierownik studiów. Grupy zajęciowe będą liczyć około 20 osób.

Wymagana wiedza

Od uczestników oczekuje się ogólnie rozumianej wiedzy informatycznej, w tym:

  • znajomości podstaw programowania
  • znajomości podstaw relacyjnych baz danych
  • podstawowej umiejętności obsługi Excela
  • podstaw statystyki
  • podstaw systemów Windows i Linux, podstawowa obsługa konsoli
  • umiejętności czytania w języku angielskim

Płatność

Opłata za całe studia wynosi 8400 zł. Opłatę można wnosić:

  • w całości,
  • w dwóch ratach po 4200 zł,
  • w sześciu ratach po 1400 zł.

Wymagane dokumenty

  • wniosek o przyjęcie na studia podyplomowe
  • kopię dowodu osobistego lub innego dokumentu potwierdzającego tożsamość
  • kopię dyplomu ukończenia studiów wyższych
  • zdjęcie
  • do wyboru – CV lub list motywacyjny

Zgłoszenia

V edycja studiów rozpocznie się w październiku 2018 r.

Forma składania zgłoszeń:

  • osobiście w Dziekanacie Wydziału Matematyki i Informatyki UAM
  • pocztą na adres:
    Dziekanat Wydziału Matematyki i Informatyki UAM
    ul. Umultowska 87
    61-614 Poznań
  • mailowo na adres: podyplomowe@wmi.amu.edu.pl

Regulaminy

Studia obejmują 240 godz zajęć realizowanych w ciągu dwóch semestrów (ok. 8 miesięcy)

Semestr I


Zaawansowany SQL (25 godz)

Wykład przedstawia problematykę systemów baz danych, w szczególności obejmuje zagadnienia związane z architekturą i funkcjonalnością systemów relacyjnych, projektowaniem schematów baz danych, metodami zarządzania transakcjami i optymalizacji zapytań. Podczas ćwiczeń omówione zostaną zaawansowane aspekty języka SQL takie jak: wielokrotne grupowanie i agregacja (PIVOT, UNPIVOT, GROUPING SETS), wspólne wyrażenia tablicowe (Common Table Expressions, rekurencja), funkcje analityczne (szeregujące, funkcja okna), funkcje użytkownika (skalarne, tabelaryczne), operator APPLY (CROSS APPLY, OUTER APPLY).

Prowadzący:

  • Marek Wisła (UAM)
  • Arkadiusz Kasprzak (GFT)


Programowanie w R (15 godz)

Wprowadzenie do języka R oraz środowiska RStudio. Podstawy składni, pakiety: readr, data.table, dplyr, ggplot2, shiny, rmarkdown.

Prowadzący:

  • Krzysztof Jedrzejewski (Pearson IOKI)


Programowanie w Pythonie (15 godz)

Wprowadzenie do programowania w języku Python. Podstawy języka: składnia, tablice, funkcje; Numpy; Matplotlib; Pandas.

Prowadzący:

  • Tomasz Dwojak (UAM)


Hurtownie danych (25 godz)

Przedmiot przedstawia podstawowe koncepcje modelowania i implementacji hurtowni danych – konceptualny model wielowymiarowy i jego implementacja (ROLAP, MOLAP, HOLAP), schemat gwiazdy, płatka śniegu, konstelacji faktów, zagadnienia związane w modelowaniem wymiarów, wymiary wolnozmienne, hierarchie. Ponadto omawiane będą technologie zasilania i odświeżania hurtowni danych – proces ETL/ELT, problematyka czyszczenia danych. Na przedmiocie zrealizowany zostanie projekt obejmujący wszystkie fazy tworzenia hurtowni danych.

Prowadzący:

  • Marek Nawrocki (UAM)
  • Anna Stachowiak (UAM)
  • Marek Grzenkowicz (Roche)
  • Przemyslaw Szymił (Roche)


Raportowanie danych (20 godz)

Przedmiot przedstawia metody raportowania danych: przegląd komercyjnych i niekomercyjnych narzędzi  do raportowania, dobre praktyki oraz metody wizualizacji danych. W ramach zajęć  praktycznych przeprowadzone zostanie szkolenie dotyczące raportowania z użyciem języka R, narzędzi Excel oraz Tableau. W ramach zaliczenia przygotowany zostanie projekt raportowania danych na podstawie hurtowni danych.

Prowadzący:

  • Agnieszka Baran-Iwaszko (Roche)
  • Jakub Niwa (Roche)
  • Przemysław Szymił (Roche)


Analiza danych (20 godz)

Metody statystyczne i analiza z wykorzystaniem języka R; generowanie wykresów i raportów; wybrane algorytmy eksploracji danych; funkcje analityczne w Pythonie.

Prowadzący:

  • Tomasz Górecki (UAM)


Semestr II


Wstęp do Big Data (10 godz)

Zajęcia poruszą problemy pracy na bardzo dużych zbiorach danych, z wykorzystaniem systemów rozproszonych, odkrywając jakie możliwości daje wykorzystanie nowoczesnej architektury systemów przetwarzania i analizy danych. Na zajęciach zostaną omówione różne koncepcje wykorzystania nowoczesnych systemów, począwszy od rozszerzenia hurtowni danych, budowy „Data Lake”, po praktyczne wykorzystanie złożonych algorytmów w procesie eksploracji danych.

Prowadzący:

  • Marcin Siudziński


Optymalizacja zapytań (15 godz)

Przedmiot omawia zaawansowane techniki realizacji zapytań i optymalizacji. Omówione zostaną: proces przetwarzania zapytań, struktury fizyczne tabel / indeksów (clustered, non-cl, columnstore, covering, filtered + kilka specjalnych które warto znać). Proces optymalizacji, plany trywialne i nietrywialne.

Prowadzący:

  • Jakub Kasprzak (GFT)


Apache Hadoop (20 godz)

Na przedmiocie omówione zostaną architektury Hadoop V1 oraz V2, HDFS, Map Reduce, architektura klastra, HA, replikacja i dystrybucje. Zaprezentowane zostaną najczęściej wykorzystywane technologie ekosystemu. Ponadto: podstawowe zagadnienia konfiguracji i administracji klastra, zarządzanie użytkownikami, metody dostępu do danych, ładowanie danych, formaty serializacji, kompresji i składowania danych. Wszystkie tematy zostaną omówione, a następnie poparte przykładami ćwiczeń.

Prowadzący:

  • Marcin Siudziński


Apache Spark (20 godz)

Podstawy Spark-a, RDD, DataFrame; zasada działania; różnice względem Hadoop-a; Omówienie poszczególnych modułów – każda część z przykładami. Podstawą są ćwiczenia i interakcja ze studentami.


Przetwarzanie strumieniowe (10 godz)

Aspekty strumieniowego przetwarzania danych; Kafka, Flume, Storm, Spark Streaming.

Prowadzący:

  • Jakub Zakrzewski (Neptis S.A.)
  • Roman Wesołowski (Apollogic)
  • Adam Maciaszek (Apollogic)


NoSQL (20 godz)

Przedstawione zostaną podstawowe koncepcje baz NoSQL, w szczególności bazy danych typu key-value i bazy dokumentowe, oraz przykłady baz NoSQL – przede wszystkim HBase, a także Cassandra, Hive/Impala oraz Neo4j.

Prowadzący:

  • Jakub Zakrzewski (Neptis S.A.)


Technologie Big Data (25 godz)

Wprowadzenia do Apache Nifi oraz Elasticsearch i Kibany. Przetwarzanie danych strumieniowych z Twittera na zadany temat za pomocą technik NLP (Natural Language Processing – Biblioteki NLTK) . Praca w Notebook Jupyter. Przedmiot kończy się projektem zaliczeniowym.

Prowadzący:

  • Roman Wesołowski (Apollogic)
  • Adam Maciaszek (Apollogic)


roche_baran_iwaszko_male

Agnieszka Baran-Iwaszko (Roche)

Od 10 lat pracuje w obszarze raportowania i analizy danych (danych marketingowych, CRM etc.). Od 4 lat pracuje w Roche jako Senior Developer przy projektowaniu i wykonaniu raportów w projektach BI. W wolnym czasie wspina się i pływa.

uam Tomasz Dwojak

Tomasz Dwojak (UAM)

Tomasz Dwojak jest doktorantem na Wydziale Matematyki i Informatyki UAM. W swojej pracy naukowej i zawodowej zajmuje się przetwarzaniem języka naturalnego, w szczególności tłumaczeniem maszynowym. Doświadczenie zawodowe zbierał m.in. w Alcatel Lucent Polska i Samsung R&D Polska.

uam-tomasz-gorecki

Tomasz Górecki (UAM)

Tomasz Górecki jest długoletnim pracownikiem naukowym i dydaktycznym Wydziału Matematyki i Informatyki UAM. Prowadzi zajęcia oraz badania naukowe w obszarze analizy danych, systemów uczących oraz analizy szeregów czasowych. Metody statystyczne wykorzystuje we współpracy z biologami, chemikami, ekonomistami oraz inżynierami. Jest autorem przeszło 50 prac naukowych i 3 opracowań książkowych. W badaniach wykorzystuje głównie technologie związane z językiem R.

roche_marek_rzenkowicz_male

Marek Grzenkowicz (Roche)

Marek Grzenkowicz jest programistą z ponad 10-letnim doświadczeniem. W tym czasie korzystał z wielu technologii – VB6, VB.NET, C#, SQL Server, Informatica PowerCenter, Hadoop; obecnie zajmuje się głównie integracją danych, Business Intelligence i Big Data. Od 2011 pracuje w firmie Roche, gdzie zatrudniony jest na stanowisku IT Expert i w ramach projektu StraDa bierze udział w budowaniu hurtowni danych na platformie Hadoop, która gromadzi i umożliwia analizę danych z medycznych urządzeń diagnostycznych.

IBM_Jarek_Jackowiak_male

Jarosław Jackowiak (IBM)

Jarosław Jackowiak odpowiada za współpracę IBM Polska z Uczelniami w ramach programu Inicjatywy Akademickiej IBM, oraz za długofalowe wsparcie społeczności developerskich w Polsce. Pracuje w korporacji od roku 2000. Wcześniej pełnił rolę architekta rozwiązań opartych na technologiach IBM software, a przedtem był odpowiedzialny za techniczne wsparcie sprzedaży marki WebSphere. Posiada certyfikaty IBM między innymi z zakresu projektowania i doradztwa w zakresie architektury systemów informatycznych, SOA, oraz inne, takie jak: ITILŸ V3 i TOGAF 9.

Krzysztof Jedrzejewski

Krzysztof Jędrzejewski (Pearson IOKI)

Od 2010 roku absolwent kierunku Informatyka na Politechnice Poznańskiej. Obecnie doktorant na Wydziale Informatyki PP prowadzący badania z zakresu przetwarzania języka naturalnego (NLP). Zatrudniony jako Data Analytics Manager w Pearson IOKI. Zarówno w pracy naukowej, jak i zawodowej, łączy umiejętności programistyczne z wiedzą analityczną oraz odrobiną zdrowego rozsądku.

ArkadiuszKasprzak

Arkadiusz Kasprzak (GFT)

Absolwent Politechniki Poznańskiej oraz Uniwersytetu Ekonomicznego w Poznaniu. Posiada wieloletnie doświadczenie w pracy z bazami oraz hurtowniami danych. Od początku związany z firmami projektującymi oraz implementującymi systemy informatyczne dla polskich oraz zagranicznych instytucji finansowych. Jego zainteresowania zawodowe obejmują przetwarzanie i analizę danych oraz szeroko pojęte zagadnienia Big Data.

GFT Jakub Kasprzak - Kopia

Jakub Kasprzak (GFT)

Jakub Kasprzak jest inżynierem, analitykiem, specjalizującym się w technologiach baz danych opartych o produkty Microsoft SQL Server. Posiada doświadczenie dydaktyczne, prowadzi autoryzowane kursy Microsoft, a także szkolenia autorskie dotyczące baz danych. Przez ponad 10 lat swojej pracy zawodowej zajmował się projektowaniem i optymalizacją sieci transportowej dla największych operatorów sieci mobilnych w Polsce (T-Mobile PL, Polkomtel). Obecnie pracuje na stanowisku SQL Technical Leader w GFT Technologies w Poznaniu tworząc rozwiązania hurtowni danych dla globalnych instytucji finansowych.

Lukasz Limanowski

Łukasz Limanowski (Roche)

Absolwent Wydziału Fizyki UAM z ponad 14 letnim doświadczeniem w obszarze Business Intelligence (m.in. AbInitio, Informatica PowerCenter, SSIS, Oracle, MS SQL Server, Teradata, Tableau, Spotfire). Specjalizuje się w hurtowniach danych i ETL, poza tym interesuje się metodologią Agile. Obecnie bierze udział w projekcie, którego celem jest utworzenie nowej hurtowni danych wraz z raportowaniem dla działu Drug Safety w Roche. Prywatnie jest zapalonym rowerzystą.

AdamMaciaszek

Adam Maciaszek (StethoMe)

uam Nawrocki

Marek Nawrocki (UAM)

Marek Nawrocki jest profesorem na Wydziale Matematyki i Informatyki. Ma duże doświadczenie dydaktyczne w zakresie baz danych, hurtowni danych i systemów raportujących. Jest współtwórcą systemów typu ERP, systemów analitycznych i raportujących, w tym powszechnie stosowanego przez wszystkich pracowników Uniwersytetu im. Adama Mickiewicza programu AmuRap.

Roche Jakub_Niwa

Jakub Niwa (Global App Testing)

Apollogic jacek rosik

Jacek Rosik (Apollogic)

Absolwent Politechniki Poznańskiej, Copenhagen University College of Engineering oraz studiów podyplomowych Uniwersytetu Ekonomicznego. Zdobytą wiedzę wykorzystuje w sposób zarówno techniczny jak i kreatywny, biorąc udział w wielu międzynarodowych projektach. Dotychczasowe doświadczenie zawodowe szlifował w takich firmach jak PwC, Statoil czy IBM. Aktualnie jako specjalista BI w Apollogic, zarządza zespołem Big Data. Inicjator The Things Network w Poznaniu, fascynuje się tematyką IoT.

Apollogic marta samól

Marta Samól (Apollogic)

Doświadczenie zdobyła pracując przy wielu międzynarodowych projektach. Jako pasjonatka technologii Business Intelligence uważnie śledzi najnowsze trendy na rynku i wdraża je w swojej codziennej pracy. Jako konsultant i lider zespołu Data Analytics w Apollogic specjalizuje się przede wszystkim w analizie i raportowaniu danych.

Apollogic Marcin Siudzinski

Marcin Siudziński  (freelancer, Credit Suisse)

Prowadzi działalność w zakresie konsultingu usług IT, specjalizując się w zagadnieniach przetwarzania i składowania danych, procesów ETL i technologii Big Data. Posiada szerokie doświadczenie w zakresie wdrażania i wykorzystania systemów IT zarówno w zakresie systemów zapewniających operacyjną ciągłość działania przedsiębiorstw, monitoringu usług, jak analizy i przetwarzania danych. Z przyjemnością dzieli się swoją wiedzą i doświadczeniem, dzięki czemu sam może się wciąż rozwijać i zdobywać nowe umiejętności.

uam anna stachowiak

Anna Stachowiak (UAM)

Anna Stachowiak jest wieloletnim i doświadczonym pracownikiem naukowym i dydaktycznym Wydziału Matematyki i Informatyki UAM. Prowadzi zajęcia oraz badania w obszarze baz danych, hurtowni danych, analizy danych, przetwarzania informacji nieprecyzyjnej i niepełnej. Jest także członkiem zespołu tworzącego system do wspomagania diagnostyki nowotworowej.

Roche Przemysław Szymil

Przemysław Szymił (Roche)

Przemysław Szymił – programista z kilkuletnim doświadczeniem. Pracował nad systemami dla administracji publicznej (grzywny i mandaty drogowe) oraz bankowymi (Bank Zachodni WBK). Specjalizuje się w bazach danych, głównie Oracle (PL/SQL Developer), ale pracował również z SQL Server-em i DB2. W portfolio ma także projekt integracji danych w środowisku Big Data – przetwarzanie danych marketingowych na platformie Hadoop, w celu ustalenia globalnej strategii sprzedaży. Z Roche związany od 2013, obecnie jako Senior IT Professional. Interesują go zagadnienia związane z modelowaniem danych.

Wesolowski_Roman_1

Roman Wesołowski (SoftJourn)

Roman Wesołowski to specjalista IT z wieloletnim doświadczeniem w zakresie opracowywania systemów przetwarzania, wymiany i analizy danych (ETL). W trakcie swojej kariery skupiał się na pracy z różnymi bazami danych, z naciskiem na hurtownie danych w oparciu o Microsoft SQL Server (certyfikaty MCSA, MCSE) oraz Oracle, a aktualnie pracuje z bazami NoSQL.  Dotychczasowe praktyki zapewniły mu  bardzo dobre zrozumienie struktur baz danych, modelowania danych, a także  pomogły w udanych wdrożeniach dedykowanych rozwiązań opartych na wymaganiach biznesowych. To prawdziwy pasjonat nowych technologii, który aktualnie pracuje z narzędziami do przetwarzania petabajtów danych analitycznych na serwerach Hadoop.

Marek Wisla (UAM)

Marek Wisła (UAM)

Marek Wisła oprócz pracy naukowej i dydaktycznej na Wydziale Matematyki i Informatyki UAM posiada 20 letnie doświadczenie pracy w międzynarodowej korporacji IT w obszarze ERP na stanowiskach R&D i application designer. Odpowiedzialny za projektowanie, produkcję i wdrażanie systemów klienckich opartych na bazach relacyjnych, m.in. w zakresie optymalizacji procesów związanych z raportowaniem w złożonych bazach relacyjnych, elektronicznej wymiany danych, automatyzacji procesów logistycznych.

Neptis Jakub Zakrzewski

Jakub Zakrzewski (TomTom Polska Sp. z. o.o.)

Jakub Zakrzewski posiada wieloletnie doświadczenie jako manager IT, odpowiedzialny za kompleksowe świadczenie usług informatycznych w dużych spółkach. ​Od kilku lat zajmuje się tematyką związaną z Data Science i Big Data. Kierował działem Big Data w spółce Neptis S.A, a obecnie pracuje jako manager w firmie TomTom Polska.​

Studia prowadzone są przy udziale firm:

AllegroTech_fin
logo apollogic

Print

logo IBM
PearsonLogo_Primary_Blk_RGB - web
logo roche
uam anna stachowiak

dr inż. Anna Stachowiak

Kierownik Studiów

E-mail: aniap@amu.edu.pl

Telefon: 61 829-5481, 61 829-5303