Przetwarzanie danych – Big Data


Ciągły wzrost ilości danych sprawia, że współczesne firmy pilnie poszukują rozwiązań dających możliwość efektywnego składowania, przetwarzania i analizy danych. Dane te są cennym, ale wciąż nie wykorzystanym źródłem wiedzy mogącej mieć znaczący wpływ na rozwój firmy i jej konkurencyjność na rynku. Dlatego osoby posiadające kompetencje z obszaru zaawansowanej analizy danych, baz danych, zarządzania danymi  są obecnie jednymi z najbardziej poszukiwanych pracowników.

certyfikat "Studia z Przyszłością"

„PRZETWARZANIE DANYCH – BIG DATA” WYRÓŻNIONE CERTYFIKATEM „STUDIA Z PRZYSZŁOŚCIĄ”

W poniedziałek 9 kwietnia w Pałacu PAN w Jabłonnie koło Warszawy odbyła się Gala Finałowa III edycji Ogólnopolskiego Konkursu i Programu Akredytacji Kierunków Studiów organizowanego przez Fundację Rozwoju Edukacji i Szkolnictwa Wyższego oraz Agencję PRC.

Podczas Gali prowadzone na naszym Wydziale studia podyplomowe „Przetwarzanie danych – Big Data” zostały wyróżnione certyfikatem „Studia z Przyszłością”.

Certyfikat przyznawany jest kierunkom i specjalnościom realizowanym według nowoczesnych i innowacyjnych programów kształcenia, dobrze odpowiadającym na potrzeby rynku pracy, zgodnym z oczekiwaniami otoczenia społeczno-gospodarczego. O przyznaniu wyróżnień decyduje Komisja złożona z wybitnych naukowców, przedstawicieli środowiska gospodarczego i ekspertów Fundacji Rozwoju Edukacji i Szkolnictwa Wyższego.

Zachęcamy do zapoznania się z Relacją z Gali.

IMG_2559 R (1)

ANALITYKA W TRYBIE SELF-SERVICE. JAK TWORZYĆ KULTURĘ „DATA-DRIVEN”?

Wszystkich zainteresowanych tematyką Big Data serdecznie zapraszamy na kolejny wykład, który na naszym Wydziale wygłosi Olaf Piotrowski, Chief Data Officer w Allegro

Wykład odbędzie się w sobotę, 7 kwietnia, o godz. 9:00 w sali Rady Wydziału (A1-33). Po wykładzie zachęcamy do zadawania pytań i dyskusji.

Slajdy z wykładu: Self service analytics – slajdy
Literatura: Self service analytics – literatura

IMG_2559 R (1)

WYKŁAD „CZY MOŻNA ZARZĄDZAĆ JEZIOREM DANYCH?”

3 marca 2018 w sali posiedzeń Rady Wydziału (A1-33) odbył się wykład: Czy można zarządzać jeziorem danych? Czy Big Data zmienia sposób pracy z danymi? Wykład wygłosił Olaf Piotrowski, Chief Data Officer w Allegro.

Slajdy z wykładu: Czy można zarządzać jeziorem danych – slajdy
Literatura: Czy można zarządzać jeziorem danych – literatura
Nagranie z wykładu:  https://youtu.be/u378cOIac_I 

Cel studiów

Studia podyplomowe Przetwarzanie danych – Big Data przygotowują do podjęcia zadań związanych z przetwarzaniem dużych i złożonych zbiorów danych, ich analizą, eksploracją  i wizualizacją. Studia odpowiadają na ogromne  zapotrzebowanie na specjalistów w zakresie przetwarzania danych, mających wiedzę teoretyczną i praktyczną zarówno na temat baz relacyjnych jak i nierelacyjnych, hurtowni danych i Big Data. Uczestnicy studiów zostaną zapoznani z dostępnymi rozwiązaniami technologicznymi i nowoczesnymi koncepcjami  przetwarzania danych. Poznają cały proces przetwarzania danych, od momentu ich czyszczenia i składowania, poprzez odpytywanie i raportowanie, po złożoną analizę i odkrywanie wiedzy z danych.

Uczestnicy

Studia kierowane są do absolwentów kierunków informatycznych i pokrewnych, a także do osób zawodowo związanych z informatyką, pragnących poszerzyć swoją wiedzę w kierunku zagadnień związanych z przetwarzaniem danych. Studia są atrakcyjną propozycją dla firm pragnących podnieść  i uaktualnić kompetencje swoich pracowników.

Atuty

  • nowoczesny program: ponad 75% zajęć praktycznych i najbardziej aktualne zagadnienia: hurtownie danych, Big Data, przetwarzanie w chmurze, Hadoop, bazy NoSQL, analiza i eksploracja danych z wykorzystaniem języka R i Python;
  • wysoko wykwalifikowana i różnorodna kadra, na którą składają się pracownicy Uniwersytetu oraz eksperci z bogatym doświadczeniem praktycznym;
  • kontakt z rzeczywistymi problemami, udział w ciekawych projektach i możliwość spotkania wielu specjalistów z różnych dziedzin i firm.

Czas i miejsce

Studia trwają 2 semestry i obejmują 240 godzin zajęć. Zjazdy planowane są w soboty i niedziele co dwa tygodnie.

Wszystkie zajęcia odbywają się w budynku Wydziału Matematyki i Informatyki, ul. Umultowska 87.

Opłaty

Opłata za całe studia wynosi 8400 zł. Opłatę można wnosić:

  • w całości,
  • w dwóch ratach po 4200 zł,
  • w sześciu ratach po 1400 zł.

Rekrutacja na V edycję została zakończona. Serdecznie zapraszamy w przyszłym roku.

Zasady naboru

O przyjęciu na studia decyduje kierownik studiów. Grupy zajęciowe będą liczyć około 20 osób.

Wymagana wiedza

Od uczestników oczekuje się ogólnie rozumianej wiedzy informatycznej, w tym:

  • znajomości podstaw programowania
  • znajomości podstaw relacyjnych baz danych
  • podstawowej umiejętności obsługi Excela
  • podstaw statystyki
  • podstaw systemów Windows i Linux, podstawowa obsługa konsoli
  • umiejętności czytania w języku angielskim

Płatność

Opłata za całe studia wynosi 8400 zł. Opłatę można wnosić:

  • w całości,
  • w dwóch ratach po 4200 zł,
  • w sześciu ratach po 1400 zł.

Wymagane dokumenty

  • wniosek o przyjęcie na studia podyplomowe
  • kopię dowodu osobistego lub innego dokumentu potwierdzającego tożsamość
  • kopię dyplomu ukończenia studiów wyższych
  • zdjęcie
  • do wyboru – CV lub list motywacyjny

Zgłoszenia

V edycja studiów rozpocznie się w październiku 2018 r.

Forma składania zgłoszeń:

  • osobiście w Dziekanacie Wydziału Matematyki i Informatyki UAM
  • pocztą na adres:
    Dziekanat Wydziału Matematyki i Informatyki UAM
    ul. Umultowska 87
    61-614 Poznań
  • mailowo na adres: podyplomowe@wmi.amu.edu.pl

Regulaminy

Studia obejmują 240 godz zajęć realizowanych w ciągu dwóch semestrów (ok. 8 miesięcy)

Semestr I


Zaawansowany SQL (25 godz)

Wykład przedstawia problematykę systemów baz danych, w szczególności obejmuje zagadnienia związane z architekturą i funkcjonalnością systemów relacyjnych, projektowaniem schematów baz danych, metodami zarządzania transakcjami i optymalizacji zapytań. Podczas ćwiczeń omówione zostaną zaawansowane aspekty języka SQL takie jak: wielokrotne grupowanie i agregacja (PIVOT, UNPIVOT, GROUPING SETS), wspólne wyrażenia tablicowe (Common Table Expressions, rekurencja), funkcje analityczne (szeregujące, funkcja okna), funkcje użytkownika (skalarne, tabelaryczne), operator APPLY (CROSS APPLY, OUTER APPLY).

Prowadzący:

  • Marek Wisła (UAM)
  • Arkadiusz Kasprzak (GFT)


Programowanie w R (15 godz)

Wprowadzenie do języka R oraz środowiska RStudio. Podstawy składni, pakiety: readr, data.table, dplyr, ggplot2, shiny, rmarkdown.

Prowadzący:

  • Krzysztof Jedrzejewski (Pearson IOKI)


Programowanie w Pythonie (15 godz)

Wprowadzenie do programowania w języku Python. Podstawy języka: składnia, tablice, funkcje; Numpy; Matplotlib; Pandas.

Prowadzący:

  • Tomasz Dwojak (UAM)


Hurtownie danych (25 godz)

Przedmiot przedstawia podstawowe koncepcje modelowania i implementacji hurtowni danych – konceptualny model wielowymiarowy i jego implementacja (ROLAP, MOLAP, HOLAP), schemat gwiazdy, płatka śniegu, konstelacji faktów, zagadnienia związane w modelowaniem wymiarów, wymiary wolnozmienne, hierarchie. Ponadto omawiane będą technologie zasilania i odświeżania hurtowni danych – proces ETL/ELT, problematyka czyszczenia danych. Na przedmiocie zrealizowany zostanie projekt obejmujący wszystkie fazy tworzenia hurtowni danych.

Prowadzący:

  • Marek Nawrocki (UAM)
  • Anna Stachowiak (UAM)
  • Marek Grzenkowicz (Roche)
  • Przemyslaw Szymił (Roche)


Raportowanie danych (20 godz)

Przedmiot przedstawia metody raportowania danych: przegląd komercyjnych i niekomercyjnych narzędzi  do raportowania, dobre praktyki oraz metody wizualizacji danych. W ramach zajęć  praktycznych przeprowadzone zostanie szkolenie dotyczące raportowania z użyciem języka R, narzędzi Excel oraz Tableau. W ramach zaliczenia przygotowany zostanie projekt raportowania danych na podstawie hurtowni danych.

Prowadzący:

  • Agnieszka Baran-Iwaszko (Roche)
  • Jakub Niwa (Roche)
  • Przemysław Szymił (Roche)


Analiza danych (20 godz)

Metody statystyczne i analiza z wykorzystaniem języka R; generowanie wykresów i raportów; wybrane algorytmy eksploracji danych; funkcje analityczne w Pythonie.

Prowadzący:

  • Tomasz Górecki (UAM)


Semestr II


Wstęp do Big Data (10 godz)

Zajęcia poruszą problemy pracy na bardzo dużych zbiorach danych, z wykorzystaniem systemów rozproszonych, odkrywając jakie możliwości daje wykorzystanie nowoczesnej architektury systemów przetwarzania i analizy danych. Na zajęciach zostaną omówione różne koncepcje wykorzystania nowoczesnych systemów, począwszy od rozszerzenia hurtowni danych, budowy „Data Lake”, po praktyczne wykorzystanie złożonych algorytmów w procesie eksploracji danych.

Prowadzący:

  • Marcin Siudziński


Optymalizacja zapytań (15 godz)

Przedmiot omawia zaawansowane techniki realizacji zapytań i optymalizacji. Omówione zostaną: proces przetwarzania zapytań, struktury fizyczne tabel / indeksów (clustered, non-cl, columnstore, covering, filtered + kilka specjalnych które warto znać). Proces optymalizacji, plany trywialne i nietrywialne.

Prowadzący:

  • Jakub Kasprzak (GFT)


Apache Hadoop (20 godz)

Na przedmiocie omówione zostaną architektury Hadoop V1 oraz V2, HDFS, Map Reduce, architektura klastra, HA, replikacja i dystrybucje. Zaprezentowane zostaną najczęściej wykorzystywane technologie ekosystemu. Ponadto: podstawowe zagadnienia konfiguracji i administracji klastra, zarządzanie użytkownikami, metody dostępu do danych, ładowanie danych, formaty serializacji, kompresji i składowania danych. Wszystkie tematy zostaną omówione, a następnie poparte przykładami ćwiczeń.

Prowadzący:

  • Marcin Siudziński


Apache Spark (20 godz)

Podstawy Spark-a, RDD, DataFrame; zasada działania; różnice względem Hadoop-a; Omówienie poszczególnych modułów – każda część z przykładami. Podstawą są ćwiczenia i interakcja ze studentami.


Przetwarzanie strumieniowe (10 godz)

Aspekty strumieniowego przetwarzania danych; Kafka, Flume, Storm, Spark Streaming.

Prowadzący:

  • Jakub Zakrzewski (Neptis S.A.)
  • Roman Wesołowski (Apollogic)
  • Adam Maciaszek (Apollogic)


NoSQL (20 godz)

Przedstawione zostaną podstawowe koncepcje baz NoSQL, w szczególności bazy danych typu key-value i bazy dokumentowe, oraz przykłady baz NoSQL – przede wszystkim HBase, a także Cassandra, Hive/Impala oraz Neo4j.

Prowadzący:

  • Jakub Zakrzewski (Neptis S.A.)


Technologie Big Data (25 godz)

Wprowadzenia do Apache Nifi oraz Elasticsearch i Kibany. Przetwarzanie danych strumieniowych z Twittera na zadany temat za pomocą technik NLP (Natural Language Processing – Biblioteki NLTK) . Praca w Notebook Jupyter. Przedmiot kończy się projektem zaliczeniowym.

Prowadzący:

  • Roman Wesołowski (Apollogic)
  • Adam Maciaszek (Apollogic)


roche_baran_iwaszko_male

Agnieszka Baran-Iwaszko (Roche)

Od 10 lat pracuje w obszarze raportowania i analizy danych (danych marketingowych, CRM etc.). Od 4 lat pracuje w Roche jako Senior Developer przy projektowaniu i wykonaniu raportów w projektach BI. W wolnym czasie wspina się i pływa.

uam Tomasz Dwojak

Tomasz Dwojak (UAM)

Tomasz Dwojak jest doktorantem na Wydziale Matematyki i Informatyki UAM. W swojej pracy naukowej i zawodowej zajmuje się przetwarzaniem języka naturalnego, w szczególności tłumaczeniem maszynowym. Doświadczenie zawodowe zbierał m.in. w Alcatel Lucent Polska i Samsung R&D Polska.

uam-tomasz-gorecki

Tomasz Górecki (UAM)

Tomasz Górecki jest długoletnim pracownikiem naukowym i dydaktycznym Wydziału Matematyki i Informatyki UAM. Prowadzi zajęcia oraz badania naukowe w obszarze analizy danych, systemów uczących oraz analizy szeregów czasowych. Metody statystyczne wykorzystuje we współpracy z biologami, chemikami, ekonomistami oraz inżynierami. Jest autorem przeszło 50 prac naukowych i 3 opracowań książkowych. W badaniach wykorzystuje głównie technologie związane z językiem R.

roche_marek_rzenkowicz_male

Marek Grzenkowicz (Roche)

Marek Grzenkowicz jest programistą z ponad 10-letnim doświadczeniem. W tym czasie korzystał z wielu technologii – VB6, VB.NET, C#, SQL Server, Informatica PowerCenter, Hadoop; obecnie zajmuje się głównie integracją danych, Business Intelligence i Big Data. Od 2011 pracuje w firmie Roche, gdzie zatrudniony jest na stanowisku IT Expert i w ramach projektu StraDa bierze udział w budowaniu hurtowni danych na platformie Hadoop, która gromadzi i umożliwia analizę danych z medycznych urządzeń diagnostycznych.

IBM_Jarek_Jackowiak_male

Jarosław Jackowiak (IBM)

Jarosław Jackowiak odpowiada za współpracę IBM Polska z Uczelniami w ramach programu Inicjatywy Akademickiej IBM, oraz za długofalowe wsparcie społeczności developerskich w Polsce. Pracuje w korporacji od roku 2000. Wcześniej pełnił rolę architekta rozwiązań opartych na technologiach IBM software, a przedtem był odpowiedzialny za techniczne wsparcie sprzedaży marki WebSphere. Posiada certyfikaty IBM między innymi z zakresu projektowania i doradztwa w zakresie architektury systemów informatycznych, SOA, oraz inne, takie jak: ITILŸ V3 i TOGAF 9.

Krzysztof Jedrzejewski

Krzysztof Jędrzejewski (Pearson IOKI)

Od 2010 roku absolwent kierunku Informatyka na Politechnice Poznańskiej. Obecnie doktorant na Wydziale Informatyki PP prowadzący badania z zakresu przetwarzania języka naturalnego (NLP). Zatrudniony jako Data Analytics Manager w Pearson IOKI. Zarówno w pracy naukowej, jak i zawodowej, łączy umiejętności programistyczne z wiedzą analityczną oraz odrobiną zdrowego rozsądku.

GFT Arkadiusz Kasprzak 2

Arkadiusz Kasprzak (GFT)

Absolwent Politechniki Poznańskiej oraz Uniwersytetu Ekonomicznego w Poznaniu. Posiada ponad 6 lat doświadczenia w pracy z bazami oraz hurtowniami danych. Od początku związany z firmami projektującymi oraz implementującymi systemy informatyczne dla polskich oraz zagranicznych instytucji finansowych. Jego zainteresowania zawodowe obejmują przetwarzanie i analizę danych oraz szeroko pojęte zagadnienia Big Data.

GFT Jakub Kasprzak - Kopia

Jakub Kasprzak (GFT)

Jakub Kasprzak jest inżynierem, analitykiem, specjalizującym się w technologiach baz danych opartych o produkty Microsoft SQL Server. Posiada doświadczenie dydaktyczne, prowadzi autoryzowane kursy Microsoft, a także szkolenia autorskie dotyczące baz danych. Przez ponad 10 lat swojej pracy zawodowej zajmował się projektowaniem i optymalizacją sieci transportowej dla największych operatorów sieci mobilnych w Polsce (T-Mobile PL, Polkomtel). Obecnie pracuje na stanowisku SQL Technical Leader w GFT Technologies w Poznaniu tworząc rozwiązania hurtowni danych dla globalnych instytucji finansowych.

uam Nawrocki

Marek Nawrocki (UAM)

Marek Nawrocki jest profesorem na Wydziale Matematyki i Informatyki. Ma duże doświadczenie dydaktyczne w zakresie baz danych, hurtowni danych i systemów raportujących. Jest współtwórcą systemów typu ERP, systemów analitycznych i raportujących, w tym powszechnie stosowanego przez wszystkich pracowników Uniwersytetu im. Adama Mickiewicza programu AmuRap.

Roche Jakub_Niwa

Jakub Niwa (Roche)

Jego doświadczenie w branży sięga 4 lat, pracował w Samsung R&D Polska jako specjalista od data i text miningu, obecnie w Roche pracuje jako IT Professional w zespole Bussiness Intelligence. Technologie z jakimi obcuje w pracy są silnie związane z Hadoopem, a dokładniej jego analityczną częścią.

Apollogic jacek rosik

Jacek Rosik (Apollogic)

Absolwent Politechniki Poznańskiej, Copenhagen University College of Engineering oraz studiów podyplomowych Uniwersytetu Ekonomicznego. Zdobytą wiedzę wykorzystuje w sposób zarówno techniczny jak i kreatywny, biorąc udział w wielu międzynarodowych projektach. Dotychczasowe doświadczenie zawodowe szlifował w takich firmach jak PwC, Statoil czy IBM. Aktualnie jako specjalista BI w Apollogic, zarządza zespołem Big Data. Inicjator The Things Network w Poznaniu, fascynuje się tematyką IoT.

Apollogic marta samól

Marta Samól (Apollogic)

Doświadczenie zdobyła pracując przy wielu międzynarodowych projektach. Jako pasjonatka technologii Business Intelligence uważnie śledzi najnowsze trendy na rynku i wdraża je w swojej codziennej pracy. Jako konsultant i lider zespołu Data Analytics w Apollogic specjalizuje się przede wszystkim w analizie i raportowaniu danych.

Apollogic Marcin Siudzinski

Marcin Siudziński  (freelancer, Credit Suisse)

Prowadzi działalność w zakresie konsultingu usług IT, specjalizując się w zagadnieniach przetwarzania i składowania danych, procesów ETL i technologii Big Data. Posiada szerokie doświadczenie w zakresie wdrażania i wykorzystania systemów IT zarówno w zakresie systemów zapewniających operacyjną ciągłość działania przedsiębiorstw, monitoringu usług, jak analizy i przetwarzania danych. Z przyjemnością dzieli się swoją wiedzą i doświadczeniem, dzięki czemu sam może się wciąż rozwijać i zdobywać nowe umiejętności.

uam anna stachowiak

Anna Stachowiak (UAM)

Anna Stachowiak jest wieloletnim i doświadczonym pracownikiem naukowym i dydaktycznym Wydziału Matematyki i Informatyki UAM. Prowadzi zajęcia oraz badania w obszarze baz danych, hurtowni danych, analizy danych, przetwarzania informacji nieprecyzyjnej i niepełnej. Jest także członkiem zespołu tworzącego system do wspomagania diagnostyki nowotworowej.

Roche Przemysław Szymil

Przemysław Szymił (Roche)

Przemysław Szymił – programista z kilkuletnim doświadczeniem. Pracował nad systemami dla administracji publicznej (grzywny i mandaty drogowe) oraz bankowymi (Bank Zachodni WBK). Specjalizuje się w bazach danych, głównie Oracle (PL/SQL Developer), ale pracował również z SQL Server-em i DB2. W portfolio ma także projekt integracji danych w środowisku Big Data – przetwarzanie danych marketingowych na platformie Hadoop, w celu ustalenia globalnej strategii sprzedaży. Z Roche związany od 2013, obecnie jako Senior IT Professional. Interesują go zagadnienia związane z modelowaniem danych.

Apollogic roman wesołowski

Roman Wesołowski (Apollogic)

Roman Wesołowski to specjalista IT z wieloletnim doświadczeniem w zakresie opracowywania systemów przetwarzania, wymiany i analizy danych (ETL). W trakcie swojej pięcioletniej kariery skupiał się na pracy z bazami danych, z naciskiem na hurtownie danych w oparciu o Microsoft SQL Server (certyfikaty MCSA, MCSE) oraz Oracle.  Dotychczasowe praktyki zapewniły mu  bardzo dobre zrozumienie struktur baz danych, modelowania danych, a także  pomogły w udanych wdrożeniach dedykowanych rozwiązań opartych na wymaganiach biznesowych. To prawdziwy pasjonat nowych technologii, który aktualnie pracuje z narzędziami do przetwarzania petabajtów danych analitycznych na serwerach Hadoop.

Marek Wisla (UAM)

Marek Wisła (UAM)

Marek Wisła oprócz pracy naukowej i dydaktycznej na Wydziale Matematyki i Informatyki UAM posiada 20 letnie doświadczenie pracy w międzynarodowej korporacji IT w obszarze ERP na stanowiskach R&D i application designer. Odpowiedzialny za projektowanie, produkcję i wdrażanie systemów klienckich opartych na bazach relacyjnych, m.in. w zakresie optymalizacji procesów związanych z raportowaniem w złożonych bazach relacyjnych, elektronicznej wymiany danych, automatyzacji procesów logistycznych.

Neptis Jakub Zakrzewski

Jakub Zakrzewski (Neptis S.A.)

Jakub Zakrzewski posiada wieloletnie doświadczenie jako manager IT, odpowiedzialny za kompleksowe świadczenie usług informatycznych w dużych spółkach. Pracuje jako projekt manager, między innymi odpowiedzialny za wdrożenia i utrzymanie systemów typu ERP, BI, workflow, poczta elektroniczna jak również usług sieciowych i kopii bezpieczeństwa. Od ponad roku kieruje działem Big Data w spółce Neptis S.A.

Studia prowadzone są przy udziale firm:

AllegroTech_fin
logo apollogic

Print

logo IBM
PearsonLogo_Primary_Blk_RGB - web
logo roche
uam anna stachowiak

dr inż. Anna Stachowiak

Kierownik Studiów

E-mail: aniap@amu.edu.pl

Telefon: 61 829-5481, 61 829-5303