Обробка даних с Microsoft HDInsight
Мета курсу - надати слухачам знання та навички, необхідні для роботи з масивами великих даних, планування та впровадження робочих потоків за допомогою HDInsight.АудиторіяЦей курс призначений для інженерів, архітекторів, фахівців з підготовки даних, а також розробників бажаючих використовувати HDInsight і мову R в своїх проектах. Після закінчення курсу слухачі зможуть:
- Описати Hadoop, MapReduce, HDInsight
- Описати типи кластерів HDInsight
- Описати створення, управління і видалення кластерів HDInsight за допомогою PowerShell.
- Описати як вирішувати доступ користувачів до об'єктів.
- Описати конфігурації і архітектуру сховища HDInsight.
- Проводити моніторинг ресурсів з Operations management suite.
- Виконувати запити з Hive і Pig
- Описати використання ETL і Spark
- Впровадити інтерактивні запити
- Виконати інтерактивну обробку даних за допомогою Apache Phoenix
- Керувати завданнями потокової аналітики
- Створити додатки для обробки структурованих потоків в Spark.
- Використовувати потокові дані в Storm
- Пояснити, як працює мова R
- Перетворювати і зачищати набори даних
Модуль 1: Початок роботи з HDInsightЦей модуль описує можливості Hadoop, парадигми MapReduce і основи роботи з HDInsight.Теми
- Великі дані
- Hadoop
- MapReduce
- HDInsight
- Запити до даних з Hive
- Запити до даних з Excel
- Типи кластерів HDInsight
- Управління кластерами HDInsight
- Управління кластерами HDInsight за допомогою PowerShell
- Створити кластер Hadoop в HDInsight
- Налаштувати HDInsight за допомогою скрипта
- Налаштувати HDInsight за допомогою Bootstrap
- Видалити кластер HDInsight
- Недоменні кластери
- Налаштування кластера HDInsight, підключеного до домену
- Управління підключеним до домену кластером HDInsight
- Налаштування кластера HDInsight, підключеного до домену
- Налаштувати політики Hive
- Сховище HDInsigh
- Засоби завантаження даних
- Продуктивність і надійність
- Завантаження даних за допомогою Sqoop
- За допомогою завантаження даних в AZcopy
- Завантаження даних за допомогою ADLcopy
- Використовувати HDInsight для стиснення даних
- Аналіз журналів
- Журнали YARN
- Дампи купи (Heap)
- Operations management suite
- Аналіз журналів HDInsight
- Аналіз журналів YARN
- Моніторинг ресурсів з Operations management suite
- Сховище Apache Hive
- Запити з Hive і Pig
- Підключення HDInsight
- Завантаження даних в таблицю Hive
- Запит даних в Hive і Pig
- Що таке Spark?
- ETL і Spark
- Продуктивність Spark
- Створення кластера HDInsight з доступом до сховища Data Lake
- Використання кластера Spark в HDInsight для аналізу даних в сховищі Data Lake
- Аналіз журналів сайту за допомогою налаштованої бібліотеки кластера Apache Spark в HDInsight
- Управління ресурсами кластера Apache Spark в Azure HDInsight
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
- Впровадження інтерактивних запитів для великих даних за допомогою Hive.
- Проведення дослідницького аналізу даних за допомогою Hive
- Виконання інтерактивної обробки даних за допомогою Apache Phoenix
- Впровадження інтерактивних запитів для великих даних за допомогою Hive.
- Проведення дослідницького аналізу даних за допомогою Hive
- Виконання інтерактивної обробки даних за допомогою Apache Phoenix
- Потокова аналітика
- Обробка потокових даних з потокової аналітики
- Управління завданнями потокової аналітики
- Обробка потокових даних з потокової аналітики
- Управління завданнями потокової аналітики
- DStream
- Створення додатків для обробки структурованих потоків в Spark
- Стабільність і візуалізація
- Створення програми Spark Streaming за допомогою DStream API
- Створення програми для обробки структурованих потоків в Spark
- Дані, які довго зберігаються
- Потокові дані в Storm
- Створення топології Storm
- Налаштування Apache Storm
- Потокові дані в Storm
- Створення топології Storm
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
- Досвід програмування на R і знання поширених пакетів R
- Знання загальних статистичних методів аналізу даних і кращих практик.
- Основні відомості про операційні сисТеми Microsoft Windows.
- Досвід роботи з реляційними базами даних.
Запис на курс
Код курсу | 20775 |
---|---|
Тривалість | 5д (40ч) |
Код екзамену | |
Вартість без ПДВ | 23 500 грн. |