Аналіз Великих Даних за допомогою Microsoft R
Мета курсу - надати слухачам знання та навички, необхідні для створення і запуску сценаріїв аналізу великих даних на сервері Microsoft R. Також в курсі описано як працювати з Microsoft R в середовищах обробки великих даних як Hadoop, кластер Spark або база SQL Server АудиторіяЦей курс призначений для фахівців, які аналізують величезні набори даних, а також розробників, які використовують R в своїх проектах. Після закінчення курсу слухачі зможуть:
- Описати роботу Microsoft R
- Використовувати клієнта R і Server R для обробки великих даних з різних сховищ
- Візуалізувати дані за допомогою графіків і схем
- Перетворювати і зачищати набори великих даних
- Використовувати способи поділу аналітичних задач на паралельні завдання
- Побудувати і оцінити регресивні моделі, які генеруються на основі великих даних
- Створити, оцінити і розгортати партиціоніруваних моделей на основі великих даних
- Використовувати мову R в середовищах SQL Server і Hadoop
Модуль 1: Сервер і клієнт Microsoft RЦей модуль розповідає як працюють сервер і клієнт Microsoft R.Теми
- Огляд сервера Microsoft R
- Використання клієнта Microsoft R
- Функції ScaleR
- Використання клієнта R в VSTR і RStudio
- Огляд функцій ScaleR
- Підключення до віддаленого сервера
- Джерела даних ScaleR
- Читання даних в XDF-об'єкті
- Узагальнення даних в XDF-об'єкті
- Читання локального CSV-файлу і передача даних в XDF-файл
- Перетворення даних на вході
- Читання даних з SQL Server і передача в XDF-файл
- Підведення підсумків в XDF-файлі
- Візуалізація даних в пам'яті
- Візуалізації великих даних
- Використання ggplot для створення багатогранної діаграми з накладенням
- Використання rxlinePlot і rxHistogram
- Перетворення великих даних
- Управління наборами даних
- Перетворення великих даних
- Сортування і злиття великих даних
- Підключення до віддаленого серверу
- Використання обчислювального контексту RxLocalParallel з функцією rxExec
- Використання пакету revoPemaR
- Використання rxExec для оптимізації використання ресурсів
- Створення і застосування класу PEMA
- Кластеризації великих даних
- Створення регресійних моделей і підготовка прогнозів
- Створення кластера
- Створення регресійної моделі
- Генерація даних для складання прогнозів
- Використання моделі для складання прогнозів і порівняння результатів
- Створення партиціоніруваних моделей на основі дерева рішень.
- Тестування прогнозів партиціоніруваних моделей
- Розбиття набору даних
- Побудова моделей
- Підготовка прогнозу і тестування результатів
- Порівняння результатів
- Використання R в SQL Server
- Використання Map / Reduce в Hadoop
- Використання Hadoop Spark
- Створення моделі і прогнозування результатів в SQL Server
- Аналіз і висновок результату за допомогою Map / Reduce в Hadoop
- Інтеграція скрипту sparklyr в робочий процес ScaleR
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
- Досвід програмування на R і знайомство з основними пакетами
- Знання загальних статистичних методів і рекомендованих методів аналізу даних
- Базові знання операційної системи Windows і її основних можливостей
Запис на курс
Код курсу | 20773 |
---|---|
Тривалість | 3д (24ч) |
Код екзамену | |
Вартість без ПДВ | 14 100 грн. |