Контакты

Есть вопрос?
Задайте его нашему специалисту

ЕКАТЕРИНА ТИХОНОВА

Телефон: +7-960-244-67-79
Skype: katerinakovach
Email: ekaterina_tikhonova@epam.com

 

Программа курса

Часть 1: Hadoop

  • Обзор Big Data и введение в Hadoop
  • Обзор файловой системы HDFS и различных типов нод. Лабораторная работа по установке и настройке последнего дистрибутива Hadoop
  • Основы фреймворка MapReduce, secondary sort & map-side join. Лабораторная работа по написанию map reduce job
  • YARN и различные варианты управления ресурсами. Лабораторная работа по написанию Yarn-приложения
  • Проверка лабораторных работ
  • Промежуточный скрининг по первой части

Часть 2: Hive

  • Обзор Hive и базовых принципов работы с БД
  • Внутреннее устройство Hive. Лабораторная работа по загрузке и выгрузке данных
  • Разработка пользовательских функций. Лабораторная работа по написанию функций
  • Индексы, транзакции, оптимизация запросов.
  • Проверка лабораторных работ
  • Промежуточный скрининг по второй части

Часть 3: Spark

  • Введение в Apache Spark
  • Распределение данных в памяти, различные типы операций с данным. Лабораторная работа по загрузке и обработке данных в памяти
  • Введение в Spark SQL. Лабораторная работа по обработке данных при помощи языка запросов
  • Введение Spark Streaming и обработку потоковых данных. Лабораторная работа по обработке потоковых данных
  • Введение в MLLib и машинное обучение. Лабораторная работа по машинному обучению.
  • Проверка лабораторных работ
  • Промежуточный скрининг по третьей части

Часть 4: Дополнительные темы

  • Перемещение данных при помощи Sqoop. Лабораторная работа по использованию Sqoop
  • Перемещение данных при помощи Flume. Лабораторная работа по использованию Flume
  • Управление автоматизацией при помощи Oozie. Лабораторная работа по использованию Oozie
  • Управление конфигурацией при помощи Zookeeper. Лабораторная работа по использованию Zookeeper
  • Использование системы управления очередью сообщений Kafka. Лабораторная работа по использованию Kafka
  • Введение в NoSQL базу данных Cassandra. Лабораторная работа по использованию Cassandra
  • Введение в колоночную базу данных HBase. Лабораторная работа по использованию HBase
  • Проверка лабораторных работ
  • Промежуточный скрининг по четвертой части

Финальный скрининг по всему материалу.

На протяжении всего тренинга ведется журнал и контроль успеваемости. Программа тренинга может меняться по усмотрению EPAM.