Задачи:
- Анализ требований к витринам данных (взаимодействие с владельцем продукта, BI-разработчиками, data scientist-ами);
- Поиск и исследование источников данных для последующей интеграции;
- Оценка пригодности, качества исходных данных;
- Разработка ETL процессов на Spark;
- Оркестрация ETL процессов в Airflow;
- Проектирование баз данных;
- Создание конвейеров данных NiFi.
Стек технологий:
- Экосистема Hadoop – HDFS, YARN, Hive, HBase;
- ETL-процессы – Spark (Scala);
- Потоковая обработка – NiFi, Flink;
- Брокер сообщений – Kafka;
- Оркестрация ETL процессов – Airflow;
- СУБД – PostgreSQL, Greenplum, Aerospike, Oracle, SQL Server;
- CI/CD – GitLab.