Еще

Задачи:

  • Анализ требований к витринам данных (взаимодействие с владельцем продукта, BI-разработчиками, data scientist-ами);
  • Поиск и исследование источников данных для последующей интеграции;
  • Оценка пригодности, качества исходных данных;
  • Разработка ETL процессов на Spark;
  • Оркестрация ETL процессов в Airflow;
  • Проектирование баз данных;
  • Создание конвейеров данных NiFi.

Стек технологий:

  • Экосистема Hadoop – HDFS, YARN, Hive, HBase;
  • ETL-процессы – Spark (Scala);
  • Потоковая обработка – NiFi, Flink;
  • Брокер сообщений – Kafka;
  • Оркестрация ETL процессов – Airflow;
  • СУБД – PostgreSQL, Greenplum, Aerospike, Oracle, SQL Server;
  • CI/CD – GitLab.