← До фільтрів та технологій

← До списку лабораторних по Python

Python Лабораторна 58: Витяг, трансформація і завантаження даних

Технологія: Python

Номер лабораторної: 58 · Рівень: middle

Тема: Побудова невеликого ETL пайплайна

Повний опис / сценарій лабораторної:

Meta: навчитися будувати послідовність кроків ETL і структурувати код за стадіями.



Krok 1. Описати джерело даних наприклад CSV файл або простий API.



Krok 2. Створити модуль src/app/etl58.py з функцією extract яка отримує сирі дані.



Krok 3. Додати функцію transform яка очищає і змінює структуру даних.



Krok 4. Додати функцію load яка записує результат у базу або інший файл.



Krok 5. Зібрати єдину функцію run pipeline яка поєднує всі кроки з логуванням.



Krok 6. Продумати повторний запуск пайплайна без дублювання записів.



Krok 7. Додати просту конфігурацію для параметрів джерел і приймачів даних.



Krok 8. Написати кілька тестів для окремих кроків трансформації.



Krok 9. Занотувати як би ти масштабував такий пайплайн для великих обсягів даних.



Krok 10. Mini zvit.

Zavdannya: опиши реальний приклад ETL задачі у твоєму середовищі.