Web Data Engineer

Co oferujemy

Min. 2 lata doświadczenia w scrapingu, ETL i pracy z danymi w Pythonie.
Bardzo dobra znajomość HTTP/HTTPS (sesje, nagłówki, cookies, statusy), robots.txt i sitemap.
Doświadczenie z: requests / httpx, BeautifulSoup4 lub lxml, selektory CSS / XPath, regex, paginacja, infinite scroll.
Praktyka z co najmniej jednym narzędziem do stron dynamicznych: Playwright lub Selenium.
pandas (czyszczenie, transformacje, joiny), formaty CSV / JSON / Parquet, podstawy SQL (SELECT, UPSERT, indeksy).
Obsługa retry/backoff, timeoutów, kontroli równoległości; logowanie i monitoring.
Git, podstawy Dockera oraz CI/CD (testy, lint, skanowanie sekretów).
Świadomość RODO/GDPR (PII, anonimizacja, minimalizacja danych, retencja).
Umiejętność tworzenia czytelnej dokumentacji i sprawnej komunikacji

Projektowanie, implementacja i utrzymanie crawlerów oraz ekstraktorów danych (HTTP/HTTPS, paginacja, infinite scroll, SPA).
Dobór i wykorzystanie adekwatnych narzędzi: requests / httpx, BeautifulSoup4 / lxml, Scrapy, Playwright / Selenium (strony renderowane JavaScriptem).
Budowa pipeline’ów ETL/ELT: czyszczenie, normalizacja, deduplikacja i walidacja danych (np. pandas, Great Expectations / pandera).
Zapisywanie danych do CSV / Parquet oraz/lub ładowanie do relacyjnych baz danych (np. PostgreSQL, BigQuery).
Orkiestracja i automatyzacja zadań (cron, Airflow / Prefect); monitoring, alerting, logowanie, retry/backoff.
Zapewnienie zgodności prawnej i etycznej (robots.txt, regulaminy serwisów, RODO/GDPR).
Dokumentowanie schematów danych, przepływów (data lineage) i decyzji architektonicznych.
Współpraca z analitykami, produktowcami oraz – w razie potrzeby – zespołami prawnymi i bezpieczeństwa.
Proaktywne utrzymanie rozwiązań (szybka adaptacja scraperów po zmianach źródeł, niski MTTR).

Veröffentlicht	vor 18 Tagen
Läuft ab	in 12 Tagen