Web Data Engineer

Web Data Engineer

Devire

Hexjobs Insights

Role: Web Data Engineer. Responsibilities include designing and maintaining data crawlers, building ETL pipelines, and ensuring compliance with legal and ethical standards. Requirements: 2+ years in scraping, strong Python skills.

Schlüsselwörter

scraping
ETL
Python
HTTP
requests
BeautifulSoup
Selenium
pandas
SQL
GDPR

Vorteile

  • Wynagrodzenie w oparciu o umowę B2B
  • Elastyczny czas pracy (ok 10 godzin tygodniowo)
  • Pakiet benefitów (opieka medyczna, karta multisport)
  • Długofalowa współpraca
  • Praca zdalna

Co oferujemy

  • Wynagrodzenie w oparciu o umowę B2B (via Devire).
  • Elasyczny czas pracy, nakład ok 10 godzin tygodniowo.
  • Pakiet benefitów (opieka medyczna, karta multisport itp.).
  • Długofalowa współpraca.
  • Praca zdalna.

Wymagania

  • Min. 2 lata doświadczenia w scrapingu, ETL i pracy z danymi w Pythonie.
  • Bardzo dobra znajomość HTTP/HTTPS (sesje, nagłówki, cookies, statusy), robots.txt i sitemap.
  • Doświadczenie z: requests / httpx, BeautifulSoup4 lub lxml, selektory CSS / XPath, regex, paginacja, infinite scroll.
  • Praktyka z co najmniej jednym narzędziem do stron dynamicznych: Playwright lub Selenium.
  • pandas (czyszczenie, transformacje, joiny), formaty CSV / JSON / Parquet, podstawy SQL (SELECT, UPSERT, indeksy).
  • Obsługa retry/backoff, timeoutów, kontroli równoległości; logowanie i monitoring.
  • Git, podstawy Dockera oraz CI/CD (testy, lint, skanowanie sekretów).
  • Świadomość RODO/GDPR (PII, anonimizacja, minimalizacja danych, retencja).
  • Umiejętność tworzenia czytelnej dokumentacji i sprawnej komunikacji

Obowiązki

  • Projektowanie, implementacja i utrzymanie crawlerów oraz ekstraktorów danych (HTTP/HTTPS, paginacja, infinite scroll, SPA).
  • Dobór i wykorzystanie adekwatnych narzędzi: requests / httpx, BeautifulSoup4 / lxml, Scrapy, Playwright / Selenium (strony renderowane JavaScriptem).
  • Budowa pipeline’ów ETL/ELT: czyszczenie, normalizacja, deduplikacja i walidacja danych (np. pandas, Great Expectations / pandera).
  • Zapisywanie danych do CSV / Parquet oraz/lub ładowanie do relacyjnych baz danych (np. PostgreSQL, BigQuery).
  • Orkiestracja i automatyzacja zadań (cron, Airflow / Prefect); monitoring, alerting, logowanie, retry/backoff.
  • Zapewnienie zgodności prawnej i etycznej (robots.txt, regulaminy serwisów, RODO/GDPR).
  • Dokumentowanie schematów danych, przepływów (data lineage) i decyzji architektonicznych.
  • Współpraca z analitykami, produktowcami oraz – w razie potrzeby – zespołami prawnymi i bezpieczeństwa.
  • Proaktywne utrzymanie rozwiązań (szybka adaptacja scraperów po zmianach źródeł, niski MTTR).
Aufrufe: 14
Veröffentlichtvor 18 Tagen
Läuft abin 12 Tagen

Ähnliche Jobs, die für Sie von Interesse sein könnten

Basierend auf "Web Data Engineer"

Keine Angebote gefunden, versuchen Sie, Ihre Suchkriterien zu ändern.