Těžba dat: Dávkové importování vs. akvizice na bázi háčků

Je pro vaši strategii těžby dat nejlepší dávkový import nebo akvizice založená na háčku?

Při těžbě dat z externích zdrojů lze metodiku identifikovat jako „dávkovou“ nebo „zavěšenou“. Jsou to naprosto odlišné a mají své vlastní zásluhy. Použijte příklad k mírnému zjednodušení. V našem příkladu jde o letové údaje vztahující se k poloze letadla kdykoli. Proto bychom měli mít následující klíčové informace:

  1. Pohybový stav (stojící nebo v pohybu)
  2. Zeměpisná šířka
  3. Zeměpisná délka
  4. Nadmořská výška
  5. Původ (aktuálního nebo následujícího letu)
  6. Cíl (aktuálního nebo následujícího letu)
  7. Čas (milisekundová přesnost)

V tomto příkladu bychom měli být schopni extrapolovat většinu informací týkajících se letadla využitím výše uvedených dat. Pojďme analyzovat dvě metody importu dat.

Dávkový import

Dávkový import je založen na plánu a bude „stahovat“ informace ze zdroje v opakujících se intervalech. Na základě výše uvedeného příkladu letových údajů by to mohlo být provedeno takto:

  1. Hodinově importujeme veškeré letové záznamy týkající se tohoto letadla od poslední instance. Říkáme tomu dávkový čas, který může být 10: 00: 00 000 (10:00, s milisekundovou přesností).
  2. Tento server zpracovává tato data (úspěšně importována).
  3. Čas šarže aktualizujeme na čas posledního záznamu. Proto, i když čas šarže v kroku 1 byl 10: 00 000, pokud byl poslední záznam 9: 59: 52,915, stane se novým časem šarže.

Proč implementujeme dávkové načasování tímto způsobem?

  1. Aktualizujeme čas dávky, protože hodinová dávka může selhat. To nám poskytuje jistotu, že i v případě, že dávka selže, v příštím případě importujeme všechny informace od poslední dávky.
  2. Rovněž šetříme čas dávky na čas posledního záznamu letu, protože nepatrný časový rozdíl mezi servery může způsobit, že některá data nebudou importována v příští instanci. Vysvětlit to jinak; Pokud je náš server 5 sekund před poskytováním letových údajů a my jsme měli ušetřit poslední čas šarže jako čas našeho serveru, při dalším importu ztratíme těchto 5 sekund dat. Místo toho používáme poslední zaznamenaný čas letových údajů, abychom zajistili, že šarže zachytí všechna data.

Import založený na háku

Import založený na háčku je metoda získávání dat v reálném čase. „Zavěšení“ v práci na počítači se týká procesu, kdy externí systém (například řešení letových dat) odešle zprávu (obsahující data) na váš server, když nastane událost. Příklad importu založeného na zavěšení lze provést následujícím způsobem:

  1. Nový záznam je uložen na letovém datovém serveru se všemi informacemi (stav pohybu, zeměpisná šířka, zeměpisná délka, výška atd.).
  2. Spustí se „hák“, který automaticky odešle data na váš server.
  3. Server tato data zpracovává (úspěšně importován).

Závěr

Zatímco metody importu založené na háčku jsou preferovány z hlediska „reálného času“, představují dvě primární rizika:

  1. Musíte zpřístupnit přístup k serveru z externího umístění. To vytváří riziko kybernetické bezpečnosti, i když je provedeno správně.
  2. Pokud nejsou data háku doručena (například pokud byl váš server nedostupný), je neuvěřitelně těžkopádné načíst tato data bez spoléhání na integritu externí platformy.

Máme tendenci používat dávkový import, kdykoli je to možné, aby se tomu zabránilo, s kratšími „intervaly“, kde je to zapotřebí pro získání aktuálnějších informací.