Procesarea tabelelor în paralel folosind Azure fabrică, conducte unică, un singur notebook Databricks?

voturi
0

Vreau să transforme o listă de tabele în paralel utilizând Azure datele din fabrică și un singur notebook Databricks.

Am deja o conductă Azure din fabrică (ADF), care primește o listă de tabele ca parametru, seturi fiecare tabel din lista de masă ca o variabilă, apoi se solicită un singur notebook-uri singur (care realizează transformările simple) și trece fiecare tabel în serie acest notebook. Problema este că se transformă tabelele în serie (unul după altul) și nu în paralel (toate tabelele în același timp). Am nevoie de tabele care urmează să fie prelucrate în paralel.

Deci, întrebările mele sunt: ​​1) Este posibil pentru a declanșa aceleași Databricks notebook-uri de mai multe ori în exact același punct în timp (de fiecare dată cu un tabel diferit ca parametru) de la Azure din fabrică? 2) Dacă da, atunci ce am nevoie pentru a schimba în conducta mea sau notebook-ul pentru a face să funcționeze?

Cred că nu este probabil posibil să se declanșeze același notebook de mai multe ori concomitent pentru că, atunci când am declanșa acest notebook direct de la Databricks (și să treacă un tabel ca variabilă), trebuie să aștept să se termine executarea înainte să-l declanșeze din nou pentru un alt masă (parametru). Dar vreau să fiu sigur dacă este posibil sau nu. De asemenea, știu că este posibil să se proceseze mai multe tabele în paralel, folosind mai multe notebook-uri, dar, în cazul meu, am nevoie pentru a utiliza un singur notebook-uri. Mulțumesc anticipat :)

Parametrii

ADF

variabile

variabile

Setați variabilele de masă și notebook

introduceți

Configurarea secvențială

Configurarea

Secvențială neverificat cu Count = lot martor

Când configurat ca „secvențială“ și Count = lot martor, și să treacă două tabele, se execută conducte „cu succes“, dar numai un singur tabel este transformat (chiar dacă pot adăuga mai multe tabele în lista de tabel). „Set variabila“ corect arată de două ori, o dată pentru fiecare tabel. Dar orchestreze arată de două ori pentru aceeași masă.

introduceți

Sequential neverificată cu Count Batch = 2

Când configurat ca „secvențială“ și Count lot = 2, și să treacă două mese, conducta eșuează în a doua iterație, dar încearcă, de asemenea, transformarea aceeași masă de două ori. „Set variabila“ corect arată de două ori, o dată pentru fiecare tabel. Dar orchestreze arată de două ori pentru aceeași masă.

Sequential

Secvențial Verificat sau Batch Count = 1

Dacă plec secvențială Înregistrate sau Count lot = 1, atunci conducta se execută în mod corect și efectuează transformări pe toate mesele, dar procesarea are loc în serie (cum era de așteptat).

introduceți

Întrebat 13/01/2020 la 23:55
sursa de către utilizator
În alte limbi...                            


1 răspunsuri

voturi
0

Am rezolvat folosind „Căutare“ la un tabele SQL în loc de „Set Variable“. Imaginea de mai jos arată o cursă de 5 mese în paralel, folosind un singur notebook-uri singur.

introduceți descrierea imaginii aici

Publicat 14/01/2020 la 22:40
sursa de către utilizator

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more