Databricks je na konferenciji Data + AI Summit objavio da otvorenim kodom daje svoj ključni deklarativni ETL okvir pod imenom Apache Spark Declarative Pipelines. Time će, u idućem izdanju Sparka, isti alat koji je dosad bio poznat kao Delta Live Tables (DLT) postati dostupan cijeloj open-source zajednici.
Inženjeri sada mogu opisati čitav tok podataka u SQL-u ili Pythonu, a „Apache Spark figures out the right execution plan”, pojasnio je Michael Armbrust, istaknuti softverski inženjer u Databricksu. Okvir automatski prati ovisnosti među tablicama, kreira ih, mijenja sheme i upravlja operativnim zadacima poput paralelnog izvođenja, checkpointa i ponovnih pokušaja.
„It’s designed for the realities of modern data like change data feeds, message buses, and real-time analytics that power AI systems. If Apache Spark can process it, these pipelines can handle it”, dodao je Armbrust, naglasivši da se radi o sljedećem koraku nakon RDD-ova, Spark SQL-a, Structured Streaminga i Delta Lakea: „Now, we’re taking the next leap of making end-to-end pipelines declarative.”
Prednosti su, tvrde u tvrtki, već potvrđene u praksi. Block je skratio razvoj cjevovoda za više od 90 %, dok je Navy Federal Credit Union smanjio vrijeme održavanja za 99 %. „As an engineering manager, I love the fact that my engineers can focus on what matters most to the business”, kaže Jian Zhou iz Navy Federal Credit Uniona. Brad Turnbaugh iz lanca 84.51° ističe da im je alat „made it easier to support both batch and streaming without stitching together separate systems”.
Konkurentski Snowflake nedavno je predstavio uslugu Openflow baziranu na Apache NiFi-ju, ali ona se primarno bavi unosom podataka u Snowflake i ostavlja korisnicima daljnju transformaciju. Databricksov okvir, za razliku od toga, pokriva čitav put „od izvora do upotrebljivih podataka” i to bilo gdje gdje se vrti Apache Spark.
Armbrust nije otkrio točan rok ulaska koda u službeni repozitorij: „We’ve been excited about the prospect of open-sourcing our declarative pipeline framework since we launched it… Now it’s proven and ready to thrive in the open.” Paralelno s otvaranjem koda, Databricks je pustio i komercijalnu verziju Lakeflow Declarative Pipelines s dodatnim funkcijama i podrškom.