FLOSS! not only Linux and hackers!!
入門
用 ETL Kettle 打造程序流水線
IB503 13:50 ~ 14:30 漢語ETL(Extract , Transform , Load)是在做於資料處理過程中很重要的一環,但往往是常被忽略的角色。隨著資料重要性越來越高,能有效率及流程清楚的資料處理技能是必要的。若能透過方便的UI界面搭配已經既有的程式便能組合成完整的資料流,透過流程畫面也能便於傳授knowhow。是不是太美妙了!!
Pentaho是在資料處理中相當出色的企業,旗下的Data Integration - Kettle是這次分享ETL的重點。以下是分享的項目:
- 為什麼我要導入Kettle (自我介紹 及 導入故事)
- 由模組方式堆疊成流程 (ETL的架構)
- 小試身手! - 簡單功能介紹 (讀寫資料庫 , 資料轉換 )
- 喔~有點難了喔!- 外來資料源及變數 (FTP,其他檔案形式資料 及 模組之間的變數傳遞)
- 來硬的! - 多執行緒及調教效能 (加速流程速度 及 調整內部參數)
- 合體技!- 原有的系統融合 (外系統API或 SHELL SCRIPT串接)
本次討論將分享,將open source - Pentaho kettle導入公司過程,由小小內部系統使用到營運系統使用。並實際DEMO此軟體透過介面拉取並透過簡單程式及script就可完成完整流程。