資源簡介
本次主要分享關于遷移實際案例與最佳實踐更加深入的探討。在遷移過程中,我們遇到了很多的預料之外的問題,如字符集問題,數字進位問題,各種OOM等等,更加深入地了解了Spark和RDMBS之間的差異。在彌補鴻溝和解決問題的過程中,我們做了很多的實踐,貢獻給了社區很多的反饋,也解決了很多的bug。即便對于Spark當前不能處理的場景,比如recurisve query,也有了一些可行的探索。此外,我們現在還開發了一套自動化框架來幫助加速遷移工作。在這次分享中,我們會深入遷移的關鍵步驟,并分享踩過的一些坑,最后會介紹我們的自動化工具,如SQL Converter等。相信對正工作在類似的任務或者即將開展類似工作的工程師們會有所幫助。
下面是PPT原文:關注 Hadoop技術博文 并回復 ebay_spark 獲取本文PPT。
代碼片段和文件信息
評論
共有 條評論