データプラットフォームチームのよしたけです。
さて先日のBigData-JAWS 勉強会 #12にて、「リブセンスのデータ分析基盤を支えるRedshiftとAirflow」というタイトルで発表させていただきました。
Airflowについては、このブログでも Airflow を用いたデータフロー分散処理 でご紹介させていただきましたが、今回、弊社での活用事例を交えてお話させていただきました。
発表後のQAや懇親会で、Airflowの導入を検討しているが実際どういうところが大変なのか? とか運用上のつらみ、とかそういうところを気にされている方が多かった印象でした。
AirflowはPythonでデータフローを記述するため、柔軟に何でもできるという強みがあり、反面、やりすぎると改修が大変になり運用しづらくなるデメリットもあるように思います。 私たちはDAG側にはロジックを盛り込まずRake側でロジックを組み上げていくような運用をしているため、比較的変更、修正はカジュアルに回せていると思いますが、 反面、Airflowの豊富なオペレータや機能が使いこなせていないというジレンマもあったりします。 このあたりの加減は今後も改善を進めていきたいなと思っています。