データ分析用次世代データフォーマットApache Arrow勉強会 に参加してきた
2017-05-30
関西Ruby会議2017の翌日に須藤さん主催でApache Arrow勉強会が開催されるとのことで、懇親会で申し込んでキャンセル待ちだったが、繰り上がったので参加した。
Apache Arrow は、“データ分析用次世代データフォーマット” ということで、各種分析ライブラリ?アプリ?が対応を始めているもので、シリアライズ・パースが不要、メモリやCPUの利用効率がよいカリッカリにチューニングされたフォーマットらしい。
勉強会では、コントリビュータを増やす、という目的のもと、概要・現状・貢献方法の紹介があった。
機械学習とかビッグデータ分析とかの分野に全く疎いので、どういうかたちでデータをツール側に送るのか(配列だってのはわかってる)理解していないのでアレなのだが、データソース側にいるアプリがクライアントソフトを使って(なければ作って)Apache Arrow を使って分析ツール側に送信することになると思うので、送信したデータと分析時のコストは下がるものの、Apache Arrow への変換コストというか変換スピードみたいなものが重要になってきたりしないのかな?とか思って聴いていた。(大量データをなんとか変換して捌く、というので苦労しているので…)
Apache Arrow 自体への貢献、各言語向けのクライアントライブラリを作る・直すことへの貢献、がありそうですね。
まず、そのビッグデータだ、機械学習だ、ってところから学習するのがよさそう