Apache Spark on Amazon EMR

Amazon EMR上でApache Sparkがサポートされました！そのことについてEMRのプロダクトマネージャのJoh Fritzのブログを書いていますので、これを翻訳してみます。

元記事はこちら: New – Apache Spark on Amazon EMR

今井

本日、Amazon EMRはApache Sparkをサポートしたことを発表いたします。Amazon EMRはHiveやPig、HBase、Presto、ImpalaなどのHadoopエコシステムによって、大量のデータを処理することを容易にしてくれる、AWSのサービスのひとつです。また、これまでもBootstrapアクションや自前のスクリプト等を利用してEMRにSparkをインストールしてご利用頂いているお客様もたくさんいらっしゃいました。しかし今日からは、マネジメントコンソールやAPI、CLIで’Sparkをインストールする’というオプションを指定するだけでSparkを利用することができます！

Apache Spark: Beyond Hadoop MapReduce

これまで、非常に多くのお客様がHadoop MapReduceを使って大量のデータをバッチ処理したり、構造化されていないデータに対してアドホックな分析を行ったり機械学習を走らせたりしてきました。Hadoopエコシステムの新しいメンバーであるApache Sparkは、これらのワークロードのうちおおくのものをより高速に処理することができます。

Apache Sparkは有向無閉路グラフ（たぶん、DAGと言ったほうがわかりやすいですね）実行エンジンを利用することによって、非常に効率的なデータ処理の実行プランを作成します。また、Sparkは取り扱うデータをRDD(Resilient Distributed Datasets)と呼ばれる、インメモリであり耐久性の高い、イミュータブルなデータセットの形に抽象化して利用します。この2つの特徴により、Hadoop MapReduceのmap-reduceフレームワークの課題であったIOコストを極小化し、高いパフォーマンスを実現してくれます。この特徴は同じデータを何度も再帰的に処理する、機械学習のようなワークロードにとって非常に大きなメリットをもたらします。

また、SparkはないティブでScala、Python、JavaのAPIを持っており、それぞれのAPIに対してSQL、機械学習、グラフ処理、ストリーム処理のライブラリが用意されています。Spark自体がこのような開発者向けの多様なオプションを用意していますので、Hadoop MapReduceよりもかなり開発がし易いのは間違いないと思います。

Apache SparkとAmazon EMR

ここまではSparkについての紹介をしてきました。本日より、マネジメントコンソール、API、CLIなど様々な手段で簡単にSparkがインストールされたEMRのクラスタを構築することができます。もちろん、SparkとともにこれまでどおりEMRの特徴であるAmazon EMR FS(EMRFS)を使ってAmazon Simple Storage Service(S3)上のデータを取り扱ったり、処理のログをS3に吐き出したり、EC2 Spot Instanceを利用することができるのは言うまでもありません。そして非常に重要なことですが、Sparkを利用するにあたって追加費用は要りません。

Sparkには高速なデータクエリエンジンであるSpark SQL、機械学習アルゴリズムのライブラリであるMLlib、分散環境上でのストリーム処理を実現するためのSpark Streaming、グラフ処理のためのGraph Xが含まれています。また、併せてGangliaをインストールすることによってSparkの各種メトリクスを監視することもできます。そしてEMRの大きな特徴のひとつでもある、EMR Step APIを使ってSparkのジョブをサブミットすることもできます。もちろん、マスタノードにSSHでログインしてSpark Shellを起動することもできますし、Spark APIを直接利用することもできます。

Spark on EMRの事例

次はAmazon EMR上でのSparkのユースケースをいくつかご紹介したいと思います。

Washington Postは記事やコンテンツのレコメンドにSparkを利用しています。
Yelpはディスプレイ広告のクリック率をあげるためにMLlibを使っています。
Hearst Coporationはクリックストリームのリアルタイム処理のためにSpark Steramingを利用しています。これにより、記事ごとの効果をリアルタイムにモニタリングを実現しています。
Kruxは自社のサービスであるDMPのためにSparkを使ってAmazon S3（EMRFS経由で）上のデータを処理しています。

Sparkを使った分析処理の簡単なサンプル

では、Spark on EMRでデータ分析をする簡単なサンプルを見て行きましょう。

今回は米国運輸省が公開しているパブリックデータセットであるpublic data set outlining flight information since 1987. を使います。これをダウンロードしてカラムナ型のParquet formatに変換し、S3上にアップロードしました(リードオンリーで皆様も利用可能です！)。このデータは4GB（非圧縮だと79GB）のサイズがあり、行数にすると162,212,419行ありますので、分散処理フレームワークの性能を試すにはそれなりによいデータ量であるといえるでしょう。

ここでは出発便の多い空港TOP10を知りたいとします。このクエリをSQLに書き落とし、Scalaで下記のようなSparkアプリケーションを書き起こします。このコードは下記からダウンロードすることも出来ます。 s3://us-east-1.elasticmapreduce.samples/flightdata/sparkapp/FlightExample.scala

val parquetFile = hiveContext.parquetFile("s3://us-east-1.elasticmapreduce.samples/flightdata/input/")

//Parquet files can also be registered as tables and then used in SQL statements.

parquetFile.registerTempTable("flights")

//Top 10 airports with the most departures since 2000

val topDepartures = hiveContext.sql("SELECT origin, count(*) AS total_departures FROM flights WHERE year >= '2000' GROUP BY origin ORDER BY total_departures DESC LIMIT 10")

topDepartures.rdd.saveAsTextFile(s"$OutputLocation/top_departures")

コード中で"flights"というテーブルを作っていることに注目してださい。これはRDDとして保存されます。SQLはこのRDDに対して実行されることになりますが、RDDはメモリ上に展開されるデータセットですのでIOコストを非常に小さく抑えることができます。また、EMR上のSparkはEMRFSを経由してS3上のデータを直接取り扱うことができますのでHDFS上にデータをコピーしておく必要もありません。もちろん、このコードサンプルにあるように出力先もS3を指定することができあす。それでは実行するためにこのコードをJARにビルドします。ビルド済みのJARはこちらからダウンロードできます。https://s3.amazonaws.com/us-east-1.elasticmapreduce.samples/flightdata/sparkapp/flightsample_2.10-1.3.jar

それでは3ノードのm3.xlargeからなるAmazon EMRのクラスタを起動しましょう。このサンプルデータセットはUS EastのS3上に配置されているので、クラスタも同じリージョンに起動してください。もちろん別リージョンでも動きますが。マネジメントコンソールにアクセスし、以下のように起動していきます。

MC1

Additional Applicaitonのところまで画面をスクロールしていき、ドロップダウンリストからSparkを選択してください。Arguments（引数）には、下記のように-xと入力してください。このパラメータは、例えばSparkのデフォルトのexecutorの数を上書きするときなどに利用します。

MC2

EMRのAMI3.8.0にインストールされるSparkの各種設定はApacheプロジェクトのデフォルト値をそのまま使っており、RAM1GBあたり2executorということになります。-xを渡してやると、executor数をクラスタ作成時のEMRのコアノードの数に上書きし、各executorに割り当てられるRAMとvcoreの数を、各コアノードがサポートする最大値で設定してくれます。当然この設定に寄ってジョブのパフォーマンスが変わってきますので、いろいろな設定を試すことをおすすめします。もちろんspark-submitを実行するときにこれらの値は更に上書き可能です。

更に Stepsセクションまで画面をスクロールしていき、下記のように2つのステップを追加しましょう。最初のステップはビルドされたアプリケーションのJARをS3からマスタノードにコピーするためのものです。 Custom jarステップとしてScriptRunnerという、任意のシェルスクリプトを実行するためのJarを利用します。Jarのロケーションは s3://elasticmapreduce/libs/script-runner/script-runner.jarを指定してください。そして引数として、実際に実行させたいコマンドである /home/hadoop/bin/hdfs dfs -get s3://us-east-1.elasticmapreduce.samples/flightdata/sparkapp/flightsample_2.10-1.3.jar /mnt/を渡してあげてください。画面的には下記のようなイメージです。

MC3

2つめのステップではSparkアプリケーションを実行させます。

MC4

Deploy Modeには Clientを指定してください。また、 Application locationにはJarのローカルパスを指定してやる必要があるので、先のステップでダウンロードしたパスである/mnt/flightsample_2.10-1.3.jarを指定してください。アプリケーションへのArguments（引数）には出力先として任意のS3バケットのパスを指定してください。そして Action on failureに Terminate clusterを指定します。

最後に Auto-terminateをYesに設定します。これにより、アプリケーションが終了すると自動的にこのクラスタは終了されることになります。さて、もろもろ準備が整ったので Create Clusterをクリックしましょう！

Amazon EMRがクラスタを起動し、Sparkアプリケーションを実行し、ジョブが終了し次第クラスタを廃棄してくれます。この様子はマネジメントコンソールの Cluster Detailsにて観察することができます。そしてジョブが無事に終了していれば、指定したS3バケットにアプリケーションの結果である、出発便の多い空港TOP10が出力されていることでしょう。

Spark on EMRは今日から利用可能です！

Spark on EMRについてより詳細な情報を知りたい方はSpark on Amazon EMRをご確認ください！

Apache Spark on Amazon EMR

Apache Spark: Beyond Hadoop MapReduce

Apache SparkとAmazon EMR

Spark on EMRの事例

Sparkを使った分析処理の簡単なサンプル

Spark on EMRは今日から利用可能です！

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？