投稿日
AWS Glueをいつ採用するか考える
もくじ
AWS Glue Studioレビュー観点
機能が正しく動く
- Data Previewで、正常な処理結果が出ている。
- Runして、出力先のS3のフォルダに正常な処理結果ファイルが出ている。
- テストデータのデータパターンが十分である。(境界値のデータがある。処理分岐を網羅している。など)
Sourceノード
- GUI上のノードタイプが Data source – Data Catalog である。(Node properties>Node typeが AWS Glue Data Catalog である)
Pythonコード
- TODOが残っていない。
- df = df.coalesce(1) を削除している。
Pythonコードの次のノード
- GUI上のノードタイプ Transform – SelectFromCollection のNameが「確定処理(前ノード名)」である。(Node properties>Node typeが Action: Select From Collection となっているノード)
Targetノード
- GUI上のノードタイプが Target: Amazon Glue Data Catalog である。(Node properties>Node typeが AWS Glue Data Catalog である)
- Data Catalog update options が Do not update the Data Catalog である。
- (パーティション分割する場合)QuickSightが読み込むファイルを出力する場合は Partition に target_date が指定されている。
- Runして、出力先のS3フォルダがPartitionに分かれている。
Actionノード全般
- Action: Custom Transform ノードが必要以上に分割されていない。
- Action: Change Schema(Apply Mapping) ノードと Action: Drop Fields ノードを同時に使用してしまっていない。
Action: Custom Transform ノード
- 使われてないimport文が残されていない。
- Node parentsが1つの場合、Node Parentから渡されるDataFrameの変数名が df である。