AWS Glue Studioレビュー観点

機能が正しく動く

  • Data Previewで、正常な処理結果が出ている。
  • Runして、出力先のS3のフォルダに正常な処理結果ファイルが出ている。
  • テストデータのデータパターンが十分である。(境界値のデータがある。処理分岐を網羅している。など)

Sourceノード

  • GUI上のノードタイプが Data source – Data Catalog である。(Node propertiesNode type AWS Glue Data Catalog である)

Pythonコード

  • TODOが残っていない。
    • df = df.coalesce(1) を削除している。

Pythonコードの次のノード

  • GUI上のノードタイプ Transform – SelectFromCollection Nameが「確定処理(前ノード名)」である。(Node propertiesNode type Action: Select From Collection となっているノード

Targetノード

  • GUI上のノードタイプが Target: Amazon Glue Data Catalog である。(Node propertiesNode type AWS Glue Data Catalog である)
  • Data Catalog update options  Do not update the Data Catalog である。
  • (パーティション分割する場合)QuickSightが読み込むファイルを出力する場合は Partition  target_date が指定されている。
    • Runして、出力先のS3フォルダがPartitionに分かれている。

Actionノード全般

  • Action: Custom Transform ノードが必要以上に分割されていない。
  • Action: Change Schema(Apply Mapping) ノードと Action: Drop Fields ノードを同時に使用してしまっていない。

Action: Custom Transform ノード

  • 使われてないimport文が残されていない。
  • Node parentsが1つの場合、Node Parentから渡されるDataFrameの変数名が df である。