Step Functions における Map ステートのリトライ: 組み込み Retry (全体) vs カスタム (個別)

AWS Step Functions の Map ステートで並列処理中に一部のアイテムが失敗した場合、どのようにリトライするのが最適でしょうか？

Map ステートの Retry 句を使えば簡単にリトライを実装できますが、本記事の最初の検証（「Map ステート全体をリトライする」）で示すように、この機能は失敗していないアイテムも含めた全ての処理を最初からやり直します。

もし Iterator 内の処理に冪等性（べきとうせい）（何度実行しても結果が同じになること）が担保されているのであれば、この組み込み Retry はシンプルで有効な戦略です。

しかし、「成功した処理は再実行したくない（冪等でない、または処理コストが高い）」場合や、「失敗したアイテムだけを効率的に再試行したい」場合、組み込みの Retry 機能は適していません。

本記事では、この Map ステート組み込みの Retry 機能の正確な挙動を詳しく解説するとともに、後者の要件（失敗したアイテムだけのリトライ）を実現するための一般的なカスタムパターン（「失敗した処理のみをリトライする」）について、具体的な ASL と動作の違いを比較検証します。

Map ステート全体をリトライする

以下 ASL の Map ステートでは、Iterator 内のいずれか 1 つのアイテム（B-456）への処理が失敗した場合、Map ステート全体の Retry が作動し、成功していた他のアイテム（A-123）も含むすべてのアイテムが再実行されます。
アイテム A-123 と B-456 の 2つがあります。
アイテム A-123 は常に成功します。
random 関数が 1〜5 の整数のうちどれかを返却し、それが 5 だった場合にのみアイテム B-456 が成功する論理になっています。

{
  "Comment": "Mapステートのリトライ（再実行）サンプル【Iterator内乱数版】",
  "StartAt": "1. GenerateSampleArray",
  "States": {
    "1. GenerateSampleArray": {
      "Type": "Pass",
      "Comment": "処理対象のサンプル配列を生成します",
      "Result": {
        "products": [
          {
            "id": "A-123",
            "name": "Item 1"
          },
          {
            "id": "B-456",
            "name": "Item 2 (確率で失敗)"
          }
        ],
        "processId": "xyz-process-001"
      },
      "Next": "2. ProcessItemsInParallel"
    },
    "2. ProcessItemsInParallel": {
      "Type": "Map",
      "Comment": "products配列の各要素を並列処理します",
      "InputPath": "$.products",
      "MaxConcurrency": 2,
      "Iterator": {
        "StartAt": "GenerateRandomValue",
        "States": {
          "GenerateRandomValue": {
            "Type": "Pass",
            "Comment": "リトライのたびに新しい乱数を生成する",
            "ResultPath": "$.randomValue",
            "Parameters": {
              "value.$": "States.MathRandom(1, 6)"
            },
            "Next": "CheckIfShouldFail"
          },
          "CheckIfShouldFail": {
            "Type": "Choice",
            "Comment": "特定のアイテムが確率で失敗するかチェック",
            "Choices": [
              {
                "And": [
                  {
                    "Variable": "$.id",
                    "StringEquals": "B-456"
                  },
                  {
                    "Variable": "$.randomValue.value",
                    "NumericLessThan": 5
                  }
                ],
                "Next": "FailProcessing"
              }
            ],
            "Default": "ProcessSingleItem"
          },
          "FailProcessing": {
            "Type": "Fail",
            "Comment": "Item B-456を意図的に失敗させる",
            "Error": "MyProcessingError",
            "Cause": "Intentional random failure for testing retry"
          },
          "ProcessSingleItem": {
            "Type": "Pass",
            "Comment": "各アイテムに対する個別の処理（成功）",
            "Parameters": {
              "itemId.$": "$.id",
              "itemName.$": "$.name",
              "randomUsed.$": "$.randomValue.value",
              "processedTimestamp.$": "$$.State.EnteredTime"
            },
            "ResultPath": "$.processedInfo",
            "End": true
          }
        }
      },
      "Retry": [
        {
          "ErrorEquals": [
            "MyProcessingError"
          ],
          "IntervalSeconds": 1,
          "MaxAttempts": 10,
          "BackoffRate": 1
        }
      ],
      "ResultPath": "$.processedResults",
      "Next": "3. FinalStep"
    },
    "3. FinalStep": {
      "Type": "Pass",
      "Comment": "最終結果の確認用ステップ",
      "End": true
    }
  }
}

全体の処理フロー（リトライ発生時）

1回目の実行:
- Map ステートが開始され、A-123 と B-456 の Iterator が並列で起動します。
- A-123: GenerateRandomValue（例: 乱数 3） -> CheckIfShouldFail (Default) -> ProcessSingleItem（成功）
- B-456: GenerateRandomValue（例: 乱数 2） -> CheckIfShouldFail (条件合致) -> FailProcessing（失敗: MyProcessingError）
リトライの検知:
- B-456 が失敗したため、Map ステート全体が失敗とみなされます。
- Retry 設定（ErrorEquals: ["MyProcessingError"]）が作動します。
2回目の実行（リトライ）:
- Map ステートが、元の $.products 配列を使って最初から再実行されます。
- A-123 (再実行): GenerateRandomValue（例: 乱数 5） -> CheckIfShouldFail (Default) -> ProcessSingleItem（成功）
- B-456 (再実行): GenerateRandomValue（例: 乱数 4） -> CheckIfShouldFail (条件合致) -> FailProcessing（失敗: MyProcessingError）
3回目の実行（リトライ）:
- 再度、Map ステート全体がリトライされます。
- A-123 (再実行): GenerateRandomValue（例: 乱数 1） -> CheckIfShouldFail (Default) -> ProcessSingleItem（成功）
- B-456 (再実行): GenerateRandomValue（例: 乱数 5） -> CheckIfShouldFail (Default) -> ProcessSingleItem（成功）
Map ステートの完了:
- すべてのアイテム（A-123 と B-456）が成功したため、Map ステート全体が正常に完了します。
- Iterator の実行結果（3回目の実行結果の配列）が $.processedResults に格納されます。
3. FinalStep (Pass ステート):
- 最終ステップに進み、ステートマシン全体が正常終了します。

各ステップの詳細解説

1. `1. GenerateSampleArray` (Pass ステート)

役割: 処理対象の products 配列（A-123 と B-456）を生成します。
動作: Result の内容を出力し、2. ProcessItemsInParallel へ渡します。

2. `2. ProcessItemsInParallel` (Map ステート)

役割: products 配列の各要素（A-123, B-456）を並列処理します。
Retry の仕様:
- この Map ステート（インラインモード）の Retry は、Map ステート全体に対して設定されています。
- Iterator（反復処理）内で MyProcessingError が発生すると、Map ステート全体が失敗とみなされます。
- Retry ポリシーに基づき、InputPath（$.products）から取得したすべてのアイテム（A-123 と B-456 の両方）の Iterator 処理が最初からやり直されます。

`Iterator` (Map ステートの反復処理) の詳細

A-123 と B-456 のそれぞれで、以下の処理が（最大並列度 MaxConcurrency: 2 で）同時に開始されます。

GenerateRandomValue (Pass ステート):
- 役割: 確率判定用の乱数（1〜5）を生成します。
- 動作: States.MathRandom(1, 6) で乱数を生成し、各アイテムのデータ（$.randomValue）に追加します。
CheckIfShouldFail (Choice ステート):
- 役割: 条件に基づき、成功か失敗かを分岐します。
- 分岐ルール:
  1. もし id が "B-456" かつ乱数が 5 未満 (1, 2, 3, 4) ならば:
    - FailProcessing へ進みます。
  2. それ以外の場合 (Default):
    - id が "A-123" の場合（常にこちら）。
    - id が "B-456" で、かつ乱数が 5 の場合。
    - ProcessSingleItem へ進みます。
FailProcessing (Fail ステート):
- 役割: B-456 の処理を意図的に失敗させます。
- 動作: MyProcessingError を発生させます。
ProcessSingleItem (Pass ステート):
- 役割: アイテム処理の成功を示します。
- 動作: Iterator の実行を正常終了します。

グラフビュー

障害時のリドライブ

MaxAttempts を超えて失敗した場合、"Type": "Fail" を記録した箇所から再実行可能です。
MaxAttempts を 1 にして意図的に失敗させ、何回かリドライブすると成功しました。いずれにせよ Map 全体をリトライすることになります。

Map ステートで失敗した処理 (`States`) のみをリトライする

以下 ASL では Map ステートで失敗したアイテムだけを個別にリトライします。
これは、すべてのアイテムを再処理するのではなく、失敗した特定のアイテムだけを効率的に再試行するための一般的なパターンです。

{
  "Comment": "Mapステートで失敗したアイテムだけをリトライするサンプル（リトライも失敗する版・クリーンアップ）",
  "StartAt": "GenerateSampleArray",
  "States": {
    "GenerateSampleArray": {
      "Type": "Pass",
      "Result": {
        "products": [
          {
            "id": "A-123",
            "name": "Item 1"
          },
          {
            "id": "B-456",
            "name": "Item 2 (確率で失敗)"
          },
          {
            "id": "C-789",
            "name": "Item 3"
          }
        ]
      },
      "Next": "ProcessItems_1stPass"
    },
    "ProcessItems_1stPass": {
      "Type": "Map",
      "InputPath": "$.products",
      "MaxConcurrency": 2,
      "Iterator": {
        "StartAt": "GenerateRandomValue",
        "States": {
          "GenerateRandomValue": {
            "Type": "Pass",
            "ResultPath": "$.randomValue",
            "Parameters": {
              "value.$": "States.MathRandom(1, 6)"
            },
            "Next": "CheckIfShouldFail"
          },
          "CheckIfShouldFail": {
            "Type": "Choice",
            "Choices": [
              {
                "And": [
                  {
                    "Variable": "$.id",
                    "StringEquals": "B-456"
                  },
                  {
                    "Variable": "$.randomValue.value",
                    "NumericLessThan": 5
                  }
                ],
                "Next": "MarkAsFailed"
              }
            ],
            "Default": "MarkAsSuccess"
          },
          "MarkAsFailed": {
            "Type": "Pass",
            "Parameters": {
              "status": "failed",
              "id.$": "$.id",
              "randomUsed.$": "$.randomValue.value"
            },
            "End": true
          },
          "MarkAsSuccess": {
            "Type": "Pass",
            "Parameters": {
              "status": "success",
              "id.$": "$.id",
              "randomUsed.$": "$.randomValue.value"
            },
            "End": true
          }
        }
      },
      "ResultPath": "$.firstPassResults",
      "Next": "FilterFailedItems"
    },
    "FilterFailedItems": {
      "Type": "Pass",
      "InputPath": "$.firstPassResults",
      "Parameters": {
        "failedItems.$": "$[?(@.status == 'failed')]"
      },
      "ResultPath": "$.retryQueue",
      "Next": "CheckIfRetryNeeded"
    },
    "CheckIfRetryNeeded": {
      "Type": "Choice",
      "Choices": [
        {
          "Variable": "$.retryQueue.failedItems[0]",
          "IsPresent": true,
          "Next": "RetryFailedItems_2ndPass"
        }
      ],
      "Default": "FinalSuccess"
    },
    "RetryFailedItems_2ndPass": {
      "Type": "Map",
      "InputPath": "$.retryQueue.failedItems",
      "Iterator": {
        "StartAt": "Retry_GenerateRandomValue",
        "States": {
          "Retry_GenerateRandomValue": {
            "Type": "Pass",
            "ResultPath": "$.randomValue",
            "Parameters": {
              "value.$": "States.MathRandom(1, 6)"
            },
            "Next": "Retry_CheckIfShouldFail"
          },
          "Retry_CheckIfShouldFail": {
            "Type": "Choice",
            "Choices": [
              {
                "And": [
                  {
                    "Variable": "$.id",
                    "StringEquals": "B-456"
                  },
                  {
                    "Variable": "$.randomValue.value",
                    "NumericLessThan": 5
                  }
                ],
                "Next": "Retry_MarkAsFailed"
              }
            ],
            "Default": "Retry_MarkAsSuccess"
          },
          "Retry_MarkAsFailed": {
            "Type": "Pass",
            "Parameters": {
              "status": "failed",
              "id.$": "$.id",
              "randomUsed.$": "$.randomValue.value"
            },
            "End": true
          },
          "Retry_MarkAsSuccess": {
            "Type": "Pass",
            "Parameters": {
              "status": "success",
              "id.$": "$.id",
              "randomUsed.$": "$.randomValue.value"
            },
            "End": true
          }
        }
      },
      "ResultPath": "$.secondPassResults",
      "Next": "FilterFinalFailedItems"
    },
    "FilterFinalFailedItems": {
      "Type": "Pass",
      "InputPath": "$.secondPassResults",
      "Parameters": {
        "failedItems.$": "$[?(@.status == 'failed')]"
      },
      "ResultPath": "$.finalFailedItems",
      "Next": "CheckIfFinalFailures"
    },
    "CheckIfFinalFailures": {
      "Type": "Choice",
      "Choices": [
        {
          "Variable": "$.finalFailedItems.failedItems[0]",
          "IsPresent": true,
          "Next": "FinalFailure"
        }
      ],
      "Default": "FinalSuccess"
    },
    "FinalFailure": {
      "Type": "Fail",
      "Error": "RetryFailed",
      "Cause": "Some items failed even after retry."
    },
    "FinalSuccess": {
      "Type": "Pass",
      "End": true
    }
  }
}