Excessive Retries for Large Inference Outputs

CER:

CER-0243

Service Category

Cloud Provider

GCP

Service Name

GCP Vertex AI

Inefficiency Type

Excessive Retry-Induced Token Consumption

Explanation

Generative workloads that produce long outputs—such as detailed summaries, document rewrites, or multi-paragraph chat completions—require extended model runtime.

Relevant Billing Model

Vertex AI generative models are billed per input and output token. Retries—especially those triggered by timeouts or long model latencies—cause repeated inference calls and duplicate token charges. This increases costs without delivering additional value.

Detection

Identify workloads generating long responses that show repeated or duplicate inference requests
Review application logs for timeout-related retries or fallback invocations
Examine client or API metrics for elevated retry counts on Vertex AI endpoints
Assess whether output size consistently exceeds client timeout thresholds
Verify whether streaming is available but unused for workloads producing large outputs

Remediation

Relevant Documentation

Submit Feedback