Merge pull request #11 from llm-jp/work/revise_max_model_len

e-mon · web-flow · commit 4d872c042778 · 2025-09-03T17:19:51.000+09:00
revise default max_model_len
diff --git a/inference-modules/vllm/schemas.py b/inference-modules/vllm/schemas.py
@@ -14,7 +14,7 @@ class ModelConfig(BaseModel):
     gpu_memory_utilization: float = 0.9
     tensor_parallel_size: int = 1
     pipeline_parallel_size: int = 1
-    max_model_len: int = 2048
+    max_model_len: int = 4096
     num_scheduler_steps: int = 8
     enable_prefix_caching: bool = True