词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!

batch_runner.py)处理一个由 prompt 组成的 JSONL 数据集,将每条 prompt 通过完整的 agent 会话(含工具访问权限)运行一遍。每条 prompt 都拥有独立隔离的环境。输出为结构化轨迹数据,包含完整对话历史、工具调用统计信息以及推理覆盖率指标。hermes setup --portal 完成配置,然后将 --model 指向 Nous 模型。prompt 字段:{"prompt": "Write a Python function that finds the longest palindromic substring"}
{"prompt": "Create a REST API endpoint for user authentication using Flask"}
{"prompt": "Debug this error: TypeError: cannot unpack non-iterable NoneType object"}image 或 docker_image:用于该 prompt 沙箱的容器镜像(适用于 Docker、Modal 和 Singularity 后端)cwd:任务终端会话的工作目录覆盖值| 参数 | 默认值 | 说明 |
|---|---|---|
--dataset_file | (必填) | JSONL 数据集路径 |
--batch_size | (必填) | 每批处理的 prompt 数量 |
--run_name | (必填) | 本次运行的名称(用于输出目录和断点续跑) |
--distribution | "default" | 采样所用的工具集分布 |
--model | claude-sonnet-4.6 | 使用的模型 |
--base_url | https://openrouter.ai/api/v1 | API 基础 URL |
--api_key | (环境变量) | 模型的 API 密钥 |
--max_turns | 10 | 每条 prompt 的最大工具调用轮次 |
--num_workers | 4 | 并行工作进程数 |
--resume | false | 从断点恢复 |
--verbose | false | 启用详细日志 |
--max_samples | 全部 | 仅处理数据集中前 N 条样本 |
--max_tokens | 模型默认值 | 每次模型响应的最大 token 数 |