{"data":{"kind":"file","path":"README.md","version_id":"eq5zfcxmf8zpyqp9qj7ragkk","entry":{"name":"README.md","path":"README.md","is_directory":false,"size":1338,"modified_at":"2026-05-29T18:30:17.065000","content_hash":"77046a4495045206221206c70f2db1d6939c6e9a3b1723aee82a13317b8c970c"},"entries":[],"content":"# shell-agent-bench\n\nVirtual terminal debugging environment for Laguna XS.2 agentic RL.\n\n### Overview\n\n* **Environment ID**: `shell-agent-bench`\n* **Task type**: multi-turn tool use in a virtual repository\n* **Goal**: improve terminal-style debugging, file inspection, minimal editing, and test-driven completion\n\n### Tooling\n\nThe model receives provider-neutral tool definitions:\n\n* `run(command)`, a safe virtual shell subset for `ls`, `find`, `cat`, `sed -n`, `grep -R`, and `pytest`\n* `edit_file(path, old, new)`, exact replacement patching\n* `write_file(path, content)`, whole-file overwrite fallback\n* `finish(summary)`, final task completion signal\n\n### Reward\n\nThe optimization reward is binary hidden virtual test success. Extra metrics log partial check fraction, test use, edits, finish calls, and tool errors for analysis without changing the reward.\n\n### Quickstart\n\n```bash\nprime eval run shell-agent-bench -m poolside/laguna-xs.2 -n 4 -r 2 -t 512 -T 0.7\n```\n\n### Environment arguments\n\n| Arg | Default | Meaning |\n| --- | --- | --- |\n| `split` | `train` | Training split loaded from `tasks.jsonl` |\n| `eval_split` | `eval` | Evaluation split loaded from `tasks.jsonl` |\n| `max_examples` | `-1` | Limit training examples |\n| `max_eval_examples` | `-1` | Limit eval examples |\n| `max_turns` | `8` | Maximum assistant turns |\n","encoding":"utf-8","truncated":false,"total_bytes":1338},"status":null}