{"data":{"kind":"file","path":"README.md","version_id":"z2oetx4007sygni5b8ufs5ek","entry":{"name":"README.md","path":"README.md","is_directory":false,"size":1937,"modified_at":"2026-07-10T20:28:14.343000","content_hash":"65b8981209b0a3dc1d8de996abd30984a157acd3bc558927d586a81643fcbc66"},"entries":[],"content":"# reasoning-gym-env\n\n<a href=\"https://github.com/PrimeIntellect-ai/verifiers/tree/main/environments/reasoning_gym_env\">\n<img src=\"https://img.shields.io/badge/GitHub-181717?style=for-the-badge&logo=github&logoColor=white\" alt=\"Source Code\">\n</a>\n\n### Overview\n- **Environment ID**: `reasoning-gym-env`\n- **Short description**: Single-turn evaluation over `reasoning_gym` procedural tasks with XML formatting.\n- **Tags**: reasoning, procedural, single-turn, xml, synthetic\n\n### Datasets\n- **Primary dataset(s)**: Generated via `reasoning_gym` (e.g., `arc_1d`, or composite configs)\n- **Source links**: `reasoning_gym` library\n- **Split sizes**: Configurable counts for train/eval via loader args\n\n### Task\n- **Type**: single-turn\n- **Rubric overview**: Score computed via `reasoning_gym` task-specific scorer; optional format component\n\n### Quickstart\nRun an evaluation with default settings:\n\n```bash\nprime eval run reasoning-gym-env\n```\n\nConfigure model and sampling:\n\n```bash\nprime eval run reasoning-gym-env \\\n  -m openai/gpt-4.1-mini \\\n  -n 20 -r 3 -t 1024 -T 0.7 \\\n  -a '{\"gym\": \"arc_1d\", \"num_train_examples\": 2000, \"num_eval_examples\": 2000}'\n```\n\nNotes:\n- Use `gym` to select a single dataset name, a list of names, or a composite specification.\n- Reports are written under `./environments/reasoning_gym_env/reports/` and auto-embedded below.\n\n### Environment Arguments\n| Arg | Type | Default | Description |\n| --- | ---- | ------- | ----------- |\n| `gym` | str | `\"arc_1d\"` | Single task name, list of names, or composite config |\n| `num_train_examples` | int | `2000` | Number of training examples |\n| `num_eval_examples` | int | `2000` | Number of evaluation examples |\n| `seed` | int | `0` | Random seed for dataset generation |\n\n### Metrics\n| Metric | Meaning |\n| ------ | ------- |\n| `reward` | Task-specific score from `reasoning_gym` for parsed answer |\n| `format_reward` | Adherence to `<think>`/`<answer>` XML format |\n","encoding":"utf-8","truncated":false,"total_bytes":1937},"status":null}