{"data":{"kind":"file","path":"README.md","version_id":"ddaoykqenhidqw38corct6zf","entry":{"name":"README.md","path":"README.md","is_directory":false,"size":781,"modified_at":"2025-12-09T23:54:39.545000","content_hash":"f355367f89592b2315e0423909b7c8c412c84c90d6c6682d579ac6e19061bd02"},"entries":[],"content":"# BrowseSafe\n\n### Overview\n- **Environment ID**: `BrowseSafe`\n- **Short description**: Based on this [paper](https://arxiv.org/pdf/2511.20597).\n\n### Datasets\n- **Primary dataset(s)**: [perplexity-ai/browsesafe-bench](https://huggingface.co/datasets/perplexity-ai/browsesafe-bench)\n- **Split sizes**: train (110K rows), test (3.68K)\n\n### Task\n- **Type**: <single-turn>\n- **Rubric overview**: Binary Classification problem.\n\n### Quickstart\nRun an evaluation with default settings:\n\n```bash\nuv run vf-eval BrowseSafe\n```\n\nConfigure model and sampling:\n\n```bash\nuv run vf-eval BrowseSafe \\\n  -k <OPENROUTER_API_KEY> -b https://openrouter.ai/api/v1 \\\n  -m 'amazon/nova-2-lite-v1:free' \\\n  -n 5 -r 3 -s\n```\n\n### Metrics\n| Metric | Meaning |\n| ------ | ------- |\n| `reward` | Accuracy |\n\n","encoding":"utf-8","truncated":false,"total_bytes":781},"status":null}