{"data":{"kind":"file","path":"README.md","version_id":"pouqtrma2oovrsfon20ak714","entry":{"name":"README.md","path":"README.md","is_directory":false,"size":1542,"modified_at":"2026-05-11T10:32:23.092000","content_hash":"9dd72b194ef885684f1411e67070e3cd2012472c55ce5211b44709fff1a873f8"},"entries":[],"content":"# Unified Security Environment\n\nProgressive cybersecurity training environment for LLM evaluation and RL training.\n\n## Levels\n\n| Level | Category | Type | Description |\n|-------|----------|------|-------------|\n| 1 | Security Quiz | SingleTurn | Identify vulnerabilities and security concepts |\n| 2 | Code Audit | SingleTurn | Find and fix vulnerabilities in code snippets |\n| 3 | Incident Response | Multi-turn | Investigate security incidents methodically |\n| 4 | Pen-test Simulation | Tool-use | Conduct penetration testing with security tools |\n| 5 | Threat Modeling | Expert | Design security architectures using STRIDE/DREAD |\n\n## Usage\n\n```bash\n# Run all levels\nprime eval run unified-security-env -m <model>\n\n# Run specific level\nprime eval run unified-security-env -m <model> --env-args '{\"level\": 3}'\n```\n\n## Reward Functions\n\n- **keyword_reward**: Matches security keywords from reference answers\n- **answer_similarity**: Fuzzy matching against expected answers\n- **code_audit_reward**: Specialized scoring for code review tasks\n- **incident_response_reward**: Structured response evaluation\n- **pentest_reward**: Methodology and tool usage scoring\n- **threat_model_reward**: Framework and mitigation coverage\n\n## Dataset\n\n- 20+ questions across 5 difficulty levels\n- Categories: web-security, code-audit, incident-response, penetration-testing, threat-modeling\n- References: CWE, OWASP, MITRE ATT&CK, NIST\n\n## Tags\n\n`cybersecurity` `security` `code-audit` `incident-response` `penetration-testing` `threat-modeling` `progressive`\n","encoding":"utf-8","truncated":false,"total_bytes":1542},"status":null}