M21: Token optimization -- reduce API token consumption

## Problem

Usage analysis shows catastrophic token waste: ~1.9M input tokens vs ~9.8K output (200:1 ratio) with zero cache hits across all requests.

### Root Causes

1. **No prompt caching** -- `ClaudeProvider` sends system prompt + skills as plain text every request. Anthropic prompt caching API is not used.
2. **Tool loop amplification** -- each iteration of `process_response_native_tools` resends the full message history. With 10 iterations, that is 10x the system prompt + history.
3. **LLM-based summarization uses primary model** -- `summarize_tool_output` and `compact_context` make separate Claude API calls.
4. **Bloated system prompt** -- `rebuild_system_prompt` injects skills + catalog + environment + tool catalog + MCP prompt + project configs + repo map.

### Estimated Impact

| Optimization | Token Reduction | Effort |
|-------------|----------------|--------|
| Prompt caching | 80-90% | Medium |
| Local model for summarization | Eliminates extra API calls | Low |
| Aggressive context pruning | 30-50% of history | Low |
| Usage metrics | Observability | Low |

## Phases

- [ ] #337 Phase 1: Prompt caching (structured system blocks + anthropic-beta header)
- [ ] #338 Phase 2: Local model for tool output summarization
- [ ] #339 Phase 3: Aggressive context pruning in tool loops
- [ ] #340 Phase 4: Cache usage metrics tracking

## Architecture

See \`.local/plan/m21-token-optimization.md\`

## Key Files

- \`crates/zeph-llm/src/claude.rs\`
- \`crates/zeph-core/src/agent/streaming.rs\`
- \`crates/zeph-core/src/agent/context.rs\`
- \`crates/zeph-llm/src/provider.rs\`

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

M21: Token optimization -- reduce API token consumption #336

Problem

Root Causes

Estimated Impact

Phases

Architecture

Key Files

Sub-issues

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Optimization	Token Reduction	Effort
Prompt caching	80-90%	Medium
Local model for summarization	Eliminates extra API calls	Low
Aggressive context pruning	30-50% of history	Low
Usage metrics	Observability	Low

M21: Token optimization -- reduce API token consumption #336

Description

Problem

Root Causes

Estimated Impact

Phases

Architecture

Key Files

Sub-issues

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions