Merged Summary: Return Status vs Layer Comparison
Detailed Comparison for llm_comparison_results_20250503_153935_run4.json
| Query | deepseek-chat-v3-0324 | deepseek-prover-v2 | deepseek-r1 | gemini-2.0-flash-001 | gemini-2.5-flash-preview | gemini-2.5-pro-preview-03-25 | gemma-3-12b-it | gemma-3-27b-it | llama-4-maverick | llama-4-scout | phi-4-reasoning-plus | phi-4-reasoning | llama-3.1-nemotron-ultra-253b-v1 | llama-3.3-nemotron-super-49b-v1 | gpt-4.1 | gpt-4.1-mini | gpt-4.1-nano | gpt-4o-mini | o4-mini | o4-mini-high | qwen3-14b | qwen3-235b-a22b | qwen3-30b-a3b | qwen3-32b | qwen3-8b |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Query 1 | ✘✘ | ✔✔ | ✔✘ | ✔✔ | ✔✘ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✘✘ | ✘✘ | ✘✘ | ✔✘ | ✘✘ | ✔✘ | ✔✔ | ✔✘ | ✔✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ |
| Query 2 | ✘✘ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✔✔ | ✘✘ | ✘✘ | ✔✔ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ |
| Query 3 | ✘✘ | ✔✘ | ✔✘ | ✔✔ | ✔✔ | ✔✔ | ✔✘ | ✔✔ | ✔✔ | ✔✘ | ✘✘ | ✘✘ | ✔✘ | ✘✘ | ✔✘ | ✔✘ | ✔✘ | ✔✔ | ✔✔ | ✔✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ |
| Query 4 | ✘✘ | ✔✔ | ✔✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✘✘ | ✔✔ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ |
| Query 5 | ✔✔ | ✘✘ | ✔✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✘✘ | ✔✔ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ |
| Query 6 | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✘✘ | ✔✔ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ |
| Query 7 | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✘✘ | ✘✘ | ✔✔ | ✘✘ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ | ✔✔ |
✔✔ Success & Correct
✔✘ Success but Layers Incorrect/Missing
✘✘ Error (Layer Correctness N/A)
- Data Not Available