From ff29900f3068368b39a7b011ff17755c6a3b8e28 Mon Sep 17 00:00:00 2001
From: wenyifan <yifan.wen@eisgroup.com>
Date: Fri, 20 Mar 2026 16:10:18 +0800
Subject: [PATCH] feat: Add support for counting cache-hit tokens in llama.cpp
 OpenAI-Compatible API

---
 relay/channel/openai/relay-openai.go | 24 ++++++++++++++++++++++++
 1 file changed, 24 insertions(+)

diff --git a/relay/channel/openai/relay-openai.go b/relay/channel/openai/relay-openai.go
index a4de1611..02387fe0 100644
--- a/relay/channel/openai/relay-openai.go
+++ b/relay/channel/openai/relay-openai.go
@@ -627,6 +627,12 @@ func applyUsagePostProcessing(info *relaycommon.RelayInfo, usage *dto.Usage, res
 				usage.PromptTokensDetails.CachedTokens = usage.PromptCacheHitTokens
 			}
 		}
+	case constant.ChannelTypeOpenAI:
+		if usage.PromptTokensDetails.CachedTokens == 0 {
+			if cachedTokens, ok := extractLlamaCachedTokensFromBody(responseBody); ok {
+				usage.PromptTokensDetails.CachedTokens = cachedTokens
+			}
+		}
 	}
 }
 
@@ -689,3 +695,21 @@ func extractMoonshotCachedTokensFromBody(body []byte) (int, bool) {
 
 	return 0, false
 }
+
+// extractLlamaCachedTokensFromBody 从llama.cpp的非标准位置提取cache_n
+func extractLlamaCachedTokensFromBody(body []byte) (int, bool) {
+	if len(body) == 0 {
+		return 0, false
+	}
+
+	var payload struct {
+		Usage struct {
+			CachedTokens *int `json:"cache_n"`
+		} `json:"timings"`
+	}
+
+	if err := common.Unmarshal(body, &payload); err != nil {
+		return 0, false
+	}
+	return *payload.Usage.CachedTokens, true
+}