Fix OpenAI transcription zero token usage

Gujiassh · sisyphus-dev-ai · Gujiassh · commit 239d81616418 · 2026-03-29T19:56:34.000+09:00
Ultraworked with [Sisyphus](https://github.com/code-yeongyu/oh-my-openagent) Co-authored-by: Sisyphus <clio-agent@sisyphuslabs.ai>
diff --git a/lib/ruby_llm/providers/openai/transcription.rb b/lib/ruby_llm/providers/openai/transcription.rb
@@ -53,15 +53,17 @@ def parse_transcription_response(response, model:)
           return RubyLLM::Transcription.new(text: data, model: model) if data.is_a?(String)
 
           usage = data['usage'] || {}
+          input_tokens = usage['input_tokens'].nil? ? usage['prompt_tokens'] : usage['input_tokens']
+          output_tokens = usage['output_tokens'].nil? ? usage['completion_tokens'] : usage['output_tokens']
 
           RubyLLM::Transcription.new(
             text: data['text'],
             model: model,
             language: data['language'],
             duration: data['duration'],
             segments: data['segments'],
-            input_tokens: usage['input_tokens'] || usage['prompt_tokens'],
-            output_tokens: usage['output_tokens'] || usage['completion_tokens']
+            input_tokens: input_tokens,
+            output_tokens: output_tokens
           )
         end
       end
diff --git a/spec/ruby_llm/providers/open_ai/transcription_spec.rb b/spec/ruby_llm/providers/open_ai/transcription_spec.rb
@@ -0,0 +1,55 @@
+# frozen_string_literal: true
+
+require 'spec_helper'
+
+RSpec.describe RubyLLM::Providers::OpenAI::Transcription do
+  describe '.parse_transcription_response' do
+    let(:response) { instance_double(Faraday::Response, body: body) }
+
+    context 'when explicit zero-valued usage fields are present' do
+      let(:body) do
+        {
+          'text' => 'Transcript',
+          'language' => 'en',
+          'duration' => 1.23,
+          'segments' => [],
+          'usage' => {
+            'input_tokens' => 0,
+            'prompt_tokens' => 12,
+            'output_tokens' => 0,
+            'completion_tokens' => 8
+          }
+        }
+      end
+
+      it 'preserves zero-valued token usage fields' do
+        transcription = described_class.parse_transcription_response(response, model: 'gpt-4o-transcribe')
+
+        expect(transcription.input_tokens).to eq(0)
+        expect(transcription.output_tokens).to eq(0)
+      end
+    end
+
+    context 'when only fallback token usage fields are present' do
+      let(:body) do
+        {
+          'text' => 'Transcript',
+          'language' => 'en',
+          'duration' => 1.23,
+          'segments' => [],
+          'usage' => {
+            'prompt_tokens' => 12,
+            'completion_tokens' => 8
+          }
+        }
+      end
+
+      it 'falls back to prompt/completion token usage fields' do
+        transcription = described_class.parse_transcription_response(response, model: 'gpt-4o-transcribe')
+
+        expect(transcription.input_tokens).to eq(12)
+        expect(transcription.output_tokens).to eq(8)
+      end
+    end
+  end
+end