TL; DR

2025年12月にGAとなった、DatadogのLLM ObservabilityのOpenTelemetry Gen AI Semantic Conventionsサポートを試してみました。
現時点では計装ライブラリ側の仕様準拠不足により可視化は不完全となりました。
なぜ不完全だったのかの検証の過程でDatadog LLM ObservabilityがGen AI Semantic Conventionsの仕様をどのように解釈しているかがわかりました。

DatadogのLLM Observabilityとは？

LLM Observability機能は、大規模言語モデル（LLM）を利用したアプリケーションのパフォーマンス・信頼性を監視・分析するためのDatadogの機能です。

APMと同様にトレースによるパフォーマンス監視はもちろん、LLMアプリケーション特有の概念であるトークン使用量・コストであったり、どのようなプロンプト・レスポンスだったのか、回答品質の評価など、LLMアプリケーションに特化した観点での監視・分析が可能です。

このように、LLMによるアプリケーションを運用するなら入れておきたい機能であり、機能自体は2024年6月にGAとなった機能ですが、これまではDatadog SDKでの計装やDatadog APIでシグナルを送信する必要がありました。私のように計装はできるだけベンダーに縛られない形で行いたいユースケースを持っている場合、これまでは魅力的とは思いつつあまり手を出せませんでした。

しかし、2025年12月1日に、DatadogのLLM ObservabilityがOpenTelemetryのGen AI Semantic Conventionsに準拠したシグナルの収集を正式にサポートしました。これによって、LLMアプリケーション側はDatadogに送信することを前提とせずにベンダーフリーなOpenTelemetryでの計装を行うことが可能になりました¹。

OpenTelemetryのGen AI Semantic Conventionsとは？

ここまでOpenTelemetryのGen AI Semantic Conventionsを何度か出してきましたが、改めて説明します。

まずOpenTelemetryのSemantic Conventionsは、OpenTelemtryで収集されたテレメトリシグナルが、どのようなフォーマットを持つべきかを定義した仕様で、2025年12月時点では、1.38.0というバージョンが最新となっています。そしてこのうち生成AIによるアプリケーションに関するフォーマットを定義しているのが、Gen AI Semantic Conventionsとなっています。

DatadogのLLM ObservabilityはSemantic Conventions v1.37.0以上のGen AI Semantic Conventionsに準拠したテレメトリシグナルをサポートすると明言されており、

gen_ai.client.token.usageメトリクス: LLM APIクライアントのトークン使用量を指すメトリクス
gen_ai.provider.name属性: スパンなどに付与されるLLMプロバイダ名の属性

などが使用可能であると想定されます。

サンプルアプリケーション

それでは実際に試してみましょう。

今回用意したアプリケーションは以下のようなLangChainとベクトルDB（Chroma）を利用した簡単なRAG構成です²。

Observabilityの計装には、TraceloopのOpenLLMetryプロジェクトによるOpenTelemetry実装を使います。 traceloop自体はSaaS型のLLMアプリケーション用プラットフォームですが、OpenLLMetryはオープンソースで提供されており、このプロジェクトでの仕様がOpenTelemetryのGen AI Semantic Conventionsとして採用された、という経緯があります。そのため、traceloop用のsdkも存在するのですが、traceloopに依存しないOpenTelemetryのライブラリも提供しており、今回はそちらを利用します。

以下が実際のコードとなります。やっていること自体はシンプルで、ラーメン二郎のWikipedia記事をベクトルDBに埋め込みRAGによって参照させることで簡単なラーメン二郎チャットボットを実装しています。

1
# Observability計装（後述）
2
from observability import setUpOpenTelemetry, setUpDataDog, setUpTraceLoop
3
# 計装方法を切り替え
4
setUpOpenTelemetry()
5
# setUpDataDog()
6
# setUpTraceLoop()
7

8

9
# LLMアプリケーション
10
def main():
11
    from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
12
    from langchain_core.messages import SystemMessage
13
    from langchain_core.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
14
    from langchain_core.runnables import RunnablePassthrough
15
    from langchain_community.document_loaders import WebBaseLoader
16
    from langchain_text_splitters import RecursiveCharacterTextSplitter
17
    from langchain_chroma import Chroma
18

19
    # ベクトルDBにWikipediaのラーメン二郎の記事を埋め込み
20
    loader = WebBaseLoader(
21
        "https://ja.wikipedia.org/wiki/%E3%83%A9%E3%83%BC%E3%83%A1%E3%83%B3%E4%BA%8C%E9%83%8E")
22
    docs = loader.load()
23

24
    splitter = RecursiveCharacterTextSplitter(
25
        chunk_size=1000,
26
        chunk_overlap=200,
27
    )
28
    chunks = splitter.split_documents(docs)
29

30
    embedding_model = GoogleGenerativeAIEmbeddings(
31
        model="gemini-embedding-001")
32

33
    vector_store = Chroma(collection_name="example-collection",
34
                          embedding_function=embedding_model)
35
    vector_store.add_documents(chunks)
36

37
    # ベクトルDBをRAGのretrieverとして利用
38
    retriever = vector_store.as_retriever(
39
        search_type="similarity", search_kwargs={"k": 3})
40

41
    # プロンプトテンプレートの定義
42
    template = ChatPromptTemplate.from_messages([
43
        SystemMessage(content="""Answer the question based on the context below. If the question cannot be answered using the information provided, answer with "I don't know"."""),
44
        HumanMessagePromptTemplate.from_template("Context: {context}"),
45
        HumanMessagePromptTemplate.from_template("Questtion: {question}"),
46
    ])
47

48
    # RAGチャットボットの定義
49
    model = ChatGoogleGenerativeAI(model="gemini-2.5-flash-lite")
50
    ramen_chatbot = (
51
        {
52
            "question": RunnablePassthrough(),
53
            "context": lambda q: retriever.invoke(q),
54
        }
55
        | template
56
        | model
57
    )
58
    response = ramen_chatbot.invoke("ラーメン二郎とは何ですか？")
59

60
    print(response.text)
61

62

63
main()

そしてObservabilityの計装は、OpenTelemetryネイティブな計装と、比較用にDatadog SDK、Traceloop SDKを使った計装の3種類を用意しました。いずれの計装方法でも、datadog agentを経由してDatadogにシグナルを送信しています。

1
import os
2
service = os.getenv("OTEL_SERVICE_NAME")
3
otlp_endpoint = '{}/v1'.format(os.getenv("OTEL_EXPORTER_OTLP_ENDPOINT"))
4

5

6
# Datadog SDKを使った計装
7
def setUpDataDog():
8
    # cf. https://docs.datadoghq.com/ja/llm_observability/instrumentation/sdk/?tab=python
9
    from ddtrace.llmobs import LLMObs
10
    LLMObs.enable(
11
        service=service,
12
    )
13

14

15
# Traceloop SDKを使った計装
16
def setUpTraceLoop():
17
    from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
18
    from traceloop.sdk import Traceloop
19
    Traceloop.init(exporter=OTLPSpanExporter(
20
        endpoint=f'{otlp_endpoint}/traces', insecure=True))
21

22

23
# OpenTelemetryネイティブな計装
24
def setUpOpenTelemetry():
25
    from opentelemetry import trace, _logs, metrics
26
    # Trace
27
    from opentelemetry.sdk.trace import TracerProvider
28
    from opentelemetry.sdk.trace.export import BatchSpanProcessor
29
    from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
30
    # Metrics
31
    from opentelemetry.sdk.metrics import MeterProvider
32
    from opentelemetry.sdk.metrics.export import PeriodicExportingMetricReader
33
    from opentelemetry.exporter.otlp.proto.grpc.metric_exporter import OTLPMetricExporter
34
    # Log
35
    import logging
36
    from opentelemetry.sdk._logs import LoggerProvider, LoggingHandler
37
    from opentelemetry.sdk._logs.export import BatchLogRecordProcessor
38
    from opentelemetry.exporter.otlp.proto.grpc._log_exporter import OTLPLogExporter
39

40
    # LLM
41
    from opentelemetry.instrumentation.langchain import LangchainInstrumentor
42
    from opentelemetry.instrumentation.google_generativeai import GoogleGenerativeAiInstrumentor
43
    from opentelemetry.instrumentation.chromadb import ChromaInstrumentor
44

45
    # Trace
46
    provider = TracerProvider()
47
    processor = BatchSpanProcessor(OTLPSpanExporter(
48
        endpoint=f'{otlp_endpoint}/traces', insecure=True))
49
    provider.add_span_processor(processor)
50
    trace.set_tracer_provider(provider)
51

52
    # Metrics
53
    metric_reader = PeriodicExportingMetricReader(
54
        OTLPMetricExporter(endpoint=f'{otlp_endpoint}/metrics', insecure=True))
55
    provider = MeterProvider(metric_readers=[metric_reader])
56
    metrics.set_meter_provider(provider)
57

58
    # Log
59
    provider = LoggerProvider()
60
    processor = BatchLogRecordProcessor(
61
        OTLPLogExporter(endpoint=f'{otlp_endpoint}/logs', insecure=True))
62
    provider.add_log_record_processor(processor)
63
    _logs.set_logger_provider(provider)
64

65
    handler = LoggingHandler(level=logging.INFO, logger_provider=provider)
66
    logging.basicConfig(handlers=[handler], level=logging.INFO)
67

68
    LangchainInstrumentor().instrument()
69
    GoogleGenerativeAiInstrumentor().instrument()
70
    ChromaInstrumentor().instrument()

利用ライブラリとバージョン

1
aiohappyeyeballs==2.6.1
2
aiohttp==3.13.2
3
aiosignal==1.4.0
4
annotated-types==0.7.0
5
anthropic==0.75.0
6
anyio==4.12.0
7
attrs==25.4.0
8
backoff==2.2.1
9
bcrypt==5.0.0
10
beautifulsoup4==4.14.3
11
boto3==1.38.0
12
botocore==1.38.46
13
bs4==0.0.2
14
build==1.3.0
15
bytecode==0.17.0
16
cachetools==6.2.2
17
certifi==2025.11.12
18
charset-normalizer==3.4.4
19
chromadb==1.3.7
20
click==8.3.1
21
colorama==0.4.6
22
coloredlogs==15.0.1
23
cuid==0.4
24
dataclasses-json==0.6.7
25
ddtrace==4.0.0
26
Deprecated==1.2.18
27
distro==1.9.0
28
docstring_parser==0.17.0
29
durationpy==0.10
30
envier==0.6.1
31
filelock==3.20.0
32
filetype==1.2.0
33
flatbuffers==25.9.23
34
frozenlist==1.8.0
35
fsspec==2025.12.0
36
google-auth==2.43.0
37
google-genai==1.55.0
38
googleapis-common-protos==1.72.0
39
grpcio==1.76.0
40
h11==0.16.0
41
hf-xet==1.2.0
42
httpcore==1.0.9
43
httptools==0.7.1
44
httpx==0.28.1
45
httpx-sse==0.4.3
46
huggingface-hub==0.36.0
47
humanfriendly==10.0
48
idna==3.11
49
importlib_metadata==8.7.0
50
importlib_resources==6.5.2
51
inflection==0.5.1
52
Jinja2==3.1.6
53
jiter==0.12.0
54
jmespath==1.0.1
55
jsonpatch==1.33
56
jsonpointer==3.0.0
57
jsonschema==4.25.1
58
jsonschema-specifications==2025.9.1
59
kubernetes==34.1.0
60
langchain==1.1.3
61
langchain-chroma==1.1.0
62
langchain-classic==1.0.0
63
langchain-community==0.4.1
64
langchain-core==1.1.3
65
langchain-google-genai==4.0.0
66
langchain-text-splitters==1.0.0
67
langgraph==1.0.4
68
langgraph-checkpoint==3.0.1
69
langgraph-prebuilt==1.0.5
70
langgraph-sdk==0.2.15
71
langsmith==0.4.59
72
markdown-it-py==4.0.0
73
MarkupSafe==3.0.3
74
marshmallow==3.26.1
75
mdurl==0.1.2
76
mmh3==5.2.0
77
mpmath==1.3.0
78
multidict==6.7.0
79
mypy_extensions==1.1.0
80
numpy==2.3.5
81
oauthlib==3.3.1
82
onnxruntime==1.23.2
83
opentelemetry-api==1.39.0
84
opentelemetry-exporter-otlp==1.39.0
85
opentelemetry-exporter-otlp-proto-common==1.39.0
86
opentelemetry-exporter-otlp-proto-grpc==1.39.0
87
opentelemetry-exporter-otlp-proto-http==1.39.0
88
opentelemetry-instrumentation==0.60b0
89
opentelemetry-instrumentation-agno==0.49.8
90
opentelemetry-instrumentation-alephalpha==0.49.8
91
opentelemetry-instrumentation-anthropic==0.49.8
92
opentelemetry-instrumentation-bedrock==0.49.8
93
opentelemetry-instrumentation-chromadb==0.49.8
94
opentelemetry-instrumentation-cohere==0.49.8
95
opentelemetry-instrumentation-crewai==0.49.8
96
opentelemetry-instrumentation-google-generativeai==0.49.8
97
opentelemetry-instrumentation-groq==0.49.8
98
opentelemetry-instrumentation-haystack==0.49.8
99
opentelemetry-instrumentation-lancedb==0.49.8
100
opentelemetry-instrumentation-langchain==0.49.8
101
opentelemetry-instrumentation-llamaindex==0.49.8
102
opentelemetry-instrumentation-logging==0.60b0
103
opentelemetry-instrumentation-marqo==0.49.8
104
opentelemetry-instrumentation-mcp==0.49.8
105
opentelemetry-instrumentation-milvus==0.49.8
106
opentelemetry-instrumentation-mistralai==0.49.8
107
opentelemetry-instrumentation-ollama==0.49.8
108
opentelemetry-instrumentation-openai==0.49.8
109
opentelemetry-instrumentation-openai-agents==0.49.8
110
opentelemetry-instrumentation-pinecone==0.49.8
111
opentelemetry-instrumentation-qdrant==0.49.8
112
opentelemetry-instrumentation-redis==0.60b0
113
opentelemetry-instrumentation-replicate==0.49.8
114
opentelemetry-instrumentation-requests==0.60b0
115
opentelemetry-instrumentation-sagemaker==0.49.8
116
opentelemetry-instrumentation-sqlalchemy==0.60b0
117
opentelemetry-instrumentation-threading==0.60b0
118
opentelemetry-instrumentation-together==0.49.8
119
opentelemetry-instrumentation-transformers==0.49.8
120
opentelemetry-instrumentation-urllib3==0.60b0
121
opentelemetry-instrumentation-vertexai==0.49.8
122
opentelemetry-instrumentation-watsonx==0.49.8
123
opentelemetry-instrumentation-weaviate==0.49.8
124
opentelemetry-instrumentation-writer==0.49.8
125
opentelemetry-proto==1.39.0
126
opentelemetry-sdk==1.39.0
127
opentelemetry-semantic-conventions==0.60b0
128
opentelemetry-semantic-conventions-ai==0.4.13
129
opentelemetry-util-http==0.60b0
130
orjson==3.11.5
131
ormsgpack==1.12.0
132
overrides==7.7.0
133
packaging==25.0
134
posthog==5.4.0
135
propcache==0.4.1
136
protobuf==6.33.2
137
pyasn1==0.6.1
138
pyasn1_modules==0.4.2
139
pybase64==1.4.3
140
pydantic==2.12.5
141
pydantic-settings==2.12.0
142
pydantic_core==2.41.5
143
Pygments==2.19.2
144
PyPika==0.48.9
145
pyproject_hooks==1.2.0
146
python-dateutil==2.9.0.post0
147
python-dotenv==1.2.1
148
PyYAML==6.0.3
149
referencing==0.37.0
150
regex==2025.11.3
151
requests==2.32.5
152
requests-oauthlib==2.0.0
153
requests-toolbelt==1.0.0
154
rich==14.2.0
155
rpds-py==0.30.0
156
rsa==4.9.1
157
s3transfer==0.12.0
158
safetensors==0.7.0
159
sentry-sdk==2.47.0
160
setuptools==80.9.0
161
shellingham==1.5.4
162
six==1.17.0
163
sniffio==1.3.1
164
soupsieve==2.8
165
SQLAlchemy==2.0.45
166
sympy==1.14.0
167
tenacity==9.1.2
168
tiktoken==0.12.0
169
tokenizers==0.22.1
170
tqdm==4.67.1
171
trace-attributes==7.2.1
172
traceloop-sdk==0.49.8
173
transformers==4.57.3
174
typer==0.20.0
175
typing-inspect==0.9.0
176
typing-inspection==0.4.2
177
typing_extensions==4.15.0
178
ujson==5.11.0
179
urllib3==2.3.0
180
uuid_utils==0.12.0
181
uvicorn==0.38.0
182
uvloop==0.22.1
183
watchfiles==1.1.1
184
websocket-client==1.9.0
185
websockets==15.0.1
186
wrapt==1.17.3
187
xxhash==3.6.0
188
yarl==1.22.0
189
zipp==3.23.0
190
zstandard==0.25.0

このアプリケーションを実行すると、「ラーメン二郎とは何ですか？」という質問に対して、以下のようなWikipediaの記事内容を元にした回答が得られます³。

ラーメン二郎は、東京都港区三田に本店を構えるラーメン店、およびそこからのれん分けした同名の店舗です。店主・創業者である山田拓美が商標を登録しており、三田本店、全国各地の「ラーメン二郎〇〇店」（直系店）、および「二郎系」「二郎インスパイア系」と呼ばれるラーメン店舗のジャンルも含まれます。

OpenTelemetry計装によるDatadog LLM Observability

それでは実際にDatadogのLLM Observabilityでどのように見えるか確認してみましょう。

5分ほど経つとちゃんとLLM Observabilityの機能には認識されているものの、InputやOutputの内容がないなど少し不完全に見えます。 OpenTelemetry計装でのLLM Observabilityの見え方1

トレースを開いてみると、スパンが2つしか認識されておらず、LLM呼び出しやベクトルDB呼び出しは認識されていないようです。また、プロンプトの内容はもちろん、モデルやトークン使用量の情報も取得できていません。 OpenTelemetry計装でのLLM Observabilityの見え方2

APMの方で改めてトレースを確認してみると、埋め込み用モデルの呼び出しスパンは無いように見えるものの、ベクトルDBクエリや回答生成時のスパンが認識されています。スパンの属性を確認してみても、モデル名やトークン使用量・プロンプトの内容も取得できているようです。

つまり、LLM Observability機能がシグナルから必要な情報を取得する部分で不完全な状態となっているようです。この挙動はtraceloop SDKを使った計装でも同様でした⁴。

この原因については後ほど考察するとして、先にDatadog SDK計装による結果と比較してみましょう。

Datadog SDK計装によるDatadog LLM Observability

Datadog SDKを使った計装では、（当然ではありますが）LLM Observability機能に完全に対応した形で計装されており、以下のようにプロンプトや使用モデル・トークン使用量、さらには使用コストまで正しく認識されています⁵。 Datadog SDK計装でのLLM Observabilityでの見え方1

APM側で見てみるとOpenTelemetry計装とは異なり、スパン属性にはあまり情報がなく、代わりにLLM ObservabilityのUIとして可視化されるようです。

このように、Datadog SDKを使った計装では、さすが公式というだけあってLLM Observability機能に完全に対応した形で計装されていることがわかります。

計装の違いによる可視化のされ方を比較したところで、この原因について考察していきます。

OpenTelemetry計装だとなぜ不完全なのか？

OpenTelemetry計装におけるスパンの属性とGen AI Semantic Conventionsを比較してみると、不完全な理由としてスパンが完全にはSemantic Conventionsに準拠していないということが見えてきます。

具体的に確認できた仕様との乖離点は以下の通りです。

スパン名：仕様では利用目的（埋め込み・生成）に応じてスパン名を適切に命名するべきとされていますが（SHOULD）、それに準拠していません。
属性の欠落：仕様でRequiredとなっているgen_ai.operation.nameとgen_ai.provider.nameというスパン属性が不足しています。
Input・Outputの欠落：仕様ではLLM呼び出し時に含めるメッセージ履歴や出力をgen_ai.input/output.messagesとして含めるべきとされていますが（SHOULD）、違う名前で含めています。

実際にこれらのうちのどれが原因で正しく機能していないかを確かめるために、実験をしてみましょう。

以下のコードは、アプリケーションの動作としては1秒待機するだけですが、OpenTelemetryを使ってGen AI Semantic Conventionsに準拠したスパンを生成するようにしています。

1
def dummy_llm():
2
    import time
3
    from opentelemetry import trace
4
    from opentelemetry.trace import SpanKind
5
    tracer = trace.get_tracer(__name__)
6

7
    # 実験1: 仕様に準拠したダミーのスパンを生成（ベースライン）
8

9
    # 実験2: スパン名を変更
10
    with tracer.start_as_current_span("generate_content gemini-2.5-flash-lite", kind=SpanKind.CLIENT) as llm_span:
11
        # 実験3: Requiredとなっているgen_ai.operation.nameを削除
12
        llm_span.set_attribute("gen_ai.operation.name", "generate_content")
13
        # 実験4: Deprecatedであるgen_ai.system及びRequiredとなっているgen_ai.provider.nameを削除
14
        # 実験5: 実験3と4を両方実施
15
        llm_span.set_attribute("gen_ai.provider.name", "google")
16
        llm_span.set_attribute("gen_ai.system", "google")
17

18
        llm_span.set_attribute(
19
            "gen_ai.request.model", "gemini-2.5-flash-lite")
20
        llm_span.set_attribute("gen_ai.request.temperature", 0.5)
21
        llm_span.set_attribute("gen_ai.response.model",
22
                               "gemini-2.5-flash-lite")
23
        llm_span.set_attribute("gen_ai.usage.input_tokens", 50)
24
        llm_span.set_attribute("gen_ai.usage.output_tokens", 100)
25

26
        input_messages = [
27
            {
28
                "role": "user",
29
                "parts": [
30
                    {
31
                        "type": "text",
32
                        "content": "Weather in Paris?"
33
                    }
34
                ]
35
            }
36
        ]
37

38
        output_messages = [
39
            {
40
                "role": "assistant",
41
                "parts": [
42
                    {
43
                        "type": "text",
44
                        "content": "The weather in Paris is currently rainy with a temperature of 57°F."
45
                    }
46
                ],
47
                "finish_reason": "stop"
48
            }
49
        ]
50

51
        # 実験6: Input/Outputの属性を削除
52
        llm_span.set_attribute("gen_ai.input.messages", json.dumps(
53
            input_messages, ensure_ascii=False))
54
        llm_span.set_attribute("gen_ai.output.messages", json.dumps(
55
            output_messages, ensure_ascii=False))
56
        time.sleep(1)
57

58

59
dummy_llm()

このコードを使って、以下の6つの実験を行います。

仕様に準拠したダミーのスパンを生成（ベースライン）
スパン名を変更したスパンを作成
gen_ai.operation.name属性を削除したスパンを作成
gen_ai.system（deprecated）・gen_ai.provider.name属性を削除したスパンを作成
実験3,4の両方を同時に実施したスパンを作成
Input/Outputの属性を削除したスパンを作成

これらの実験を行いLLM Observabilityでの見え方を確認したところ、実験5以外のスパンがLLM Observability機能に認識されました。

また、それぞれの結果は、以下の通りです。

まず、実験1では、Datadog SDK計装と同様にプロンプト・使用モデル・コストを含めLLM API呼び出しスパンとして正しく認識されました。

実験2では、スパン名が変わったものの、実験1と同様に正しく認識されました⁶。

実験3では、LLM Observability機能に認識されたものの、LLM API呼び出しスパンとしては認識されず、使用モデルやトークン情報・コストが取得できていません。

実験4では、LLM API呼び出しスパンとして認識されているものの、使用モデルがGoogleではなくcustomとなってしまい、コストが取得できていません。

実験6では、プロンプトと出力内容が取得できていませんが、LLM API呼び出しスパンとしては正しく認識されました。

これらの結果をまとめると、DatadogのLLM Observability機能は以下のようにGen AI Semantic Conventionsの仕様を解釈していることがわかります。

gen_ai.operation.name・gen_ai.provider.name・gen_ai.system属性のどれかがあればLLM Observability機能に認識される⁷
gen_ai.operation.name属性によってスパンの種類（LLM呼び出し・ツールの呼び出し）が判断される
- LLM呼び出しスパンでないと使用モデルやトークン使用量・コストは取得されない
gen_ai.provider.name属性によってLLM APIのプロバイダが判断されコスト情報の根拠となる
gen_ai.input/output.messages属性があればプロンプト・出力内容が取得される

そして、この挙動に基づくと、今回サンプルアプリケーションで実施したOpenTelemetry計装が不完全だったのは以下のような理由であると結論づけられます。

多くのスパンでgen_ai.operation.name・gen_ai.provider.name・gen_ai.system属性が不足しており、LLM Observability機能に認識されなかった
LLM呼び出しを実行しているスパンにおいてgen_ai.operation.name属性が不足しており、LLM呼び出しスパンとして認識されなかった
プロンプトや出力内容を含む属性がgen_ai.input/output.messagesではなく、gen_ai.prompts/completionsというdeprecatedな属性名で含まれていた。

つまり、DatadogのLLM Observability機能は確かにOpenTelemetryのGen AI Semantic Conventionsに準拠したシグナルをサポートしていますが、肝心の計装ライブラリ側が完全に使用に準拠しているわけでは無いため、現時点では不完全な形での計装となってしまうということ身も蓋もない結論となりました。

まとめ

最初はOpenTelemetry計装でもLLM Observability機能が利用できてよかったね、という記事にするつもりでしたが、計装ライブラリ側がそもそも仕様に準拠していないということもあって細かい検証をした結果非常に長くなってしまいました。

OpenTelemetryのGen AI Semantic Conventions自体はまだ新しい仕様であり、仕様の変化にライブラリ側がついていけていないという現状があるため、「OpenTelemetryに準拠しておけばベンダーフリーでLLMのObservabilityが実現できる」という世界線はまだ遠いかもしれません。

その世界を実現するためにも、OpenTelemetryプロジェクトにはぜひ頑張っていってほしいところです。（人任せすぎるのでライブラリ側の非準拠についてはIssueを切るなどしていくつもりです。まずはプロンプト系のdeprecatedを議題とするissueを立ててみました。）

そしていつでもDatadogから乗り換えることができるようになりました。 ↩
MCPやLangGraphなどによる本格的なLLMアプリケーションを用意するのが面倒だったので、非常にシンプルにしています。 ↩
個人的にはラーメン二郎の中にはインスパイアは含まない派です。 ↩
内部ではOpenTelemetry計装を用いているので当然かもしれません。 ↩
LLM APIは本来2回の呼び出しのはずですが、親スパンも含めてカウントしているようです。 ↩
実際Datadog SDK計装でもスパン名はoperation.nameに余計な文字列（上記の画像ではModes.）がついていたり、モデル名が入っていなかったりと仕様に準拠していません。 ↩
deprecatedな属性なので書いていませんが、gen_ai.system属性だけでも認識自体はされました。 ↩