{"generatedAt":"2026-06-19T16:43:54.552Z","freshness":"live","warnings":[],"sources":{"modelCatalog":"https://cloud-api.near.ai/v1/models","directEndpoints":"https://completions.near.ai/endpoints","privateInferenceDocs":"https://docs.near.ai/cloud/private-inference","verificationDocs":"https://docs.near.ai/cloud/verification","cloudDashboard":"https://cloud.near.ai"},"sourceFetchedAt":{"modelCatalog":"2026-06-19T16:43:54.552Z","directEndpoints":"2026-06-19T16:43:54.552Z"},"sourceHealth":{"modelCatalog":{"label":"NEAR AI model catalog","role":"primary","status":"ok","fetchedAt":"2026-06-19T16:43:54.552Z","message":null},"directEndpoints":{"label":"NEAR AI direct completions endpoints","role":"enrichment","status":"ok","fetchedAt":"2026-06-19T16:43:54.552Z","message":null}},"stats":{"totalModels":47,"confidentialModels":21,"thirdPartyGatewayModels":26,"directEndpointDomains":18,"directEndpointModels":19,"readyConfidentialModels":9,"multimodalModels":22,"reasoningModels":24,"toolCallingModels":41,"maxContextTokens":1050000,"maxOutputTokens":131072},"glm52":{"id":"z-ai/glm-5.2","name":"GLM 5.2","owner":"nearai","privacyLabel":"TEE confidential","contextLength":500000,"price":{"inputUsdPer1MTokens":1.4000000000000001,"outputUsdPer1MTokens":4.4},"endpointDomains":["glm-5-2.completions.near.ai"],"live":true,"maxOutputLength":131072,"features":["json_mode","reasoning","structured_outputs","tools"]},"maxContextModel":{"id":"openai/gpt-5.4","name":"GPT-5.4","owner":"openai","privacyLabel":"Third-party gateway","contextLength":1050000,"price":{"inputUsdPer1MTokens":2.5,"outputUsdPer1MTokens":15},"endpointDomains":[]},"cheapestReadyConfidentialTextModel":{"id":"google/gemma-4-31B-it","name":"Gemma 4 31B Instruct","owner":"nearai","privacyLabel":"TEE confidential","contextLength":262144,"price":{"inputUsdPer1MTokens":0.13,"outputUsdPer1MTokens":0.4},"endpointDomains":["gemma-4-31b.completions.near.ai"]},"providerCounts":[{"owner":"openai","count":15},{"owner":"nearai","count":14},{"owner":"attested 3p","count":7},{"owner":"anthropic","count":5},{"owner":"google","count":5},{"owner":"qwen","count":1}],"modalityCounts":[{"modality":"text","count":47},{"modality":"image","count":20},{"modality":"audio","count":1},{"modality":"embedding","count":1}],"endpoints":[{"domain":"dsv4-flash.completions.near.ai","models":["deepseek-ai/DeepSeek-V4-Flash"]},{"domain":"flux2-klein.completions.near.ai","models":["black-forest-labs/FLUX.2-klein-4B"]},{"domain":"gemma-4-31b-int4-dsv4-test.completions.near.ai","models":["google/gemma-4-31B-it-INT4-AutoRound"]},{"domain":"gemma-4-31b.completions.near.ai","models":["google/gemma-4-31B-it"]},{"domain":"glm-5-1.completions.near.ai","models":["zai-org/GLM-5.1-FP8"]},{"domain":"glm-5-2.completions.near.ai","models":["z-ai/glm-5.2","zai-org/GLM-5.2-FP8"]},{"domain":"glm-5.completions.near.ai","models":["zai-org/GLM-5-FP8"]},{"domain":"gpt-oss-120b.completions.near.ai","models":["openai/gpt-oss-120b"]},{"domain":"privacy-filter.completions.near.ai","models":["openai/privacy-filter"]},{"domain":"qwen3-30b.completions.near.ai","models":["Qwen/Qwen3-30B-A3B-Instruct-2507"]},{"domain":"qwen3-6-27b.completions.near.ai","models":["Qwen/Qwen3.6-27B-FP8"]},{"domain":"qwen3-6-35b-nvfp4.completions.near.ai","models":["Qwen/Qwen3.6-35B-A3B"]},{"domain":"qwen3-6-35b.completions.near.ai","models":["Qwen/Qwen3.6-35B-A3B-FP8"]},{"domain":"qwen3-embedding.completions.near.ai","models":["Qwen/Qwen3-Embedding-0.6B"]},{"domain":"qwen3-reranker.completions.near.ai","models":["Qwen/Qwen3-Reranker-0.6B"]},{"domain":"qwen3-vl-30b.completions.near.ai","models":["Qwen/Qwen3-VL-30B-A3B-Instruct"]},{"domain":"qwen35-122b.completions.near.ai","models":["Qwen/Qwen3.5-122B-A10B"]},{"domain":"whisper-large-v3.completions.near.ai","models":["openai/whisper-large-v3"]}],"models":[{"id":"deepseek-ai/DeepSeek-V4-Flash","name":"DeepSeek V4 Flash","owner":"nearai","description":"DeepSeek V4 Flash — large mixture-of-experts language model from DeepSeek, FP8-quantized. Served on H200 with TP=4 and EAGLE speculative decoding in a TDX-confidential inference CVM.","huggingFaceId":"deepseek-ai/DeepSeek-V4-Flash","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["dsv4-flash.completions.near.ai"],"isReady":true,"contextLength":1048576,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.17,"outputUsdPer1MTokens":0.35000000000000003},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"google/gemma-4-31B-it","name":"Gemma 4 31B Instruct","owner":"nearai","description":"Gemma 4 31B Instruct is Google's open-weight 31B-parameter language model, tuned for instruction following and dialogue. Strong general-purpose performance with 32K context window.","huggingFaceId":"google/gemma-4-31B-it","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["gemma-4-31b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.13,"outputUsdPer1MTokens":0.4},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3.6-27B-FP8","name":"Qwen 3.6 27B FP8","owner":"nearai","description":"Qwen 3.6 27B is a dense FP8 language model with strong reasoning, coding, and tool-use. 256K context window.","huggingFaceId":"Qwen/Qwen3.6-27B-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-6-27b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.325,"outputUsdPer1MTokens":3.25},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3.6-35B-A3B-FP8","name":"Qwen 3.6 35B A3B FP8","owner":"nearai","description":"Qwen 3.6 35B is a fast mixture-of-experts language model with ~3B active parameters per token. Strong at reasoning, coding, and multilingual tasks with 32K context window.","huggingFaceId":"Qwen/Qwen3.6-35B-A3B-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-6-35b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.17,"outputUsdPer1MTokens":1.1},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3.5-122B-A10B","name":"Qwen3.5 122B A10B","owner":"nearai","description":"Qwen3.5 122B MoE model with 10B active parameters, supporting reasoning and tool calling","huggingFaceId":"Qwen/Qwen3.5-122B-A10B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen35-122b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.4,"outputUsdPer1MTokens":3.2},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"zai-org/GLM-5.1-FP8","name":"GLM 5.1","owner":"nearai","description":"GLM-5.1 is an open-source foundation model built for complex systems engineering and long-horizon agent workflows. It delivers production-grade productivity for large-scale programming tasks, with performance aligned to top closed-source models, and is designed for expert developers building at the system level.","huggingFaceId":"zai-org/GLM-5.1-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["glm-5-1.completions.near.ai"],"isReady":true,"contextLength":202752,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.85,"outputUsdPer1MTokens":3.3000000000000003},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-oss-120b","name":"GPT OSS 120B","owner":"nearai","description":"gpt-oss-120b is an open-weight, 117B-parameter Mixture-of-Experts (MoE) language model from OpenAI designed for high-reasoning, agentic, and general-purpose production use cases. It activates 5.1B parameters per forward pass and is optimized to run on a single H100 GPU with native MXFP4 quantization. The model supports configurable reasoning depth, full chain-of-thought access, and native tool use, including function calling, browsing, and structured output generation.","huggingFaceId":"openai/gpt-oss-120b","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["gpt-oss-120b.completions.near.ai"],"isReady":true,"contextLength":131000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.15,"outputUsdPer1MTokens":0.55},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3-VL-30B-A3B-Instruct","name":"Qwen3-VL-30B-A3B-Instruct","owner":"nearai","description":"Qwen3-VL-30B-A3B-Instruct is a vision-language model supporting text and image inputs.","huggingFaceId":"Qwen/Qwen3-VL-30B-A3B-Instruct","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-vl-30b.completions.near.ai"],"isReady":true,"contextLength":16384,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.15,"outputUsdPer1MTokens":0.55},"inputModalities":["text","image"],"outputModalities":["text"],"features":["logprobs","structured_outputs"]},{"id":"z-ai/glm-5.2","name":"GLM 5.2","owner":"nearai","description":"GLM-5.2 is an open-source foundation model featuring improved MTP and IndexShare over GLM-5.1. 753B MoE architecture, FP8 precision, optimized for complex systems engineering and long-horizon agent workflows.","huggingFaceId":"zai-org/GLM-5.2-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["glm-5-2.completions.near.ai"],"isReady":null,"contextLength":500000,"maxOutputLength":131072,"price":{"inputUsdPer1MTokens":1.4000000000000001,"outputUsdPer1MTokens":4.4},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"black-forest-labs/FLUX.2-klein-4B","name":"FLUX.2-klein-4B","owner":"nearai","description":"The FLUX.2 [klein] model family are our fastest image models to date. FLUX.2 [klein] unifies generation and editing in a single compact architecture, delivering state-of-the-art quality with end-to-end inference in as low as under a second. Built for applications that require real-time image generation without sacrificing quality.","huggingFaceId":"black-forest-labs/FLUX.2-klein-4B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["flux2-klein.completions.near.ai"],"isReady":null,"contextLength":128000,"maxOutputLength":1,"price":{"inputUsdPer1MTokens":1,"outputUsdPer1MTokens":1},"inputModalities":["text"],"outputModalities":["image"],"features":[]},{"id":"Qwen/Qwen3-Embedding-0.6B","name":"Qwen3-Embedding-0.6B","owner":"nearai","description":"The Qwen3 Embedding model series is the latest proprietary model of the Qwen family, specifically designed for text embedding tasks.","huggingFaceId":"Qwen/Qwen3-Embedding-0.6B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-embedding.completions.near.ai"],"isReady":null,"contextLength":40960,"maxOutputLength":1024,"price":{"inputUsdPer1MTokens":0.01,"outputUsdPer1MTokens":0.01},"inputModalities":["text"],"outputModalities":["embedding"],"features":[]},{"id":"Qwen/Qwen3-Reranker-0.6B","name":"Qwen3-Reranker-0.6B","owner":"nearai","description":"The Qwen3 Embedding model series is the latest proprietary model of the Qwen family, specifically designed for text embedding and ranking tasks.","huggingFaceId":"Qwen/Qwen3-Reranker-0.6B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-reranker.completions.near.ai"],"isReady":null,"contextLength":40960,"maxOutputLength":1024,"price":{"inputUsdPer1MTokens":0.01,"outputUsdPer1MTokens":0.01},"inputModalities":["text"],"outputModalities":["text"],"features":[]},{"id":"openai/privacy-filter","name":"Privacy Filter","owner":"nearai","description":"PII detection (token classification) — returns spans for emails, phones, addresses, names, account numbers, secrets. NEAR AI runs this model in a TEE; prompts are not anonymized by the model itself, the cloud-api wraps it to do redaction.","huggingFaceId":null,"privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["privacy-filter.completions.near.ai"],"isReady":null,"contextLength":512,"maxOutputLength":1024,"price":{"inputUsdPer1MTokens":0.01,"outputUsdPer1MTokens":0},"inputModalities":["text"],"outputModalities":["text"],"features":[]},{"id":"openai/whisper-large-v3","name":"Whisper Large v3","owner":"nearai","description":"Whisper is a state-of-the-art model for automatic speech recognition (ASR) and speech translation.","huggingFaceId":"openai/whisper-large-v3","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["whisper-large-v3.completions.near.ai"],"isReady":null,"contextLength":448,"maxOutputLength":1024,"price":{"inputUsdPer1MTokens":0.01,"outputUsdPer1MTokens":0.01},"inputModalities":["audio"],"outputModalities":["text"],"features":[]},{"id":"moonshotai/kimi-k2.6","name":"Kimi K2.6","owner":"attested 3p","description":"Moonshot AI's frontier MoE model with 256K context window. Excels at complex reasoning, math, coding, and multilingual tasks with native vision support.","huggingFaceId":"moonshotai/Kimi-K2.6","privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.81,"outputUsdPer1MTokens":3.85},"inputModalities":["text","image"],"outputModalities":["text"],"features":["structured_outputs","tools"]},{"id":"deepseek/deepseek-v3.2","name":"deepseek-v3.2","owner":"attested 3p","description":"Attested model served via Chutes TEE (verified end-to-end by NEAR AI).","huggingFaceId":null,"privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":128000,"maxOutputLength":null,"price":{"inputUsdPer1MTokens":1.1,"outputUsdPer1MTokens":1.1},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","tools"]},{"id":"z-ai/glm-5","name":"glm-5","owner":"attested 3p","description":"Attested model served via Chutes TEE (verified end-to-end by NEAR AI).","huggingFaceId":null,"privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":128000,"maxOutputLength":null,"price":{"inputUsdPer1MTokens":1.05,"outputUsdPer1MTokens":2.81},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","tools"]},{"id":"moonshotai/kimi-k2.5","name":"kimi-k2.5","owner":"attested 3p","description":"Attested model served via Chutes TEE (verified end-to-end by NEAR AI).","huggingFaceId":null,"privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":128000,"maxOutputLength":null,"price":{"inputUsdPer1MTokens":0.48,"outputUsdPer1MTokens":2.2},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","tools"]},{"id":"minimax/minimax-m2.5","name":"minimax-m2.5","owner":"attested 3p","description":"Attested model served via Chutes TEE (verified end-to-end by NEAR AI).","huggingFaceId":null,"privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":128000,"maxOutputLength":null,"price":{"inputUsdPer1MTokens":0.17,"outputUsdPer1MTokens":1.32},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","tools"]},{"id":"qwen/qwen3-32b","name":"qwen3-32b","owner":"attested 3p","description":"Attested model served via Chutes TEE (verified end-to-end by NEAR AI).","huggingFaceId":null,"privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":128000,"maxOutputLength":null,"price":{"inputUsdPer1MTokens":0.11,"outputUsdPer1MTokens":0.46},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","tools"]},{"id":"qwen/qwen3.5-397b-a17b","name":"qwen3.5-397b-a17b","owner":"attested 3p","description":"Attested model served via Chutes TEE (verified end-to-end by NEAR AI).","huggingFaceId":null,"privacyTier":"attested","privacyLabel":"Attested","isConfidential":true,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":128000,"maxOutputLength":null,"price":{"inputUsdPer1MTokens":0.5,"outputUsdPer1MTokens":3.3000000000000003},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","tools"]},{"id":"openai/gpt-5.4","name":"GPT-5.4","owner":"openai","description":"GPT-5.4 is OpenAI’s latest frontier model, unifying the Codex and GPT lines into a single system. It features a 1M+ token context window (922K input, 128K output) with support for...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1050000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":2.5,"outputUsdPer1MTokens":15},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5.5","name":"GPT-5.5","owner":"openai","description":"GPT-5.5 is OpenAI’s frontier model designed for complex professional workloads, building on GPT-5.4 with stronger reasoning, higher reliability, and improved token efficiency on hard tasks. It features a 1M+ token...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1050000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":5,"outputUsdPer1MTokens":30},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"google/gemini-2.5-flash-lite","name":"Gemini 2.5 Flash Lite","owner":"google","description":"Gemini 2.5 Flash-Lite is a lightweight reasoning model in the Gemini 2.5 family, optimized for ultra-low latency and cost efficiency. It offers improved throughput, faster token generation, and better performance...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1048576,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.1,"outputUsdPer1MTokens":0.4},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"google/gemini-3.1-flash-lite","name":"Gemini 3.1 Flash Lite","owner":"google","description":"Gemini 3.1 Flash Lite is Google’s GA high-efficiency multimodal model optimized for low-latency, high-volume workloads. It supports text, image, video, audio, and PDF inputs, and is designed for lightweight agentic...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1048576,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.25,"outputUsdPer1MTokens":1.5},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"anthropic/claude-opus-4-7","name":"Claude Opus 4.7","owner":"anthropic","description":"Anthropic's most capable model. Next-generation built for long-running agents and complex coding tasks. 1M token context window with 128K max output.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":32768,"price":{"inputUsdPer1MTokens":5,"outputUsdPer1MTokens":25},"inputModalities":["text","image"],"outputModalities":["text"],"features":["reasoning","structured_outputs","tools"]},{"id":"anthropic/claude-sonnet-4-6","name":"Claude Sonnet 4.6","owner":"anthropic","description":"Anthropic's best balance of speed and intelligence. Extended thinking support with 1M token context window and 64K max output. Ideal for most production workloads.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":3,"outputUsdPer1MTokens":15},"inputModalities":["text","image"],"outputModalities":["text"],"features":["reasoning","structured_outputs","tools"]},{"id":"google/gemini-2.5-flash","name":"Gemini 2.5 Flash","owner":"google","description":"Google's fast hybrid reasoning model with 1M token context window. Optimized for speed and cost while maintaining strong performance across tasks.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.3,"outputUsdPer1MTokens":2.5},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"google/gemini-2.5-pro","name":"Gemini 2.5 Pro","owner":"google","description":"Google's strongest reasoning model. Excels at coding, math, and complex analysis with 1M token context window. Supports text and image input.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":1.25,"outputUsdPer1MTokens":10},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"google/gemini-3.5-flash","name":"Gemini 3.5 Flash","owner":"google","description":"Google's high-efficiency multimodal model with 1M token context. Strong agentic and coding performance, rivaling larger flagship models on many tasks.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":1.5,"outputUsdPer1MTokens":9},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"openai/gpt-4.1","name":"OpenAI GPT-4.1","owner":"openai","description":"OpenAI's flagship production model with 1M token context window. Excels at instruction following, coding, and long-context tasks. 75% cheaper cached input reads.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":2,"outputUsdPer1MTokens":8},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"openai/gpt-4.1-mini","name":"OpenAI GPT-4.1 Mini","owner":"openai","description":"Cost-effective version of GPT-4.1 with the same 1M token context window. Great balance of capability and cost for production workloads.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.4,"outputUsdPer1MTokens":1.6},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"openai/gpt-4.1-nano","name":"OpenAI GPT-4.1 Nano","owner":"openai","description":"OpenAI's most cost-efficient model with 1M token context. Ideal for classification, extraction, and high-volume tasks where cost matters most.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.1,"outputUsdPer1MTokens":0.4},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"qwen/qwen3.7-max","name":"Qwen3.7 Max","owner":"qwen","description":"Qwen's most capable proprietary model with 1M context window. Strong at reasoning, coding, math, and multilingual tasks.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1000000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":2.8000000000000003,"outputUsdPer1MTokens":7.5},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","structured_outputs","tools"]},{"id":"openai/gpt-5-mini","name":"GPT-5 Mini","owner":"openai","description":"GPT-5 Mini is a compact version of GPT-5, designed to handle lighter-weight reasoning tasks. It provides the same instruction-following and safety-tuning benefits as GPT-5, but with reduced latency and cost....","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.25,"outputUsdPer1MTokens":2},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5-nano","name":"GPT-5 Nano","owner":"openai","description":"GPT-5-Nano is the smallest and fastest variant in the GPT-5 system, optimized for developer tools, rapid interactions, and ultra-low latency environments. While limited in reasoning depth compared to its larger...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.05,"outputUsdPer1MTokens":0.4},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5.1","name":"GPT-5.1","owner":"openai","description":"GPT-5.1 is the latest frontier-grade model in the GPT-5 series, offering stronger general-purpose reasoning, improved instruction adherence, and a more natural conversational style compared to GPT-5. It uses adaptive reasoning...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":1.25,"outputUsdPer1MTokens":10},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5.4-mini","name":"GPT-5.4 Mini","owner":"openai","description":"GPT-5.4 mini brings the core capabilities of GPT-5.4 to a faster, more efficient model optimized for high-throughput workloads. It supports text and image inputs with strong performance across reasoning, coding,...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.75,"outputUsdPer1MTokens":4.5},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5.4-nano","name":"GPT-5.4 Nano","owner":"openai","description":"GPT-5.4 nano is the most lightweight and cost-efficient variant of the GPT-5.4 family, optimized for speed-critical and high-volume tasks. It supports text and image inputs and is designed for low-latency...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.2,"outputUsdPer1MTokens":1.25},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5","name":"OpenAI GPT-5","owner":"openai","description":"OpenAI's next-generation model with enhanced reasoning and 400K context window. Strong performance across coding, math, and creative tasks.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":1.25,"outputUsdPer1MTokens":10},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5.2","name":"OpenAI GPT-5.2","owner":"openai","description":"OpenAI GPT-5.2 with 400k context window. Anonymized endpoint optimized for deep reasoning and large-context workflows.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":400000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":1.8,"outputUsdPer1MTokens":15.5},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"anthropic/claude-haiku-4-5","name":"Claude Haiku 4.5","owner":"anthropic","description":"Anthropic's fastest model with near-frontier intelligence. Extended thinking support with 200K context window. Best for high-throughput, cost-sensitive workloads.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":200000,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":1,"outputUsdPer1MTokens":5},"inputModalities":["text","image"],"outputModalities":["text"],"features":["structured_outputs","tools"]},{"id":"anthropic/claude-opus-4-6","name":"Claude Opus 4.6","owner":"anthropic","description":"Anthropic's most intelligent model for building agents and coding","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":200000,"maxOutputLength":32768,"price":{"inputUsdPer1MTokens":5,"outputUsdPer1MTokens":25},"inputModalities":["text"],"outputModalities":["text"],"features":["reasoning","structured_outputs","tools"]},{"id":"anthropic/claude-sonnet-4-5","name":"Claude Sonnet 4.5","owner":"anthropic","description":"Anthropic's Claude Sonnet 4.5 - a powerful, efficient model balancing intelligence and speed. Excels at complex reasoning, coding, and creative tasks with 200K context window. Anonymized, not TEE-protected.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":200000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":3,"outputUsdPer1MTokens":15.5},"inputModalities":["text","image"],"outputModalities":["text"],"features":["structured_outputs","tools"]},{"id":"openai/o3-mini","name":"o3 Mini","owner":"openai","description":"OpenAI o3-mini is a cost-efficient language model optimized for STEM reasoning tasks, particularly excelling in science, mathematics, and coding. This model supports the `reasoning_effort` parameter, which can be set to...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":200000,"maxOutputLength":32768,"price":{"inputUsdPer1MTokens":1.1,"outputUsdPer1MTokens":4.4},"inputModalities":["text"],"outputModalities":["text"],"features":["reasoning","structured_outputs","tools"]},{"id":"openai/o3","name":"OpenAI o3","owner":"openai","description":"OpenAI's flagship reasoning model. Uses chain-of-thought to solve complex math, coding, and logic problems. 200K context window.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":200000,"maxOutputLength":32768,"price":{"inputUsdPer1MTokens":2,"outputUsdPer1MTokens":8},"inputModalities":["text","image"],"outputModalities":["text"],"features":["reasoning","structured_outputs","tools"]},{"id":"openai/o4-mini","name":"OpenAI o4 Mini","owner":"openai","description":"OpenAI's cost-effective reasoning model. Strong performance on math, coding, and scientific reasoning at a fraction of o3's cost. 200K context window.","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":200000,"maxOutputLength":32768,"price":{"inputUsdPer1MTokens":1.1,"outputUsdPer1MTokens":4.4},"inputModalities":["text","image"],"outputModalities":["text"],"features":["reasoning","structured_outputs","tools"]}],"featuredModels":[{"id":"z-ai/glm-5.2","name":"GLM 5.2","owner":"nearai","description":"GLM-5.2 is an open-source foundation model featuring improved MTP and IndexShare over GLM-5.1. 753B MoE architecture, FP8 precision, optimized for complex systems engineering and long-horizon agent workflows.","huggingFaceId":"zai-org/GLM-5.2-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["glm-5-2.completions.near.ai"],"isReady":null,"contextLength":500000,"maxOutputLength":131072,"price":{"inputUsdPer1MTokens":1.4000000000000001,"outputUsdPer1MTokens":4.4},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-5.4","name":"GPT-5.4","owner":"openai","description":"GPT-5.4 is OpenAI’s latest frontier model, unifying the Codex and GPT lines into a single system. It features a 1M+ token context window (922K input, 128K output) with support for...","huggingFaceId":null,"privacyTier":"gateway","privacyLabel":"Third-party gateway","isConfidential":false,"isDirectEndpoint":false,"endpointDomains":[],"isReady":false,"contextLength":1050000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":2.5,"outputUsdPer1MTokens":15},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"google/gemma-4-31B-it","name":"Gemma 4 31B Instruct","owner":"nearai","description":"Gemma 4 31B Instruct is Google's open-weight 31B-parameter language model, tuned for instruction following and dialogue. Strong general-purpose performance with 32K context window.","huggingFaceId":"google/gemma-4-31B-it","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["gemma-4-31b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.13,"outputUsdPer1MTokens":0.4},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"deepseek-ai/DeepSeek-V4-Flash","name":"DeepSeek V4 Flash","owner":"nearai","description":"DeepSeek V4 Flash — large mixture-of-experts language model from DeepSeek, FP8-quantized. Served on H200 with TP=4 and EAGLE speculative decoding in a TDX-confidential inference CVM.","huggingFaceId":"deepseek-ai/DeepSeek-V4-Flash","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["dsv4-flash.completions.near.ai"],"isReady":true,"contextLength":1048576,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.17,"outputUsdPer1MTokens":0.35000000000000003},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3.6-27B-FP8","name":"Qwen 3.6 27B FP8","owner":"nearai","description":"Qwen 3.6 27B is a dense FP8 language model with strong reasoning, coding, and tool-use. 256K context window.","huggingFaceId":"Qwen/Qwen3.6-27B-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-6-27b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.325,"outputUsdPer1MTokens":3.25},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3.6-35B-A3B-FP8","name":"Qwen 3.6 35B A3B FP8","owner":"nearai","description":"Qwen 3.6 35B is a fast mixture-of-experts language model with ~3B active parameters per token. Strong at reasoning, coding, and multilingual tasks with 32K context window.","huggingFaceId":"Qwen/Qwen3.6-35B-A3B-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-6-35b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.17,"outputUsdPer1MTokens":1.1},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3.5-122B-A10B","name":"Qwen3.5 122B A10B","owner":"nearai","description":"Qwen3.5 122B MoE model with 10B active parameters, supporting reasoning and tool calling","huggingFaceId":"Qwen/Qwen3.5-122B-A10B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen35-122b.completions.near.ai"],"isReady":true,"contextLength":262144,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.4,"outputUsdPer1MTokens":3.2},"inputModalities":["text","image"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"zai-org/GLM-5.1-FP8","name":"GLM 5.1","owner":"nearai","description":"GLM-5.1 is an open-source foundation model built for complex systems engineering and long-horizon agent workflows. It delivers production-grade productivity for large-scale programming tasks, with performance aligned to top closed-source models, and is designed for expert developers building at the system level.","huggingFaceId":"zai-org/GLM-5.1-FP8","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["glm-5-1.completions.near.ai"],"isReady":true,"contextLength":202752,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.85,"outputUsdPer1MTokens":3.3000000000000003},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","reasoning","structured_outputs","tools"]},{"id":"openai/gpt-oss-120b","name":"GPT OSS 120B","owner":"nearai","description":"gpt-oss-120b is an open-weight, 117B-parameter Mixture-of-Experts (MoE) language model from OpenAI designed for high-reasoning, agentic, and general-purpose production use cases. It activates 5.1B parameters per forward pass and is optimized to run on a single H100 GPU with native MXFP4 quantization. The model supports configurable reasoning depth, full chain-of-thought access, and native tool use, including function calling, browsing, and structured output generation.","huggingFaceId":"openai/gpt-oss-120b","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["gpt-oss-120b.completions.near.ai"],"isReady":true,"contextLength":131000,"maxOutputLength":16384,"price":{"inputUsdPer1MTokens":0.15,"outputUsdPer1MTokens":0.55},"inputModalities":["text"],"outputModalities":["text"],"features":["json_mode","logprobs","reasoning","structured_outputs","tools"]},{"id":"Qwen/Qwen3-VL-30B-A3B-Instruct","name":"Qwen3-VL-30B-A3B-Instruct","owner":"nearai","description":"Qwen3-VL-30B-A3B-Instruct is a vision-language model supporting text and image inputs.","huggingFaceId":"Qwen/Qwen3-VL-30B-A3B-Instruct","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-vl-30b.completions.near.ai"],"isReady":true,"contextLength":16384,"maxOutputLength":8192,"price":{"inputUsdPer1MTokens":0.15,"outputUsdPer1MTokens":0.55},"inputModalities":["text","image"],"outputModalities":["text"],"features":["logprobs","structured_outputs"]},{"id":"black-forest-labs/FLUX.2-klein-4B","name":"FLUX.2-klein-4B","owner":"nearai","description":"The FLUX.2 [klein] model family are our fastest image models to date. FLUX.2 [klein] unifies generation and editing in a single compact architecture, delivering state-of-the-art quality with end-to-end inference in as low as under a second. Built for applications that require real-time image generation without sacrificing quality.","huggingFaceId":"black-forest-labs/FLUX.2-klein-4B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["flux2-klein.completions.near.ai"],"isReady":null,"contextLength":128000,"maxOutputLength":1,"price":{"inputUsdPer1MTokens":1,"outputUsdPer1MTokens":1},"inputModalities":["text"],"outputModalities":["image"],"features":[]},{"id":"Qwen/Qwen3-Embedding-0.6B","name":"Qwen3-Embedding-0.6B","owner":"nearai","description":"The Qwen3 Embedding model series is the latest proprietary model of the Qwen family, specifically designed for text embedding tasks.","huggingFaceId":"Qwen/Qwen3-Embedding-0.6B","privacyTier":"tee","privacyLabel":"TEE confidential","isConfidential":true,"isDirectEndpoint":true,"endpointDomains":["qwen3-embedding.completions.near.ai"],"isReady":null,"contextLength":40960,"maxOutputLength":1024,"price":{"inputUsdPer1MTokens":0.01,"outputUsdPer1MTokens":0.01},"inputModalities":["text"],"outputModalities":["embedding"],"features":[]}]}