Gemma & Gemini (Google)

Available models

Model ID	Parameters	Context	Speed	Best For
`gemma-4-31b`	31B	128K	Medium	Multimodal, vision
`gemma-4-26b-moe`	26B (MoE)	128K	Fast	Efficient inference
`gemini-3-flash`	—	1M	Fast	Ultra-long context
`gemini-2.5-flash`	—	1M	Fast	Long context

Gemma vs Gemini

Gemma = open source, free inference on Google. Best for multimodal/vision tasks.
Gemini = proprietary, paid per token. Best for ultra-long context (1M tokens).

Recommendation

Use gemma-4-31b for multimodal tasks — supports image understanding. Free inference via Google. Use gemini-2.5-flash for long context — 1M token window covers entire codebases and books.

from openai import OpenAI

client = OpenAI(base_url="https://kymaapi.com/v1", api_key="ky-...")

# Vision / multimodal
response = client.chat.completions.create(
    model="gemma-4-31b",
    messages=[{"role": "user", "content": "Describe this image"}]
)

# Long context (up to 1M tokens)
response = client.chat.completions.create(
    model="gemini-2.5-flash",
    messages=[{"role": "user", "content": "Summarize this 200-page document: ..."}]
)

Model aliases

Alias	Resolves to
`vision`	`gemma-4-31b`
`long-context`	`gemini-2.5-flash`

model="vision"        # → gemma-4-31b
model="long-context"  # → gemini-2.5-flash

Llama (Meta)MiniMax

​Available models

​Gemma vs Gemini

​Recommendation

​Model aliases

Available models

Gemma vs Gemini

Recommendation

Model aliases