FluidInference

32 models • 1 total models in database

Sort by:

parakeet-tdt-0.6b-v3-coreml

🧃 parakeet-tdt-0.6b-v3: Multilingual Speech-to-Text Model CoreML [](#model-architecture) | [](#model-architecture) | [](#datasets) | [](https://discord.gg/WNsvaCtmDe) | [](https://github.com/FluidInference/FluidAudio) On‑device multilingual ASR model converted to Core ML for Apple platforms. This model powers FluidAudio’s batch ASR and is the same model used in our backend. It supports 25 European languages and is optimized for low‑latency, private, offline transcription. For conversion script and benchmarks: https://github.com/FluidInference/mobius/tree/main/models/tts/parakeet-tdt-v3-0.6b/coreml - Core ML: Runs fully on‑device (ANE/CPU) on Apple Silicon. - Multilingual: 25 European languages; see model usage in FluidAudio for examples. - Performance: ~110× RTF on M4 Pro for batch ASR (1 min audio ≈ 0.5 s). - Privacy: No network calls required once models are downloaded. - Batch transcription of complete audio files on macOS/iOS. - Local dictation and note‑taking apps where privacy and latency matter. - Embedded ASR in production apps via the FluidAudio Swift framework. - Architecture: Parakeet TDT v3 (Token Duration Transducer, 0.6B parameters) - Input audio: 16 kHz, mono, Float32 PCM in range [-1, 1] - Languages: 25 European languages (multilingual) - Precision: Mixed precision optimized for Core ML execution (ANE/CPU) - Real‑time factor (RTF): ~110× on M4 Pro in batch mode - Throughput and latency vary with device, input duration, and compute units (ANE/CPU). For quickest integration, use the FluidAudio Swift framework which handles model loading, audio preprocessing, and decoding. For more examples (including CLI usage and benchmarking), see the FluidAudio repository: https://github.com/FluidInference/FluidAudio - Core ML model artifacts suitable for use via the FluidAudio APIs (preferred) or directly with Core ML. - Tokenizer and configuration assets are included/managed by FluidAudio’s loaders. - Primary coverage is European languages; performance may degrade for non‑European languages. Apache 2.0. See the FluidAudio repository for details and usage guidance.

FluidInference

parakeet-tdt-0.6b-v3-coreml

parakeet-ctc-110m-coreml

parakeet-realtime-eou-120m-coreml

speaker-diarization-coreml

silero-vad-coreml

parakeet-tdt-0.6b-v2-coreml

diar-streaming-sortformer-coreml

kokoro-82m-coreml

pocket-tts-coreml

qwen3-asr-0.6b-coreml

parakeet-tdt-0.6b-v2-ov

parakeet-0.6b-ja-coreml

cohere-transcribe-03-2026-coreml

whisper-large-v3-turbo-int4-ov-npu

nemotron-speech-streaming-en-0.6b-coreml

whisper-large-v3-turbo-fp16-ov-npu

ls-eend-coreml

qwen3-8b-int4-ov-npu

whisper-large-v3-turbo-int8-ov-npu

qwen3-1.7b-int4-ov-npu

phi-4-mini-instruct-int4-ov-npu

qwen3-tts-coreml

speaker-diarization-ov

whisper-tiny-int4-ov

phi-4-mini-instruct-fp16-ov-npu

qwen3-0.6b-int4-ov-npu

qwen3-4b-int4-ov-npu

whisper-large-v3-turbo-qnn

qwen3-4b-fp16-npu-ov

Qwen3-8B-int4-ov

Qwen3-8B-int8-ov

parakeet-tdt-0.6b-v3-ov