AstraMindAI

3 models • 1 total models in database

Sort by:

xtts2-gpt

Language Support: English, Spanish, French, German, Italian, Portuguese, Polish, Turkish, Russian, Dutch, Czech, Arabic, Chinese (Simplified), Hungarian, Korean, Japanese, Hindi Primary Use Case: Text-to-Speech (TTS) generation for real-world applications, including books, dialogues, and multilingual tasks. Auralis transforms text into natural, high-quality speech with exceptional speed and scalability. It is powered by Coqui XTTS-v2 and optimized for both consumer-grade and high-performance GPUs. Auralis is designed to meet real-world needs like long-text processing, voice cloning, and concurrent request handling. Key Features: - Warp-Speed Processing: Generate speech for an entire novel (e.g., Harry Potter) in ~10 minutes. - Hardware Friendly: Requires <10GB VRAM on a single NVIDIA RTX 3090. - Scalable: Handles multiple requests simultaneously. - Streaming: Seamlessly processes long texts in a streaming format. - Custom Voices: Enables voice cloning from short reference audio. Auralis converting ebooks into audio formats at lightning speed. For Python script, check out ebookaudiogenerator.py. Auralis is designed for: - Content Creators: Generate audiobooks, podcasts, or voiceovers. - Developers: Integrate TTS into applications via a simple Python API. - Accessibility: Providing audio versions of digital content for people with visual or reading difficulties. - Multilingual Scenarios: Convert text to speech in multiple supported languages. Benchmarks on NVIDIA RTX 3090: - Short phrases (<100 characters): ~1 second - Medium texts (<1,000 characters): ~5-10 seconds - Full books (~100,000 characters): ~10 minutes 1. Speed & Efficiency: - Smart batching for rapid processing of long texts. - Memory-optimized for consumer GPUs. 2. Easy Integration: - Python API with support for synchronous and asynchronous workflows. - Streaming mode for continuous playback during generation. 3. Audio Quality Enhancements: - Background noise reduction. - Voice clarity and volume normalization. - Customizable audio preprocessing. 4. Multilingual Support: - Automatic language detection. - High-quality speech in 15+ languages. 5. Customization: - Voice cloning using short reference clips. - Adjustable parameters for tone, pacing, and language. - Voice Cloning Risks: Auralis supports voice cloning, which may raise ethical concerns about misuse. Use responsibly and ensure proper consent. - Accent Limitations: While robust for many languages, accents and intonations may vary based on the input. If you use Auralis in your research or projects, please cite:

NaNK

license:apache-2.0

125,986

xttsv2

NaNK

license:apache-2.0

42,833

AstraQuasar-4B

NaNK

—

142