From 4d39f0b968b00e8e5ce592ae1d271bbec9e299ff Mon Sep 17 00:00:00 2001 From: waleedlatif1 Date: Sat, 22 Nov 2025 01:24:19 +0000 Subject: [PATCH] feat(i18n): update translations --- apps/docs/content/docs/de/tools/stt.mdx | 114 ++++++-- apps/docs/content/docs/de/tools/tts.mdx | 256 ++++++++++++++++++ .../content/docs/de/tools/video_generator.mdx | 192 +++++++++++++ apps/docs/content/docs/es/tools/stt.mdx | 110 +++++++- apps/docs/content/docs/es/tools/tts.mdx | 256 ++++++++++++++++++ .../content/docs/es/tools/video_generator.mdx | 192 +++++++++++++ apps/docs/content/docs/fr/tools/stt.mdx | 120 ++++++-- apps/docs/content/docs/fr/tools/tts.mdx | 256 ++++++++++++++++++ .../content/docs/fr/tools/video_generator.mdx | 192 +++++++++++++ apps/docs/content/docs/ja/tools/stt.mdx | 110 +++++++- apps/docs/content/docs/ja/tools/tts.mdx | 256 ++++++++++++++++++ .../content/docs/ja/tools/video_generator.mdx | 192 +++++++++++++ apps/docs/content/docs/zh/tools/stt.mdx | 108 +++++++- apps/docs/content/docs/zh/tools/tts.mdx | 256 ++++++++++++++++++ .../content/docs/zh/tools/video_generator.mdx | 192 +++++++++++++ apps/docs/i18n.lock | 175 ++++++++++-- 16 files changed, 2873 insertions(+), 104 deletions(-) create mode 100644 apps/docs/content/docs/de/tools/tts.mdx create mode 100644 apps/docs/content/docs/de/tools/video_generator.mdx create mode 100644 apps/docs/content/docs/es/tools/tts.mdx create mode 100644 apps/docs/content/docs/es/tools/video_generator.mdx create mode 100644 apps/docs/content/docs/fr/tools/tts.mdx create mode 100644 apps/docs/content/docs/fr/tools/video_generator.mdx create mode 100644 apps/docs/content/docs/ja/tools/tts.mdx create mode 100644 apps/docs/content/docs/ja/tools/video_generator.mdx create mode 100644 apps/docs/content/docs/zh/tools/tts.mdx create mode 100644 apps/docs/content/docs/zh/tools/video_generator.mdx diff --git a/apps/docs/content/docs/de/tools/stt.mdx b/apps/docs/content/docs/de/tools/stt.mdx index 85a20a353b..1001ab2c79 100644 --- a/apps/docs/content/docs/de/tools/stt.mdx +++ b/apps/docs/content/docs/de/tools/stt.mdx @@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" /> {/* MANUAL-CONTENT-START:intro */} -Transkribiere Sprache zu Text mit modernsten KI-Modellen führender Anbieter. Die Sim Speech-to-Text (STT)-Tools ermöglichen es dir, Audio- und Videodateien in präzise Transkripte umzuwandeln, mit Unterstützung für mehrere Sprachen, Zeitstempel und optionaler Übersetzung. +Transkribieren Sie Sprache zu Text mit den neuesten KI-Modellen von erstklassigen Anbietern. Die Speech-to-Text (STT)-Tools von Sim ermöglichen es Ihnen, Audio und Video in genaue, mit Zeitstempeln versehene und optional übersetzte Transkripte umzuwandeln – mit Unterstützung für verschiedene Sprachen und erweitert durch fortschrittliche Funktionen wie Sprechertrennung und Sprecheridentifikation. -Unterstützte Anbieter: +**Unterstützte Anbieter & Modelle:** -- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Fortschrittliches Open-Source-STT-Modell von OpenAI. Unterstützt Modelle wie `whisper-1` und verarbeitet eine Vielzahl von Sprachen und Audioformaten. -- **[Deepgram](https://deepgram.com/)**: Echtzeit- und Batch-STT-API mit Deep-Learning-Modellen wie `nova-3`, `nova-2` und `whisper-large`. Bietet Funktionen wie Sprechererkennung, Intentionserkennung und branchenspezifische Anpassungen. -- **[ElevenLabs](https://elevenlabs.io/)**: Bekannt für hochwertige Sprach-KI, bietet ElevenLabs STT-Modelle mit Fokus auf Genauigkeit und natürlichem Sprachverständnis für zahlreiche Sprachen und Dialekte. +- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI): + OpenAIs Whisper ist ein Open-Source-Deep-Learning-Modell, das für seine Robustheit in verschiedenen Sprachen und Audiobedingungen bekannt ist. Es unterstützt fortschrittliche Modelle wie `whisper-1` und zeichnet sich bei Transkription, Übersetzung und Aufgaben aus, die eine hohe Modellgeneralisierung erfordern. Unterstützt von OpenAI – dem Unternehmen hinter ChatGPT und führender KI-Forschung – wird Whisper häufig in der Forschung und als Basis für vergleichende Bewertungen eingesetzt. -Wähle den Anbieter und das Modell, das am besten zu deiner Aufgabe passt – sei es schnelle, produktionsreife Transkription (Deepgram), hochpräzise Mehrsprachenfähigkeit (Whisper) oder fortschrittliches Verständnis und Sprachabdeckung (ElevenLabs). +- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.): + Das in San Francisco ansässige Unternehmen Deepgram bietet skalierbare, produktionsreife Spracherkennungs-APIs für Entwickler und Unternehmen. Zu den Modellen von Deepgram gehören `nova-3`, `nova-2` und `whisper-large`. Sie bieten Echtzeit- und Batch-Transkription mit branchenführender Genauigkeit, Unterstützung mehrerer Sprachen, automatische Zeichensetzung, intelligente Sprechertrennung, Anrufanalysen und Funktionen für Anwendungsfälle von der Telefonie bis zur Medienproduktion. + +- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs): + Als führendes Unternehmen im Bereich Sprach-KI ist ElevenLabs besonders für hochwertige Sprachsynthese und -erkennung bekannt. Sein STT-Produkt bietet hochpräzises, natürliches Verständnis zahlreicher Sprachen, Dialekte und Akzente. Die neuesten STT-Modelle von ElevenLabs sind für Klarheit und Sprecherunterscheidung optimiert und eignen sich sowohl für kreative als auch für Barrierefreiheitsszenarien. ElevenLabs ist bekannt für bahnbrechende Fortschritte bei KI-gestützten Sprachtechnologien. + +- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.): + AssemblyAI bietet API-gesteuerte, hochpräzise Spracherkennung mit Funktionen wie automatischer Kapitelbildung, Themenerkennung, Zusammenfassung, Stimmungsanalyse und Inhaltsmoderation neben der Transkription. Sein proprietäres Modell, einschließlich des gefeierten `Conformer-2`, unterstützt einige der größten Medien-, Call-Center- und Compliance-Anwendungen der Branche. AssemblyAI wird weltweit von Fortune-500-Unternehmen und führenden KI-Startups vertraut. + +- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud): + Googles Speech-to-Text API für Unternehmen unterstützt über 125 Sprachen und Varianten und bietet hohe Genauigkeit sowie Funktionen wie Echtzeit-Streaming, Wort-für-Wort-Konfidenz, Sprechererkennung, automatische Zeichensetzung, benutzerdefiniertes Vokabular und domänenspezifische Anpassungen. Modelle wie `latest_long`, `video` und domänenoptimierte Modelle stehen zur Verfügung, basierend auf Googles jahrelanger Forschung und für globale Skalierbarkeit entwickelt. + +- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services): + AWS Transcribe nutzt Amazons Cloud-Infrastruktur, um robuste Spracherkennung als API bereitzustellen. Es unterstützt mehrere Sprachen und Funktionen wie Sprecheridentifikation, benutzerdefiniertes Vokabular, Kanalidentifikation (für Call-Center-Audio) und medizinspezifische Transkription. Zu den beliebten Modellen gehören `standard` und domänenspezifische Varianten. AWS Transcribe ist ideal für Organisationen, die bereits Amazons Cloud nutzen. + +**Wie man wählt:** +Wählen Sie den Anbieter und das Modell, das zu Ihrer Anwendung passt – ob Sie schnelle, unternehmenstaugliche Transkription mit zusätzlicher Analytik benötigen (Deepgram, AssemblyAI, Google, AWS), hohe Vielseitigkeit und Open-Source-Zugang (OpenAI Whisper) oder fortschrittliches Sprecher-/Kontextverständnis (ElevenLabs). Berücksichtigen Sie die Preisgestaltung, Sprachabdeckung, Genauigkeit und alle speziellen Funktionen (wie Zusammenfassung, Kapitelunterteilung oder Stimmungsanalyse), die Sie möglicherweise benötigen. + +Weitere Details zu Funktionen, Preisen, Funktionshighlights und Feinabstimmungsoptionen finden Sie in der offiziellen Dokumentation jedes Anbieters über die oben genannten Links. {/* MANUAL-CONTENT-END */} ## Nutzungsanleitung -Transkribiere Audio- und Videodateien zu Text mit führenden KI-Anbietern. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung. +Transkribieren Sie Audio- und Videodateien mit führenden KI-Anbietern in Text. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung. ## Tools ### `stt_whisper` -Transkribiere Audio zu Text mit OpenAI Whisper +Transkribieren Sie Audio in Text mit OpenAI Whisper #### Eingabe @@ -39,22 +56,23 @@ Transkribiere Audio zu Text mit OpenAI Whisper | `provider` | string | Ja | STT-Anbieter \(whisper\) | | `apiKey` | string | Ja | OpenAI API-Schlüssel | | `model` | string | Nein | Zu verwendendes Whisper-Modell \(Standard: whisper-1\) | -| `audioFile` | file | Nein | Zu transkribierende Audio- oder Videodatei | -| `audioFileReference` | file | Nein | Verweis auf Audio-/Videodatei aus vorherigen Blöcken | +| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription | +| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken | | `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | | `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung | | `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | | `translateToEnglish` | boolean | Nein | Audio ins Englische übersetzen | +| `prompt` | string | Nein | Optionaler Text, um den Stil des Modells zu leiten oder ein vorheriges Audiosegment fortzusetzen. Hilft bei Eigennamen und Kontext. | +| `temperature` | number | Nein | Sampling-Temperatur zwischen 0 und 1. Höhere Werte machen die Ausgabe zufälliger, niedrigere Werte fokussierter und deterministischer. | #### Ausgabe | Parameter | Typ | Beschreibung | | --------- | ---- | ----------- | -| `transcript` | string | Vollständig transkribierter Text | +| `transcript` | string | Vollständiger transkribierter Text | | `segments` | array | Segmente mit Zeitstempeln | | `language` | string | Erkannte oder angegebene Sprache | | `duration` | number | Audiodauer in Sekunden | -| `confidence` | number | Gesamter Konfidenzwert | ### `stt_deepgram` @@ -78,7 +96,7 @@ Audio mit Deepgram in Text transkribieren | Parameter | Typ | Beschreibung | | --------- | ---- | ----------- | -| `transcript` | string | Vollständig transkribierter Text | +| `transcript` | string | Vollständiger transkribierter Text | | `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen | | `language` | string | Erkannte oder angegebene Sprache | | `duration` | number | Audiodauer in Sekunden | @@ -86,7 +104,7 @@ Audio mit Deepgram in Text transkribieren ### `stt_elevenlabs` -Audio in Text transkribieren mit ElevenLabs +Audio mit ElevenLabs in Text transkribieren #### Eingabe @@ -94,9 +112,71 @@ Audio in Text transkribieren mit ElevenLabs | --------- | ---- | -------- | ----------- | | `provider` | string | Ja | STT-Anbieter \(elevenlabs\) | | `apiKey` | string | Ja | ElevenLabs API-Schlüssel | -| `model` | string | Nein | Zu verwendenes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) | -| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription | -| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken | +| `model` | string | Nein | Zu verwendendes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) | +| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei | +| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken | +| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | +| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung | +| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `transcript` | string | Vollständig transkribierter Text | +| `segments` | array | Segmente mit Zeitstempeln | +| `language` | string | Erkannte oder angegebene Sprache | +| `duration` | number | Audiodauer in Sekunden | +| `confidence` | number | Gesamter Konfidenzwert | + +### `stt_assemblyai` + +Audio mit AssemblyAI und erweiterten NLP-Funktionen in Text transkribieren + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | STT-Anbieter \(assemblyai\) | +| `apiKey` | string | Ja | AssemblyAI API-Schlüssel | +| `model` | string | Nein | Zu verwendendes AssemblyAI-Modell \(Standard: best\) | +| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei | +| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken | +| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | +| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung | +| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | +| `diarization` | boolean | Nein | Sprechererkennung aktivieren | +| `sentiment` | boolean | Nein | Stimmungsanalyse aktivieren | +| `entityDetection` | boolean | Nein | Entitätserkennung aktivieren | +| `piiRedaction` | boolean | Nein | PII-Schwärzung aktivieren | +| `summarization` | boolean | Nein | Automatische Zusammenfassung aktivieren | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `transcript` | string | Vollständig transkribierter Text | +| `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen | +| `language` | string | Erkannte oder angegebene Sprache | +| `duration` | number | Audiodauer in Sekunden | +| `confidence` | number | Gesamter Konfidenzwert | +| `sentiment` | array | Ergebnisse der Stimmungsanalyse | +| `entities` | array | Erkannte Entitäten | +| `summary` | string | Automatisch generierte Zusammenfassung | + +### `stt_gemini` + +Audio mit Google Gemini und multimodalen Fähigkeiten in Text transkribieren + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | STT-Anbieter \(gemini\) | +| `apiKey` | string | Ja | Google API-Schlüssel | +| `model` | string | Nein | Zu verwendendes Gemini-Modell \(Standard: gemini-2.5-flash\) | +| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei | +| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken | | `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | | `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung | | `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | diff --git a/apps/docs/content/docs/de/tools/tts.mdx b/apps/docs/content/docs/de/tools/tts.mdx new file mode 100644 index 0000000000..b62862a8c3 --- /dev/null +++ b/apps/docs/content/docs/de/tools/tts.mdx @@ -0,0 +1,256 @@ +--- +title: Text-zu-Sprache +description: Text mit KI-Stimmen in Sprache umwandeln +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +Wandeln Sie Text in natürlich klingende Sprache mit den neuesten KI-Stimmen um. Die Text-zu-Sprache (TTS)-Tools von Sim ermöglichen es Ihnen, Audio aus geschriebenem Text in Dutzenden von Sprachen zu generieren, mit einer Auswahl an ausdrucksstarken Stimmen, Formaten und erweiterten Steuerungsmöglichkeiten wie Geschwindigkeit, Stil, Emotion und mehr. + +**Unterstützte Anbieter & Modelle:** + +- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI): + OpenAIs TTS-API bietet ultra-realistische Stimmen mit fortschrittlichen KI-Modellen wie `tts-1`, `tts-1-hd` und `gpt-4o-mini-tts`. Die Stimmen umfassen sowohl männliche als auch weibliche Optionen wie alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage und verse. Unterstützt werden verschiedene Audioformate (mp3, opus, aac, flac, wav, pcm), einstellbare Geschwindigkeit und Streaming-Synthese. + +- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.): + Deepgrams Aura bietet ausdrucksstarke englische und mehrsprachige KI-Stimmen, optimiert für Gesprächsklarheit, geringe Latenz und Anpassungsfähigkeit. Modelle wie `aura-asteria-en`, `aura-luna-en` und andere stehen zur Verfügung. Unterstützt werden verschiedene Kodierungsformate (linear16, mp3, opus, aac, flac) und Feinabstimmung bei Geschwindigkeit, Abtastrate und Stil. + +- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs): + ElevenLabs führt im Bereich lebensechter, emotional reicher TTS und bietet Dutzende von Stimmen in über 29 Sprachen sowie die Möglichkeit, benutzerdefinierte Stimmen zu klonen. Die Modelle unterstützen Stimmdesign, Sprachsynthese und direkten API-Zugriff mit erweiterten Steuerungsmöglichkeiten für Stil, Emotion, Stabilität und Ähnlichkeit. Geeignet für Hörbücher, Content-Erstellung, Barrierefreiheit und mehr. + +- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia): + Cartesia bietet hochwertige, schnelle und sichere Text-zu-Sprache-Umwandlung mit Fokus auf Datenschutz und flexibler Bereitstellung. Es ermöglicht sofortiges Streaming, Echtzeit-Synthese und unterstützt mehrere internationale Stimmen und Akzente, zugänglich über eine einfache API. + +- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud): + Google nutzt DeepMind WaveNet und Neural2-Modelle für hochwertige Stimmen in über 50 Sprachen und Varianten. Zu den Funktionen gehören Stimmauswahl, Tonhöhe, Sprechgeschwindigkeit, Lautstärkeregelung, SSML-Tags und Zugriff auf Standard- und Premium-Stimmen in Studioqualität. Wird häufig für Barrierefreiheit, IVR und Medien verwendet. + +- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure): + Azure bietet über 400 neuronale Stimmen in mehr als 140 Sprachen und Regionen mit einzigartiger Stimmanpassung, Stil, Emotion, Rolle und Echtzeit-Steuerung. Unterstützt SSML für Aussprache, Intonation und mehr. Ideal für globale, Unternehmens- oder kreative TTS-Anforderungen. + +- **[PlayHT](https://play.ht/)** (PlayHT): + PlayHT spezialisiert sich auf realistische Sprachsynthese, Stimmklonen und sofortige Streaming-Wiedergabe mit über 800 Stimmen in mehr als 100 Sprachen. Zu den Funktionen gehören Emotions-, Tonhöhen- und Geschwindigkeitssteuerung, Mehrfachstimmen-Audio und benutzerdefinierte Stimmerstellung über die API oder das Online-Studio. + +**Auswahlkriterien:** +Wählen Sie Ihren Anbieter und das Modell, indem Sie Sprachen, unterstützte Stimmtypen, gewünschte Formate (mp3, wav usw.), Steuerungsgranularität (Geschwindigkeit, Emotion usw.) und spezielle Funktionen (Stimmklonen, Akzent, Streaming) priorisieren. Stellen Sie für kreative, Barrierefreiheits- oder Entwickleranwendungsfälle die Kompatibilität mit den Anforderungen Ihrer Anwendung sicher und vergleichen Sie die Kosten. + +Besuchen Sie die offizielle Website jedes Anbieters für aktuelle Informationen zu Funktionen, Preisen und Dokumentation! +{/* MANUAL-CONTENT-END */} + +## Nutzungsanleitung + +Erzeugen Sie natürlich klingende Sprache aus Text mit modernsten KI-Stimmen von OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure und PlayHT. Unterstützt mehrere Stimmen, Sprachen und Audioformate. + +## Tools + +### `tts_openai` + +Text in Sprache umwandeln mit OpenAI TTS-Modellen + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `apiKey` | string | Ja | OpenAI API-Schlüssel | +| `model` | string | Nein | Zu verwendendes TTS-Modell \(tts-1, tts-1-hd oder gpt-4o-mini-tts\) | +| `voice` | string | Nein | Zu verwendende Stimme \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) | +| `responseFormat` | string | Nein | Audioformat \(mp3, opus, aac, flac, wav, pcm\) | +| `speed` | number | Nein | Sprechgeschwindigkeit \(0,25 bis 4,0, Standard: 1,0\) | + +#### Output + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +### `tts_deepgram` + +Text in Sprache umwandeln mit Deepgram Aura + +#### Input + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `apiKey` | string | Ja | Deepgram API-Schlüssel | +| `model` | string | Nein | Deepgram Modell/Stimme \(z.B. aura-asteria-en, aura-luna-en\) | +| `voice` | string | Nein | Stimmenkennung \(Alternative zum Modellparameter\) | +| `encoding` | string | Nein | Audiokodierung \(linear16, mp3, opus, aac, flac\) | +| `sampleRate` | number | Nein | Abtastrate \(8000, 16000, 24000, 48000\) | +| `bitRate` | number | Nein | Bitrate für komprimierte Formate | +| `container` | string | Nein | Container-Format \(none, wav, ogg\) | + +#### Output + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +### `tts_elevenlabs` + +Text in Sprache umwandeln mit ElevenLabs-Stimmen + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `voiceId` | string | Ja | Die ID der zu verwendenden Stimme | +| `apiKey` | string | Ja | ElevenLabs API-Schlüssel | +| `modelId` | string | Nein | Zu verwendendes Modell \(z.B. eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) | +| `stability` | number | Nein | Stimmstabilität \(0.0 bis 1.0, Standard: 0.5\) | +| `similarityBoost` | number | Nein | Ähnlichkeitsverstärkung \(0.0 bis 1.0, Standard: 0.8\) | +| `style` | number | Nein | Stilübertreibung \(0.0 bis 1.0\) | +| `useSpeakerBoost` | boolean | Nein | Sprecherverstärkung verwenden \(Standard: true\) | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +### `tts_cartesia` + +Text in Sprache umwandeln mit Cartesia Sonic (extrem geringe Latenz) + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `apiKey` | string | Ja | Cartesia API-Schlüssel | +| `modelId` | string | Nein | Modell-ID \(sonic-english, sonic-multilingual\) | +| `voice` | string | Nein | Stimm-ID oder Embedding | +| `language` | string | Nein | Sprachcode \(en, es, fr, de, it, pt, usw.\) | +| `outputFormat` | json | Nein | Ausgabeformatkonfiguration \(Container, Kodierung, Abtastrate\) | +| `speed` | number | Nein | Geschwindigkeitsmultiplikator | +| `emotion` | array | Nein | Emotions-Tags für Sonic-3 \(z.B. \['positivity:high'\]\) | + +#### Output + +| Parameter | Type | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +### `tts_google` + +Text in Sprache umwandeln mit Google Cloud Text-to-Speech + +#### Input + +| Parameter | Type | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `apiKey` | string | Ja | Google Cloud API-Schlüssel | +| `voiceId` | string | Nein | Stimm-ID (z.B. en-US-Neural2-A, en-US-Wavenet-D) | +| `languageCode` | string | Ja | Sprachcode (z.B. en-US, es-ES, fr-FR) | +| `gender` | string | Nein | Stimmgeschlecht (MALE, FEMALE, NEUTRAL) | +| `audioEncoding` | string | Nein | Audiokodierung (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) | +| `speakingRate` | number | Nein | Sprechgeschwindigkeit (0,25 bis 2,0, Standard: 1,0) | +| `pitch` | number | Nein | Stimmhöhe (-20,0 bis 20,0, Standard: 0,0) | +| `volumeGainDb` | number | Nein | Lautstärkeverstärkung in dB (-96,0 bis 16,0) | +| `sampleRateHertz` | number | Nein | Abtastrate in Hz | +| `effectsProfileId` | array | Nein | Effektprofil (z.B. ['headphone-class-device']) | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +### `tts_azure` + +Text in Sprache umwandeln mit Azure Cognitive Services + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `apiKey` | string | Ja | Azure Speech Services API-Schlüssel | +| `voiceId` | string | Nein | Stimm-ID \(z.B. en-US-JennyNeural, en-US-GuyNeural\) | +| `region` | string | Nein | Azure-Region \(z.B. eastus, westus, westeurope\) | +| `outputFormat` | string | Nein | Ausgabe-Audioformat | +| `rate` | string | Nein | Sprechgeschwindigkeit \(z.B. +10%, -20%, 1.5\) | +| `pitch` | string | Nein | Stimmhöhe \(z.B. +5Hz, -2st, low\) | +| `style` | string | Nein | Sprechstil \(z.B. cheerful, sad, angry - nur für neurale Stimmen\) | +| `styleDegree` | number | Nein | Stilintensität \(0.01 bis 2.0\) | +| `role` | string | Nein | Rolle \(z.B. Girl, Boy, YoungAdultFemale\) | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +### `tts_playht` + +Text in Sprache umwandeln mit PlayHT (Stimmklonen) + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `text` | string | Ja | Der in Sprache umzuwandelnde Text | +| `apiKey` | string | Ja | PlayHT API-Schlüssel \(AUTHORIZATION-Header\) | +| `userId` | string | Ja | PlayHT Benutzer-ID \(X-USER-ID-Header\) | +| `voice` | string | Nein | Stimm-ID oder Manifest-URL | +| `quality` | string | Nein | Qualitätsstufe \(draft, standard, premium\) | +| `outputFormat` | string | Nein | Ausgabeformat \(mp3, wav, ogg, flac, mulaw\) | +| `speed` | number | Nein | Geschwindigkeitsmultiplikator \(0,5 bis 2,0\) | +| `temperature` | number | Nein | Kreativität/Zufälligkeit \(0,0 bis 2,0\) | +| `voiceGuidance` | number | Nein | Stimmstabilität \(1,0 bis 6,0\) | +| `textGuidance` | number | Nein | Texttreue \(1,0 bis 6,0\) | +| `sampleRate` | number | Nein | Abtastrate \(8000, 16000, 22050, 24000, 44100, 48000\) | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL zur generierten Audiodatei | +| `audioFile` | file | Generiertes Audiodateiobjekt | +| `duration` | number | Audiodauer in Sekunden | +| `characterCount` | number | Anzahl der verarbeiteten Zeichen | +| `format` | string | Audioformat | +| `provider` | string | Verwendeter TTS-Anbieter | + +## Notizen + +- Kategorie: `tools` +- Typ: `tts` diff --git a/apps/docs/content/docs/de/tools/video_generator.mdx b/apps/docs/content/docs/de/tools/video_generator.mdx new file mode 100644 index 0000000000..fe81d1731e --- /dev/null +++ b/apps/docs/content/docs/de/tools/video_generator.mdx @@ -0,0 +1,192 @@ +--- +title: Video-Generator +description: Generiere Videos aus Text mit KI +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +Erstelle Videos aus Textaufforderungen mit modernsten KI-Modellen führender Anbieter. Sims Video-Generator bringt leistungsstarke, kreative Videosynthese-Funktionen in deinen Workflow – mit Unterstützung für verschiedene Modelle, Seitenverhältnisse, Auflösungen, Kamerasteuerungen, nativen Ton und fortschrittliche Stil- und Konsistenzfunktionen. + +**Unterstützte Anbieter & Modelle:** + +- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML): + Runway ist ein Pionier in der Text-zu-Video-Generierung, bekannt für leistungsstarke Modelle wie Gen-2, Gen-3 und Gen-4. Das neueste [Gen-4](https://research.runwayml.com/gen2/) Modell (und Gen-4 Turbo für schnellere Ergebnisse) unterstützt realistischere Bewegungen, größere Weltkonsistenz und visuelle Referenzen für Charaktere, Objekte, Stil und Orte. Unterstützt 16:9, 9:16 und 1:1 Seitenverhältnisse, 5-10 Sekunden Dauer, bis zu 4K Auflösung, Stil-Voreinstellungen und direktes Hochladen von Referenzbildern für konsistente Generierungen. Runway bietet kreative Werkzeuge für Filmemacher, Studios und Content-Ersteller weltweit. + +- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind): + [Veo](https://deepmind.google/technologies/veo/) ist Googles Video-Generationsmodell der nächsten Generation, das hochwertige Videos mit nativem Audio in bis zu 1080p und 16 Sekunden Länge bietet. Unterstützt fortschrittliche Bewegungen, filmische Effekte und nuanciertes Textverständnis. Veo kann Videos mit eingebautem Ton generieren – sowohl mit nativem Audio als auch als stumme Clips. Optionen umfassen 16:9 Seitenverhältnis, variable Dauer, verschiedene Modelle (veo-3, veo-3.1) und promptbasierte Steuerungen. Ideal für Storytelling, Werbung, Forschung und Ideenfindung. + +- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI): + [Dream Machine](https://lumalabs.ai/dream-machine) liefert atemberaubend realistische und flüssige Videos aus Text. Es integriert fortschrittliche Kamerasteuerung, Kinematografie-Prompts und unterstützt sowohl ray-1 als auch ray-2 Modelle. Dream Machine unterstützt präzise Seitenverhältnisse (16:9, 9:16, 1:1), variable Dauern und die Spezifikation von Kamerapfaden für komplexe visuelle Führung. Luma ist bekannt für bahnbrechende visuelle Wiedergabetreue und wird von führenden KI-Visions-Forschern unterstützt. + +- **[MiniMax Hailuo-02](https://minimax.chat/)** (über [Fal.ai](https://fal.ai/)): + [MiniMax Hailuo-02](https://minimax.chat/) ist ein anspruchsvolles chinesisches generatives Videomodell, das weltweit über [Fal.ai](https://fal.ai/) verfügbar ist. Generiere Videos bis zu 16 Sekunden im Quer- oder Hochformat, mit Optionen zur Prompt-Optimierung für verbesserte Klarheit und Kreativität. Pro- und Standard-Endpunkte verfügbar, die hohe Auflösungen (bis zu 1920×1080) unterstützen. Gut geeignet für kreative Projekte, die Prompt-Übersetzung und -Optimierung benötigen, kommerzielle Storytelling und schnelle Prototypenerstellung visueller Ideen. + +**Wie man wählt:** +Wähle deinen Anbieter und dein Modell basierend auf deinen Anforderungen an Qualität, Geschwindigkeit, Dauer, Audio, Kosten und einzigartigen Funktionen. Runway und Veo bieten weltweit führenden Realismus und filmische Fähigkeiten; Luma überzeugt durch flüssige Bewegungen und Kamerasteuerung; MiniMax ist ideal für chinesischsprachige Prompts und bietet schnellen, kostengünstigen Zugang. Berücksichtige Referenzunterstützung, Stilvoreinstellungen, Audioanforderungen und Preisgestaltung bei der Auswahl deines Tools. + +Weitere Details zu Funktionen, Einschränkungen, Preisen und Modellfortschritten findest du in der offiziellen Dokumentation der jeweiligen Anbieter oben. +{/* MANUAL-CONTENT-END */} + +## Nutzungsanleitung + +Generiere hochwertige Videos aus Textprompts mit führenden KI-Anbietern. Unterstützt mehrere Modelle, Seitenverhältnisse, Auflösungen und anbieterspezifische Funktionen wie Weltkonsistenz, Kamerasteuerung und Audiogenerierung. + +## Tools + +### `video_runway` + +Generiere Videos mit Runway Gen-4 mit Weltkonsistenz und visuellen Referenzen + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | Video-Anbieter \(runway\) | +| `apiKey` | string | Ja | Runway API-Schlüssel | +| `model` | string | Nein | Runway-Modell: gen-4 \(Standard, höhere Qualität\) oder gen-4-turbo \(schneller\) | +| `prompt` | string | Ja | Textprompt, der das zu generierende Video beschreibt | +| `duration` | number | Nein | Videodauer in Sekunden \(5 oder 10, Standard: 5\) | +| `aspectRatio` | string | Nein | Seitenverhältnis: 16:9 \(Querformat\), 9:16 \(Hochformat\) oder 1:1 \(quadratisch\) | +| `resolution` | string | Nein | Videoauflösung \(720p-Ausgabe\). Hinweis: Gen-4 Turbo gibt nativ in 720p aus | +| `visualReference` | json | Ja | Referenzbild ERFORDERLICH für Gen-4 \(UserFile-Objekt\). Gen-4 unterstützt nur Bild-zu-Video, keine reine Textgenerierung | + +#### Output + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `videoUrl` | string | Generierte Video-URL | +| `videoFile` | json | Video-Dateiobjekt mit Metadaten | +| `duration` | number | Videodauer in Sekunden | +| `width` | number | Videobreite in Pixeln | +| `height` | number | Videohöhe in Pixeln | +| `provider` | string | Verwendeter Anbieter \(runway\) | +| `model` | string | Verwendetes Modell | +| `jobId` | string | Runway-Job-ID | + +### `video_veo` + +Videos mit Google Veo 3/3.1 mit nativer Audiogenerierung erstellen + +#### Input + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | Video-Anbieter \(veo\) | +| `apiKey` | string | Ja | Google Gemini API-Schlüssel | +| `model` | string | Nein | Veo-Modell: veo-3 \(Standard, höchste Qualität\), veo-3-fast \(schneller\) oder veo-3.1 \(neueste Version\) | +| `prompt` | string | Ja | Textaufforderung, die das zu generierende Video beschreibt | +| `duration` | number | Nein | Videodauer in Sekunden \(4, 6 oder 8, Standard: 8\) | +| `aspectRatio` | string | Nein | Seitenverhältnis: 16:9 \(Querformat\) oder 9:16 \(Hochformat\) | +| `resolution` | string | Nein | Videoauflösung: 720p oder 1080p \(Standard: 1080p\) | + +#### Output + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `videoUrl` | string | Generierte Video-URL | +| `videoFile` | json | Video-Dateiobjekt mit Metadaten | +| `duration` | number | Videodauer in Sekunden | +| `width` | number | Videobreite in Pixeln | +| `height` | number | Videohöhe in Pixeln | +| `provider` | string | Verwendeter Anbieter \(veo\) | +| `model` | string | Verwendetes Modell | +| `jobId` | string | Veo-Job-ID | + +### `video_luma` + +Generiere Videos mit Luma Dream Machine mit erweiterten Kamerasteuerungen + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | Video-Anbieter \(luma\) | +| `apiKey` | string | Ja | Luma AI API-Schlüssel | +| `model` | string | Nein | Luma-Modell: ray-2 \(Standard\) | +| `prompt` | string | Ja | Textaufforderung, die das zu generierende Video beschreibt | +| `duration` | number | Nein | Videodauer in Sekunden \(5 oder 9, Standard: 5\) | +| `aspectRatio` | string | Nein | Seitenverhältnis: 16:9 \(Querformat\), 9:16 \(Hochformat\) oder 1:1 \(quadratisch\) | +| `resolution` | string | Nein | Videoauflösung: 540p, 720p oder 1080p \(Standard: 1080p\) | +| `cameraControl` | json | Nein | Kamerasteuerungen als Array von Konzeptobjekten. Format: \[\{ "key": "concept_name" \}\]. Gültige Schlüssel: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld und mehr als 20 weitere vordefinierte Optionen | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `videoUrl` | string | Generierte Video-URL | +| `videoFile` | json | Video-Dateiobjekt mit Metadaten | +| `duration` | number | Videodauer in Sekunden | +| `width` | number | Videobreite in Pixeln | +| `height` | number | Videohöhe in Pixeln | +| `provider` | string | Verwendeter Anbieter \(luma\) | +| `model` | string | Verwendetes Modell | +| `jobId` | string | Luma-Job-ID | + +### `video_minimax` + +Generiere Videos mit MiniMax Hailuo über die MiniMax Platform API mit fortschrittlichem Realismus und Prompt-Optimierung + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | Video-Anbieter \(minimax\) | +| `apiKey` | string | Ja | MiniMax API-Schlüssel von platform.minimax.io | +| `model` | string | Nein | MiniMax-Modell: hailuo-02 \(Standard\) | +| `prompt` | string | Ja | Textprompt, der das zu generierende Video beschreibt | +| `duration` | number | Nein | Videodauer in Sekunden \(6 oder 10, Standard: 6\) | +| `promptOptimizer` | boolean | Nein | Prompt-Optimierung für bessere Ergebnisse aktivieren \(Standard: true\) | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL des generierten Videos | +| `videoFile` | json | Video-Dateiobjekt mit Metadaten | +| `duration` | number | Videodauer in Sekunden | +| `width` | number | Videobreite in Pixeln | +| `height` | number | Videohöhe in Pixeln | +| `provider` | string | Verwendeter Anbieter \(minimax\) | +| `model` | string | Verwendetes Modell | +| `jobId` | string | MiniMax Job-ID | + +### `video_falai` + +Generiere Videos mit der Fal.ai-Plattform mit Zugriff auf mehrere Modelle, darunter Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo und mehr + +#### Eingabe + +| Parameter | Typ | Erforderlich | Beschreibung | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Ja | Video-Anbieter \(falai\) | +| `apiKey` | string | Ja | Fal.ai API-Schlüssel | +| `model` | string | Ja | Fal.ai-Modell: veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) | +| `prompt` | string | Ja | Textprompt, der das zu generierende Video beschreibt | +| `duration` | number | Nein | Videodauer in Sekunden \(variiert je nach Modell\) | +| `aspectRatio` | string | Nein | Seitenverhältnis \(variiert je nach Modell\): 16:9, 9:16, 1:1 | +| `resolution` | string | Nein | Videoauflösung \(variiert je nach Modell\): 540p, 720p, 1080p | +| `promptOptimizer` | boolean | Nein | Prompt-Optimierung für MiniMax-Modelle aktivieren \(Standard: true\) | + +#### Ausgabe + +| Parameter | Typ | Beschreibung | +| --------- | ---- | ----------- | +| `videoUrl` | string | Generierte Video-URL | +| `videoFile` | json | Video-Dateiobjekt mit Metadaten | +| `duration` | number | Videodauer in Sekunden | +| `width` | number | Videobreite in Pixeln | +| `height` | number | Videohöhe in Pixeln | +| `provider` | string | Verwendeter Anbieter \(falai\) | +| `model` | string | Verwendetes Modell | +| `jobId` | string | Job-ID | + +## Hinweise + +- Kategorie: `tools` +- Typ: `video_generator` diff --git a/apps/docs/content/docs/es/tools/stt.mdx b/apps/docs/content/docs/es/tools/stt.mdx index ef31c1bf92..0a31767227 100644 --- a/apps/docs/content/docs/es/tools/stt.mdx +++ b/apps/docs/content/docs/es/tools/stt.mdx @@ -11,20 +11,37 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" /> {/* MANUAL-CONTENT-START:intro */} -Transcribe voz a texto utilizando modelos de IA de vanguardia de proveedores líderes. Las herramientas de Sim de voz a texto (STT) te permiten convertir archivos de audio y video en transcripciones precisas, con soporte para múltiples idiomas, marcas de tiempo y traducción opcional. +Transcribe voz a texto utilizando los modelos de IA más avanzados de proveedores de clase mundial. Las herramientas de reconocimiento de voz (STT) de Sim te permiten convertir audio y video en transcripciones precisas, con marcas de tiempo y opcionalmente traducidas, compatibles con una diversidad de idiomas y mejoradas con características avanzadas como la diarización e identificación de hablantes. -Proveedores compatibles: +**Proveedores y modelos compatibles:** -- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Modelo STT avanzado de código abierto de OpenAI. Compatible con modelos como `whisper-1` y maneja una amplia variedad de idiomas y formatos de audio. -- **[Deepgram](https://deepgram.com/)**: API de STT en tiempo real y por lotes con modelos de aprendizaje profundo como `nova-3`, `nova-2` y `whisper-large`. Ofrece características como diarización, reconocimiento de intención y ajuste específico para industrias. -- **[ElevenLabs](https://elevenlabs.io/)**: Conocido por su IA de voz de alta calidad, ElevenLabs proporciona modelos STT enfocados en precisión y comprensión del lenguaje natural para numerosos idiomas y dialectos. +- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI): + Whisper de OpenAI es un modelo de aprendizaje profundo de código abierto reconocido por su robustez en diferentes idiomas y condiciones de audio. Admite modelos avanzados como `whisper-1`, destacándose en transcripción, traducción y tareas que exigen alta generalización del modelo. Respaldado por OpenAI—la empresa conocida por ChatGPT e investigación líder en IA—Whisper es ampliamente utilizado en investigación y como referencia para evaluación comparativa. -Elige el proveedor y modelo que mejor se adapte a tu tarea, ya sea transcripción rápida de nivel de producción (Deepgram), capacidad multilingüe altamente precisa (Whisper) o comprensión avanzada y cobertura de idiomas (ElevenLabs). +- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.): + Con sede en San Francisco, Deepgram ofrece APIs de reconocimiento de voz escalables y de nivel de producción para desarrolladores y empresas. Los modelos de Deepgram incluyen `nova-3`, `nova-2` y `whisper-large`, ofreciendo transcripción en tiempo real y por lotes con precisión líder en la industria, soporte multilingüe, puntuación automática, diarización inteligente, análisis de llamadas y características para casos de uso que van desde telefonía hasta producción de medios. + +- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs): + Líder en IA de voz, ElevenLabs es especialmente conocido por su síntesis y reconocimiento de voz premium. Su producto STT ofrece alta precisión y comprensión natural de numerosos idiomas, dialectos y acentos. Los modelos recientes de STT de ElevenLabs están optimizados para claridad, distinción de hablantes y son adecuados tanto para escenarios creativos como de accesibilidad. ElevenLabs es reconocido por sus avances de vanguardia en tecnologías de voz impulsadas por IA. + +- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.): + AssemblyAI proporciona reconocimiento de voz altamente preciso basado en API, con características como capítulos automáticos, detección de temas, resúmenes, análisis de sentimientos y moderación de contenido junto con la transcripción. Su modelo propietario, incluyendo el aclamado `Conformer-2`, impulsa algunas de las aplicaciones más grandes de medios, centros de llamadas y cumplimiento normativo en la industria. AssemblyAI cuenta con la confianza de empresas Fortune 500 y startups líderes en IA a nivel mundial. + +- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud): + La API Speech-to-Text de nivel empresarial de Google admite más de 125 idiomas y variantes, ofreciendo alta precisión y características como transmisión en tiempo real, confianza a nivel de palabra, diarización de hablantes, puntuación automática, vocabulario personalizado y ajuste específico por dominio. Modelos como `latest_long`, `video`, y modelos optimizados por dominio están disponibles, impulsados por años de investigación de Google y desplegados para escalabilidad global. + +- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services): + AWS Transcribe aprovecha la infraestructura en la nube de Amazon para ofrecer un robusto reconocimiento de voz como API. Admite múltiples idiomas y características como identificación de hablantes, vocabulario personalizado, identificación de canales (para audio de centros de llamadas) y transcripción específica para medicina. Los modelos populares incluyen `standard` y variaciones específicas por dominio. AWS Transcribe es ideal para organizaciones que ya utilizan la nube de Amazon. + +**Cómo elegir:** +Selecciona el proveedor y modelo que se adapte a tu aplicación—ya sea que necesites transcripción rápida y lista para empresas con análisis adicionales (Deepgram, AssemblyAI, Google, AWS), alta versatilidad y acceso de código abierto (OpenAI Whisper), o comprensión avanzada de hablantes/contextual (ElevenLabs). Considera el precio, la cobertura de idiomas, la precisión y cualquier característica especial (como resúmenes, capítulos o análisis de sentimiento) que puedas necesitar. + +Para más detalles sobre capacidades, precios, características destacadas y opciones de ajuste fino, consulta la documentación oficial de cada proveedor a través de los enlaces anteriores. {/* MANUAL-CONTENT-END */} ## Instrucciones de uso -Transcribe archivos de audio y video a texto utilizando proveedores de IA líderes. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes. +Transcribe archivos de audio y video a texto utilizando proveedores líderes de IA. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes. ## Herramientas @@ -38,13 +55,15 @@ Transcribe audio a texto usando OpenAI Whisper | --------- | ---- | -------- | ----------- | | `provider` | string | Sí | Proveedor STT \(whisper\) | | `apiKey` | string | Sí | Clave API de OpenAI | -| `model` | string | No | Modelo Whisper a utilizar \(predeterminado: whisper-1\) | +| `model` | string | No | Modelo de Whisper a utilizar \(predeterminado: whisper-1\) | | `audioFile` | file | No | Archivo de audio o video para transcribir | -| `audioFileReference` | file | No | Referencia a archivo de audio/video de bloques anteriores | +| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores | | `audioUrl` | string | No | URL al archivo de audio o video | | `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática | -| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word | +| `timestamps` | string | No | Granularidad de marca de tiempo: none, sentence, o word | | `translateToEnglish` | boolean | No | Traducir audio a inglés | +| `prompt` | string | No | Texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. Ayuda con nombres propios y contexto. | +| `temperature` | number | No | Temperatura de muestreo entre 0 y 1. Valores más altos hacen que la salida sea más aleatoria, valores más bajos más enfocada y determinista. | #### Salida @@ -54,11 +73,10 @@ Transcribe audio a texto usando OpenAI Whisper | `segments` | array | Segmentos con marcas de tiempo | | `language` | string | Idioma detectado o especificado | | `duration` | number | Duración del audio en segundos | -| `confidence` | number | Puntuación de confianza general | ### `stt_deepgram` -Transcribe audio a texto usando Deepgram +Transcribir audio a texto usando Deepgram #### Entrada @@ -86,11 +104,11 @@ Transcribe audio a texto usando Deepgram ### `stt_elevenlabs` -Transcribe audio a texto usando ElevenLabs +Transcribir audio a texto usando ElevenLabs #### Entrada -| Parámetro | Tipo | Requerido | Descripción | +| Parámetro | Tipo | Obligatorio | Descripción | | --------- | ---- | -------- | ----------- | | `provider` | string | Sí | Proveedor STT \(elevenlabs\) | | `apiKey` | string | Sí | Clave API de ElevenLabs | @@ -99,7 +117,69 @@ Transcribe audio a texto usando ElevenLabs | `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores | | `audioUrl` | string | No | URL al archivo de audio o video | | `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática | -| `timestamps` | string | No | Granularidad de marca de tiempo: none, sentence, o word | +| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `transcript` | string | Texto transcrito completo | +| `segments` | array | Segmentos con marcas de tiempo | +| `language` | string | Idioma detectado o especificado | +| `duration` | number | Duración del audio en segundos | +| `confidence` | number | Puntuación de confianza general | + +### `stt_assemblyai` + +Transcribir audio a texto usando AssemblyAI con funciones avanzadas de PLN + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor STT \(assemblyai\) | +| `apiKey` | string | Sí | Clave API de AssemblyAI | +| `model` | string | No | Modelo de AssemblyAI a utilizar \(predeterminado: best\) | +| `audioFile` | file | No | Archivo de audio o video para transcribir | +| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores | +| `audioUrl` | string | No | URL al archivo de audio o video | +| `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática | +| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word | +| `diarization` | boolean | No | Habilitar diarización de hablantes | +| `sentiment` | boolean | No | Habilitar análisis de sentimiento | +| `entityDetection` | boolean | No | Habilitar detección de entidades | +| `piiRedaction` | boolean | No | Habilitar redacción de IIP | +| `summarization` | boolean | No | Habilitar resumen automático | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `transcript` | string | Texto transcrito completo | +| `segments` | array | Segmentos con marcas de tiempo y etiquetas de hablantes | +| `language` | string | Idioma detectado o especificado | +| `duration` | number | Duración del audio en segundos | +| `confidence` | number | Puntuación de confianza general | +| `sentiment` | array | Resultados del análisis de sentimiento | +| `entities` | array | Entidades detectadas | +| `summary` | string | Resumen generado automáticamente | + +### `stt_gemini` + +Transcribe audio a texto usando Google Gemini con capacidades multimodales + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor STT \(gemini\) | +| `apiKey` | string | Sí | Clave API de Google | +| `model` | string | No | Modelo de Gemini a utilizar \(predeterminado: gemini-2.5-flash\) | +| `audioFile` | file | No | Archivo de audio o video para transcribir | +| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores | +| `audioUrl` | string | No | URL al archivo de audio o video | +| `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática | +| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word | #### Salida diff --git a/apps/docs/content/docs/es/tools/tts.mdx b/apps/docs/content/docs/es/tools/tts.mdx new file mode 100644 index 0000000000..1b4722a46f --- /dev/null +++ b/apps/docs/content/docs/es/tools/tts.mdx @@ -0,0 +1,256 @@ +--- +title: Texto a voz +description: Convierte texto a voz utilizando voces de IA +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +Convierte texto en voz de sonido natural utilizando las últimas voces de IA. Las herramientas de texto a voz (TTS) de Sim te permiten generar audio a partir de texto escrito en docenas de idiomas, con una selección de voces expresivas, formatos y controles avanzados como velocidad, estilo, emoción y más. + +**Proveedores y modelos compatibles:** + +- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI): + La API TTS de OpenAI ofrece voces ultra realistas utilizando modelos avanzados de IA como `tts-1`, `tts-1-hd` y `gpt-4o-mini-tts`. Las voces incluyen tanto masculinas como femeninas, con opciones como alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage y verse. Compatible con múltiples formatos de audio (mp3, opus, aac, flac, wav, pcm), velocidad ajustable y síntesis en streaming. + +- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.): + Aura de Deepgram proporciona voces de IA expresivas en inglés y multilingües, optimizadas para claridad conversacional, baja latencia y personalización. Están disponibles modelos como `aura-asteria-en`, `aura-luna-en` y otros. Compatible con múltiples formatos de codificación (linear16, mp3, opus, aac, flac) y ajuste fino de velocidad, frecuencia de muestreo y estilo. + +- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs): + ElevenLabs lidera en TTS realista y emocionalmente rico, ofreciendo docenas de voces en más de 29 idiomas y la capacidad de clonar voces personalizadas. Los modelos admiten diseño de voz, síntesis de habla y acceso directo a API, con controles avanzados para estilo, emoción, estabilidad y similitud. Adecuado para audiolibros, creación de contenido, accesibilidad y más. + +- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia): + Cartesia ofrece texto a voz de alta calidad, rápido y seguro con un enfoque en la privacidad y la implementación flexible. Proporciona streaming instantáneo, síntesis en tiempo real y es compatible con múltiples voces y acentos internacionales, accesibles a través de una API sencilla. + +- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud): + Google utiliza los modelos DeepMind WaveNet y Neural2 para potenciar voces de alta fidelidad en más de 50 idiomas y variantes. Las características incluyen selección de voz, tono, velocidad de habla, control de volumen, etiquetas SSML y acceso tanto a voces estándar como a voces premium de calidad de estudio. Ampliamente utilizado para accesibilidad, IVR y medios. + +- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure): + Azure proporciona más de 400 voces neuronales en más de 140 idiomas y configuraciones regionales, con personalización única de voz, estilo, emoción, rol y controles en tiempo real. Ofrece soporte SSML para pronunciación, entonación y más. Ideal para necesidades globales, empresariales o creativas de TTS. + +- **[PlayHT](https://play.ht/)** (PlayHT): + PlayHT se especializa en síntesis de voz realista, clonación de voz y reproducción instantánea con más de 800 voces en más de 100 idiomas. Las características incluyen controles de emoción, tono y velocidad, audio con múltiples voces y creación de voces personalizadas a través de la API o estudio en línea. + +**Cómo elegir:** +Selecciona tu proveedor y modelo priorizando idiomas, tipos de voces compatibles, formatos deseados (mp3, wav, etc.), granularidad de control (velocidad, emoción, etc.) y características especializadas (clonación de voz, acento, streaming). Para casos de uso creativos, de accesibilidad o de desarrollo, asegúrate de la compatibilidad con los requisitos de tu aplicación y compara costos. + +¡Visita el sitio oficial de cada proveedor para obtener información actualizada sobre capacidades, precios y documentación! +{/* MANUAL-CONTENT-END */} + +## Instrucciones de uso + +Genera voz de sonido natural a partir de texto utilizando voces de IA de última generación de OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure y PlayHT. Compatible con múltiples voces, idiomas y formatos de audio. + +## Herramientas + +### `tts_openai` + +Convierte texto a voz utilizando modelos TTS de OpenAI + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | ----------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `apiKey` | string | Sí | Clave API de OpenAI | +| `model` | string | No | Modelo TTS a utilizar \(tts-1, tts-1-hd, o gpt-4o-mini-tts\) | +| `voice` | string | No | Voz a utilizar \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) | +| `responseFormat` | string | No | Formato de audio \(mp3, opus, aac, flac, wav, pcm\) | +| `speed` | number | No | Velocidad del habla \(0.25 a 4.0, predeterminado: 1.0\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL del archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +### `tts_deepgram` + +Convertir texto a voz usando Deepgram Aura + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `apiKey` | string | Sí | Clave API de Deepgram | +| `model` | string | No | Modelo/voz de Deepgram (ej., aura-asteria-en, aura-luna-en) | +| `voice` | string | No | Identificador de voz (alternativa al parámetro model) | +| `encoding` | string | No | Codificación de audio (linear16, mp3, opus, aac, flac) | +| `sampleRate` | number | No | Frecuencia de muestreo (8000, 16000, 24000, 48000) | +| `bitRate` | number | No | Tasa de bits para formatos comprimidos | +| `container` | string | No | Formato de contenedor (none, wav, ogg) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL del archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +### `tts_elevenlabs` + +Convierte texto a voz usando voces de ElevenLabs + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `voiceId` | string | Sí | El ID de la voz a utilizar | +| `apiKey` | string | Sí | Clave API de ElevenLabs | +| `modelId` | string | No | Modelo a utilizar \(p. ej., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) | +| `stability` | number | No | Estabilidad de voz \(0.0 a 1.0, predeterminado: 0.5\) | +| `similarityBoost` | number | No | Aumento de similitud \(0.0 a 1.0, predeterminado: 0.8\) | +| `style` | number | No | Exageración de estilo \(0.0 a 1.0\) | +| `useSpeakerBoost` | boolean | No | Usar potenciador de altavoz \(predeterminado: true\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL al archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +### `tts_cartesia` + +Convierte texto a voz usando Cartesia Sonic (latencia ultra baja) + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `apiKey` | string | Sí | Clave API de Cartesia | +| `modelId` | string | No | ID del modelo \(sonic-english, sonic-multilingual\) | +| `voice` | string | No | ID de voz o embedding | +| `language` | string | No | Código de idioma \(en, es, fr, de, it, pt, etc.\) | +| `outputFormat` | json | No | Configuración de formato de salida \(container, encoding, sampleRate\) | +| `speed` | number | No | Multiplicador de velocidad | +| `emotion` | array | No | Etiquetas de emoción para Sonic-3 \(p. ej., \['positivity:high'\]\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL al archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +### `tts_google` + +Convertir texto a voz utilizando Google Cloud Text-to-Speech + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | ----------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `apiKey` | string | Sí | Clave API de Google Cloud | +| `voiceId` | string | No | ID de voz (p. ej., en-US-Neural2-A, en-US-Wavenet-D) | +| `languageCode` | string | Sí | Código de idioma (p. ej., en-US, es-ES, fr-FR) | +| `gender` | string | No | Género de voz (MALE, FEMALE, NEUTRAL) | +| `audioEncoding` | string | No | Codificación de audio (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) | +| `speakingRate` | number | No | Velocidad de habla (0.25 a 2.0, predeterminado: 1.0) | +| `pitch` | number | No | Tono de voz (-20.0 a 20.0, predeterminado: 0.0) | +| `volumeGainDb` | number | No | Ganancia de volumen en dB (-96.0 a 16.0) | +| `sampleRateHertz` | number | No | Frecuencia de muestreo en Hz | +| `effectsProfileId` | array | No | Perfil de efectos (p. ej., ['headphone-class-device']) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL al archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +### `tts_azure` + +Convertir texto a voz usando Azure Cognitive Services + +#### Entrada + +| Parámetro | Tipo | Requerido | Descripción | +| --------- | ---- | -------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `apiKey` | string | Sí | Clave de API de Azure Speech Services | +| `voiceId` | string | No | ID de voz (p. ej., en-US-JennyNeural, en-US-GuyNeural) | +| `region` | string | No | Región de Azure (p. ej., eastus, westus, westeurope) | +| `outputFormat` | string | No | Formato de audio de salida | +| `rate` | string | No | Velocidad de habla (p. ej., +10%, -20%, 1.5) | +| `pitch` | string | No | Tono de voz (p. ej., +5Hz, -2st, bajo) | +| `style` | string | No | Estilo de habla (p. ej., alegre, triste, enojado - solo voces neurales) | +| `styleDegree` | number | No | Intensidad del estilo (0.01 a 2.0) | +| `role` | string | No | Rol (p. ej., Niña, Niño, MujerJovenAdulta) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL al archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +### `tts_playht` + +Convertir texto a voz usando PlayHT (clonación de voz) + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `text` | string | Sí | El texto a convertir en voz | +| `apiKey` | string | Sí | Clave API de PlayHT \(encabezado AUTHORIZATION\) | +| `userId` | string | Sí | ID de usuario de PlayHT \(encabezado X-USER-ID\) | +| `voice` | string | No | ID de voz o URL del manifiesto | +| `quality` | string | No | Nivel de calidad \(draft, standard, premium\) | +| `outputFormat` | string | No | Formato de salida \(mp3, wav, ogg, flac, mulaw\) | +| `speed` | number | No | Multiplicador de velocidad \(0.5 a 2.0\) | +| `temperature` | number | No | Creatividad/aleatoriedad \(0.0 a 2.0\) | +| `voiceGuidance` | number | No | Estabilidad de voz \(1.0 a 6.0\) | +| `textGuidance` | number | No | Adherencia al texto \(1.0 a 6.0\) | +| `sampleRate` | number | No | Frecuencia de muestreo \(8000, 16000, 22050, 24000, 44100, 48000\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL del archivo de audio generado | +| `audioFile` | file | Objeto de archivo de audio generado | +| `duration` | number | Duración del audio en segundos | +| `characterCount` | number | Número de caracteres procesados | +| `format` | string | Formato de audio | +| `provider` | string | Proveedor de TTS utilizado | + +## Notas + +- Categoría: `tools` +- Tipo: `tts` diff --git a/apps/docs/content/docs/es/tools/video_generator.mdx b/apps/docs/content/docs/es/tools/video_generator.mdx new file mode 100644 index 0000000000..a046194a8b --- /dev/null +++ b/apps/docs/content/docs/es/tools/video_generator.mdx @@ -0,0 +1,192 @@ +--- +title: Generador de vídeos +description: Genera vídeos a partir de texto usando IA +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +Crea vídeos a partir de indicaciones de texto utilizando modelos de IA de vanguardia de los principales proveedores. El Generador de Vídeos de Sim incorpora potentes capacidades de síntesis creativa de vídeo a tu flujo de trabajo, con soporte para diversos modelos, relaciones de aspecto, resoluciones, controles de cámara, audio nativo y funciones avanzadas de estilo y consistencia. + +**Proveedores y modelos compatibles:** + +- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML): + Runway es pionero en la generación de texto a vídeo, conocido por potentes modelos como Gen-2, Gen-3 y Gen-4. El último modelo [Gen-4](https://research.runwayml.com/gen2/) (y Gen-4 Turbo para resultados más rápidos) admite un movimiento más realista, mayor consistencia del entorno y referencias visuales para personajes, objetos, estilo y ubicación. Compatible con relaciones de aspecto 16:9, 9:16 y 1:1, duraciones de 5-10 segundos, resolución de hasta 4K, ajustes preestablecidos de estilo y carga directa de imágenes de referencia para generaciones consistentes. Runway potencia herramientas creativas para cineastas, estudios y creadores de contenido en todo el mundo. + +- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind): + [Veo](https://deepmind.google/technologies/veo/) es el modelo de generación de vídeo de próxima generación de Google, que ofrece vídeos de alta calidad con audio nativo de hasta 1080p y 16 segundos. Compatible con movimiento avanzado, efectos cinematográficos y comprensión matizada del texto. Veo puede generar vídeos con sonido incorporado, activando tanto audio nativo como clips silenciosos. Las opciones incluyen relación de aspecto 16:9, duración variable, diferentes modelos (veo-3, veo-3.1) y controles basados en indicaciones. Ideal para narración, publicidad, investigación e ideación. + +- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI): + [Dream Machine](https://lumalabs.ai/dream-machine) ofrece vídeos sorprendentemente realistas y fluidos a partir de texto. Incorpora control avanzado de cámara, indicaciones de cinematografía y es compatible con los modelos ray-1 y ray-2. Dream Machine admite relaciones de aspecto precisas (16:9, 9:16, 1:1), duraciones variables y la especificación de trayectorias de cámara para una dirección visual intrincada. Luma es reconocido por su revolucionaria fidelidad visual y cuenta con el respaldo de destacados investigadores en visión por IA. + +- **[MiniMax Hailuo-02](https://minimax.chat/)** (a través de [Fal.ai](https://fal.ai/)): + [MiniMax Hailuo-02](https://minimax.chat/) es un sofisticado modelo generativo de video chino, disponible globalmente a través de [Fal.ai](https://fal.ai/). Genera videos de hasta 16 segundos en formato horizontal o vertical, con opciones para optimización de prompts para mejorar la claridad y creatividad. Endpoints pro y estándar disponibles, soportando altas resoluciones (hasta 1920×1080). Bien adaptado para proyectos creativos que necesitan traducción y optimización de prompts, narración comercial y prototipado rápido de ideas visuales. + +**Cómo elegir:** +Selecciona tu proveedor y modelo según tus necesidades de calidad, velocidad, duración, audio, costo y características únicas. Runway y Veo ofrecen realismo y capacidades cinematográficas líderes en el mundo; Luma sobresale en movimiento fluido y control de cámara; MiniMax es ideal para prompts en idioma chino y ofrece acceso rápido y asequible. Considera el soporte de referencias, preajustes de estilo, requisitos de audio y precios al seleccionar tu herramienta. + +Para más detalles sobre características, restricciones, precios y avances de modelos, consulta la documentación oficial de cada proveedor mencionada anteriormente. +{/* MANUAL-CONTENT-END */} + +## Instrucciones de uso + +Genera videos de alta calidad a partir de prompts de texto utilizando proveedores líderes de IA. Compatible con múltiples modelos, relaciones de aspecto, resoluciones y características específicas de proveedores como consistencia del mundo, controles de cámara y generación de audio. + +## Herramientas + +### `video_runway` + +Genera videos usando Runway Gen-4 con consistencia del mundo y referencias visuales + +#### Entrada + +| Parámetro | Tipo | Requerido | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor de video \(runway\) | +| `apiKey` | string | Sí | Clave API de Runway | +| `model` | string | No | Modelo de Runway: gen-4 \(predeterminado, mayor calidad\) o gen-4-turbo \(más rápido\) | +| `prompt` | string | Sí | Prompt de texto que describe el video a generar | +| `duration` | number | No | Duración del video en segundos \(5 o 10, predeterminado: 5\) | +| `aspectRatio` | string | No | Relación de aspecto: 16:9 \(horizontal\), 9:16 \(vertical\), o 1:1 \(cuadrado\) | +| `resolution` | string | No | Resolución de video \(salida 720p\). Nota: Gen-4 Turbo produce nativamente a 720p | +| `visualReference` | json | Sí | Imagen de referencia REQUERIDA para Gen-4 \(objeto UserFile\). Gen-4 solo admite generación de imagen a video, no generación solo de texto | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL del video generado | +| `videoFile` | json | Objeto de archivo de video con metadatos | +| `duration` | number | Duración del video en segundos | +| `width` | number | Ancho del video en píxeles | +| `height` | number | Alto del video en píxeles | +| `provider` | string | Proveedor utilizado \(runway\) | +| `model` | string | Modelo utilizado | +| `jobId` | string | ID de trabajo de Runway | + +### `video_veo` + +Generar videos usando Google Veo 3/3.1 con generación de audio nativa + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor de video \(veo\) | +| `apiKey` | string | Sí | Clave API de Google Gemini | +| `model` | string | No | Modelo Veo: veo-3 \(predeterminado, mayor calidad\), veo-3-fast \(más rápido\), o veo-3.1 \(más reciente\) | +| `prompt` | string | Sí | Texto descriptivo del video a generar | +| `duration` | number | No | Duración del video en segundos \(4, 6, u 8, predeterminado: 8\) | +| `aspectRatio` | string | No | Relación de aspecto: 16:9 \(horizontal\) o 9:16 \(vertical\) | +| `resolution` | string | No | Resolución de video: 720p o 1080p \(predeterminado: 1080p\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL del video generado | +| `videoFile` | json | Objeto de archivo de video con metadatos | +| `duration` | number | Duración del video en segundos | +| `width` | number | Ancho del video en píxeles | +| `height` | number | Alto del video en píxeles | +| `provider` | string | Proveedor utilizado \(veo\) | +| `model` | string | Modelo utilizado | +| `jobId` | string | ID de trabajo de Veo | + +### `video_luma` + +Genera videos usando Luma Dream Machine con controles avanzados de cámara + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor de video \(luma\) | +| `apiKey` | string | Sí | Clave API de Luma AI | +| `model` | string | No | Modelo de Luma: ray-2 \(predeterminado\) | +| `prompt` | string | Sí | Texto descriptivo del video a generar | +| `duration` | number | No | Duración del video en segundos \(5 o 9, predeterminado: 5\) | +| `aspectRatio` | string | No | Relación de aspecto: 16:9 \(horizontal\), 9:16 \(vertical\), o 1:1 \(cuadrado\) | +| `resolution` | string | No | Resolución de video: 540p, 720p, o 1080p \(predeterminado: 1080p\) | +| `cameraControl` | json | No | Controles de cámara como array de objetos de concepto. Formato: \[\{ "key": "concept_name" \}\]. Claves válidas: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld, y más de 20 opciones predefinidas adicionales | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL del video generado | +| `videoFile` | json | Objeto de archivo de video con metadatos | +| `duration` | number | Duración del video en segundos | +| `width` | number | Ancho del video en píxeles | +| `height` | number | Alto del video en píxeles | +| `provider` | string | Proveedor utilizado \(luma\) | +| `model` | string | Modelo utilizado | +| `jobId` | string | ID de trabajo de Luma | + +### `video_minimax` + +Genera videos usando MiniMax Hailuo a través de la API de la plataforma MiniMax con realismo avanzado y optimización de instrucciones + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor de video \(minimax\) | +| `apiKey` | string | Sí | Clave API de MiniMax desde platform.minimax.io | +| `model` | string | No | Modelo de MiniMax: hailuo-02 \(predeterminado\) | +| `prompt` | string | Sí | Instrucción de texto que describe el video a generar | +| `duration` | number | No | Duración del video en segundos \(6 o 10, predeterminado: 6\) | +| `promptOptimizer` | boolean | No | Habilitar optimización de instrucciones para mejores resultados \(predeterminado: true\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL del video generado | +| `videoFile` | json | Objeto de archivo de video con metadatos | +| `duration` | number | Duración del video en segundos | +| `width` | number | Ancho del video en píxeles | +| `height` | number | Alto del video en píxeles | +| `provider` | string | Proveedor utilizado \(minimax\) | +| `model` | string | Modelo utilizado | +| `jobId` | string | ID de trabajo de MiniMax | + +### `video_falai` + +Genera videos usando la plataforma Fal.ai con acceso a múltiples modelos incluyendo Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo y más + +#### Entrada + +| Parámetro | Tipo | Obligatorio | Descripción | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Sí | Proveedor de video \(falai\) | +| `apiKey` | string | Sí | Clave API de Fal.ai | +| `model` | string | Sí | Modelo de Fal.ai: veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) | +| `prompt` | string | Sí | Instrucción de texto que describe el video a generar | +| `duration` | number | No | Duración del video en segundos \(varía según el modelo\) | +| `aspectRatio` | string | No | Relación de aspecto \(varía según el modelo\): 16:9, 9:16, 1:1 | +| `resolution` | string | No | Resolución de video \(varía según el modelo\): 540p, 720p, 1080p | +| `promptOptimizer` | boolean | No | Habilitar optimización de instrucciones para modelos MiniMax \(predeterminado: true\) | + +#### Salida + +| Parámetro | Tipo | Descripción | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL del video generado | +| `videoFile` | json | Objeto de archivo de video con metadatos | +| `duration` | number | Duración del video en segundos | +| `width` | number | Ancho del video en píxeles | +| `height` | number | Alto del video en píxeles | +| `provider` | string | Proveedor utilizado \(falai\) | +| `model` | string | Modelo utilizado | +| `jobId` | string | ID del trabajo | + +## Notas + +- Categoría: `tools` +- Tipo: `video_generator` diff --git a/apps/docs/content/docs/fr/tools/stt.mdx b/apps/docs/content/docs/fr/tools/stt.mdx index 708a5661d2..f3fe5203b0 100644 --- a/apps/docs/content/docs/fr/tools/stt.mdx +++ b/apps/docs/content/docs/fr/tools/stt.mdx @@ -11,15 +11,32 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" /> {/* MANUAL-CONTENT-START:intro */} -Transcrivez la parole en texte en utilisant des modèles d'IA de pointe des principaux fournisseurs. Les outils Sim de reconnaissance vocale (STT) vous permettent de convertir des fichiers audio et vidéo en transcriptions précises, prenant en charge plusieurs langues, horodatages et traduction optionnelle. +Transcrivez la parole en texte en utilisant les derniers modèles d'IA des fournisseurs de classe mondiale. Les outils de reconnaissance vocale (STT) de Sim vous permettent de transformer l'audio et la vidéo en transcriptions précises, horodatées et optionnellement traduites, prenant en charge une diversité de langues et enrichies de fonctionnalités avancées telles que la diarisation et l'identification des locuteurs. -Fournisseurs pris en charge : +**Fournisseurs et modèles pris en charge :** -- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** : Modèle STT open-source avancé d'OpenAI. Prend en charge des modèles tels que `whisper-1` et gère une grande variété de langues et de formats audio. -- **[Deepgram](https://deepgram.com/)** : API STT en temps réel et par lots avec des modèles d'apprentissage profond comme `nova-3`, `nova-2` et `whisper-large`. Offre des fonctionnalités comme la diarisation, la reconnaissance d'intention et le réglage spécifique à l'industrie. -- **[ElevenLabs](https://elevenlabs.io/)** : Connu pour l'IA vocale de haute qualité, ElevenLabs fournit des modèles STT axés sur la précision et la compréhension du langage naturel pour de nombreuses langues et dialectes. +- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI) : + Whisper d'OpenAI est un modèle d'apprentissage profond open-source reconnu pour sa robustesse à travers les langues et les conditions audio. Il prend en charge des modèles avancés tels que `whisper-1`, excellant dans la transcription, la traduction et les tâches exigeant une généralisation élevée du modèle. Soutenu par OpenAI—l'entreprise connue pour ChatGPT et la recherche de pointe en IA—Whisper est largement utilisé dans la recherche et comme référence pour l'évaluation comparative. -Choisissez le fournisseur et le modèle les mieux adaptés à votre tâche — que ce soit pour une transcription rapide de qualité production (Deepgram), une capacité multilingue hautement précise (Whisper), ou une compréhension avancée et une couverture linguistique étendue (ElevenLabs). +- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.) : + Basée à San Francisco, Deepgram propose des API de reconnaissance vocale évolutives et de qualité production pour les développeurs et les entreprises. Les modèles de Deepgram incluent `nova-3`, `nova-2`, et `whisper-large`, offrant une transcription en temps réel et par lots avec une précision de premier plan, un support multilingue, une ponctuation automatique, une diarisation intelligente, des analyses d'appels et des fonctionnalités pour des cas d'utilisation allant de la téléphonie à la production médiatique. + +- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs) : + Leader dans l'IA vocale, ElevenLabs est particulièrement connu pour la synthèse et la reconnaissance vocale de qualité supérieure. Son produit STT offre une compréhension naturelle et de haute précision de nombreuses langues, dialectes et accents. Les modèles STT récents d'ElevenLabs sont optimisés pour la clarté, la distinction des locuteurs, et conviennent aussi bien aux scénarios créatifs qu'à l'accessibilité. ElevenLabs est reconnu pour ses avancées de pointe dans les technologies vocales alimentées par l'IA. + +- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.) : + AssemblyAI fournit une reconnaissance vocale pilotée par API, hautement précise, avec des fonctionnalités telles que le chapitrage automatique, la détection de sujets, la synthèse, l'analyse de sentiment et la modération de contenu en plus de la transcription. Son modèle propriétaire, incluant le célèbre `Conformer-2`, alimente certaines des plus grandes applications de médias, de centres d'appels et de conformité dans l'industrie. AssemblyAI est utilisé par des entreprises du Fortune 500 et des startups d'IA de premier plan dans le monde entier. + +- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud) : + L'API Speech-to-Text de niveau entreprise de Google prend en charge plus de 125 langues et variantes, offrant une haute précision et des fonctionnalités telles que la diffusion en temps réel, la confiance au niveau des mots, la diarisation des locuteurs, la ponctuation automatique, le vocabulaire personnalisé et l'optimisation pour des domaines spécifiques. Des modèles tels que `latest_long`, `video`, et des modèles optimisés par domaine sont disponibles, alimentés par des années de recherche de Google et déployés pour une évolutivité mondiale. + +- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services) : + AWS Transcribe s'appuie sur l'infrastructure cloud d'Amazon pour fournir une reconnaissance vocale robuste sous forme d'API. Il prend en charge plusieurs langues et des fonctionnalités telles que l'identification des locuteurs, le vocabulaire personnalisé, l'identification des canaux (pour l'audio des centres d'appels) et la transcription spécifique au domaine médical. Les modèles populaires incluent `standard` et des variations spécifiques à certains domaines. AWS Transcribe est idéal pour les organisations utilisant déjà le cloud d'Amazon. + +**Comment choisir :** +Sélectionnez le fournisseur et le modèle qui correspondent à votre application — que vous ayez besoin d'une transcription rapide et prête pour l'entreprise avec des analyses supplémentaires (Deepgram, AssemblyAI, Google, AWS), d'une grande polyvalence et d'un accès open-source (OpenAI Whisper), ou d'une compréhension avancée des locuteurs et du contexte (ElevenLabs). Tenez compte des tarifs, de la couverture linguistique, de la précision et de toutes les fonctionnalités spéciales (comme la synthèse, le chapitrage ou l'analyse des sentiments) dont vous pourriez avoir besoin. + +Pour plus de détails sur les capacités, les tarifs, les principales fonctionnalités et les options de réglage fin, consultez la documentation officielle de chaque fournisseur via les liens ci-dessus. {/* MANUAL-CONTENT-END */} ## Instructions d'utilisation @@ -35,16 +52,18 @@ Transcrire l'audio en texte avec OpenAI Whisper #### Entrée | Paramètre | Type | Obligatoire | Description | -| --------- | ---- | -------- | ----------- | -| `provider` | string | Oui | Fournisseur STT \(whisper\) | -| `apiKey` | string | Oui | Clé API OpenAI | -| `model` | string | Non | Modèle Whisper à utiliser \(par défaut : whisper-1\) | -| `audioFile` | file | Non | Fichier audio ou vidéo à transcrire | -| `audioFileReference` | file | Non | Référence au fichier audio/vidéo des blocs précédents | -| `audioUrl` | string | Non | URL vers un fichier audio ou vidéo | -| `language` | string | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique | -| `timestamps` | string | Non | Granularité des horodatages : none, sentence, ou word | -| `translateToEnglish` | boolean | Non | Traduire l'audio en anglais | +| --------- | ---- | ---------- | ----------- | +| `provider` | chaîne | Oui | Fournisseur STT \(whisper\) | +| `apiKey` | chaîne | Oui | Clé API OpenAI | +| `model` | chaîne | Non | Modèle Whisper à utiliser \(par défaut : whisper-1\) | +| `audioFile` | fichier | Non | Fichier audio ou vidéo à transcrire | +| `audioFileReference` | fichier | Non | Référence au fichier audio/vidéo des blocs précédents | +| `audioUrl` | chaîne | Non | URL vers un fichier audio ou vidéo | +| `language` | chaîne | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique | +| `timestamps` | chaîne | Non | Granularité des horodatages : none, sentence, ou word | +| `translateToEnglish` | booléen | Non | Traduire l'audio en anglais | +| `prompt` | chaîne | Non | Texte facultatif pour guider le style du modèle ou continuer un segment audio précédent. Aide avec les noms propres et le contexte. | +| `temperature` | nombre | Non | Température d'échantillonnage entre 0 et 1. Des valeurs plus élevées rendent la sortie plus aléatoire, des valeurs plus basses la rendent plus ciblée et déterministe. | #### Sortie @@ -54,11 +73,10 @@ Transcrire l'audio en texte avec OpenAI Whisper | `segments` | array | Segments horodatés | | `language` | string | Langue détectée ou spécifiée | | `duration` | number | Durée audio en secondes | -| `confidence` | number | Score de confiance global | ### `stt_deepgram` -Transcrire l'audio en texte en utilisant Deepgram +Transcrire l'audio en texte avec Deepgram #### Entrée @@ -79,14 +97,14 @@ Transcrire l'audio en texte en utilisant Deepgram | Paramètre | Type | Description | | --------- | ---- | ----------- | | `transcript` | string | Texte transcrit complet | -| `segments` | array | Segments horodatés avec étiquettes de locuteurs | +| `segments` | array | Segments horodatés avec identification des locuteurs | | `language` | string | Langue détectée ou spécifiée | | `duration` | number | Durée audio en secondes | | `confidence` | number | Score de confiance global | ### `stt_elevenlabs` -Transcrire l'audio en texte avec ElevenLabs +Transcrire l'audio en texte en utilisant ElevenLabs #### Entrée @@ -111,6 +129,68 @@ Transcrire l'audio en texte avec ElevenLabs | `duration` | nombre | Durée audio en secondes | | `confidence` | nombre | Score de confiance global | +### `stt_assemblyai` + +Transcrire l'audio en texte en utilisant AssemblyAI avec des fonctionnalités avancées de NLP + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | ---------- | ----------- | +| `provider` | chaîne | Oui | Fournisseur STT \(assemblyai\) | +| `apiKey` | chaîne | Oui | Clé API AssemblyAI | +| `model` | chaîne | Non | Modèle AssemblyAI à utiliser \(par défaut : best\) | +| `audioFile` | fichier | Non | Fichier audio ou vidéo à transcrire | +| `audioFileReference` | fichier | Non | Référence au fichier audio/vidéo des blocs précédents | +| `audioUrl` | chaîne | Non | URL vers un fichier audio ou vidéo | +| `language` | chaîne | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique | +| `timestamps` | chaîne | Non | Granularité des horodatages : none, sentence, ou word | +| `diarization` | booléen | Non | Activer la diarisation des locuteurs | +| `sentiment` | booléen | Non | Activer l'analyse des sentiments | +| `entityDetection` | booléen | Non | Activer la détection d'entités | +| `piiRedaction` | booléen | Non | Activer la rédaction des PII | +| `summarization` | booléen | Non | Activer la génération automatique de résumés | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `transcript` | chaîne | Texte transcrit complet | +| `segments` | tableau | Segments horodatés avec étiquettes de locuteurs | +| `language` | chaîne | Langue détectée ou spécifiée | +| `duration` | nombre | Durée audio en secondes | +| `confidence` | nombre | Score de confiance global | +| `sentiment` | tableau | Résultats d'analyse de sentiment | +| `entities` | tableau | Entités détectées | +| `summary` | chaîne | Résumé généré automatiquement | + +### `stt_gemini` + +Transcrire l'audio en texte en utilisant Google Gemini avec des capacités multimodales + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | ---------- | ----------- | +| `provider` | chaîne | Oui | Fournisseur STT \(gemini\) | +| `apiKey` | chaîne | Oui | Clé API Google | +| `model` | chaîne | Non | Modèle Gemini à utiliser \(par défaut : gemini-2.5-flash\) | +| `audioFile` | fichier | Non | Fichier audio ou vidéo à transcrire | +| `audioFileReference` | fichier | Non | Référence au fichier audio/vidéo des blocs précédents | +| `audioUrl` | chaîne | Non | URL vers un fichier audio ou vidéo | +| `language` | chaîne | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique | +| `timestamps` | chaîne | Non | Granularité des horodatages : none, sentence, ou word | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `transcript` | chaîne | Texte transcrit complet | +| `segments` | tableau | Segments horodatés | +| `language` | chaîne | Langue détectée ou spécifiée | +| `duration` | nombre | Durée audio en secondes | +| `confidence` | nombre | Score de confiance global | + ## Remarques - Catégorie : `tools` diff --git a/apps/docs/content/docs/fr/tools/tts.mdx b/apps/docs/content/docs/fr/tools/tts.mdx new file mode 100644 index 0000000000..b643e3ce3a --- /dev/null +++ b/apps/docs/content/docs/fr/tools/tts.mdx @@ -0,0 +1,256 @@ +--- +title: Synthèse vocale +description: Convertir du texte en parole en utilisant des voix IA +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +Convertissez du texte en parole naturelle en utilisant les dernières voix d'IA. Les outils de synthèse vocale (TTS) de Sim vous permettent de générer de l'audio à partir de texte écrit dans des dizaines de langues, avec un choix de voix expressives, de formats et de contrôles avancés comme la vitesse, le style, l'émotion, et plus encore. + +**Fournisseurs et modèles pris en charge :** + +- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI) : + L'API TTS d'OpenAI offre des voix ultra-réalistes utilisant des modèles d'IA avancés comme `tts-1`, `tts-1-hd`, et `gpt-4o-mini-tts`. Les voix incluent des options masculines et féminines, comme alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage et verse. Prend en charge plusieurs formats audio (mp3, opus, aac, flac, wav, pcm), vitesse ajustable et synthèse en streaming. + +- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.) : + Aura de Deepgram fournit des voix IA expressives en anglais et multilingues, optimisées pour la clarté conversationnelle, la faible latence et la personnalisation. Des modèles comme `aura-asteria-en`, `aura-luna-en`, et d'autres sont disponibles. Prend en charge plusieurs formats d'encodage (linear16, mp3, opus, aac, flac) et permet d'ajuster la vitesse, la fréquence d'échantillonnage et le style. + +- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs) : + ElevenLabs est leader dans la synthèse vocale réaliste et émotionnellement riche, offrant des dizaines de voix dans plus de 29 langues et la possibilité de cloner des voix personnalisées. Les modèles prennent en charge la conception vocale, la synthèse de parole et l'accès direct à l'API, avec des contrôles avancés pour le style, l'émotion, la stabilité et la similarité. Convient aux livres audio, à la création de contenu, à l'accessibilité et plus encore. + +- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia) : + Cartesia offre une synthèse vocale de haute qualité, rapide et sécurisée avec un accent sur la confidentialité et le déploiement flexible. Il fournit un streaming instantané, une synthèse en temps réel et prend en charge plusieurs voix et accents internationaux, accessibles via une API simple. + +- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud) : + Google utilise les modèles DeepMind WaveNet et Neural2 pour alimenter des voix haute-fidélité dans plus de 50 langues et variantes. Les fonctionnalités comprennent la sélection de voix, la hauteur, la vitesse d'élocution, le contrôle du volume, les balises SSML et l'accès aux voix standard et premium de qualité studio. Largement utilisé pour l'accessibilité, l'IVR et les médias. + +- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure) : + Azure propose plus de 400 voix neurales dans plus de 140 langues et régions, avec des personnalisations uniques de voix, de style, d'émotion, de rôle et des contrôles en temps réel. Offre la prise en charge SSML pour la prononciation, l'intonation et plus encore. Idéal pour les besoins TTS mondiaux, d'entreprise ou créatifs. + +- **[PlayHT](https://play.ht/)** (PlayHT) : + PlayHT se spécialise dans la synthèse vocale réaliste, le clonage de voix et la lecture en streaming instantanée avec plus de 800 voix dans plus de 100 langues. Les fonctionnalités incluent le contrôle des émotions, de la hauteur et de la vitesse, l'audio multi-voix et la création de voix personnalisées via l'API ou le studio en ligne. + +**Comment choisir :** +Sélectionnez votre fournisseur et votre modèle en priorisant les langues, les types de voix pris en charge, les formats souhaités (mp3, wav, etc.), la granularité du contrôle (vitesse, émotion, etc.) et les fonctionnalités spécialisées (clonage de voix, accent, streaming). Pour les cas d'utilisation créatifs, d'accessibilité ou de développement, assurez-vous de la compatibilité avec les exigences de votre application et comparez les coûts. + +Visitez le site officiel de chaque fournisseur pour obtenir des informations à jour sur les capacités, les tarifs et la documentation ! +{/* MANUAL-CONTENT-END */} + +## Instructions d'utilisation + +Générez des discours naturels à partir de texte en utilisant des voix IA de pointe d'OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure et PlayHT. Prend en charge plusieurs voix, langues et formats audio. + +## Outils + +### `tts_openai` + +Convertir du texte en discours à l'aide des modèles TTS d'OpenAI + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `text` | string | Oui | Le texte à convertir en discours | +| `apiKey` | string | Oui | Clé API OpenAI | +| `model` | string | Non | Modèle TTS à utiliser \(tts-1, tts-1-hd, ou gpt-4o-mini-tts\) | +| `voice` | string | Non | Voix à utiliser \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) | +| `responseFormat` | string | Non | Format audio \(mp3, opus, aac, flac, wav, pcm\) | +| `speed` | number | Non | Vitesse d'élocution \(0,25 à 4,0, par défaut : 1,0\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL vers le fichier audio généré | +| `audioFile` | file | Objet du fichier audio généré | +| `duration` | number | Durée de l'audio en secondes | +| `characterCount` | number | Nombre de caractères traités | +| `format` | string | Format audio | +| `provider` | string | Fournisseur TTS utilisé | + +### `tts_deepgram` + +Convertir du texte en parole en utilisant Deepgram Aura + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | ---------- | ----------- | +| `text` | string | Oui | Le texte à convertir en parole | +| `apiKey` | string | Oui | Clé API Deepgram | +| `model` | string | Non | Modèle/voix Deepgram (ex. : aura-asteria-en, aura-luna-en) | +| `voice` | string | Non | Identifiant de voix (alternative au paramètre modèle) | +| `encoding` | string | Non | Encodage audio (linear16, mp3, opus, aac, flac) | +| `sampleRate` | number | Non | Taux d'échantillonnage (8000, 16000, 24000, 48000) | +| `bitRate` | number | Non | Débit binaire pour les formats compressés | +| `container` | string | Non | Format de conteneur (none, wav, ogg) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL vers le fichier audio généré | +| `audioFile` | file | Objet du fichier audio généré | +| `duration` | number | Durée de l'audio en secondes | +| `characterCount` | number | Nombre de caractères traités | +| `format` | string | Format audio | +| `provider` | string | Fournisseur TTS utilisé | + +### `tts_elevenlabs` + +Convertir du texte en parole en utilisant les voix ElevenLabs + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `text` | chaîne | Oui | Le texte à convertir en parole | +| `voiceId` | chaîne | Oui | L'identifiant de la voix à utiliser | +| `apiKey` | chaîne | Oui | Clé API ElevenLabs | +| `modelId` | chaîne | Non | Modèle à utiliser \(ex. : eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) | +| `stability` | nombre | Non | Stabilité de la voix \(0.0 à 1.0, par défaut : 0.5\) | +| `similarityBoost` | nombre | Non | Amplification de similarité \(0.0 à 1.0, par défaut : 0.8\) | +| `style` | nombre | Non | Exagération du style \(0.0 à 1.0\) | +| `useSpeakerBoost` | booléen | Non | Utiliser l'amplification du locuteur \(par défaut : true\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | chaîne | URL vers le fichier audio généré | +| `audioFile` | fichier | Objet du fichier audio généré | +| `duration` | nombre | Durée audio en secondes | +| `characterCount` | nombre | Nombre de caractères traités | +| `format` | chaîne | Format audio | +| `provider` | chaîne | Fournisseur TTS utilisé | + +### `tts_cartesia` + +Convertir du texte en parole en utilisant Cartesia Sonic (latence ultra-faible) + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `text` | chaîne | Oui | Le texte à convertir en parole | +| `apiKey` | chaîne | Oui | Clé API Cartesia | +| `modelId` | chaîne | Non | ID du modèle \(sonic-english, sonic-multilingual\) | +| `voice` | chaîne | Non | ID de voix ou embedding | +| `language` | chaîne | Non | Code de langue \(en, es, fr, de, it, pt, etc.\) | +| `outputFormat` | json | Non | Configuration du format de sortie \(container, encoding, sampleRate\) | +| `speed` | nombre | Non | Multiplicateur de vitesse | +| `emotion` | tableau | Non | Tags d'émotion pour Sonic-3 \(ex. : \['positivity:high'\]\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL vers le fichier audio généré | +| `audioFile` | file | Objet du fichier audio généré | +| `duration` | number | Durée de l'audio en secondes | +| `characterCount` | number | Nombre de caractères traités | +| `format` | string | Format audio | +| `provider` | string | Fournisseur TTS utilisé | + +### `tts_google` + +Convertir du texte en parole en utilisant Google Cloud Text-to-Speech + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | ---------- | ----------- | +| `text` | string | Oui | Le texte à convertir en parole | +| `apiKey` | string | Oui | Clé API Google Cloud | +| `voiceId` | string | Non | ID de voix (ex. : en-US-Neural2-A, en-US-Wavenet-D) | +| `languageCode` | string | Oui | Code de langue (ex. : en-US, es-ES, fr-FR) | +| `gender` | string | Non | Genre de voix (MALE, FEMALE, NEUTRAL) | +| `audioEncoding` | string | Non | Encodage audio (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) | +| `speakingRate` | number | Non | Débit de parole (0,25 à 2,0, par défaut : 1,0) | +| `pitch` | number | Non | Hauteur de la voix (-20,0 à 20,0, par défaut : 0,0) | +| `volumeGainDb` | number | Non | Gain de volume en dB (-96,0 à 16,0) | +| `sampleRateHertz` | number | Non | Taux d'échantillonnage en Hz | +| `effectsProfileId` | array | Non | Profil d'effets (ex. : ['headphone-class-device']) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL vers le fichier audio généré | +| `audioFile` | file | Objet du fichier audio généré | +| `duration` | number | Durée de l'audio en secondes | +| `characterCount` | number | Nombre de caractères traités | +| `format` | string | Format audio | +| `provider` | string | Fournisseur TTS utilisé | + +### `tts_azure` + +Convertir du texte en parole en utilisant Azure Cognitive Services + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `text` | string | Oui | Le texte à convertir en parole | +| `apiKey` | string | Oui | Clé API d'Azure Speech Services | +| `voiceId` | string | Non | ID de voix (ex. : en-US-JennyNeural, en-US-GuyNeural) | +| `region` | string | Non | Région Azure (ex. : eastus, westus, westeurope) | +| `outputFormat` | string | Non | Format audio de sortie | +| `rate` | string | Non | Débit de parole (ex. : +10%, -20%, 1.5) | +| `pitch` | string | Non | Hauteur de la voix (ex. : +5Hz, -2st, low) | +| `style` | string | Non | Style de parole (ex. : joyeux, triste, en colère - voix neurales uniquement) | +| `styleDegree` | number | Non | Intensité du style (0.01 à 2.0) | +| `role` | string | Non | Rôle (ex. : fille, garçon, jeune femme adulte) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | string | URL vers le fichier audio généré | +| `audioFile` | file | Objet du fichier audio généré | +| `duration` | number | Durée de l'audio en secondes | +| `characterCount` | number | Nombre de caractères traités | +| `format` | string | Format audio | +| `provider` | string | Fournisseur TTS utilisé | + +### `tts_playht` + +Convertir du texte en parole avec PlayHT (clonage vocal) + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `text` | chaîne | Oui | Le texte à convertir en parole | +| `apiKey` | chaîne | Oui | Clé API PlayHT \(en-tête AUTHORIZATION\) | +| `userId` | chaîne | Oui | ID utilisateur PlayHT \(en-tête X-USER-ID\) | +| `voice` | chaîne | Non | ID de voix ou URL du manifeste | +| `quality` | chaîne | Non | Niveau de qualité \(draft, standard, premium\) | +| `outputFormat` | chaîne | Non | Format de sortie \(mp3, wav, ogg, flac, mulaw\) | +| `speed` | nombre | Non | Multiplicateur de vitesse \(0,5 à 2,0\) | +| `temperature` | nombre | Non | Créativité/aléatoire \(0,0 à 2,0\) | +| `voiceGuidance` | nombre | Non | Stabilité de la voix \(1,0 à 6,0\) | +| `textGuidance` | nombre | Non | Adhérence au texte \(1,0 à 6,0\) | +| `sampleRate` | nombre | Non | Taux d'échantillonnage \(8000, 16000, 22050, 24000, 44100, 48000\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `audioUrl` | chaîne | URL vers le fichier audio généré | +| `audioFile` | fichier | Objet du fichier audio généré | +| `duration` | nombre | Durée audio en secondes | +| `characterCount` | nombre | Nombre de caractères traités | +| `format` | chaîne | Format audio | +| `provider` | chaîne | Fournisseur TTS utilisé | + +## Notes + +- Catégorie : `tools` +- Type : `tts` diff --git a/apps/docs/content/docs/fr/tools/video_generator.mdx b/apps/docs/content/docs/fr/tools/video_generator.mdx new file mode 100644 index 0000000000..1ab6265fee --- /dev/null +++ b/apps/docs/content/docs/fr/tools/video_generator.mdx @@ -0,0 +1,192 @@ +--- +title: Générateur de vidéos +description: Générer des vidéos à partir de texte en utilisant l'IA +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +Créez des vidéos à partir de prompts textuels en utilisant des modèles d'IA de pointe des meilleurs fournisseurs. Le générateur de vidéos de Sim intègre des capacités puissantes et créatives de synthèse vidéo à votre flux de travail, prenant en charge divers modèles, formats d'image, résolutions, contrôles de caméra, audio natif, et des fonctionnalités avancées de style et de cohérence. + +**Fournisseurs et modèles pris en charge :** + +- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML) : + Runway est un pionnier dans la génération de texte en vidéo, connu pour ses modèles puissants comme Gen-2, Gen-3 et Gen-4. Le dernier modèle [Gen-4](https://research.runwayml.com/gen2/) (et Gen-4 Turbo pour des résultats plus rapides) prend en charge des mouvements plus réalistes, une meilleure cohérence du monde et des références visuelles pour les personnages, objets, styles et lieux. Supporte les formats 16:9, 9:16 et 1:1, des durées de 5 à 10 secondes, jusqu'à la résolution 4K, des préréglages de style et le téléchargement direct d'images de référence pour des générations cohérentes. Runway alimente des outils créatifs pour les cinéastes, studios et créateurs de contenu du monde entier. + +- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind) : + [Veo](https://deepmind.google/technologies/veo/) est le modèle de génération vidéo de nouvelle génération de Google, offrant des vidéos de haute qualité avec audio natif jusqu'à 1080p et 16 secondes. Prend en charge les mouvements avancés, les effets cinématographiques et la compréhension nuancée du texte. Veo peut générer des vidéos avec son intégré—activant l'audio natif ainsi que des clips silencieux. Les options incluent le format 16:9, une durée variable, différents modèles (veo-3, veo-3.1) et des contrôles basés sur les prompts. Idéal pour la narration, la publicité, la recherche et l'idéation. + +- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI) : + [Dream Machine](https://lumalabs.ai/dream-machine) produit des vidéos étonnamment réalistes et fluides à partir de texte. Il intègre un contrôle avancé de la caméra, des prompts de cinématographie et prend en charge les modèles ray-1 et ray-2. Dream Machine supporte des formats précis (16:9, 9:16, 1:1), des durées variables et la spécification de trajectoires de caméra pour une direction visuelle complexe. Luma est reconnu pour sa fidélité visuelle révolutionnaire et est soutenu par d'éminents chercheurs en vision par IA. + +- **[MiniMax Hailuo-02](https://minimax.chat/)** (via [Fal.ai](https://fal.ai/)) : + [MiniMax Hailuo-02](https://minimax.chat/) est un modèle sophistiqué chinois de génération vidéo, disponible mondialement via [Fal.ai](https://fal.ai/). Générez des vidéos jusqu'à 16 secondes en format paysage ou portrait, avec des options d'optimisation de prompt pour améliorer la clarté et la créativité. Points d'accès pro et standard disponibles, prenant en charge des hautes résolutions (jusqu'à 1920×1080). Bien adapté pour les projets créatifs nécessitant une traduction et une optimisation de prompt, la narration commerciale et le prototypage rapide d'idées visuelles. + +**Comment choisir :** +Sélectionnez votre fournisseur et modèle selon vos besoins en matière de qualité, vitesse, durée, audio, coût et fonctionnalités uniques. Runway et Veo offrent un réalisme et des capacités cinématographiques de premier ordre ; Luma excelle dans la fluidité du mouvement et le contrôle de la caméra ; MiniMax est idéal pour les prompts en langue chinoise et offre un accès rapide et abordable. Tenez compte de la prise en charge des références, des préréglages de style, des exigences audio et des tarifs lors de la sélection de votre outil. + +Pour plus de détails sur les fonctionnalités, les restrictions, les tarifs et les avancées des modèles, consultez la documentation officielle de chaque fournisseur ci-dessus. +{/* MANUAL-CONTENT-END */} + +## Instructions d'utilisation + +Générez des vidéos de haute qualité à partir de prompts textuels en utilisant les principaux fournisseurs d'IA. Prend en charge plusieurs modèles, formats d'image, résolutions et fonctionnalités spécifiques aux fournisseurs comme la cohérence du monde, les contrôles de caméra et la génération audio. + +## Outils + +### `video_runway` + +Générer des vidéos avec Runway Gen-4 avec cohérence du monde et références visuelles + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | ----------- | ----------- | +| `provider` | string | Oui | Fournisseur vidéo \(runway\) | +| `apiKey` | string | Oui | Clé API Runway | +| `model` | string | Non | Modèle Runway : gen-4 \(par défaut, qualité supérieure\) ou gen-4-turbo \(plus rapide\) | +| `prompt` | string | Oui | Prompt textuel décrivant la vidéo à générer | +| `duration` | number | Non | Durée de la vidéo en secondes \(5 ou 10, par défaut : 5\) | +| `aspectRatio` | string | Non | Format d'image : 16:9 \(paysage\), 9:16 \(portrait\), ou 1:1 \(carré\) | +| `resolution` | string | Non | Résolution vidéo \(sortie 720p\). Remarque : Gen-4 Turbo produit nativement en 720p | +| `visualReference` | json | Oui | Image de référence OBLIGATOIRE pour Gen-4 \(objet UserFile\). Gen-4 prend uniquement en charge la conversion d'image en vidéo, pas la génération uniquement textuelle | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL de la vidéo générée | +| `videoFile` | json | Objet du fichier vidéo avec métadonnées | +| `duration` | number | Durée de la vidéo en secondes | +| `width` | number | Largeur de la vidéo en pixels | +| `height` | number | Hauteur de la vidéo en pixels | +| `provider` | string | Fournisseur utilisé \(runway\) | +| `model` | string | Modèle utilisé | +| `jobId` | string | ID de tâche Runway | + +### `video_veo` + +Générer des vidéos avec Google Veo 3/3.1 avec génération audio native + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Oui | Fournisseur de vidéo \(veo\) | +| `apiKey` | string | Oui | Clé API Google Gemini | +| `model` | string | Non | Modèle Veo : veo-3 \(par défaut, qualité maximale\), veo-3-fast \(plus rapide\), ou veo-3.1 \(le plus récent\) | +| `prompt` | string | Oui | Instruction textuelle décrivant la vidéo à générer | +| `duration` | number | Non | Durée de la vidéo en secondes \(4, 6, ou 8, par défaut : 8\) | +| `aspectRatio` | string | Non | Format d'image : 16:9 \(paysage\) ou 9:16 \(portrait\) | +| `resolution` | string | Non | Résolution vidéo : 720p ou 1080p \(par défaut : 1080p\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL de la vidéo générée | +| `videoFile` | json | Objet du fichier vidéo avec métadonnées | +| `duration` | number | Durée de la vidéo en secondes | +| `width` | number | Largeur de la vidéo en pixels | +| `height` | number | Hauteur de la vidéo en pixels | +| `provider` | string | Fournisseur utilisé \(veo\) | +| `model` | string | Modèle utilisé | +| `jobId` | string | ID de tâche Veo | + +### `video_luma` + +Générer des vidéos en utilisant Luma Dream Machine avec des contrôles de caméra avancés + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `provider` | string | Oui | Fournisseur de vidéo \(luma\) | +| `apiKey` | string | Oui | Clé API Luma AI | +| `model` | string | Non | Modèle Luma : ray-2 \(par défaut\) | +| `prompt` | string | Oui | Texte décrivant la vidéo à générer | +| `duration` | number | Non | Durée de la vidéo en secondes \(5 ou 9, par défaut : 5\) | +| `aspectRatio` | string | Non | Format d'image : 16:9 \(paysage\), 9:16 \(portrait\), ou 1:1 \(carré\) | +| `resolution` | string | Non | Résolution vidéo : 540p, 720p, ou 1080p \(par défaut : 1080p\) | +| `cameraControl` | json | Non | Contrôles de caméra sous forme de tableau d'objets concept. Format : \[\{ "key": "concept_name" \}\]. Clés valides : truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld, et plus de 20 autres options prédéfinies | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL de la vidéo générée | +| `videoFile` | json | Objet fichier vidéo avec métadonnées | +| `duration` | number | Durée de la vidéo en secondes | +| `width` | number | Largeur de la vidéo en pixels | +| `height` | number | Hauteur de la vidéo en pixels | +| `provider` | string | Fournisseur utilisé \(luma\) | +| `model` | string | Modèle utilisé | +| `jobId` | string | ID de tâche Luma | + +### `video_minimax` + +Générez des vidéos en utilisant MiniMax Hailuo via l'API de la plateforme MiniMax avec un réalisme avancé et une optimisation des instructions + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `provider` | chaîne | Oui | Fournisseur de vidéo \(minimax\) | +| `apiKey` | chaîne | Oui | Clé API MiniMax de platform.minimax.io | +| `model` | chaîne | Non | Modèle MiniMax : hailuo-02 \(par défaut\) | +| `prompt` | chaîne | Oui | Instruction textuelle décrivant la vidéo à générer | +| `duration` | nombre | Non | Durée de la vidéo en secondes \(6 ou 10, par défaut : 6\) | +| `promptOptimizer` | booléen | Non | Activer l'optimisation des instructions pour de meilleurs résultats \(par défaut : true\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `videoUrl` | chaîne | URL de la vidéo générée | +| `videoFile` | json | Objet fichier vidéo avec métadonnées | +| `duration` | nombre | Durée de la vidéo en secondes | +| `width` | nombre | Largeur de la vidéo en pixels | +| `height` | nombre | Hauteur de la vidéo en pixels | +| `provider` | chaîne | Fournisseur utilisé \(minimax\) | +| `model` | chaîne | Modèle utilisé | +| `jobId` | chaîne | ID de tâche MiniMax | + +### `video_falai` + +Générez des vidéos en utilisant la plateforme Fal.ai avec accès à plusieurs modèles dont Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo, et plus encore + +#### Entrée + +| Paramètre | Type | Obligatoire | Description | +| --------- | ---- | -------- | ----------- | +| `provider` | chaîne | Oui | Fournisseur de vidéo \(falai\) | +| `apiKey` | chaîne | Oui | Clé API Fal.ai | +| `model` | chaîne | Oui | Modèle Fal.ai : veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) | +| `prompt` | chaîne | Oui | Instruction textuelle décrivant la vidéo à générer | +| `duration` | nombre | Non | Durée de la vidéo en secondes \(varie selon le modèle\) | +| `aspectRatio` | chaîne | Non | Format d'image \(varie selon le modèle\) : 16:9, 9:16, 1:1 | +| `resolution` | chaîne | Non | Résolution vidéo \(varie selon le modèle\) : 540p, 720p, 1080p | +| `promptOptimizer` | booléen | Non | Activer l'optimisation des instructions pour les modèles MiniMax \(par défaut : true\) | + +#### Sortie + +| Paramètre | Type | Description | +| --------- | ---- | ----------- | +| `videoUrl` | string | URL de la vidéo générée | +| `videoFile` | json | Objet du fichier vidéo avec métadonnées | +| `duration` | number | Durée de la vidéo en secondes | +| `width` | number | Largeur de la vidéo en pixels | +| `height` | number | Hauteur de la vidéo en pixels | +| `provider` | string | Fournisseur utilisé \(falai\) | +| `model` | string | Modèle utilisé | +| `jobId` | string | ID de tâche | + +## Notes + +- Catégorie : `tools` +- Type : `video_generator` diff --git a/apps/docs/content/docs/ja/tools/stt.mdx b/apps/docs/content/docs/ja/tools/stt.mdx index cb55aaf29e..fecd46448d 100644 --- a/apps/docs/content/docs/ja/tools/stt.mdx +++ b/apps/docs/content/docs/ja/tools/stt.mdx @@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" /> {/* MANUAL-CONTENT-START:intro */} -最先端のAIモデルを使用して音声をテキストに変換します。Sim音声テキスト変換(STT)ツールを使用すると、音声ファイルや動画ファイルを正確な文字起こしに変換でき、複数の言語、タイムスタンプ、およびオプションの翻訳をサポートしています。 +世界クラスのプロバイダーによる最新のAIモデルを使用して音声をテキストに変換します。SimのSpeech-to-Text(STT)ツールは、音声や動画を正確でタイムスタンプ付き、オプションで翻訳されたトランスクリプトに変換する機能を提供します。多様な言語をサポートし、話者分離や話者識別などの高度な機能で強化されています。 -対応プロバイダー: +**サポートされているプロバイダーとモデル:** -- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: OpenAIによる先進的なオープンソースSTTモデル。`whisper-1`などのモデルをサポートし、様々な言語と音声フォーマットに対応しています。 -- **[Deepgram](https://deepgram.com/)**: `nova-3`、`nova-2`、`whisper-large`などのディープラーニングモデルを使用したリアルタイムおよびバッチSTT API。話者分離、意図認識、業界特化型チューニングなどの機能を提供します。 -- **[ElevenLabs](https://elevenlabs.io/)**: 高品質な音声AIで知られるElevenLabsは、多数の言語や方言に対応した精度と自然言語理解に焦点を当てたSTTモデルを提供しています。 +- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI): + OpenAIのWhisperは、言語や音声条件全体で堅牢性で知られるオープンソースの深層学習モデルです。`whisper-1`などの高度なモデルをサポートし、文字起こし、翻訳、高いモデル汎用性を要求するタスクで優れています。ChatGPTや先進的なAI研究で知られる企業OpenAIによって支えられており、Whisperは研究や比較評価のベースラインとして広く使用されています。 -タスクに最適なプロバイダーとモデルを選択してください—高速で本番環境向けの文字起こし(Deepgram)、高精度の多言語対応(Whisper)、または高度な理解と言語カバレッジ(ElevenLabs)など。 +- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.): + サンフランシスコを拠点とするDeepgramは、開発者や企業向けにスケーラブルな本番環境グレードの音声認識APIを提供しています。Deepgramのモデルには`nova-3`、`nova-2`、`whisper-large`が含まれ、業界をリードする精度、多言語サポート、自動句読点、インテリジェントな話者分離、通話分析、電話から媒体制作まで幅広いユースケース向けの機能を備えたリアルタイムおよびバッチ文字起こしを提供しています。 + +- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs): + 音声AIのリーダーであるElevenLabsは、特にプレミアム音声合成と認識で知られています。そのSTT製品は、多数の言語、方言、アクセントの高精度で自然な理解を提供します。最近のElevenLabs STTモデルは、明瞭さ、話者の区別に最適化されており、創造的なシナリオとアクセシビリティの両方に適しています。ElevenLabsはAI駆動の音声技術における最先端の進歩で認められています。 + +- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.): + AssemblyAIは、API駆動の高精度音声認識を提供し、文字起こしに加えて自動チャプタリング、トピック検出、要約、感情分析、コンテンツモデレーションなどの機能を備えています。著名な`Conformer-2`を含む独自のモデルは、業界最大のメディア、コールセンター、コンプライアンスアプリケーションの一部を支えています。AssemblyAIは世界中のフォーチュン500企業や主要AIスタートアップから信頼されています。 + +- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud): + Googleのエンタープライズグレードのスピーチ・トゥ・テキストAPIは、125以上の言語とバリアントをサポートし、高精度と、リアルタイムストリーミング、単語レベルの信頼度、話者ダイアライゼーション、自動句読点、カスタム語彙、ドメイン固有のチューニングなどの機能を提供しています。`latest_long`、`video`、およびドメイン最適化モデルなどが利用可能で、Googleの長年の研究に支えられ、グローバルな拡張性のために展開されています。 + +- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services): + AWS TranscribeはAmazonのクラウドインフラストラクチャを活用して、堅牢な音声認識をAPIとして提供します。複数の言語をサポートし、話者識別、カスタム語彙、チャネル識別(コールセンターオーディオ用)、医療特化型文字起こしなどの機能を備えています。人気のモデルには`standard`やドメイン固有のバリエーションがあります。AWS TranscribeはすでにAmazonのクラウドを使用している組織に最適です。 + +**選び方:** +あなたのアプリケーションに合ったプロバイダーとモデルを選択しましょう—高速でエンタープライズ対応の文字起こしと追加分析機能が必要な場合(Deepgram、AssemblyAI、Google、AWS)、高い汎用性とオープンソースアクセスが必要な場合(OpenAI Whisper)、または高度な話者/コンテキスト理解が必要な場合(ElevenLabs)。価格、言語カバレッジ、精度、および必要な特別機能(要約、チャプタリング、感情分析など)を考慮してください。 + +機能、価格、特徴のハイライト、および微調整オプションの詳細については、上記のリンクから各プロバイダーの公式ドキュメントを参照してください。 {/* MANUAL-CONTENT-END */} ## 使用方法 -主要なAIプロバイダーを使用して音声ファイルや動画ファイルをテキストに変換します。複数の言語、タイムスタンプ、および話者分離をサポートしています。 +主要なAIプロバイダーを使用して、音声およびビデオファイルをテキストに文字起こしします。複数の言語、タイムスタンプ、および話者ダイアライゼーションをサポートしています。 ## ツール ### `stt_whisper` -OpenAI Whisperを使用して音声をテキストに変換 +OpenAI Whisperを使用して音声をテキストに文字起こし #### 入力 @@ -39,22 +56,23 @@ OpenAI Whisperを使用して音声をテキストに変換 | `provider` | string | はい | STTプロバイダー(whisper) | | `apiKey` | string | はい | OpenAI APIキー | | `model` | string | いいえ | 使用するWhisperモデル(デフォルト:whisper-1) | -| `audioFile` | file | いいえ | 文字起こしする音声または動画ファイル | -| `audioFileReference` | file | いいえ | 前のブロックからの音声/動画ファイルへの参照 | -| `audioUrl` | string | いいえ | 音声または動画ファイルのURL | +| `audioFile` | file | いいえ | 文字起こしする音声またはビデオファイル | +| `audioFileReference` | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 | +| `audioUrl` | string | いいえ | 音声またはビデオファイルのURL | | `language` | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" | | `timestamps` | string | いいえ | タイムスタンプの粒度:none、sentence、またはword | | `translateToEnglish` | boolean | いいえ | 音声を英語に翻訳 | +| `prompt` | string | いいえ | モデルのスタイルを導いたり、前の音声セグメントを継続したりするためのオプションテキスト。固有名詞やコンテキストの理解に役立ちます。 | +| `temperature` | number | いいえ | 0から1の間のサンプリング温度。値が高いほど出力はよりランダムに、値が低いほどより集中的で決定論的になります。 | #### 出力 | パラメータ | 型 | 説明 | | --------- | ---- | ----------- | -| `transcript` | string | 完全な文字起こしテキスト | +| `transcript` | string | 文字起こしされた全テキスト | | `segments` | array | タイムスタンプ付きセグメント | | `language` | string | 検出または指定された言語 | | `duration` | number | 音声の長さ(秒) | -| `confidence` | number | 全体的な信頼度スコア | ### `stt_deepgram` @@ -78,7 +96,7 @@ Deepgramを使用して音声をテキストに文字起こし | パラメータ | 型 | 説明 | | --------- | ---- | ----------- | -| `transcript` | string | 完全な文字起こしテキスト | +| `transcript` | string | 文字起こしされた全テキスト | | `segments` | array | 話者ラベル付きのタイムスタンプセグメント | | `language` | string | 検出または指定された言語 | | `duration` | number | 音声の長さ(秒) | @@ -86,7 +104,7 @@ Deepgramを使用して音声をテキストに文字起こし ### `stt_elevenlabs` -ElevenLabsを使用して音声をテキストに変換する +ElevenLabsを使用して音声をテキストに文字起こし #### 入力 @@ -111,6 +129,68 @@ ElevenLabsを使用して音声をテキストに変換する | `duration` | number | 音声の長さ(秒) | | `confidence` | number | 全体的な信頼度スコア | +### `stt_assemblyai` + +高度なNLP機能を備えたAssemblyAIを使用して音声をテキストに文字起こし + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | STTプロバイダー(assemblyai) | +| `apiKey` | string | はい | AssemblyAI APIキー | +| `model` | string | いいえ | 使用するAssemblyAIモデル(デフォルト:best) | +| `audioFile` | file | いいえ | 文字起こしする音声またはビデオファイル | +| `audioFileReference` | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 | +| `audioUrl` | string | いいえ | 音声またはビデオファイルのURL | +| `language` | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" | +| `timestamps` | string | いいえ | タイムスタンプの粒度:none、sentence、またはword | +| `diarization` | boolean | いいえ | 話者分離を有効にする | +| `sentiment` | boolean | いいえ | 感情分析を有効にする | +| `entityDetection` | boolean | いいえ | エンティティ検出を有効にする | +| `piiRedaction` | boolean | いいえ | PII編集を有効にする | +| `summarization` | boolean | いいえ | 自動要約を有効にする | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `transcript` | string | 完全な文字起こしテキスト | +| `segments` | array | 話者ラベル付きのタイムスタンプセグメント | +| `language` | string | 検出または指定された言語 | +| `duration` | number | 音声の長さ(秒) | +| `confidence` | number | 全体的な信頼度スコア | +| `sentiment` | array | 感情分析結果 | +| `entities` | array | 検出されたエンティティ | +| `summary` | string | 自動生成された要約 | + +### `stt_gemini` + +マルチモーダル機能を持つGoogle Geminiを使用して音声をテキストに変換する + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | STTプロバイダー(gemini) | +| `apiKey` | string | はい | Google APIキー | +| `model` | string | いいえ | 使用するGeminiモデル(デフォルト:gemini-2.5-flash) | +| `audioFile` | file | いいえ | 文字起こしする音声またはビデオファイル | +| `audioFileReference` | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 | +| `audioUrl` | string | いいえ | 音声またはビデオファイルのURL | +| `language` | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" | +| `timestamps` | string | いいえ | タイムスタンプの粒度:none、sentence、またはword | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `transcript` | string | 完全な文字起こしテキスト | +| `segments` | array | タイムスタンプ付きセグメント | +| `language` | string | 検出または指定された言語 | +| `duration` | number | 音声の長さ(秒) | +| `confidence` | number | 全体的な信頼度スコア | + ## 注意事項 - カテゴリー: `tools` diff --git a/apps/docs/content/docs/ja/tools/tts.mdx b/apps/docs/content/docs/ja/tools/tts.mdx new file mode 100644 index 0000000000..822aca1508 --- /dev/null +++ b/apps/docs/content/docs/ja/tools/tts.mdx @@ -0,0 +1,256 @@ +--- +title: テキスト読み上げ +description: AIボイスを使用してテキストを音声に変換 +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +最新のAIボイスを使用してテキストを自然な音声に変換します。SimのText-to-Speech(TTS)ツールは、数十の言語で書かれたテキストから音声を生成でき、表現力豊かな声、フォーマット、速度、スタイル、感情などの高度なコントロールを選択できます。 + +**対応プロバイダーとモデル:** + +- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI): + OpenAIのTTS APIは、`tts-1`、`tts-1-hd`、`gpt-4o-mini-tts`などの高度なAIモデルを使用した超リアルな音声を提供します。男性と女性の両方の声があり、alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage、verseなどのオプションがあります。複数の音声フォーマット(mp3、opus、aac、flac、wav、pcm)、調整可能な速度、ストリーミング合成をサポートしています。 + +- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.): + DeepgramのAuraは、会話の明瞭さ、低遅延、カスタマイズに最適化された、表現力豊かな英語と多言語AIボイスを提供します。`aura-asteria-en`、`aura-luna-en`などのモデルが利用可能です。複数のエンコーディング形式(linear16、mp3、opus、aac、flac)と速度、サンプルレート、スタイルの微調整をサポートしています。 + +- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs): + ElevenLabsは、29以上の言語で数十の声を提供し、カスタム音声のクローンを作成する能力を持つ、リアルで感情豊かなTTSをリードしています。モデルは音声デザイン、音声合成、直接APIアクセスをサポートし、スタイル、感情、安定性、類似性の高度なコントロールを備えています。オーディオブック、コンテンツ作成、アクセシビリティなどに適しています。 + +- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia): + Cartesiaは、プライバシーと柔軟な展開に焦点を当てた、高品質で高速かつ安全なテキスト読み上げを提供します。即時ストリーミング、リアルタイム合成を提供し、シンプルなAPIを通じてアクセス可能な複数の国際的な声とアクセントをサポートしています。 + +- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud): + GoogleはDeepMind WaveNetとNeural2モデルを使用して、50以上の言語とバリアントで高忠実度の音声を提供しています。機能には、音声選択、ピッチ、発話速度、音量調整、SSMLタグ、標準音声とスタジオグレードのプレミアム音声へのアクセスが含まれます。アクセシビリティ、IVR、メディアで広く使用されています。 + +- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure): + Azureは140以上の言語とロケールにわたって400以上のニューラル音声を提供し、独自の音声カスタマイズ、スタイル、感情、役割、リアルタイム制御が可能です。発音、イントネーションなどのSSMLサポートを提供します。グローバル、エンタープライズ、またはクリエイティブなTTSニーズに最適です。 + +- **[PlayHT](https://play.ht/)** (PlayHT): + PlayHTは、100以上の言語で800以上の音声を使用したリアルな音声合成、音声クローニング、インスタントストリーミング再生を専門としています。機能には、感情、ピッチと速度の制御、マルチボイスオーディオ、APIまたはオンラインスタジオを通じたカスタム音声作成が含まれます。 + +**選び方:** +言語、サポートされている音声タイプ、希望するフォーマット(mp3、wavなど)、制御の粒度(速度、感情など)、特殊機能(音声クローニング、アクセント、ストリーミング)を優先して、プロバイダーとモデルを選択してください。クリエイティブ、アクセシビリティ、または開発者のユースケースでは、アプリケーションの要件との互換性を確保し、コストを比較してください。 + +最新の機能、価格、ドキュメントの詳細については、各プロバイダーの公式サイトをご覧ください! +{/* MANUAL-CONTENT-END */} + +## 使用方法 + +OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure、PlayHTの最先端AI音声を使用して、テキストから自然な音声を生成します。複数の音声、言語、オーディオフォーマットをサポートしています。 + +## ツール + +### `tts_openai` + +OpenAI TTSモデルを使用してテキストを音声に変換 + +#### 入力 + +| パラメータ | タイプ | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `apiKey` | string | はい | OpenAI APIキー | +| `model` | string | いいえ | 使用するTTSモデル(tts-1、tts-1-hd、またはgpt-4o-mini-tts) | +| `voice` | string | いいえ | 使用する音声(alloy、ash、ballad、cedar、coral、echo、marin、sage、shimmer、verse) | +| `responseFormat` | string | いいえ | オーディオフォーマット(mp3、opus、aac、flac、wav、pcm) | +| `speed` | number | いいえ | 発話速度(0.25から4.0、デフォルト:1.0) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +### `tts_deepgram` + +Deepgram Auraを使用してテキストを音声に変換する + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `apiKey` | string | はい | Deepgram APIキー | +| `model` | string | いいえ | Deepgramモデル/音声(例:aura-asteria-en、aura-luna-en) | +| `voice` | string | いいえ | 音声識別子(modelパラメータの代替) | +| `encoding` | string | いいえ | 音声エンコーディング(linear16、mp3、opus、aac、flac) | +| `sampleRate` | number | いいえ | サンプルレート(8000、16000、24000、48000) | +| `bitRate` | number | いいえ | 圧縮フォーマットのビットレート | +| `container` | string | いいえ | コンテナフォーマット(none、wav、ogg) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +### `tts_elevenlabs` + +ElevenLabsの音声を使用してテキストを音声に変換する + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `voiceId` | string | はい | 使用する音声のID | +| `apiKey` | string | はい | ElevenLabs APIキー | +| `modelId` | string | いいえ | 使用するモデル(例:eleven_monolingual_v1、eleven_turbo_v2_5、eleven_flash_v2_5) | +| `stability` | number | いいえ | 音声の安定性(0.0から1.0、デフォルト:0.5) | +| `similarityBoost` | number | いいえ | 類似性ブースト(0.0から1.0、デフォルト:0.8) | +| `style` | number | いいえ | スタイル誇張(0.0から1.0) | +| `useSpeakerBoost` | boolean | いいえ | スピーカーブーストを使用(デフォルト:true) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +### `tts_cartesia` + +Cartesia Sonic(超低遅延)を使用してテキストを音声に変換する + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `apiKey` | string | はい | Cartesia APIキー | +| `modelId` | string | いいえ | モデルID(sonic-english、sonic-multilingual) | +| `voice` | string | いいえ | 音声IDまたは埋め込み | +| `language` | string | いいえ | 言語コード(en、es、fr、de、it、ptなど) | +| `outputFormat` | json | いいえ | 出力フォーマット設定(コンテナ、エンコーディング、サンプルレート) | +| `speed` | number | いいえ | 速度乗数 | +| `emotion` | array | いいえ | Sonic-3用の感情タグ(例:['positivity:high']) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +### `tts_google` + +Google Cloud Text-to-Speechを使用してテキストを音声に変換 + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `apiKey` | string | はい | Google Cloud APIキー | +| `voiceId` | string | いいえ | 音声ID(例:en-US-Neural2-A、en-US-Wavenet-D) | +| `languageCode` | string | はい | 言語コード(例:en-US、es-ES、fr-FR) | +| `gender` | string | いいえ | 音声の性別(MALE、FEMALE、NEUTRAL) | +| `audioEncoding` | string | いいえ | 音声エンコーディング(LINEAR16、MP3、OGG_OPUS、MULAW、ALAW) | +| `speakingRate` | number | いいえ | 発話速度(0.25~2.0、デフォルト:1.0) | +| `pitch` | number | いいえ | 音声のピッチ(-20.0~20.0、デフォルト:0.0) | +| `volumeGainDb` | number | いいえ | 音量ゲイン(dB)(-96.0~16.0) | +| `sampleRateHertz` | number | いいえ | サンプルレート(Hz) | +| `effectsProfileId` | array | いいえ | エフェクトプロファイル(例:\['headphone-class-device'\]) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +### `tts_azure` + +Azure Cognitive Servicesを使用してテキストを音声に変換 + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `apiKey` | string | はい | Azure Speech Services APIキー | +| `voiceId` | string | いいえ | 音声ID(例:en-US-JennyNeural、en-US-GuyNeural) | +| `region` | string | いいえ | Azureリージョン(例:eastus、westus、westeurope) | +| `outputFormat` | string | いいえ | 出力音声フォーマット | +| `rate` | string | いいえ | 話速(例:+10%、-20%、1.5) | +| `pitch` | string | いいえ | 音声のピッチ(例:+5Hz、-2st、low) | +| `style` | string | いいえ | 話し方のスタイル(例:cheerful、sad、angry - ニューラル音声のみ) | +| `styleDegree` | number | いいえ | スタイル強度(0.01〜2.0) | +| `role` | string | いいえ | 役割(例:Girl、Boy、YoungAdultFemale) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +### `tts_playht` + +PlayHT(音声クローニング)を使用してテキストを音声に変換 + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `text` | string | はい | 音声に変換するテキスト | +| `apiKey` | string | はい | PlayHT APIキー(AUTHORIZATIONヘッダー) | +| `userId` | string | はい | PlayHT ユーザーID(X-USER-IDヘッダー) | +| `voice` | string | いいえ | 音声IDまたはマニフェストURL | +| `quality` | string | いいえ | 品質レベル(draft、standard、premium) | +| `outputFormat` | string | いいえ | 出力形式(mp3、wav、ogg、flac、mulaw) | +| `speed` | number | いいえ | 速度倍率(0.5〜2.0) | +| `temperature` | number | いいえ | 創造性/ランダム性(0.0〜2.0) | +| `voiceGuidance` | number | いいえ | 音声の安定性(1.0〜6.0) | +| `textGuidance` | number | いいえ | テキスト忠実度(1.0〜6.0) | +| `sampleRate` | number | いいえ | サンプルレート(8000、16000、22050、24000、44100、48000) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成された音声ファイルのURL | +| `audioFile` | file | 生成された音声ファイルオブジェクト | +| `duration` | number | 音声の長さ(秒) | +| `characterCount` | number | 処理された文字数 | +| `format` | string | 音声フォーマット | +| `provider` | string | 使用されたTTSプロバイダー | + +## メモ + +- カテゴリー: `tools` +- タイプ: `tts` diff --git a/apps/docs/content/docs/ja/tools/video_generator.mdx b/apps/docs/content/docs/ja/tools/video_generator.mdx new file mode 100644 index 0000000000..61f2fb58f1 --- /dev/null +++ b/apps/docs/content/docs/ja/tools/video_generator.mdx @@ -0,0 +1,192 @@ +--- +title: ビデオジェネレーター +description: AIを使用してテキストから動画を生成 +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +最先端のAIモデルを使用してテキストプロンプトから動画を作成します。Simのビデオジェネレーターはパワフルで創造的な動画合成機能をワークフローにもたらし、多様なモデル、アスペクト比、解像度、カメラコントロール、ネイティブオーディオ、高度なスタイルと一貫性機能をサポートします。 + +**対応プロバイダーとモデル:** + +- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML): + Runwayはテキストから動画生成の先駆者で、Gen-2、Gen-3、Gen-4などの強力なモデルで知られています。最新の[Gen-4](https://research.runwayml.com/gen2/)モデル(および高速処理のためのGen-4 Turbo)は、よりリアルな動き、優れた世界の一貫性、キャラクター、オブジェクト、スタイル、場所のビジュアルリファレンスをサポートしています。16:9、9:16、1:1のアスペクト比、5~10秒の動画長、最大4K解像度、スタイルプリセット、一貫した生成のための参照画像の直接アップロードに対応しています。Runwayは世界中の映画製作者、スタジオ、コンテンツクリエイターのためのクリエイティブツールを提供しています。 + +- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind): + [Veo](https://deepmind.google/technologies/veo/)はGoogleの次世代ビデオ生成モデルで、最大1080pおよび16秒の高品質なネイティブオーディオ動画を提供します。高度な動き、映画的効果、ニュアンスのあるテキスト理解をサポートしています。Veoは内蔵サウンドで動画を生成できます—ネイティブオーディオと無音クリップの両方に対応。オプションには16:9アスペクト、可変長の動画時間、異なるモデル(veo-3、veo-3.1)、プロンプトベースのコントロールが含まれます。ストーリーテリング、広告、研究、アイデア創出に最適です。 + +- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI): + [Dream Machine](https://lumalabs.ai/dream-machine)はテキストから驚くほどリアルで流動的な動画を提供します。高度なカメラコントロール、撮影技法プロンプトを組み込み、ray-1とray-2の両モデルをサポートしています。Dream Machineは正確なアスペクト比(16:9、9:16、1:1)、可変長の動画時間、複雑な視覚的方向性のためのカメラパスの指定をサポートしています。Lumaは画期的な視覚的忠実度で知られ、主要なAIビジョン研究者によってサポートされています。 + +- **[MiniMax Hailuo-02](https://minimax.chat/)** (via [Fal.ai](https://fal.ai/)): + [MiniMax Hailuo-02](https://minimax.chat/)は高度な中国の生成ビデオモデルで、[Fal.ai](https://fal.ai/)を通じて世界中で利用可能です。横向きまたは縦向き形式で最大16秒のビデオを生成でき、明確さと創造性を向上させるためのプロンプト最適化オプションがあります。プロ版と標準版のエンドポイントが利用可能で、高解像度(最大1920×1080)をサポートしています。プロンプト翻訳と最適化、商業的なストーリーテリング、視覚的アイデアの迅速なプロトタイピングが必要な創造的プロジェクトに適しています。 + +**選び方:** +品質、速度、時間、音声、コスト、独自機能に関するニーズに基づいてプロバイダーとモデルを選択してください。RunwayとVeoは世界をリードするリアリズムと映画的な機能を提供しています。Lumaは流動的な動きとカメラコントロールに優れています。MiniMaxは中国語のプロンプトに最適で、迅速で手頃な価格のアクセスを提供します。ツールを選択する際には、リファレンスサポート、スタイルプリセット、音声要件、価格を考慮してください。 + +機能、制限、価格、モデルの進歩についての詳細は、上記の各プロバイダーの公式ドキュメントを参照してください。 +{/* MANUAL-CONTENT-END */} + +## 使用方法 + +主要なAIプロバイダーを使用してテキストプロンプトから高品質のビデオを生成します。複数のモデル、アスペクト比、解像度、およびワールドの一貫性、カメラコントロール、音声生成などのプロバイダー固有の機能をサポートしています。 + +## ツール + +### `video_runway` + +ワールドの一貫性と視覚的参照を使用してRunway Gen-4でビデオを生成 + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | ビデオプロバイダー(runway) | +| `apiKey` | string | はい | Runway APIキー | +| `model` | string | いいえ | Runwayモデル:gen-4(デフォルト、高品質)またはgen-4-turbo(より速い) | +| `prompt` | string | はい | 生成するビデオを説明するテキストプロンプト | +| `duration` | number | いいえ | ビデオの長さ(秒)(5または10、デフォルト:5) | +| `aspectRatio` | string | いいえ | アスペクト比:16:9(横向き)、9:16(縦向き)、または1:1(正方形) | +| `resolution` | string | いいえ | ビデオ解像度(720p出力)。注:Gen-4 Turboはネイティブで720p出力 | +| `visualReference` | json | はい | Gen-4には参照画像が必須(UserFileオブジェクト)。Gen-4はイメージからビデオへの変換のみをサポートし、テキストのみの生成はサポートしていません | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成された動画URL | +| `videoFile` | json | メタデータを含む動画ファイルオブジェクト | +| `duration` | number | 動画の長さ(秒) | +| `width` | number | 動画の幅(ピクセル) | +| `height` | number | 動画の高さ(ピクセル) | +| `provider` | string | 使用されたプロバイダー(runway) | +| `model` | string | 使用されたモデル | +| `jobId` | string | Runwayジョブ ID | + +### `video_veo` + +ネイティブ音声生成機能を備えたGoogle Veo 3/3.1を使用して動画を生成する + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | 動画プロバイダー(veo) | +| `apiKey` | string | はい | Google Gemini APIキー | +| `model` | string | いいえ | Veoモデル: veo-3(デフォルト、最高品質)、veo-3-fast(より速い)、またはveo-3.1(最新) | +| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト | +| `duration` | number | いいえ | 動画の長さ(秒)(4、6、または8、デフォルト: 8) | +| `aspectRatio` | string | いいえ | アスペクト比: 16:9(横向き)または9:16(縦向き) | +| `resolution` | string | いいえ | 動画解像度: 720pまたは1080p(デフォルト: 1080p) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成された動画URL | +| `videoFile` | json | メタデータを含む動画ファイルオブジェクト | +| `duration` | number | 動画の長さ(秒) | +| `width` | number | 動画の幅(ピクセル) | +| `height` | number | 動画の高さ(ピクセル) | +| `provider` | string | 使用されたプロバイダー(veo) | +| `model` | string | 使用されたモデル | +| `jobId` | string | Veoジョブ ID | + +### `video_luma` + +高度なカメラコントロールを使用してLuma Dream Machineで動画を生成する + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | 動画プロバイダー(luma) | +| `apiKey` | string | はい | Luma AI APIキー | +| `model` | string | いいえ | Lumaモデル: ray-2(デフォルト) | +| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト | +| `duration` | number | いいえ | 動画の長さ(秒)(5または9、デフォルト: 5) | +| `aspectRatio` | string | いいえ | アスペクト比: 16:9(横向き)、9:16(縦向き)、または1:1(正方形) | +| `resolution` | string | いいえ | 動画解像度: 540p、720p、または1080p(デフォルト: 1080p) | +| `cameraControl` | json | いいえ | コンセプトオブジェクトの配列としてのカメラコントロール。形式: \[\{ "key": "concept_name" \}\]。有効なキー: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheldなど20以上の事前定義オプション | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成された動画URL | +| `videoFile` | json | メタデータを含む動画ファイルオブジェクト | +| `duration` | number | 動画の長さ(秒) | +| `width` | number | 動画の幅(ピクセル) | +| `height` | number | 動画の高さ(ピクセル) | +| `provider` | string | 使用されたプロバイダー(luma) | +| `model` | string | 使用されたモデル | +| `jobId` | string | LumaジョブID | + +### `video_minimax` + +MiniMax PlatformのAPIを通じてMiniMax Hailuoを使用し、高度なリアリズムとプロンプト最適化で動画を生成 + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | 動画プロバイダー(minimax) | +| `apiKey` | string | はい | platform.minimax.ioから取得したMiniMax APIキー | +| `model` | string | いいえ | MiniMaxモデル:hailuo-02(デフォルト) | +| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト | +| `duration` | number | いいえ | 動画の長さ(秒)(6または10、デフォルト:6) | +| `promptOptimizer` | boolean | いいえ | より良い結果を得るためのプロンプト最適化を有効にする(デフォルト:true) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成された動画のURL | +| `videoFile` | json | メタデータを含む動画ファイルオブジェクト | +| `duration` | number | 動画の長さ(秒) | +| `width` | number | 動画の幅(ピクセル) | +| `height` | number | 動画の高さ(ピクセル) | +| `provider` | string | 使用されたプロバイダー(minimax) | +| `model` | string | 使用されたモデル | +| `jobId` | string | MiniMaxジョブID | + +### `video_falai` + +Fal.aiプラットフォームを使用して、Veo 3.1、Sora 2、Kling 2.5、MiniMax Hailuoなど複数のモデルにアクセスして動画を生成 + +#### 入力 + +| パラメータ | 型 | 必須 | 説明 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | はい | 動画プロバイダー(falai) | +| `apiKey` | string | はい | Fal.ai APIキー | +| `model` | string | はい | Fal.aiモデル:veo-3.1(Google Veo 3.1)、sora-2(OpenAI Sora 2)、kling-2.5-turbo-pro(Kling 2.5 Turbo Pro)、kling-2.1-pro(Kling 2.1 Master)、minimax-hailuo-2.3-pro(MiniMax Hailuo Pro)、minimax-hailuo-2.3-standard(MiniMax Hailuo Standard)、wan-2.1(WAN T2V)、ltxv-0.9.8(LTXV 13B) | +| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト | +| `duration` | number | いいえ | 動画の長さ(秒)(モデルによって異なる) | +| `aspectRatio` | string | いいえ | アスペクト比(モデルによって異なる):16:9、9:16、1:1 | +| `resolution` | string | いいえ | 動画解像度(モデルによって異なる):540p、720p、1080p | +| `promptOptimizer` | boolean | いいえ | MiniMaxモデル用のプロンプト最適化を有効にする(デフォルト:true) | + +#### 出力 + +| パラメータ | 型 | 説明 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成された動画URL | +| `videoFile` | json | メタデータを含む動画ファイルオブジェクト | +| `duration` | number | 動画の長さ(秒) | +| `width` | number | 動画の幅(ピクセル) | +| `height` | number | 動画の高さ(ピクセル) | +| `provider` | string | 使用されたプロバイダー(falai) | +| `model` | string | 使用されたモデル | +| `jobId` | string | ジョブID | + +## 注意事項 + +- カテゴリー: `tools` +- タイプ: `video_generator` diff --git a/apps/docs/content/docs/zh/tools/stt.mdx b/apps/docs/content/docs/zh/tools/stt.mdx index 39e50b3f83..a897c1d40f 100644 --- a/apps/docs/content/docs/zh/tools/stt.mdx +++ b/apps/docs/content/docs/zh/tools/stt.mdx @@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" /> {/* MANUAL-CONTENT-START:intro */} -使用领先提供商的最先进 AI 模型,将语音转录为文字。Sim 语音转文字 (STT) 工具可以将音频和视频文件转换为准确的文字记录,支持多种语言、时间戳以及可选的翻译功能。 +使用来自世界一流提供商的最新 AI 模型,将语音转录为文本。Sim 的语音转文本 (STT) 工具使您能够将音频和视频转换为准确、带时间戳的转录文本,并可选择翻译支持多种语言,同时提供高级功能,如分角色对话和说话人识别。 -支持的提供商: +**支持的提供商和模型:** -- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**:来自 OpenAI 的先进开源 STT 模型。支持 `whisper-1` 等模型,能够处理多种语言和音频格式。 -- **[Deepgram](https://deepgram.com/)**:基于深度学习模型的实时和批量 STT API,例如 `nova-3`、`nova-2` 和 `whisper-large`。提供诸如说话人分离、意图识别和行业特定调优等功能。 -- **[ElevenLabs](https://elevenlabs.io/)**:以高质量语音 AI 闻名,ElevenLabs 提供专注于准确性和自然语言理解的 STT 模型,支持多种语言和方言。 +- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI): + OpenAI 的 Whisper 是一个开源的深度学习模型,以其在多语言和多音频条件下的强大性能而闻名。它支持高级模型,例如 `whisper-1`,在转录、翻译以及需要高模型泛化能力的任务中表现出色。Whisper 由以 ChatGPT 和领先 AI 研究闻名的 OpenAI 提供支持,广泛用于研究领域并作为比较评估的基准。 -选择最适合您任务的提供商和模型——无论是快速、生产级转录 (Deepgram),高精度多语言能力 (Whisper),还是高级理解和语言覆盖 (ElevenLabs)。 +- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.): + 总部位于旧金山的 Deepgram 为开发者和企业提供可扩展的、生产级的语音识别 API。Deepgram 的模型包括 `nova-3`、`nova-2` 和 `whisper-large`,提供实时和批量转录,具有行业领先的准确性、多语言支持、自动标点、智能分角色对话、通话分析以及从电话到媒体制作的多种应用场景功能。 + +- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs): + 作为语音 AI 的领导者,ElevenLabs 尤其以其高质量的语音合成和识别而闻名。其 STT 产品能够高精度、自然地理解多种语言、方言和口音。最新的 ElevenLabs STT 模型针对清晰度和说话人区分进行了优化,适用于创意和无障碍场景。ElevenLabs 因其在 AI 驱动的语音技术方面的尖端进展而备受认可。 + +- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.): + AssemblyAI 提供基于 API 的高精度语音识别,功能包括自动章节划分、主题检测、摘要生成、情感分析和内容审核等。其专有模型,包括备受赞誉的 `Conformer-2`,为行业内一些最大的媒体、呼叫中心和合规应用提供支持。AssemblyAI 得到了全球财富 500 强企业和领先 AI 初创公司的信赖。 + +- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud): + Google 的企业级语音转文字 API 支持超过 125 种语言和变体,提供高精度以及实时流式传输、单词级置信度、说话人分离、自动标点、自定义词汇和领域特定调优等功能。可用的模型包括 `latest_long`、`video` 以及领域优化模型,这些模型基于 Google 多年的研究成果,具备全球扩展能力。 + +- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services): + AWS Transcribe 利用 Amazon 的云基础设施,通过 API 提供强大的语音识别功能。它支持多种语言,并提供说话人识别、自定义词汇、通道识别(适用于呼叫中心音频)和医疗特定转录等功能。常用模型包括 `standard` 以及领域特定变体。AWS Transcribe 非常适合已经使用 Amazon 云服务的组织。 + +**如何选择:** +选择适合您应用的提供商和模型——无论您需要快速、企业级的转录和额外分析(Deepgram、AssemblyAI、Google、AWS),高灵活性和开源访问(OpenAI Whisper),还是高级的说话人/上下文理解(ElevenLabs)。请考虑定价、语言覆盖范围、准确性以及您可能需要的任何特殊功能(如摘要、章节划分或情感分析)。 + +有关功能、定价、功能亮点和微调选项的更多详细信息,请参阅上述链接中的每个提供商的官方文档。 {/* MANUAL-CONTENT-END */} ## 使用说明 -使用领先的 AI 提供商将音频和视频文件转录为文字。支持多种语言、时间戳和说话人分离。 +使用领先的 AI 提供商将音频和视频文件转录为文本。支持多种语言、时间戳和说话人分离。 ## 工具 ### `stt_whisper` -使用 OpenAI Whisper 将音频转录为文字 +使用 OpenAI Whisper 将音频转录为文本 #### 输入 @@ -38,13 +55,15 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" | --------- | ---- | -------- | ----------- | | `provider` | string | 是 | STT 提供商 \(whisper\) | | `apiKey` | string | 是 | OpenAI API 密钥 | -| `model` | string | 否 | 使用的 Whisper 模型 \(默认值:whisper-1\) | +| `model` | string | 否 | 要使用的 Whisper 模型 \(默认值:whisper-1\) | | `audioFile` | file | 否 | 要转录的音频或视频文件 | -| `audioFileReference` | file | 否 | 来自前一个模块的音频/视频文件引用 | +| `audioFileReference` | file | 否 | 来自前面模块的音频/视频文件引用 | | `audioUrl` | string | 否 | 音频或视频文件的 URL | -| `language` | string | 否 | 语言代码 \(例如:"en"、"es"、"fr"\) 或 "auto" 进行自动检测 | +| `language` | string | 否 | 语言代码 \(例如 "en", "es", "fr"\) 或 "auto" 进行自动检测 | | `timestamps` | string | 否 | 时间戳粒度:无、句子或单词 | | `translateToEnglish` | boolean | 否 | 将音频翻译为英语 | +| `prompt` | string | 否 | 可选文本,用于指导模型的风格或继续前一个音频片段。帮助处理专有名词和上下文。 | +| `temperature` | number | 否 | 采样温度,范围为 0 到 1。较高的值使输出更随机,较低的值使输出更集中和确定性。 | #### 输出 @@ -54,7 +73,6 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" | `segments` | array | 带时间戳的片段 | | `language` | string | 检测到的或指定的语言 | | `duration` | number | 音频时长(以秒为单位) | -| `confidence` | number | 总体置信度评分 | ### `stt_deepgram` @@ -111,7 +129,69 @@ import { BlockInfoCard } from "@/components/ui/block-info-card" | `duration` | number | 音频时长(秒) | | `confidence` | number | 总体置信度评分 | +### `stt_assemblyai` + +使用 AssemblyAI 和高级 NLP 功能将音频转录为文本 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | STT 提供商 \(assemblyai\) | +| `apiKey` | string | 是 | AssemblyAI API 密钥 | +| `model` | string | 否 | 要使用的 AssemblyAI 模型 \(默认:best\) | +| `audioFile` | file | 否 | 要转录的音频或视频文件 | +| `audioFileReference` | file | 否 | 来自前面模块的音频/视频文件引用 | +| `audioUrl` | string | 否 | 音频或视频文件的 URL | +| `language` | string | 否 | 语言代码 \(例如 "en", "es", "fr"\) 或 "auto" 进行自动检测 | +| `timestamps` | string | 否 | 时间戳粒度:无、句子或单词 | +| `diarization` | boolean | 否 | 启用说话人分离 | +| `sentiment` | boolean | 否 | 启用情感分析 | +| `entityDetection` | boolean | 否 | 启用实体检测 | +| `piiRedaction` | boolean | 否 | 启用 PII 涂黑 | +| `summarization` | boolean | 否 | 启用自动摘要 | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `transcript` | string | 完整的转录文本 | +| `segments` | array | 带有说话人标签的时间戳片段 | +| `language` | string | 检测到或指定的语言 | +| `duration` | number | 音频时长(秒) | +| `confidence` | number | 总体置信度评分 | +| `sentiment` | array | 情感分析结果 | +| `entities` | array | 检测到的实体 | +| `summary` | string | 自动生成的摘要 | + +### `stt_gemini` + +使用具有多模态功能的 Google Gemini 将音频转录为文本 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | STT 提供商 \(gemini\) | +| `apiKey` | string | 是 | Google API 密钥 | +| `model` | string | 否 | 要使用的 Gemini 模型 \(默认值:gemini-2.5-flash\) | +| `audioFile` | file | 否 | 要转录的音频或视频文件 | +| `audioFileReference` | file | 否 | 来自前面模块的音频/视频文件引用 | +| `audioUrl` | string | 否 | 音频或视频文件的 URL | +| `language` | string | 否 | 语言代码 \(例如:"en", "es", "fr"\) 或 "auto" 进行自动检测 | +| `timestamps` | string | 否 | 时间戳粒度:无、句子或单词 | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `transcript` | string | 完整的转录文本 | +| `segments` | array | 带时间戳的片段 | +| `language` | string | 检测到或指定的语言 | +| `duration` | number | 音频时长(秒) | +| `confidence` | number | 总体置信度评分 | + ## 注意 -- 类别: `tools` -- 类型: `stt` +- 类别:`tools` +- 类型:`stt` diff --git a/apps/docs/content/docs/zh/tools/tts.mdx b/apps/docs/content/docs/zh/tools/tts.mdx new file mode 100644 index 0000000000..da144a545e --- /dev/null +++ b/apps/docs/content/docs/zh/tools/tts.mdx @@ -0,0 +1,256 @@ +--- +title: 文本转语音 +description: 使用 AI 语音将文本转换为语音 +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +使用最新的 AI 语音将文本转换为自然的语音。Sim 的文本转语音 (TTS) 工具可以让您从书面文本生成音频,支持数十种语言,并提供多种富有表现力的语音、格式以及高级控制选项,如语速、风格、情感等。 + +**支持的提供商和模型:** + +- **[OpenAI 文本转语音](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI): + OpenAI 的 TTS API 使用先进的 AI 模型(如 `tts-1`、`tts-1-hd` 和 `gpt-4o-mini-tts`)提供超逼真的语音。语音包括男性和女性选项,如 alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage 和 verse。支持多种音频格式(mp3、opus、aac、flac、wav、pcm),并可调整语速和流式合成。 + +- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.): + Deepgram 的 Aura 提供富有表现力的英语和多语言 AI 语音,优化了对话清晰度、低延迟和定制化。可用模型包括 `aura-asteria-en`、`aura-luna-en` 等。支持多种编码格式(linear16、mp3、opus、aac、flac),并可对语速、采样率和风格进行微调。 + +- **[ElevenLabs 文本转语音](https://elevenlabs.io/text-to-speech)** (ElevenLabs): + ElevenLabs 在逼真且情感丰富的 TTS 领域处于领先地位,提供 29+ 种语言的数十种语音,并支持克隆自定义语音。模型支持语音设计、语音合成和直接 API 访问,具有风格、情感、稳定性和相似性等高级控制功能。适用于有声读物、内容创作、无障碍访问等。 + +- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia): + Cartesia 提供高质量、快速且安全的文本转语音,注重隐私和灵活部署。支持即时流媒体、实时合成,并提供多种国际语音和口音,通过简单的 API 即可访问。 + +- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud): + Google 使用 DeepMind WaveNet 和 Neural2 模型,为 50 多种语言和变体提供高保真语音。功能包括语音选择、音调、语速、音量控制、SSML 标签,以及标准和工作室级高级语音的访问权限。广泛用于无障碍访问、IVR 和媒体。 + +- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure): + Azure 提供超过 400 种神经语音,覆盖 140 多种语言和地区,具有独特的语音定制、风格、情感、角色和实时控制功能。支持 SSML 用于发音、语调等。非常适合全球化、企业或创意的 TTS 需求。 + +- **[PlayHT](https://play.ht/)** (PlayHT): + PlayHT 专注于逼真的语音合成、语音克隆和即时流媒体播放,支持 100 多种语言的 800 多种语音。功能包括情感、音调和速度控制、多语音音频,以及通过 API 或在线工作室创建自定义语音。 + +**如何选择:** +根据语言、支持的语音类型、所需格式(mp3、wav 等)、控制粒度(速度、情感等)和特殊功能(语音克隆、口音、流媒体)来优先选择提供商和模型。对于创意、无障碍或开发者使用场景,请确保与您的应用程序需求兼容,并比较成本。 + +访问每个提供商的官方网站,了解最新功能、定价和文档详情! +{/* MANUAL-CONTENT-END */} + +## 使用说明 + +使用来自 OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure 和 PlayHT 的最先进 AI 语音,从文本生成自然语音。支持多种语音、语言和音频格式。 + +## 工具 + +### `tts_openai` + +使用 OpenAI TTS 模型将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `apiKey` | string | 是 | OpenAI API 密钥 | +| `model` | string | 否 | 要使用的 TTS 模型 \(tts-1, tts-1-hd, 或 gpt-4o-mini-tts\) | +| `voice` | string | 否 | 要使用的语音 \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) | +| `responseFormat` | string | 否 | 音频格式 \(mp3, opus, aac, flac, wav, pcm\) | +| `speed` | number | 否 | 语速 \(0.25 到 4.0,默认值:1.0\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(秒) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +### `tts_deepgram` + +使用 Deepgram Aura 将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `apiKey` | string | 是 | Deepgram API 密钥 | +| `model` | string | 否 | Deepgram 模型/语音(例如:aura-asteria-en, aura-luna-en) | +| `voice` | string | 否 | 语音标识符(模型参数的替代选项) | +| `encoding` | string | 否 | 音频编码(linear16, mp3, opus, aac, flac) | +| `sampleRate` | number | 否 | 采样率(8000, 16000, 24000, 48000) | +| `bitRate` | number | 否 | 压缩格式的比特率 | +| `container` | string | 否 | 容器格式(none, wav, ogg) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(秒) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +### `tts_elevenlabs` + +使用 ElevenLabs 声音将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `voiceId` | string | 是 | 要使用的声音 ID | +| `apiKey` | string | 是 | ElevenLabs API 密钥 | +| `modelId` | string | 否 | 使用的模型 \(例如,eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) | +| `stability` | number | 否 | 声音稳定性 \(0.0 到 1.0,默认值:0.5\) | +| `similarityBoost` | number | 否 | 相似性增强 \(0.0 到 1.0,默认值:0.8\) | +| `style` | number | 否 | 风格夸张程度 \(0.0 到 1.0\) | +| `useSpeakerBoost` | boolean | 否 | 是否使用扬声器增强 \(默认值:true\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(秒) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +### `tts_cartesia` + +使用 Cartesia Sonic (超低延迟)将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `apiKey` | string | 是 | Cartesia API 密钥 | +| `modelId` | string | 否 | 模型 ID \(sonic-english, sonic-multilingual\) | +| `voice` | string | 否 | 声音 ID 或嵌入 | +| `language` | string | 否 | 语言代码 \(en, es, fr, de, it, pt 等\) | +| `outputFormat` | json | 否 | 输出格式配置 \(容器, 编码, 采样率\) | +| `speed` | number | 否 | 速度倍增器 | +| `emotion` | array | 否 | Sonic-3 的情感标签 \(例如,\['positivity:high'\]\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(以秒为单位) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +### `tts_google` + +使用 Google Cloud Text-to-Speech 将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `apiKey` | string | 是 | Google Cloud API 密钥 | +| `voiceId` | string | 否 | 语音 ID(例如,en-US-Neural2-A, en-US-Wavenet-D) | +| `languageCode` | string | 是 | 语言代码(例如,en-US, es-ES, fr-FR) | +| `gender` | string | 否 | 语音性别(MALE, FEMALE, NEUTRAL) | +| `audioEncoding` | string | 否 | 音频编码(LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) | +| `speakingRate` | number | 否 | 语速(0.25 到 2.0,默认值:1.0) | +| `pitch` | number | 否 | 语音音调(-20.0 到 20.0,默认值:0.0) | +| `volumeGainDb` | number | 否 | 音量增益(以 dB 为单位,-96.0 到 16.0) | +| `sampleRateHertz` | number | 否 | 采样率(以 Hz 为单位) | +| `effectsProfileId` | array | 否 | 效果配置文件(例如,\['headphone-class-device'\]) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(秒) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +### `tts_azure` + +使用 Azure 认知服务将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `apiKey` | string | 是 | Azure 语音服务 API 密钥 | +| `voiceId` | string | 否 | 语音 ID(例如,en-US-JennyNeural, en-US-GuyNeural) | +| `region` | string | 否 | Azure 区域(例如,eastus, westus, westeurope) | +| `outputFormat` | string | 否 | 输出音频格式 | +| `rate` | string | 否 | 语速(例如,+10%, -20%, 1.5) | +| `pitch` | string | 否 | 语音音调(例如,+5Hz, -2st, low) | +| `style` | string | 否 | 语音风格(例如,cheerful, sad, angry - 仅限神经语音) | +| `styleDegree` | number | 否 | 风格强度(0.01 到 2.0) | +| `role` | string | 否 | 角色(例如,Girl, Boy, YoungAdultFemale) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(秒) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +### `tts_playht` + +使用 PlayHT (语音克隆)将文本转换为语音 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `text` | string | 是 | 要转换为语音的文本 | +| `apiKey` | string | 是 | PlayHT API 密钥 \(AUTHORIZATION header\) | +| `userId` | string | 是 | PlayHT 用户 ID \(X-USER-ID header\) | +| `voice` | string | 否 | 语音 ID 或清单 URL | +| `quality` | string | 否 | 质量级别 \(draft, standard, premium\) | +| `outputFormat` | string | 否 | 输出格式 \(mp3, wav, ogg, flac, mulaw\) | +| `speed` | number | 否 | 速度倍数 \(0.5 到 2.0\) | +| `temperature` | number | 否 | 创造性/随机性 \(0.0 到 2.0\) | +| `voiceGuidance` | number | 否 | 语音稳定性 \(1.0 到 6.0\) | +| `textGuidance` | number | 否 | 文本贴合度 \(1.0 到 6.0\) | +| `sampleRate` | number | 否 | 采样率 \(8000, 16000, 22050, 24000, 44100, 48000\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `audioUrl` | string | 生成的音频文件的 URL | +| `audioFile` | file | 生成的音频文件对象 | +| `duration` | number | 音频时长(秒) | +| `characterCount` | number | 处理的字符数 | +| `format` | string | 音频格式 | +| `provider` | string | 使用的 TTS 提供商 | + +## 注意事项 + +- 类别:`tools` +- 类型:`tts` diff --git a/apps/docs/content/docs/zh/tools/video_generator.mdx b/apps/docs/content/docs/zh/tools/video_generator.mdx new file mode 100644 index 0000000000..dfd53c3437 --- /dev/null +++ b/apps/docs/content/docs/zh/tools/video_generator.mdx @@ -0,0 +1,192 @@ +--- +title: 视频生成器 +description: 使用 AI 从文本生成视频 +--- + +import { BlockInfoCard } from "@/components/ui/block-info-card" + + + +{/* MANUAL-CONTENT-START:intro */} +使用顶级提供商的尖端 AI 模型,通过文本提示生成视频。Sim 的视频生成器为您的工作流程带来了强大的创意视频合成功能——支持多种模型、纵横比、分辨率、摄像机控制、原生音频以及高级风格和一致性功能。 + +**支持的提供商和模型:** + +- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML): + Runway 是文本生成视频领域的先驱,以强大的模型(如 Gen-2、Gen-3 和 Gen-4)而闻名。最新的 [Gen-4](https://research.runwayml.com/gen2/) 模型(以及 Gen-4 Turbo,用于更快的结果)支持更逼真的运动、更高的世界一致性,以及角色、物体、风格和位置的视觉参考。支持 16:9、9:16 和 1:1 的纵横比,5–10 秒的时长,最高 4K 分辨率,风格预设,以及直接上传参考图像以实现一致的生成。Runway 为全球的电影制作人、工作室和内容创作者提供创意工具。 + +- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind): + [Veo](https://deepmind.google/technologies/veo/) 是 Google 的下一代视频生成模型,提供高质量、原生音频的视频,分辨率高达 1080p,时长最长 16 秒。支持高级运动、电影效果和细腻的文本理解。Veo 可以生成带有内置声音的视频——激活原生音频以及无声片段。选项包括 16:9 的纵横比、可变时长、不同的模型(veo-3、veo-3.1)以及基于提示的控制。非常适合讲故事、广告、研究和创意构思。 + +- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI): + [Dream Machine](https://lumalabs.ai/dream-machine) 能够从文本生成令人惊叹的逼真流畅视频。它结合了高级摄像机控制、电影摄影提示,并支持 ray-1 和 ray-2 模型。Dream Machine 支持精确的纵横比(16:9、9:16、1:1)、可变时长,以及摄像机路径的指定以实现复杂的视觉指导。Luma 因其突破性的视觉保真度而闻名,并得到了顶尖 AI 视觉研究人员的支持。 + +- **[MiniMax Hailuo-02](https://minimax.chat/)**(通过 [Fal.ai](https://fal.ai/)): + [MiniMax Hailuo-02](https://minimax.chat/) 是一个先进的中文生成视频模型,可通过 [Fal.ai](https://fal.ai/) 在全球范围内使用。支持生成最长 16 秒的视频,可选择横屏或竖屏格式,并提供提示优化选项以提高清晰度和创造力。提供专业版和标准版接口,支持高分辨率(最高 1920×1080)。非常适合需要提示翻译和优化的创意项目、商业叙事以及快速原型设计视觉创意。 + +**如何选择:** +根据您对质量、速度、时长、音频、成本和独特功能的需求选择提供商和模型。Runway 和 Veo 提供世界领先的真实感和电影级能力;Luma 擅长流畅的运动和摄像机控制;MiniMax 非常适合中文提示,并提供快速且经济实惠的访问。在选择工具时,请考虑参考支持、风格预设、音频需求和定价。 + +有关功能、限制、定价和模型进展的更多详细信息,请参阅上述每个提供商的官方文档。 +{/* MANUAL-CONTENT-END */} + +## 使用说明 + +使用领先的 AI 提供商从文本提示生成高质量视频。支持多种模型、纵横比、分辨率以及提供商特定功能,如世界一致性、摄像机控制和音频生成。 + +## 工具 + +### `video_runway` + +使用 Runway Gen-4 生成具有世界一致性和视觉参考的视频 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | 视频提供商 \(runway\) | +| `apiKey` | string | 是 | Runway API 密钥 | +| `model` | string | 否 | Runway 模型:gen-4 \(默认,更高质量\) 或 gen-4-turbo \(更快\) | +| `prompt` | string | 是 | 描述要生成视频的文本提示 | +| `duration` | number | 否 | 视频时长(秒)\(5 或 10,默认:5\) | +| `aspectRatio` | string | 否 | 纵横比:16:9 \(横屏\)、9:16 \(竖屏\) 或 1:1 \(方形\) | +| `resolution` | string | 否 | 视频分辨率 \(720p 输出\)。注意:Gen-4 Turbo 本身以 720p 输出 | +| `visualReference` | json | 是 | Gen-4 所需的参考图像 \(UserFile 对象\)。Gen-4 仅支持图像到视频,不支持仅文本生成 | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成的视频 URL | +| `videoFile` | json | 带有元数据的视频文件对象 | +| `duration` | number | 视频时长(秒) | +| `width` | number | 视频宽度(像素) | +| `height` | number | 视频高度(像素) | +| `provider` | string | 使用的提供商 \(runway\) | +| `model` | string | 使用的模型 | +| `jobId` | string | Runway 作业 ID | + +### `video_veo` + +使用 Google Veo 3/3.1 生成带有原生音频的视频 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | 视频提供商 \(veo\) | +| `apiKey` | string | 是 | Google Gemini API 密钥 | +| `model` | string | 否 | Veo 模型:veo-3 \(默认,最高质量\)、veo-3-fast \(更快\) 或 veo-3.1 \(最新\) | +| `prompt` | string | 是 | 描述要生成视频的文本提示 | +| `duration` | number | 否 | 视频时长(秒)\(4、6 或 8,默认:8\) | +| `aspectRatio` | string | 否 | 纵横比:16:9 \(横向\) 或 9:16 \(纵向\) | +| `resolution` | string | 否 | 视频分辨率:720p 或 1080p \(默认:1080p\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成的视频 URL | +| `videoFile` | json | 带有元数据的视频文件对象 | +| `duration` | number | 视频时长(秒) | +| `width` | number | 视频宽度(像素) | +| `height` | number | 视频高度(像素) | +| `provider` | string | 使用的提供商 \(veo\) | +| `model` | string | 使用的模型 | +| `jobId` | string | Veo 作业 ID | + +### `video_luma` + +使用 Luma Dream Machine 和高级摄像机控制生成视频 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | 视频提供者 \(luma\) | +| `apiKey` | string | 是 | Luma AI API 密钥 | +| `model` | string | 否 | Luma 模型:ray-2 \(默认\) | +| `prompt` | string | 是 | 描述要生成视频的文本提示 | +| `duration` | number | 否 | 视频时长(以秒为单位)\(5 或 9,默认:5\) | +| `aspectRatio` | string | 否 | 纵横比:16:9 \(横向\),9:16 \(纵向\),或 1:1 \(正方形\) | +| `resolution` | string | 否 | 视频分辨率:540p、720p 或 1080p \(默认:1080p\) | +| `cameraControl` | json | 否 | 摄像机控制作为概念对象数组。格式:\[\{ "key": "concept_name" \}\]。有效键:truck_left、truck_right、pan_left、pan_right、tilt_up、tilt_down、zoom_in、zoom_out、push_in、pull_out、orbit_left、orbit_right、crane_up、crane_down、static、handheld,以及 20 多种预定义选项 | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成的视频 URL | +| `videoFile` | json | 带有元数据的视频文件对象 | +| `duration` | number | 视频时长(以秒为单位) | +| `width` | number | 视频宽度(以像素为单位) | +| `height` | number | 视频高度(以像素为单位) | +| `provider` | string | 使用的提供者 \(luma\) | +| `model` | string | 使用的模型 | +| `jobId` | string | Luma 作业 ID | + +### `video_minimax` + +通过 MiniMax 平台 API 使用 MiniMax Hailuo 生成具有高级真实感和提示优化的视频 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | 视频提供商 \(minimax\) | +| `apiKey` | string | 是 | 来自 platform.minimax.io 的 MiniMax API 密钥 | +| `model` | string | 否 | MiniMax 模型:hailuo-02 \(默认\) | +| `prompt` | string | 是 | 描述要生成视频的文本提示 | +| `duration` | number | 否 | 视频时长(秒)\(6 或 10,默认:6\) | +| `promptOptimizer` | boolean | 否 | 启用提示优化以获得更好的结果 \(默认:true\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成的视频 URL | +| `videoFile` | json | 带有元数据的视频文件对象 | +| `duration` | number | 视频时长(秒) | +| `width` | number | 视频宽度(像素) | +| `height` | number | 视频高度(像素) | +| `provider` | string | 使用的提供商 \(minimax\) | +| `model` | string | 使用的模型 | +| `jobId` | string | MiniMax 作业 ID | + +### `video_falai` + +通过 Fal.ai 平台生成视频,可访问多个模型,包括 Veo 3.1、Sora 2、Kling 2.5、MiniMax Hailuo 等 + +#### 输入 + +| 参数 | 类型 | 必需 | 描述 | +| --------- | ---- | -------- | ----------- | +| `provider` | string | 是 | 视频提供商 \(falai\) | +| `apiKey` | string | 是 | Fal.ai API 密钥 | +| `model` | string | 是 | Fal.ai 模型:veo-3.1 \(Google Veo 3.1\)、sora-2 \(OpenAI Sora 2\)、kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\)、kling-2.1-pro \(Kling 2.1 Master\)、minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\)、minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\)、wan-2.1 \(WAN T2V\)、ltxv-0.9.8 \(LTXV 13B\) | +| `prompt` | string | 是 | 描述要生成视频的文本提示 | +| `duration` | number | 否 | 视频时长(秒)\(因模型而异\) | +| `aspectRatio` | string | 否 | 纵横比 \(因模型而异\):16:9、9:16、1:1 | +| `resolution` | string | 否 | 视频分辨率 \(因模型而异\):540p、720p、1080p | +| `promptOptimizer` | boolean | 否 | 启用 MiniMax 模型的提示优化 \(默认:true\) | + +#### 输出 + +| 参数 | 类型 | 描述 | +| --------- | ---- | ----------- | +| `videoUrl` | string | 生成的视频 URL | +| `videoFile` | json | 带有元数据的视频文件对象 | +| `duration` | number | 视频时长(秒) | +| `width` | number | 视频宽度(像素) | +| `height` | number | 视频高度(像素) | +| `provider` | string | 使用的提供者 \(falai\) | +| `model` | string | 使用的模型 | +| `jobId` | string | 任务 ID | + +## 注意事项 + +- 类别: `tools` +- 类型: `video_generator` diff --git a/apps/docs/i18n.lock b/apps/docs/i18n.lock index 509faafe9d..b859d50499 100644 --- a/apps/docs/i18n.lock +++ b/apps/docs/i18n.lock @@ -45307,30 +45307,159 @@ checksums: meta/description: b47aabe3d468796da9356ca25b5aac0e content/0: 1b031fb0c62c46b177aeed5c3d3f8f80 content/1: e2d2b01f5510e19c8ff30bd108d739c9 - content/2: 1bde652151a4ff8bf0b3c9c782e4ac11 - content/3: 89bc80328bd72ab149ec8b6845dece8b - content/4: 8158ba67c513f34de8932258e57b30f9 - content/5: 90c4eca7b7524047e3ef6bc1237ad067 - content/6: 821e6394b0a953e2b0842b04ae8f3105 - content/7: 45fdd3ceca2128a340cafb7faba01278 - content/8: 9c8aa3f09c9b2bd50ea4cdff3598ea4e - content/9: 40d2668585c0b17ab8a0e6f7c721e434 - content/10: 021ca9463ef797c41485cce42b6f7709 - content/11: 371d0e46b4bd2c23f559b8bc112f6955 - content/12: c94fdb65974bc4c4a656f98e31fff0c6 - content/13: bcadfc362b69078beee0088e5936c98b - content/14: a47b7c6ecd9d4f9623faee0f642cd09b - content/15: c054a98a01f066a22a0b76af03bba7ae - content/16: 9c04c67366eca1a253947ceb20352edf + content/2: 66239707d36ec676135639dd2e627179 + content/3: fed0800ec714595d72422b50c7cb5a50 + content/4: cbef5d8c663ddc2af49c930c95ba42e3 + content/5: 6cbdd5f32bbc8dce96e83240f9bb8d0f + content/6: 040735b28249ac3657fd9c9591d330cd + content/7: e003949f5c39f1706c1b7971a24a893b + content/8: dc52e7a3f48404716ab94754d3445005 + content/9: f3c537798b6344795bb7759261b52f3c + content/10: 47ddb74abd68e2eec175f6225025e96a + content/11: 4747d6a5a9ebe0ad3877bcc977b51bbf + content/12: 821e6394b0a953e2b0842b04ae8f3105 + content/13: 45fdd3ceca2128a340cafb7faba01278 + content/14: 9c8aa3f09c9b2bd50ea4cdff3598ea4e + content/15: 40d2668585c0b17ab8a0e6f7c721e434 + content/16: 021ca9463ef797c41485cce42b6f7709 content/17: 371d0e46b4bd2c23f559b8bc112f6955 - content/18: aa0bfae1dbcf3a0721aca4cb156a5bcf + content/18: 573ee880bcd8bb0e5d8c28b409472c63 content/19: bcadfc362b69078beee0088e5936c98b - content/20: f9266172e9fb5ef06a83082fa0867e22 - content/21: dbbd82e674306d7d291392ec2c9230e5 - content/22: bc25f5ab4531ebc89e325ef174afdb8e + content/20: 053f36c314771e413e13cf335da736b5 + content/21: c054a98a01f066a22a0b76af03bba7ae + content/22: 9c04c67366eca1a253947ceb20352edf content/23: 371d0e46b4bd2c23f559b8bc112f6955 - content/24: 76a9ae65d0667171ce08fa8d64afd2a3 + content/24: aa0bfae1dbcf3a0721aca4cb156a5bcf content/25: bcadfc362b69078beee0088e5936c98b - content/26: a47b7c6ecd9d4f9623faee0f642cd09b - content/27: b3f310d5ef115bea5a8b75bf25d7ea9a - content/28: ed565ff5d3337b3e57aaec982d6775c1 + content/26: f9266172e9fb5ef06a83082fa0867e22 + content/27: dbbd82e674306d7d291392ec2c9230e5 + content/28: bc25f5ab4531ebc89e325ef174afdb8e + content/29: 371d0e46b4bd2c23f559b8bc112f6955 + content/30: 76a9ae65d0667171ce08fa8d64afd2a3 + content/31: bcadfc362b69078beee0088e5936c98b + content/32: a47b7c6ecd9d4f9623faee0f642cd09b + content/33: 33ff3e59725090bbc6a8b8c1699ed4ce + content/34: 57236336915a623401222a8f80b11f93 + content/35: 371d0e46b4bd2c23f559b8bc112f6955 + content/36: 4c10c89066b05bf1f3133cfd0135f3f6 + content/37: bcadfc362b69078beee0088e5936c98b + content/38: 38d119351744d2f677aaf3b5e9786966 + content/39: 99633477c03b308240088f258c88f1c6 + content/40: 96d3c427438c64fb31da87e315f211a4 + content/41: 371d0e46b4bd2c23f559b8bc112f6955 + content/42: 7bd31ba71b98bee8324827fdb5fb3c6e + content/43: bcadfc362b69078beee0088e5936c98b + content/44: a47b7c6ecd9d4f9623faee0f642cd09b + content/45: b3f310d5ef115bea5a8b75bf25d7ea9a + content/46: ed565ff5d3337b3e57aaec982d6775c1 + 6c2cff290ba484e9524dce72de8f2715: + meta/title: 108b79c7fbbf27699f54fb97f5eb117d + meta/description: 0d417dbb3ae8147aef6ceb6c5f50b7fc + content/0: 1b031fb0c62c46b177aeed5c3d3f8f80 + content/1: 3080babb848c1269be0d1eef3f07ad11 + content/2: 8a2c0770dbee87283e3fe314f292ade4 + content/3: fed0800ec714595d72422b50c7cb5a50 + content/4: 9ee640b5c719c1169965b7baa92b4866 + content/5: 58dbd3306dbb107392b00559c3a91c35 + content/6: 139163e18384b049576a7d550d37bbd7 + content/7: 7b7ff033f22af851e69989e975063499 + content/8: 0ae1ea049f029cc61eb8aaac31401da8 + content/9: e43ca047a060da791f5af86213a79654 + content/10: 821e6394b0a953e2b0842b04ae8f3105 + content/11: febea65497998b351f6cffddedf2b40b + content/12: 9c8aa3f09c9b2bd50ea4cdff3598ea4e + content/13: 409fd9a10c69ee52fe39b6e31474ae36 + content/14: fc9e47fa14161ee69a2210fae640b80b + content/15: 371d0e46b4bd2c23f559b8bc112f6955 + content/16: 8b65f5983c92945aff1dd7b56719eb20 + content/17: bcadfc362b69078beee0088e5936c98b + content/18: 98d392f988df9d66bd0cdce486c78f44 + content/19: ad63c3b043de5004272751a6b6306818 + content/20: 610445153f4a0e5228216798a5dd8ddd + content/21: 371d0e46b4bd2c23f559b8bc112f6955 + content/22: ac103904417da0b5e5a15588cc9d37ea + content/23: bcadfc362b69078beee0088e5936c98b + content/24: 4a92808e259d8703014ad0f12e918f40 + content/25: 3ebaddd961b5c2cda6f9b9d53f10a3c3 + content/26: 9d1b23d62169e3a65611861345bb4411 + content/27: 371d0e46b4bd2c23f559b8bc112f6955 + content/28: d99079e2dbdaccf719b9f611b11c9bd1 + content/29: bcadfc362b69078beee0088e5936c98b + content/30: e1bdc4de3159f6a8d0b6f82a97b20383 + content/31: e98cae3fa66191f182f7591ec8759676 + content/32: fd8f7af2051d9a4079b0e77f23b16c16 + content/33: 371d0e46b4bd2c23f559b8bc112f6955 + content/34: d3493804058260bfc9e8490d053f0bcd + content/35: bcadfc362b69078beee0088e5936c98b + content/36: a9550ad1ca11ce890649bfa619c2b5c9 + content/37: 4418a35a33237ce3ca146444a0eedc4b + content/38: 26c4c3ebe6d1baf790815105ecc57fb7 + content/39: 371d0e46b4bd2c23f559b8bc112f6955 + content/40: 14a125255c8aa5f803f8202609ce2591 + content/41: bcadfc362b69078beee0088e5936c98b + content/42: a5779bc792b5252252ff3a257e7470ea + content/43: b3f310d5ef115bea5a8b75bf25d7ea9a + content/44: 7771baf5b99cc490b81a77e800532336 + b9c9aa424865900191ba654bc4407469: + meta/title: 5908802e0dba429fb4ed860d0dd612d4 + meta/description: d14928cbf0e453f5275b68d9ba867328 + content/0: 1b031fb0c62c46b177aeed5c3d3f8f80 + content/1: 85cafaf2991c281ba83cd26589738492 + content/2: 5be8170f4ac90bcdd36916761cd40e00 + content/3: fed0800ec714595d72422b50c7cb5a50 + content/4: 2d74726f950dd9e011447a102f54691e + content/5: 461ac7c72a19f708affef4359277622e + content/6: 2fac3c17d16c75ec2e4140e19ac3a100 + content/7: 3b8b1ceebbd8e9baf58465b0e35cdb53 + content/8: 9cbd715d3987d63b233c2348a6e9facc + content/9: 21b9c9cfc1d9a513ca1a6cb3b47e6326 + content/10: f2a12adb41a278943fa63596e9e6ef34 + content/11: 160dd6fd98891c85f021b7a05fe8a068 + content/12: e06d8303d3b36ca4c325229865fc52f7 + content/13: 821e6394b0a953e2b0842b04ae8f3105 + content/14: 0fe76e6c4b7bd07b8755802304fdbce4 + content/15: 9c8aa3f09c9b2bd50ea4cdff3598ea4e + content/16: 9292f8e698e5a67fe5152f6a789d778c + content/17: 5eb9078325e274d2c10481623bd702ec + content/18: 371d0e46b4bd2c23f559b8bc112f6955 + content/19: 21410a53a284d4dd4329345f0a316b23 + content/20: bcadfc362b69078beee0088e5936c98b + content/21: 865bee89ca6af3170d2b0682dd3bbc08 + content/22: ebdc1d7870479cdccc2ec62402c5c373 + content/23: 2c1b6f8b55e0670a9c079f7c31f4d047 + content/24: 371d0e46b4bd2c23f559b8bc112f6955 + content/25: c3739673607e20bd201a608e5cb6920e + content/26: bcadfc362b69078beee0088e5936c98b + content/27: 865bee89ca6af3170d2b0682dd3bbc08 + content/28: d6e14570a48cb5c62b0c50f4a9b83663 + content/29: 4f03cd58f1f916d50f24228b66a87789 + content/30: 371d0e46b4bd2c23f559b8bc112f6955 + content/31: 9b30924750988cc3810bf664ae20a9bc + content/32: bcadfc362b69078beee0088e5936c98b + content/33: 865bee89ca6af3170d2b0682dd3bbc08 + content/34: da73c1da2f533f33833d9d18ae1ce204 + content/35: 4fda0ccb8a349109ff8828fd46bb95f9 + content/36: 371d0e46b4bd2c23f559b8bc112f6955 + content/37: 5a0cbd8818674c3f1304202cbe073248 + content/38: bcadfc362b69078beee0088e5936c98b + content/39: 865bee89ca6af3170d2b0682dd3bbc08 + content/40: 429c2aa014e68491315673492d84ce40 + content/41: 98a4e66608e70eb81bd30c6ce2fce00b + content/42: 371d0e46b4bd2c23f559b8bc112f6955 + content/43: a81de2fe9e5ff90ef4549a3c71619b07 + content/44: bcadfc362b69078beee0088e5936c98b + content/45: 865bee89ca6af3170d2b0682dd3bbc08 + content/46: 0996f520f01d429c655727ca0ec29f4f + content/47: d7420601ba1f9f9cd12ba656ee16d140 + content/48: 371d0e46b4bd2c23f559b8bc112f6955 + content/49: 64aff7867843b7b5f7460b56126256c3 + content/50: bcadfc362b69078beee0088e5936c98b + content/51: 865bee89ca6af3170d2b0682dd3bbc08 + content/52: 99f0b61caf92e3fec60362e13e27c88d + content/53: 7853c96742a10330c544c0a930c0ee8c + content/54: 371d0e46b4bd2c23f559b8bc112f6955 + content/55: 835d8564e12bc41f3735ad90c0a33783 + content/56: bcadfc362b69078beee0088e5936c98b + content/57: 865bee89ca6af3170d2b0682dd3bbc08 + content/58: b3f310d5ef115bea5a8b75bf25d7ea9a + content/59: 6f52ba90fdce587206b75878a322e55f