La sintesi vocale con Gemini

14 Giugno 2025

La sintesi vocale è diventata una tecnologia fondamentale nell'era dell'intelligenza artificiale. Trovando applicazione in settori che vanno dall'accessibilità digitale alla creazione di contenuti multimediali. Google ha recentemente integrato capacità avanzate di text-to-speech nelle sue API Gemini, offrendo agli sviluppatori uno strumento potente e accessibile per convertire testo in audio di alta qualità.

Generare Audio da Testo con le API Gemini di Google: Una Guida Pratica

Introduzione

Le API Gemini TTS si distinguono per la naturalezza delle voci sintetizzate e la facilità di integrazione. Attraverso semplici chiamate REST, è possibile trasformare qualsiasi testo in parlato fluido e naturale, aprendo infinite possibilità creative e funzionali.

In questo articolo, esploreremo come utilizzare queste API attraverso uno script Bash pratico e immediato, perfetto per automatizzare la generazione di contenuti audio per blog, podcast, applicazioni di accessibilità o qualsiasi progetto che richieda sintesi vocale di qualità professionale.

			
#!/bin/bash

# ====================================================================
# SCRIPT PER GENERARE AUDIO CON LE API GEMINI DI GOOGLE
# ====================================================================

# Acquisisce la API key di Google in modo sicuro (senza mostrare i caratteri digitati)
# Il flag -s nasconde l'input per motivi di sicurezza
# Il flag -p mostra il prompt specificato

read -s -p "Inserisci la API Key: " GOOGLE_API_KEY
echo
export GOOGLE_API_KEY
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent?key=$GOOGLE_API_KEY" \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
        "contents": [{
          "parts":[{
            "text": "Un saluto ai lettori del blog di Misterbot e buona lettura!"
          }]
        }],
        "generationConfig": {
          "responseModalities": ["AUDIO"],
          "speechConfig": {
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Kore"
              }
            }
          }
        },
        "model": "gemini-2.5-flash-preview-tts",
    }' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
          base64 --decode >out.pcm
# Qui hai bisogno di installare ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav

Spiegazione del Codice

Analizziamo il nostro script riga per riga per comprendere ogni aspetto del processo:

Gestione Sicura delle Credenziali

Il primo aspetto cruciale dello script è la gestione sicura della API key:

#!/bin/bash
# ====================================================================
# SCRIPT PER GENERARE AUDIO CON LE API GEMINI DI GOOGLE
# ====================================================================

# Acquisisce la API key di Google in modo sicuro (senza mostrare i caratteri digitati)
# Il flag -s nasconde l'input per motivi di sicurezza
# Il flag -p mostra il prompt specificato
read -s -p "Inserisci la API Key: " GOOGLE_API_KEY
echo
export GOOGLE_API_KEY

Il comando read con il flag -s (silent) garantisce che la chiave API non venga visualizzata durante la digitazione, una pratica essenziale per la sicurezza. Il flag -p permette di mostrare un prompt descrittivo all'utente.

La successiva istruzione export rende la variabile disponibile per i processi figli, necessaria per l'utilizzo nell'URL della chiamata curl.

La Chiamata API

Il cuore dello script è la chiamata HTTP alle API Gemini:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent?key=${GOOGLE_API_KEY}" \
-X POST \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{
      "text": "Un saluto ai lettori del blog di Misterbot e buona lettura!"
    }]
  }],
  "generationConfig": {
    "responseModalities": ["AUDIO"],
    "speechConfig": {
      "voiceConfig": {
        "prebuiltVoiceConfig": {
          "voiceName": "Kore"
        }
      }
    }
  },
  "model": "gemini-2.5-flash-preview-tts"
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode > out.pcm

L'endpoint utilizzato è specifico per il modello Gemini 2.5 Flash con capacità TTS. La struttura dell'URL include:

Il dominio delle API generative di Google
La versione beta dell'API (v1beta)
Il modello specifico per la sintesi vocale
La chiave API come parametro di query

Struttura del Payload JSON

Il payload inviato alle API ha una struttura precisa:

Contents: Definisce il contenuto da processare

Generation Config: Specifica come deve essere generata la risposta

La voce "Kore" è una delle voci preconfigurate disponibili, caratterizzata da un tono femminile naturale e una pronuncia fluida.

Pipeline di Processing

La parte più elegante dello script è la pipeline che processa la risposta:

Questa pipeline:

jq naviga nella struttura JSON di risposta ed estrae i dati audio
base64 --decode converte i dati dalla codifica base64 al formato binario
Il risultato viene salvato come file PCM grezzo

Conversione Audio Finale

L'ultimo passaggio utilizza FFmpeg per convertire il file PCM in formato WAV:

ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav

I parametri specificano:

-f s16le: formato PCM signed 16-bit little-endian
-ar 24000: sample rate di 24kHz, ottimale per il parlato
-ac 1: audio mono (singolo canale)
-i out.pcm: file di input
out.wav: file di output finale

Requisiti Tecnici

Per utilizzare questo script sono necessari:

curl: per le chiamate HTTP (generalmente preinstallato)
jq: parser JSON da riga di comando
base64: utility di codifica/decodifica (preinstallata su la maggior parte dei sistemi Unix)
ffmpeg: suite di strumenti multimediali per la conversione audio

Su sistemi Ubuntu/Debian, i tool mancanti si installano con:

sudo apt install jq ffmpeg

Personalizzazioni Possibili

Lo script può essere facilmente personalizzato:

Cambio di voce: Sostituire "Kore" con altre voci disponibili come "Aoede", "Charon", "Fenrir", "Puck", o "Quara".

Modifica del testo: Cambiare il contenuto del campo "text" per generare audio personalizzato.

Parametri audio: Modificare sample rate o formato di output secondo le proprie esigenze.

Conclusione

Questo script rappresenta un esempio pratico di come integrare le potenti API Gemini di Google in workflow di automazione. Con poche righe di codice, siamo riusciti a creare uno strumento completo per la sintesi vocale che trasforma testo in audio di qualità professionale.

Le applicazioni pratiche sono numerose: dalla creazione automatica di podcast e audiolibri, all'implementazione di sistemi di accessibilità per non vedenti, fino allo sviluppo di assistenti vocali personalizzati. La semplicità dell'implementazione rende questa soluzione accessibile anche a sviluppatori con competenze bash di base.

La qualità dell'audio generato dalle API Gemini, combinata con la facilità di integrazione dimostrata in questo script, apre nuove possibilità per creator di contenuti, sviluppatori di applicazioni e chiunque voglia sperimentare con tecnologie di sintesi vocale all'avanguardia.

L'evoluzione continua delle API di Google promette ulteriori miglioramenti in termini di naturalezza delle voci, supporto multilingue e opzioni di personalizzazione, rendendo questo approccio sempre più vantaggioso per progetti professionali e sperimentazioni creative.

Ricorda di consultare sempre la documentazione ufficiale delle API Gemini per le ultime funzionalità e limitazioni d'uso.