
L'intelligenza artificiale sta rivoluzionando il modo in cui organizziamo e gestiamo i nostri contenuti digitali. In questo articolo esploreremo un progetto didattico che dimostra come sia possibile creare un sistema di classificazione automatica delle immagini utilizzando due potenti strumenti: Google Gemini per l'analisi visiva e n8n per l'automazione dei processi.
Classificazione Automatica di Immagini: Un Progetto Didattico con Gemini e n8n
L'intelligenza artificiale sta rivoluzionando il modo in cui organizziamo e gestiamo i nostri contenuti digitali. In questo articolo esploreremo un progetto didattico che dimostra come sia possibile creare un sistema di classificazione automatica delle immagini utilizzando due potenti strumenti: Google Gemini per l'analisi visiva e n8n per l'automazione dei processi. Questo progetto, realizzato a scopo educativo, mostra come sia possibile implementare un workflow intelligente che monitora una cartella, analizza automaticamente le immagini caricate e le organizza in categorie predefinite senza alcun intervento manuale.
Le Potenzialità di Gemini 2.0 Flash
Google Gemini 2.0 Flash rappresenta una delle più avanzate soluzioni di intelligenza artificiale multimodale disponibili oggi. La sua capacità di analizzare e comprendere contenuti visivi lo rende ideale per applicazioni di computer vision come la classificazione delle immagini.
Nel nostro progetto, Gemini viene utilizzato per:
• Analisi visiva avanzata: Riconosce oggetti, persone, animali e scene con elevata precisione
• Classificazione intelligente: Categorizza le immagini in base a criteri predefiniti
• Processamento rapido: Fornisce risposte immediate grazie alla versione "Flash"
• Comprensione del contesto: Va oltre il semplice riconoscimento di oggetti, comprendendo il contesto generale dell'immagine
Architettura del Workflow: Analisi dei Nodi
Il workflow è composto da cinque nodi principali che lavorano in sequenza per creare un sistema di classificazione completamente automatizzato:

1. Local File Trigger - Il Guardiano della Cartella
Il primo nodo ( Local File Trigger ) rappresenta il punto di partenza del nostro sistema. Configurato per monitorare la cartella /home/emanuele/Clienti/EDwareLab/foto_n8n , questo nodo:
• Rileva automaticamente l'aggiunta di nuovi file nella cartella specificata
• Si attiva esclusivamente sull'evento "add", ignorando modifiche o cancellazioni
• Fornisce il percorso completo del file appena aggiunto al resto del workflow
Questo approccio basato su trigger garantisce che il sistema sia sempre pronto a processare nuove immagini senza necessità di interventi manuali o schedulazioni.

2. Execute Command - La Codifica Base64
Il secondo nodo ( Execute Command ) esegue un comando bash fondamentale per la preparazione dei dati:
base64 -w 0 "{{ $json .path }}"
Questo comando:
• Legge il file immagine dal percorso fornito dal trigger
• Lo converte in formato Base64 senza interruzioni di riga ( -w 0 )
• Prepara i dati nel formato richiesto dall'API di Gemini
La codifica Base64 è essenziale poiché permette di trasmettere dati binari (come le immagini) attraverso protocolli che gestiscono solo testo, come HTTP.

3. Code - Il Preparatore dei Dati
Il terzo nodo ( Code ) è responsabile della strutturazione dei dati per la fase successiva. Questo nodo JavaScript:
• Estrae i dati Base64 dall'output del comando precedente
• Recupera il percorso e il nome del file originale
• Crea un oggetto JSON strutturato contenente tutte le informazioni necessarie
Il codice garantisce che i dati siano organizzati in modo ottimale per l'invio all'API di Gemini, combinando informazioni provenienti da diversi nodi del workflow.

4. HTTP Request - L'Interfaccia con Gemini
Il quarto nodo ( HTTP Request ) rappresenta il cuore dell'intelligenza del sistema. Questo nodo:
• Invia una richiesta POST all'API di Google Gemini 2.0 Flash
• Utilizza un prompt specifico in italiano che richiede la classificazione dell'immagine
• Include l'immagine codificata in Base64 nel payload della richiesta
• Richiede una risposta concisa contenente solo il nome della categoria
Il prompt utilizzato ("Analizza questa immagine e classificala in una delle seguenti categorie: persone, animali, oggetti, natura, arte. Rispondi solo con il nome della categoria, senza spiegazioni aggiuntive.") è progettato per ottenere risposte precise e utilizzabili dal sistema.

5. Execute Command1 - L'Organizzatore Automatico
L'ultimo nodo ( Execute Command1 ) completa il processo di classificazione eseguendo due operazioni critiche:
mkdir -p "/home/emanuele/Clienti/EDwareLab/foto_n8n/{{ $json.candidates[0].content.parts[0].text }}" && mv "{{ $('Local File Trigger').item.json.path }}" "/home/emanuele/Clienti/EDwareLab/foto_n8n/{{ $json.candidates[0].content.parts[0].text }}
Questo comando:
• Crea automaticamente una cartella con il nome della categoria identificata da Gemini
• Sposta il file originale nella cartella appropriata
• Utilizza l'operatore && per garantire che lo spostamento avvenga solo dopo la creazione della cartella

Vantaggi del Sistema
Questo approccio offre numerosi vantaggi:
Automazione Completa: Una volta attivato, il sistema funziona senza interventi manuali, processando automaticamente ogni nuova immagine caricata.
Scalabilità: Il sistema può gestire volumi elevati di immagini senza degradazione delle prestazioni.
Precisione: L'utilizzo di Gemini garantisce un'alta accuratezza nella classificazione, superiore a molti sistemi tradizionali di computer vision.
Flessibilità: Le categorie possono essere facilmente modificate cambiando il prompt inviato a Gemini.
Integrazione Semplice: n8n permette di integrare facilmente questo workflow con altri sistemi o servizi.
Conclusione
La combinazione di Google Gemini e n8n dimostra le straordinarie potenzialità che si aprono quando si uniscono l'intelligenza artificiale avanzata con strumenti di automazione flessibili. Questo progetto didattico rappresenta solo un assaggio di ciò che è possibile realizzare: dalla creazione di sistemi di archiviazione intelligenti fino allo sviluppo di agenti AI complessi capaci di gestire flussi di lavoro articolati.L'accoppiata Gemini-n8n permette di creare agenti digitali straordinariamente potenti, capaci di processare, analizzare e organizzare contenuti con un livello di intelligenza che era impensabile solo pochi anni fa. Mentre questo esempio si concentra sulla classificazione di immagini, le stesse tecniche possono essere applicate a una vasta gamma di scenari, dall'analisi di documenti alla gestione di contenuti multimediali, aprendo infinite possibilità per l'automazione intelligente.
Il futuro dell'automazione non è più solo nell'esecuzione di compiti ripetitivi, ma nella creazione di sistemi capaci di comprendere, analizzare e agire in modo intelligente sui dati che processiamo quotidianamente.
Per chi volesse sperimentare il sistema con opportune personalizzazioni legate al proprio ambiente mettiamo a disposizione il file di workflow n8n in formato JSON, che può essere importato direttamente nella propria istanza di n8n per testare e adattare il progetto alle proprie esigenze:
Scarica il workflow n8n.