Generative AI e creazione di contenuti
A cura di Adriano Manfrè, Head of Autonomous Systems in Innovation & Advaced Technologies e Alice Brocca, responsabile del Media Expansion Program di NTT DATA.
Il concetto di Intelligenza Artificiale si sta facendo costantemente più spazio nelle nostre vite: sia sul lato personale, con la possibilità di interfacciassi con oggetti e strumenti sempre più “intelligenti”, sia soprattutto sul piano lavorativo.
L’entrata dell’Intelligenza Artificiale nei processi produttivi di un’azienda è un qualcosa che appartiene già all’oggi. Questo perché l’AI permette principalmente di ridurre i tempi di produzione e poter sollevare da incarichi manuali e ripetitivi determinate porzioni della forza lavoro aziendale.
Tra i settori in cui l’AI è entrata con maggiore prepotenza ed efficacia c’è senza dubbio quello della comunicazione e della creazione di contenuti. Dal modo in cui vengono scritti i testi alla realizzazione di immagini e video, l’Intelligenza Artificiale è ormai da considerare un elemento imprescindibile per le aziende del settore e non solo.
NTT DATA da tempo sta studiando queste possibili applicazioni e ora e già in grado di mettere a disposizione dei propri clienti una Video Analysis Platform basata sulla Generative AI, ovvero un aggregato di funzioni di AI che sottendono l’analisi dei contenuti di un video, permettendo di analizzarne vari aspetti con grande efficacia e velocità.
Le potenzialità della Generative AI e della Video Analysis Platform
La Video Analysis Platform è un aggregato di funzionalità di intelligenza artificiale che si occupano dell’analisi dei contenuti, tra cui l'object recognition, cioè l'individuazione, all'interno di un flusso video di specifiche parti; il riconoscimento facciale e il mapping delle persone che compaiono all'interno del video rispetto a un database di immagini. Inoltre, è in grado di generare automaticamente transcript e traduzioni, sintesi dei contenuti, estrarre delle keyword dal flusso audio ed effettuare l'analisi audiometrica che, tramite il matching della tonalità della voce, permette di individuare chi sta parlando all'interno del video e di isolare tracce e conversazioni, per esempio rispetto a dei rumori di fondo.
Tutte queste funzionalità basate sull’AI servono ad ottimizzare il contenuto e l'elaborazione del video e permettono di automatizzare delle attività che normalmente vengono portate avanti in modo manuale, con grande dispendio di tempo. All'interno di un contesto di video operation, infatti, l’applicazione di soluzioni di intelligenza artificiale e di Generative AI permette di ottimizzare l’effort e ridurre i tempi.
L’applicazione della Video Analysis Platform in 4 contesti reali
- Generazione di sottotitoli e caption per immagini/video basata su Generative AI
La generazione di sottotitoli per immagini basata su intelligenza artificiale generativa utilizza modelli di deep learning per creare sottotitoli e testi descrittivi e pertinenti dal punto di vista contestuale per le immagini. Questi modelli imparano ad associare le caratteristiche visive alle descrizioni testuali, consentendo loro di generare testi coerenti e significativi per una vasta gamma di immagini. Queste caption sono rilevanti anche per applicazioni come l'indicizzazione del contenuto, l'accessibilità, la raccomandazione del contenuto e il potenziamento del coinvolgimento degli utenti con il contenuto visivo (es. enhanced content).
- Generazione di modelli 3D basata su Generative AI per set virtuali
La generazione di modelli 3D basata su intelligenza artificiale generativa consente ai broadcaster di ottimizzare il processo di creazione e personalizzazione di set virtuali per le loro produzioni. Amplia le possibilità creative e l'efficienza di produzione, garantendo trasmissioni coinvolgenti e visivamente accattivanti. I modelli 3D generati dall'AI possono ridurre significativamente i costi e i tempi associati alla costruzione di set fisici o asset 3D personalizzati (che diversamente dovrebbero essere logisticamente nello spazio fisico). I broadcaster possono utilizzare l'AI per creare ambienti virtuali che si adattino alle esigenze e ai temi del loro contenuto.
- Sintesi dei testi basata su Generative AI
Riassunto automatico di testi per ottimizzare il processo di tickering, cioè nell'affissione di testo o informazioni scorrevoli nella parte inferiore del video o dello schermo. Il testo in movimento fornisce aggiornamenti, notizie, avvisi o altre informazioni rilevanti per gli spettatori, consentendo loro di rimanere informati senza interrompere il flusso principale del contenuto visivo. L'intelligenza artificiale generativa può riassumere automaticamente articoli di notizie, relazioni o altro contenuto testuale in tempo reale. I broadcaster possono utilizzare questi riassunti per generare rapidamente e in modo efficiente contenuti per il tickering, assicurando che le informazioni più rilevanti siano mostrate agli spettatori. Ciò riduce il tempo e lo sforzo richiesto per curare manualmente il contenuto del tickering.
- Sintesi di un contenuto video basato su Generative AI
Sintesi in forma di contenuto testuale di uno stream video. L'intelligenza artificiale generativa può analizzare e riassumere automaticamente contenuti video lunghi in tempo reale o in fase di post-produzione. Questo processo comporta l'estrazione dei momenti chiave, degli highlights e delle informazioni importanti dalla trascrizione video, condensandoli in un riassunto più breve e digeribile. I broadcaster possono utilizzare i riassunti video come metadati per i contenuti archiviati o per promuovere il loro contenuto su piattaforme di social media. Questo caso d’uso è particolarmente rilevante al “content repurposing", ovvero il processo di prendere un pezzo di contenuto esistente, come un articolo, un video, o una presentazione, e adattarlo o modificarlo per essere utilizzato in diversi contesti o per diversi scopi o su canali differenti (es. TV vs web). In sostanza, si tratta di rielaborare il contenuto esistente in modo da renderlo adatto a nuove piattaforme, audience o obiettivi. Ad esempio, si potrebbe prendere un articolo scritto e trasformarlo in una serie di post sui social media, o convertire un video in una presentazione per un seminario. Questo approccio permette di massimizzare l'uso del contenuto esistente, risparmiando tempo nella creazione di nuovo materiale.
Generative AI: un universo ancora da esplorare, tra opportunità e rischi
La natura altamente performante della Generative AI ne fa un universo ancora da comprendere nella sua totalità. In base a ciò che è già possibile fare oggi, è semplice arrivare a immaginarne ulteriori sviluppi.
Tutto questo, inevitabilmente si porta dietro anche una componente di rischi, che sono soprattutto di carattere normativo. La Generative AI è una sorta di “scatola nera” che genera dei contenuti del tutto nuovi, non è in grado soltanto di produrre delle cose realistiche, ma anche il contesto in cui queste cose possono accadere. Si tratta di una sorta di macchina in grado di creare veri e propri mondi paralleli. Proprio per questo, le normative sul suo utilizzo non sono ancora ufficiali e perfettamente aggiornate rispetto al suo potenziale, e quindi questo può mettere nella condizione che uno sviluppo di questa tecnologia non sia aderente alla normativa e quindi, di fatto, inutilizzabile. Questo proprio perché la tecnologia già esiste ed è in continua evoluzione, mentre le tempistiche di chi deve normare questi settori sono molto più lente e quindi, inevitabilmente, tardive.
Quindi il rischio principale è di investire molto per adottare determinate soluzioni di Generative AI che poi non saranno in linea con i regolamenti del settore.
Un’altra problematica è legata invece al tema del diritto d’autore e del fact checking, una caratteristica che manca totalmente nell’AI attuale. È importante capire cosa far dire all’AI e poi controllare sempre il risultato finale, per accertarsi che i limiti entro i quali è lecito muoversi siano rispettati da una macchina che, in quanto generativa per sua stessa natura, non ha limiti.
La gestione del rischio, quindi, diventa una gestione più attenta in fase di progettazione e di studio del prodotto. Uno sforzo condiviso macchina-uomo per riuscire a performare al meglio senza infrangere le regole. Il vero apporto dell’intelligenza umana in un mondo in cui quella artificiale è sempre più presente sta proprio nel riuscire a integrare in maniera efficace le proprie attività insieme a quelle della macchina.
Il mercato dei media oggi sta ancora sperimentando questo tipo di applicazioni e non è ancora arrivati ad un’adozione su larga scala, ma si prevede che nel giro di 5 anni quasi il 70/80% delle aziende del settore utilizzerà l’AI nella propria catena di produzione: per questo motivo, è ora il momento di approfondire le potenzialità di questa tecnologia, perché non appena si stabilizzeranno gli aspetti tecnologici e normativi la crescita nell’adozione della Generative AI sarà molto veloce.