Text mining: come sfruttare l'AI per migliorare la gestione documentale. Un caso concreto
Sfruttando l’intelligenza artificiale - nello specifico principalmente il text mining, una branca dell’NLP (Natural Language Processing), ma anche l’object recognition - Present ha trasformato il sistema di gestione documentale tradizionale di un importante marchio italiano di arredamento del mondo del luxury in una soluzione evoluta di Intelligent Document Processing. In questo modo, il cliente ha potuto ottimizzare la gestione di una enorme mole di dati non strutturati ed eterogenei (e dei relativi processi), necessari per la partecipazione a importanti gare d’appalto internazionali per forniture by Contract.
La situazione critica pre-intervento: un insieme caotico di dati non strutturati
Partecipare a gare d’appalto per l’allestimento di grandi e articolate strutture richiede all’azienda la capacità di esaminare tutti gli ambienti previsti dal complesso capitolato anche solo per valutare l’opportunità di partecipare alla gara e per comporre la proposta migliore per ogni ambiente. Nel caso dell’apertura di una nuova struttura da parte di una catena di hotel, per esempio, occorre inviare una proposta di arredo per ognuna delle aree in progetto: dalle camere alle sale congressi, passando per la reception, il ristorante e gli ambienti comuni. Si tratta di scenari particolarmente complessi: ogni fornitore, infatti, produce documenti diversi in formato diverso (che sia Word, Excel o PDF). E non è tutto: il datasheet di ogni componente d’arredo presenta un’assonometria in cui sono riportate le quote, il cui modello è diverso per ogni tipologia di mobilio. In pratica, se si moltiplicano tutte le tipologie di arredo e relative varianti per il numero di fornitori coinvolti e per i formati documentali possibili, risulta un numero sconfinato di combinazioni potenziali. E prima di partecipare a una gara d’appalto, è necessario fare proprio l’analisi di questa enorme massa documentale per verificare se si è in grado di garantire la fornitura necessaria: un processo estremamente complesso e oneroso in termini di tempo e risorse.
La soluzione per razionalizzare il tutto? Passare all’Intelligent Document Processing e potenziare la gestione documentale con funzionalità di text mining e di object recognition.
L’obiettivo: sfruttare AI e text mining per armonizzare tutti i dati
A fronte di queste complessità, il brand ha chiesto a Present di realizzare una soluzione documentale che raccogliesse i datasheet relativi alla documentazione proveniente dagli studi di progettazione, li collegasse per tipologia di ambiente e riuscisse a estrarre le informazioni necessarie a comprendere come valutare l’opportunità di partecipazione, gestire la fornitura e come ottimizzare il trasporto stimando con precisione, per esempio, il numero di container utili. Il punto era riuscire a orchestrare - per ogni componente - tutte le informazioni relative alle possibili varianti (come materiale o colore) e all’occupazione volumetrica (quindi l’insieme delle quote di riferimento). L’output richiesto doveva presentarsi sotto forma di un comodo foglio Excel: questo file doveva fungere da sintesi sia in termini di informazioni dimensionali sia di immagini estratte dai documenti. La diagnosi dei tecnici di Present è stata immediata: per elaborare le immagini e riconoscere le diverse tipologie di arredo rappresentate occorrevano algoritmi di AI; per estrarre il testo dall’immagine al fine di riconoscere l’unità di misura utilizzata, ed effettuare eventuali conversioni, sarebbero invece servite specifiche funzionalità di text mining.
La soluzione di Present: la gestione documentale evolve con il text mining
L’algoritmo utilizzato da Present per abilitare l’Intelligent Document Processing si basa dunque principalmente su image recognition e Natural Language Processing. Da un lato le reti neurali riconoscono il "Modello di quote" corretto relativo a libreria, divano, sedia, poltrona, sgabello, reception-desk ecc. Dall’altro il text mining, in particolare, è la chiave che permette di sfruttare il NLP per trasformare un testo libero in dati strutturati. Infine, la complessità consisteva nel ricercare le informazioni dimensionali sia nelle immagini sia nel testo. Come primo step, Present ha cominciato a lavorare per reti neurali, effettuando una classificazione delle immagini per definire le diverse tipologie di complemento d’arredo. Una volta identificato il tipo di oggetto rappresentato, si è stati quindi in grado di associare correttamente i numeri presenti nell’immagine alle relative dimensioni, per definirne la volumetria. Infine, tramite un altro gruppo di reti neurali, è stato possibile interpretare semanticamente anche i documenti di solo testo. Ottenute tutte queste informazioni, i dati sono stati inseriti tramite un connettore di sistema all’interno della soluzione di gestione documentale Arxivar. Grazie a queste integrazioni di AI e text mining, il personale che accede al portale oggi può eseguire qualsiasi tipo di ricerca, fare raggruppamenti e visualizzare i documenti in base a parole chiave. La percentuale di successo dell’algoritmo è stata da subito molto elevata: dall’80% dei primi test, si è giunti all’attuale 95%, il cui residuo è spesso rappresentato da falsi negativi. Dove l’algoritmo di text mining non riesce a estrarre in maniera corretta tutti i dati, allerta l’utente, il quale può verificare confrontando a video documento e dati estratti dal sistema per confermare o correggere così l’informazione.
I vantaggi ottenuti grazie ad AI e text mining: meno rischi e più competitività
Con il sistema tradizionale, privo delle funzionalità di text mining, raggruppare i documenti e popolare in maniera corretta il file Excel richiedeva mediamente all’azienda tre settimane di lavoro. Le funzionalità di text mining implementate da Present permettono oggi di adempiere alle stesse mansioni con tempistiche che vanno da qualche secondo a pochi minuti. Prima di questo salto evolutivo, l’azienda riusciva a partecipare a circa sei gare d’appalto all’anno: oggi il numero delle candidature, nello stesso lasso di tempo, è salito a diciotto. Assolutamente strategico è aver conseguito il risultato di comprendere rapidamente, a priori, se la capacità produttiva dell’azienda e di tutta la sua filiera permetta di acquisire una data commessa senza incorrere in penali e se il progetto sia effettivamente vantaggioso dal punto di vista economico.
Il progetto è stato realizzato dal team Present composto da: Massimo Matricardi, Roberto Catasta, Luca Mereghetti.