Text Mining: a statistical perspective

Balbi, Simona

La tesi focalizza la sua attenzione sul Text Mining ed in particolare sui miglioramenti che il ricorso a strumenti statistici innovativi può indurre alle sue principali componenti: la visualizzazione e l'estrazione di informazione da corpora testuali in linguaggio naturale. Gli argomenti trattati nei 4 capitoli in cui si articola la tesi ed i contributi proposti costituiscono una presentazione unitaria e rielaborata di risultati già discussi o pubblicati nonché di proposte inedite, oggetto di lavori in corso di pubblicazione. Essi rappresentano il frutto di ricerche condotte sugli aspetti teorici e applicativi dell’analisi statistica dei dati testuali; in particolare Di Meglio si è interessato al ruolo delle misure di dissimilarità tra documenti testuali nell’ambito del Text Mining ed, in particolare, nell’ambito: · della visualizzazione di informazioni estratte da testi non strutturati; · del Text Retrieval; · della categorizzazione automatica di documenti. In tale ambito egli ha proposto delle soluzioni metodologiche innovative per migliorare le performance di tali procedure. Di Meglio ha inoltre proposto delle soluzioni per tener conto dell’informazione esterna spesso disponibile nelle basi di dati documentarie per il Text Retrieval. Egli, infine, si è interessato al problema della tradizionale codifica “bag of words”, che non permette di tener conto delle interazioni tra le diverse parole di un documento, proponendo una strategia che permette di superare alcuni dei problemi legati a tale codifica. Il primo capitolo è dedicato agli aspetti di base del Text Mining e, in generale, dell’analisi statistica dei dati testuali. Il Text Mining è un processo atto ad estrarre informazioni interessanti da corpora testuali, in maniera automatica. Lo scopo è quello di soddisfare il bisogno informativo dell’utente. I diversi task richiesti in un processo di Text Mining sono illustrati nei loro aspetti statistici, in particolare la visualizzazione, il Text Retrieval, la Classificazione che costituiscono l’argomento della successiva trattazione. Il Text Mining è illustrato come un processo che prevede due momenti fondamentali: la costruzione del dato e la successiva elaborazione per l’estrazione di informazione. I testi non possono essere direttamente elaborati da algoritmi statistici, c’è bisogno di una codifica che estragga da essi le unità statistiche di analisi. La costruzione del dato è un momento fondamentale per l’analisi e deve comportare la minore perdita di informazione possibile garantendo contemporaneamente l’economicità del processo di analisi. Sono riviste in chiave critica alcune delle tecniche fondamentali utilizzate per costruire le unità: in particolare la lemmatizzazione, l’uso di stop list, l’estrazione di segmenti ripetuti. Successivamente è descritta la codifica “bag of words” che permette di codificare i documenti in vettori le cui componenti sono le frequenze di occorrenza delle parole. Tale codifica è la più diffusa nell’ambito del Text Mining ed è quella utilizzata nel seguito della trattazione. La codifica “bag of words” presenta due fondamentali problemi: non tiene conto della diversa lunghezza dei documenti né della diversa importanza che hanno le singole parole nel veicolare i significati. Inoltre essa non permette di tener conto delle relazioni di dipendenza tra le parole. Il primo problema può essere risolto con la scelta di un opportuno sistema di pesi per le parole o con la scelta di un’adeguata metrica; il secondo è un problema aperto nell’ambito del Text Mining. Nei capitoli seguenti sono proposte delle soluzioni basate sull’utilizzo di appropriate metriche, di algoritmi che permettono di tener conto delle co-occorrenze e della segmentazione in frasi. Nel secondo capitolo è affrontata la problematica della visualizzazione di informazioni estratte dai documenti. Spesso l’utente conosce soltanto vagamente il suo bisogno informativo o non sa esplicitarlo attraverso le parole adatte. Opportune tecniche di visualizzazione possono permettere di superare questo problema presentando in maniera visiva una sintesi dei dati e dando la possibilità all’utente di interagire con il processo di Mining. In tale ottica le principali tecniche per la visualizzazione di dati testuali sono presentate, in particolare l’analisi delle corrispondenze lessicali e WEBSOM. L’analisi delle corrispondenze lessicali è una tecnica che permette di rappresentare su piani fattoriali le strutture di associazioni tra le parole presenti nei documenti. Essa permette di analizzare in maniera organica il linguaggio utilizzato nei documenti e di visualizzare le principali associazioni tra i concetti in essi espressi. WEBSOM è una nuova metodologia, sviluppata presso il CIS Lab della Helsinki University of Technology (dove Di Meglio ha trascorso un periodo di studio) basata sulle Self-Organizing Maps (SOM). Essa permette di classificare e visualizzare su una mappa bidimensionale i documenti di una collezione e di navigare attraverso essi fino a raggiungere l’informazione di proprio interesse. I vettori-documento sono classificati attraverso una SOM e rappresentati graficamente attraverso algoritmi di visualizzazione delle SOM. Le regioni della mappa sono poi etichettate in base alle parole chiave, estratte dai documenti sottostanti in base alla frequenza. Un’interfaccia HTML permette di visualizzare maggiori o minori livelli di dettaglio. Nella trattazione è descritto in dettaglio il metodo WEBSOM e sono presentate due proposte metodologiche per il suo miglioramento. In particolare, Di Meglio propone di utilizzare la metrica del chi-quadro nella fase di apprendimento della SOM e di utilizzare l’Analisi delle Corrispondenze (AC) per la scelta delle parole chiave che rappresentano le etichette delle celle della mappa. In tal modo si visualizzano le associazioni multiple tra regioni della mappa e parole utilizzate ottenendo caratterizzazioni più efficaci non basate soltanto sul criterio della frequenza. Le proposte sono illustrate praticamente in un’applicazione sugli annunci di lavoro on-line Nel terzo capitolo si affrontano le tematiche del Text Retrieval. Scopo del Text Retrieval è recuperare l’informazione interessante data una query in linguaggio naturale in grandi corpora testuali. Dopo aver illustrato in chiave critica i principali modelli per il Text Retrieval, in particolare la Ricerca Booleana, Il Vector Space Model (VSM) e il Latent Semantic Indexing (LSI) ci si sofferma sul ruolo delle misure di dissimilarità nell’ambito del Text Retrieval. Le metrica più utilizzata in tale ambito, sia nel VSM che nel LSI è la metrica Euclidea. Essa comporta notevoli problemi: in primo luogo, non tiene conto della diversa lunghezza dei documenti; in secondo luogo conferisce notevole importanza alle parole più frequenti; infine, e questo è il problema fondamentale, non è adatta a dati di frequenza quali quelli contenuti nelle tabelle lessicali. Di Meglio propone quindi un nuovo metodo: il Latent Semantic Correspondence Indexing. Questo metodo, ispirandosi all’Analisi delle Corrispondenze, utilizza nella creazione dell’indice semantico latente la metrica del chi-quadro, risolvendo gran parte dei problemi propri del LSI legati alla metrica Euclidea non ponderata. Egli propone inoltre, per ridurre il peso computazionale della procedura una strategia di retrieval in due passi. Questa strategia consiste nell’individuare dei gruppi omogenei di documenti e di effettuare una prima ricerca sui gruppi per poi raffinarla soltanto sui documenti contenuti nei gruppi selezionati. La distanza proposta per confrontare la query e i cluster identificati è una misura basata sulla divergenza di Kullback Leibler. La strategia proposta è utilizzata in un’applicazione di retrieval da una collezione di abstract di riviste mediche. Nel terzo capitolo è inoltre presentato il SOM based Retrieval, una procedura, ispirata a WEBSOM che Di Meglio ha contribuito a sviluppare durante il suo periodo di ricerca all’estero. Egli in particolare ha curato l’aspetto relativo al numero di celle della mappa da utilizzare nella prima fase di una ricerca in due fasi. I risultati sono presentati in un’applicazione sempre su una collezione di abstract di riviste mediche. I documenti sono spesso accompagnati da informazioni esterne quali l’autore, le keyword, la fonte, ecc. Queste informazioni, se opportunamente considerate possono migliorare la performance di una procedura di retrieval. A tal fine è proposta una strategia basata sulla Regressione PLS per prendere in considerazione tale tipo di informazione. Tale strategia è applicata in un esperimento di retrieval da riviste mediche in cui le informazioni esterne sono costituite dalle keyword. Nel quarto capitolo si propone una strategia per individuare sub-testi nei quali utilizzare strumenti di Text Mining per superare alcuni problemi della codifica “bag of words”. I documenti possono essere visti come strutture composte da frasi a loro volta composte da parole. In genere, i documenti non sono completamente privi di struttura. Isolare, quindi, le frasi che contengono l’informazione interessante per gli scopi dell’analisi può portare ai risultati desiderati in maniera più efficiente. Le parole conservano in tal modo i loro contesti locali e la variabilità nel loro significato è ridotta dal fatto che solo alcuni contesti del documento sono considerati nelle frasi estratte. Per l’estrazione delle frasi significative è utilizzato un approccio di classificazione supervisionata. Attraverso la segmentazione ad albero sono individuate su un training set delle regole di associazione fra parole che caratterizzano le frasi di interesse. Tali regole sono validate su un test set e applicate all’intero corpus testuale per estrarre le frasi. Soltanto su tali frasi sono effettuate le analisi proprie del task di Text Mining considerato. Ciò permette, oltre ai vantaggi già descritti, di ottenere una notevole riduzione del peso computazionale della procedura, che è quasi sempre notevole nell’ambito del Text Mining. Descritte, quindi, le diverse tecniche di classificazione utilizzate in letteratura per i dati testuali, è presentata la strategia proposta ed è mostrata un’applicazione nell’ambito dell’analisi degli annunci di lavoro on-line, particolare categoria di testi semi-strutturati. La tesi, accanto ad una esauriente rassegna dello stato dell'arte in tema di Text Mining, nelle sue diverse componenti (visualizzazione dell'informazione, classificazione dei documenti, text retrieval), e nelle diverse problematiche connesse, propone numerosi risultati metodologici originali e si conclude aprendo nuove prospettive di lavoro e ulteriori ed interessanti approfondimenti, come, ad esempio, considerare un documento, alla luce delle considerazioni fatte nel quarto capitolo, come un oggetto simbolico e investigare le implicazioni dell’analisi dei dati simbolici nell’ambito testuale.

Text Mining: a statistical perspective

BALBI, SIMONA

2004

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

Citazioni

social impact

Text Mining: a statistical perspective

BALBI, SIMONA

2004

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Citazioni

social impact

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)