Software

Numerosi software che mettono insieme strumenti statistici, tecnologie informatiche e risorse linguistiche sono oggi disponibili sia sul mercato del software propretario sia nelle reti di distribuzione di software gratuito e/o open source. Molte piattaforme per l'analisi statistica dei dati offrono anche moduli specifici per l'analisi dei dati testuali come Text analytics di IBM SPSS o Text Miner di SAS.

Data la vastità dei campi di ricerca e degli approcci all'analisi dei dati testuali esistenti, non esistono prodotti completi e universalmente adatti a tutte le applicazioni; pertanto, nella scelta di un software bisogna sempre avere chiara la domanda di ricerca e tenere conto che, nella maggior parte dei casi, è necessario integrare strumenti diversi.

Il Giat sviluppa proprie procedure per l'analisi dei dati testuali utilizzando prevalentemente l'ambiente R.

R (The R project for Statistical Computing)

R è un linguaggio di programmazione e un ambiente per il calcolo statistico e la produzione di rappresentazione grafiche. R offre un'ampia varietà di tecniche grafiche e statistiche (modelli lineari e non lineari, test statistici classici, analiis delle serie temporali, classificazione e analisi dei gruppi, ecc.). Uno dei punti di forza dell'ambiente R è sicuramente la disponibilità di procedure che permettono la creazione di grafici di alta qualità, quindi adatti alla pubblicazione. R si configura come un software libero e il suo codice sorgente è disponibile nei termini dettati dalla Free Software Foundation’s GNU General Public License. L'ambiente R è caratterizzato da numerore librerie che possono essere integrate tra loro. Qualche esempio per l'analisi dei testi:


CAQDAS

Nelle scienze umane e sociali sono disponibili numerosi software a supporto dell'analisi del contenuto di matrice sia qualitativa sia quantitativa. La famiglia dei CAQDAS (Computer-Assisted Qualitative Data Analysis Software) è un ampio insieme di strumenti software orientati soprattutto all'analisi del contenuto di matrice qualitativa, tipica di discipline come la sociologia e la psicologia sociale. Questi strumenti offrono strumenti di interrogazione, annotazione e gestione di corpora utili a rilevare in maniera sistematica la presenza categorie concettuali nei testi. In pratica tutti questi strumenti agevolano il processo di ricerca e annotazione dei testi secondo la logica dell'analisi del contenuto classica. Tra i più diffusi: Atlas.tidedooseEthnographMAXQDAWordStatRQDANVivo.

 

Analisi dei dati testuali

Alceste

Alceste (Analyse des Lexèmes Co-occurents dans les Ènoncés d’un Text) si propone come metodologia statistico-testuale finalizzata all'analisi del discorso, con applicazioni principali nell'ambito della semiotica e dell'analisi del contenuto. Si basa su metodi di classificazione gerarchica delle parole «piene» contenute in un corpus; la pertinenza, la significatività e la coerenza delle classi individuate lascia al ricercatore margini di valutazione e rielaborazione dei risultati. Il software contiene anche strumenti per l'individuazione di parole tipiche di ogni classe e per l'analisi delle corrispondenze.

Iramuteq

Iramuteq è un software libero (licenza GNU GLP) per analisti dei dati e testuali (IRaMuTeQ significa infatti interfaccia R per l'analisi Multidimensionale del Testo e dei Questionari). Si basa sul software R e sul linguaggio di programmazione Python. Può realizzare diversi tipi di analisi su grandi corpora (più di centinaia di milioni di occorrenze). Iramuteq riproduce il metodo di classificazione descritto da Reinert (1983, 1991), ovvero la classificazione gerarchica discendente su una tabella che incrocia le forme piene e i segmenti del testo. Può fare analisi delle specificità a partire da segmenti definiti e analisi delle similitudini sulle forme piene di un corpus.

JGAAP

JGAAP (Java Graphical Authorship Attribution Program) è un prodotto del Evaluating Variations in Language (EVL) Lab della Duquesne University di Pittsburgh. JGAAP è un software open-source che permette a utenti non esperti di usare i più recenti metodi statistici e di machine learning per affrontare problemi di classificazione dei testi. l'EVL Lab è finanziato dalla National Science Foundation (NSF) degli Stati Uniti. Il laboratorio si occupa di doiverse applicazioni in ambito stilometrico (e.g. Authorship Attribution, Personality Detection, Author Profiling, Author Verification).

Lexico

Lexico è un software per l'analisi automatica dei testi che contiene tutte le principali funzioni di ricerca e analisi statistica lessicometrica (vocabolario di frequenza, concordanze, ecc.). Ha il vantaggio di essere interattivo e di lasciare all'utente il controllo dei diversi passaggi che conducono dall'individuazione delle unità di analisi alla produzione dei risultati. Oltre all'analisi per forme grafiche semplici, il software permette l'identificazione di segmenti ripetuti e ricerche di co-occorrenze. Tra le caratteristiche tipiche di questo software c'è la produzione di diagrammi di topografia testuale che permettono di visualizzare la presenza di unità testuali nel corpus in una logica di tipo sequenziale (per esempio cronologica).

Nooj

Nooj  si presenta come una nuova elaborazione delle metodologie e degli strumenti del software Intex. Il software Nooj si propone come strumento di analisi linguistica che include una vasta proposta di risorse linguistiche: dizionari, grammatiche, parsers e taggers per l'analisi morfologica e sintattica. Inoltre produce concordanze di vario livello e complessità oltre alle principali elaborazioni di tipo lessicometrico.

Sphinx

Sphinx  ha come punto di forza una particolare attenzione all'intero percorso di indagine, per questo si propone come pacchetto integrato di risorse che, attraverso interfacce user-friendly, si occupano di tutti i diversi passaggi: disegno della ricerca, realizzazione del questionario, raccolta e analisi dei dati. Nell'ambito degli strumenti per l'analisi dei dati ha un modulo specifico per l'analisi statistica dei dati testuali che contiene tutte le principali funzionalità dell'approccio lessicometrico e produce rappresentazioni grafiche dei risultati elaborate ed efficaci.

Taltac

TaLTaC (Trattamento Automatico Lessicale e Testuale per l'Analisi del Contenuto di un Corpus) è un software per l'analisi testuale di documenti o di dati espressi in linguaggio naturale, che utilizza in maniera integrata risorse sia di tipo statistico che di tipo linguistico. Il trattamento del testo avviene in modo automatico sia a livello lessicale che testuale e alcune fasi costituiscono una preparazione del corpus per le successive analisi, svolte con il software nella duplice logica di text analysis e di text mining. Tali analisi offrono rappresentazioni del fenomeno studiato sia a livello di unità di testo (parole) sia a livello di unità di contesto (frammenti/documenti). Le funzioni permettono di analizzare corpora di grandi dimensioni e di svolgere tutte le operazioni fondamentali di trattamento del linguaggio naturale, di ricerca ed estrazione d'informazioni dal testo, nonché di fare annotazioni sul vocabolario del corpus e categorizzazione automatica dei documenti a partire da query, di selezionare ed estrarre le informazioni più significative. Tutti gli output, sotto forma di corpora annotati o di matrici di dati, hanno formati idonei al passaggio ad altri pacchetti statistici di analisi testuale o di analisi qualitativa e quantitativa dei dati.

T-Lab

T-Lab è un software modulare costituito da un insieme di strumenti linguistici e statistici che consentono l'esplorazione, l'analisi, la comparazione, la rappresentazione grafica e l'interpretazione dei contenuti presenti nei testi. T-Lab propone una gamma di funzioni per l'analisi lessicale con un'architettura user-friendly. Nella fase di pre-processing T-Lab realizza i principali trattamenti automatici dell'approccio lessicometrico: normalizzazione del corpus, riconoscimento di sequenze fisse di parole, segmentazione in contesti elementari, lemmatizzazione, selezione delle parole chiave, ecc. La procedura di lemmatizzazione automatica dei testi opera in italiano, inglese, francese, spagnolo e latino..

TXM

TXM  è un software libero che riconosce testi e corpora in formato Unicode e XML. La sua grafica si basa sugli ambienti CQP e R. E' un software disponibile per Windows, Mac OS X e come portale web J2EE. TXM implementa la metodologia dell'analisi testuale fornendo strumenti sia per l'analisi qualitativa come per esempio concordanze lessicali basate sull'efficiente motore di ricerca CQP e il linguaggio di query CQL, liste di frequenza, istogrammi di occorrenze, che per l'analisi quantitativa come analisi fattoriale delle corrispondenze, clustering etc. Può essere utilizzato con una qualsiasi raccolta di documenti codificati Unicode in vari formati: TXT, XML, XML-TEI P5, XML-Transcriber, XML-TMX, XML-PPS, Europresse, etc. Applica vari strumenti NLP nei testi prima dell'analisi (ad esempio TreeTagger per la lemmatizzazione e il tagging).

Wordsmith Tools

WordSmith Tools è una suite integrata di programmi per l'analisi linguistica che offre strumenti per l'organizzazione di corpora e per svolgere ricerche complesse attraverso operatori di tipo query. Il pacchetto integra una gamma di risorse statistiche per l'analisi dei dati e svolge tutte le principali elaborazioni di tipo lessicale. Gli strumenti sono stati utilizzati dalla Oxford University Press per il proprio lavoro lessicografico nella preparazione di dizionari e da ricercatori, insegnanti e studenti per l'analisi di testi in diverse lingue.

Strumenti per lo stemming

Porter stemmer

L'algoritmo di Porter (Porter stemmer) è uno strumento per la lingua inglese che permette di eliminare la parte finale delle parole, cioè quella che contiene prevalentemente informazioni di tipo morfo-sintattico, al fine di estrarne la radice (stem). L'algoritmo viene impiegato in molte operazioni di information retrieval per accorpare parole che fanno riferimento alla stessa radice semantica. E' disponibile una versione online (per testi in inglese) che permette di visualizzare il processo operato sulle parole.

Strumenti per la lemmatizzazione

Treetagger

TreeTagger è uno strumento per l'annotazione e lemmatizzazione dei testi nella logica delle parti del discorso (part of speech). E' stato sviluppato da Helmut Schmid all'Istituto di Linguistica computazionale dell'Università di Stoccarda. Si tratta di un software libero, che effettua una annotazione grammaticale di tipo stocastico e consente di ottenere in maniera automatica l'analisi grammaticale e la lemmatizzazione di testi scritti in diverse lingue. La lemmatizzazione si basa su file di parametrizzazione e su fasi di training attraverso le quali lo strumento è in grado di apprendere modalità decisionali a partire dalle informazioni provenienti da corpora già lemmatizzati. La lemmatizzazione automatica segue regole di tipo stocastico e, di conseguenza, il risultato non si può considerare infallibile e necessita di una revisione manuale per disambiguare tutti gli errori di interpretazione che un lemmatizzatore automatico normalmente compie. Il software è disponibile per i tre principali sistemi operativi Windows, Linux e Mac

UdPIPE

UDPipe is a trainable pipeline for tokenizing, tagging, lemmatizing and parsing.

Il package R UDPipe (UFAL) consente di svolgere un insieme di operazioni di pre-trattamento dei testi che sono fondamentali per l'analisi di un corpus: tokenizzazione, parts of speech (POS) tagging, lemmatizzazione e analisi delle strutture di dipendenza. Queste operazioni possono essere svolte grazie a modelli (tree-bank) predefiniti e disponibili in oltre 65 lingue diverse. L'utente può anche costruire propri modelli per l'annotazione dei testi.

Gatto

Gatto lemmatizzatore per l'italiano antico (Corpus OVI). (Gestione degli Archivi Testuali del Tesoro delle Origini) è un software lessicografico nato come strumento per la costruzione, la gestione e l'interrogazione del corpus di testi che è alla base del Vocabolario Storico della Lingua Italiana dell'Opera del Vocabolario Italiano (OVI-CNR). Gatto permette di effettuare ricerche lessicografiche su un archivio testuale preparato dall'utente a condizione che i testi, opportunamente codificati, siano disponibili su file unitamente ai relativi dati bibliografici. Le ricerche lessicografiche possono essere estese all'intero corpus, essere limitate a uno o più sottoinsiemi dei testi, essere svolte (alternativamente) su corpora diversi. Tra le funzioni di base ci sono le ricerche lessicografiche, la lemmatizzazione dei testi e la gestione di dati che, all'interno del programma, corrispondono a diversi ambienti: ricerche, lemmatizzazione, gestione della base di dati. Le parti del programma permettono di lemmatizzare i corpora mediante associazione di lemmi alle forme grafiche che vi compaiono, sia in riferimento a specifiche occorrenze delle forme sia definendo collegamenti generali tra forme e lemmi. Una lemmatizzazione a più livelli può essere ottenuta anche raggruppando forme o lemmi mediante iperlemmi, definibili all'interno di una struttura gerarchica. I testi, completi di lemmi e iper lemmi associati, possono essere esportati facilmente in altri software. Le opzioni disponibili consentono di adeguare i comportamenti del programma a esigenze molto diverse.