Aspetti teorici e indagini quantitative della composizione in alcune lingue d'Europa (Unità di ricerca del progetto PRIN COMPONET coordinato da S. Scalise)

Gaeta, Livio

Lo scopo della ricerca in questa unità è duplice: da un lato fornire criteri oggettivi e condivisibili per la definizione e l'individuazione dei composti allo scopo di riconoscere queste strutture nelle lingue naturali, parallelamente e in modo coordinato rispetto alle altre unità di ricerca del progetto, e in particolare l'unità di Milano. Successivamente procedere all'impiego di questi criteri per fornire una descrizione quantitativa del fenomeno composizione in alcune lingue europee, e segnatamente italiano e tedesco, per i quali l'unità ha a disposizione ampi corpora testuali. I. Delimitazione di composto nelle lingue naturali ai vari livelli d'analisi linguistica La prima parte della ricerca mira a delimitare il campo d'indagine, individuando in maniera il più possibile precisa il fenomeno della composizione ai fini di un'indagine quantitativa su corpora testuali estesi. Nella prima fase si cercherà di focalizzare, ai vari livelli d'analisi, le proprietà tipiche e/o centrali della composizione per raggiungere un insieme di criteri definitori che permettano anche di trattare i casi devianti, presumibilmente in termini di fuzzy borders di una categoria strutturata prototipicamente. A) A livello d'analisi fono-morfologica, l'interesse dell'unità di ricerca consiste nel comprendere se è possibile parlare in maniera estesa di restrizioni prosodiche caratteristiche per la composizione, e in che misura siano diffuse al punto da essere considerate dei criteri affidabili per isolare la composizione in italiano così come nelle altre lingue romanze. Va indagato anche se restrizioni che richiedono che un membro di composto non superi i limiti della parola prosodica minima siano attive anche in altri settori della composizione, oltre che nei composti verbo-nome. Altri dati sembrano indicare che la tendenza ad avere un primo membro di composto bisillabico è attiva anche nella composizione NN, AA, NA. In questi casi, la restrizione opera non selezionando come primi membri lessemi che già si conformino alla struttura della parola prosodica minima, ma riducendo i primi membri a parola minima tramite un processo di accorciamento (cf. Thornton 1996): esempi sono lessemi quali eliporto, palaghiaccio, cattocomunista, liquigas. L'unità dovrà costituire una base di dati di composti con primo membro ridotto esplorando diversi corpora (stampa, corpora di nomi commerciali e di esercizi desumibili da elenchi telefonici e cataloghi commerciali). La ricerca sulle restrizioni prosodiche sui primi membri è connessa anche alla ricerca sulle restrizioni morfologiche: si può ipotizzare infatti che i primi membri ridotti di alcuni composti costituiscano specifiche basi di lessemi nominali, aggettivali e verbali che hanno il carattere di "morfoma" nel senso di Aronoff (1994). Oltre al ruolo di considerazioni prosodico-segmentali, l'assenza di autonomia accentuale dei componenti resta ovviamente un criterio formale privilegiato per delimitare la composizione, come è stato messo ripetutamente in evidenza (ad es. in contrasti come ingl. bláckbìrd vs. blàck bírd), benché spesso non estendibile a livello interlinguistico (si pensi a lingue come il francese, con accento tipicamente di sintagma e non di parola). Per una lingua come l'italiano (ma sarà interessante verificare a questo proposito a livello romanzo) l'intreccio tra proprietà accentuali e sagoma prosodica sembra ad esempio essenziale nella formazione, seppur apparentemente marginale, di composti del tipo pulitutto, pulipavimenti, in cui si riproduce lo schema prosodico a dispetto dell'infisso -sc- che è altrimenti diffuso nelle lingue romanze. Altro tipo di fenomeno allomorfico con ricadute sulla strutturazione formale dei composti riguarda l'impiego di materiale segmentale per demarcare confini, come si può vedere nei cosiddetti Fugenelemente del tedesco in un caso come [[Handwerks]zeug] attrezzo da artigiano' rispetto a Werkzeug utensile' nel quale la presenza dell'interfisso -s- aiuta nella ricostruzione dei rapporti gerarchici all'interno del composto (cf. Fuhrhop 1996). Analoga funzione demarcativa può presumibilmente essere attribuita all'armonia vocalica, come si riscontra in ungherese, in cui nel caso delle parole composte la vocale del morfo aggiunto è determinata dalla vocale dell'ultimo membro della composizione (cioè la testa): a vasgömbe nella sfera di ferro' vs a gömbvasba nel ferro sferico'. Sarà interesse dell'unità di ricerca valutare la ricaduta di questi tipi allomorfici a livello descrittivo, tenendo presente anche l'eventualità di impiegare queste allomorfie sistematiche come metodo per l'estrazione automatica dei composti da corpora (vedi sotto). B) A livello morfologico-lessicale, si pone la questione di come trattare la variazione interlinguistica a proposito della forma delle unità lessicali che entrano nei composti. In questo caso bisognerà valutare se è possibile definire per una lingua una certa scelta parametrica e trattare le eventuali deviazioni come eccezionali, oppure se è necessario definire di volta in volta l'opzione a seconda del tipo di composto. Si noti che a favore di quest'ultima scelta possono parlare anche argomenti provenienti da altri settori del sistema. A questo proposito sarà interessante verificare ad esempio la rilevanza della sistemazione proposta da Pirrelli (2000; cf. anche Pirrelli e Battista 2000), che offre un quadro esauriente della distribuzione delle basi nei paradigmi flessivi verbali. Un'ulteriore opzione intermedia è offerta dal tipo italiano A-A, che sembra preferire (per lo più in aggettivi etnici, ma non solo) primi membri di composto privi di affisso, in cui una sorta di Fugenelement -o- sostituisce il suffisso di base come in anarco-socialista, lacero-contuso, vegeto-minerale, cerebro-spinale, laringo-faringite, e italo-francese, franco- italiano, italo-austriaco, italo-franco-canadese, israelo-palestinese, ecc. In parte connesso con questa questione è il ruolo svolto dalla composizione neoclassica. Sarà interessante valutare a questo proposito lo statuto in termini quantitativi dei composti neoclassici rispetto agli altri, sia per una lingua come l'italiano che non sembra impiegare in maniera massiccia la composizione, sia per una lingua come il tedesco in cui invece la composizione è massicciamente produttiva. Questioni aggiuntive si pongono poi nel caso in cui la forma di input selezionata non sia quella ragionevolmente individuata come basilare, ma piuttosto una forma diversa del paradigma. Ciò conduce alla presenza nel composto di flessione interna come nel caso dell'ungherese tévé-t-néz guarda la televisione'. La possibilità di flessione interna, come si vede nel caso dell'ungherese non necessariamente di natura inerente secondo la terminologia di Booij (1996), non è senza conseguenze per le proprietà categoriali dell'intero composto: ad esempio resta aperta la questione della flessione di numero e dell'assegnazione del genere a composti esocentrici (come in italiano quelli verbo-nome) che non possono ereditare genere dalla testa, né flettere numero sulla testa. In particolare, le complessità della formazione del plurale nei composti italiani sono ancora in larga parte da esplorare. Nei composti Verbo-Nome, ad esempio, non tutto sembra riconducibile alla dicotomia tra pluralizzazione esterna del composto come in i portaceneri, e pluralizzazione interna di N che non viene trasmessa al composto, come in il/i portapenne; e anche i fatti di accordo interno di genere nei composti NA o AN attendono una sistemazione complessiva, in particolare rispetto alla problematica distinzione tra composti e sintagmi da un lato, e alla tendenza generale all'esternalizzazione della flessione dall'altro (cf. Haspelmath 1993), non necessariamente legata all'opacizzazione del composto che appare plausibile in casi come scavezzacollo / scavezzacolli. C) Sul piano dell'interazione con la sintassi, una questione relativamente poco indagata è quella della unicità della categoria di uscita di una regola morfologica (cf. Scalise 1994: 187), che - almeno per quanto riguarda la derivazione - è stata messa molto meno in discussione rispetto alla simmetrica "Ipotesi della base unica". Proprio la composizione pone però problemi rilevanti da questo punto di vista: possibili controesempi appaiono ad esempio i composti Verbo-Nome nelle lingue romanze, che sono produttivi sia come aggettivi che come nomi senza che si possano facilmente ipotizzare due processi distinti (Gather 2001, Ricca in stampa), o i composti Preposizione - Nome in italiano (il tipo sottocosta, fuorisacco) che presentano una diffusa polifunzionalità tra uso aggettivale e avverbiale senza una chiara priorità (cf. Ricca 2004: 52). D) A livello di interpretazione semantica, oltre alla tradizionale dicotomia tra composizione endocentrica ed esocentrica, si pone la questione di verificare se esistano delle regolarità strutturali che inducano ad individuare un significato derivazionale unitario per i singoli tipi, o se piuttosto la relazione semantica ad esempio tra testa e modificatore debba rimanere non specificata, e interpretata contestualmente tenendo presente non solo il significato dei membri del composto ma l'intero universo discorsivo in cui il composto compare (cf. la rassegna di Olsen 2001). Chiaramente quest'ordine di problemi è direttamente connesso con la questione (discussa poco sopra) sul valore categoriale dei composti. E a questo proposito si potrà valutare l'ipotesi che il composto sia (del tutto o parzialmente) sotto-specificato dal punto di vista non solo semantico ma anche sintattico, nel senso che lo scheletro lessicale su cui si struttura si limita a individuare una generica relazione di dipendenza tra i membri del composto, senza fornire ulteriori specificazione né riguardo al rapporto semantico tra i componenti né rispetto alla funzione sintattica che l'intero può svolgere (per un approccio analogo si veda Grossmann 2004). Il vantaggio di quest'ipotesi per una lingua come l'italiano o per il tedesco (cf. Fanselow 1981, Eisenberg 1998:221-223) andrà verificato empiricamente con indagini su corpora testuali estesi. II. Indagine quantitativa sui composti in alcune lingue d'Europa Dopo questa fase preliminare l'unità di ricerca procederà ad applicare la metodologia d'analisi elaborata all'indagine della composizione in lingue per le quali siano disponibili ampi corpora testuali. Seguendo l'approccio sviluppato in Gaeta e Ricca (2002, 2003a,b, in stampa a), interesse dell'analisi sarà mirato a isolare innanzitutto i tipi presenti, per poi sottoporli ad indagine quantitativa. Lingue di cui l'unità ha a disposizione ampi corpora testuali sono innanzitutto italiano e tedesco. Per l'italiano sono presenti due ampi corpora giornalistici: 400 milioni di tokens della Repubblica (cf. Baroni et al. 2004) e un corpus di 75 milioni della Stampa (cf. Gaeta e Ricca 2002). Come è stato più volte osservato nella letteratura (cf. Baayen e Renouf 1996), i corpora termini quantitativi, sia per la forma stessa del corpus che viene facilmente strutturato in termini di incremento regolare e costante seguendo la scansione quotidiana dei giornali sia per la varietà di testi e registri stilistici compresenti. Per il tedesco si potrà avere accesso a corpora disponibili presso la Humboldt-Universität di Berlino (Prof. Anke Lüdeling), sia agli enormi data-base testuali accessibili per mezzo dell'Institut für deutsche Sprache di Mannheim. Infine controlli e confronti sistematici potranno eventualmente essere fatti su altre lingue come l'ungherese utilizzando ad esempio il Magyar Nemzeti Szövegtár (Corpus Nazionale Ungherese) dell'Istituto di Linguistica dell'Accademia delle Scienze Ungherese o il Magyar Történeti Korpusz (Corpus Storico Ungherese), entrambi disponibili on-line, o l'inglese utilizzando ad esempio il CELEX (per una prima ricognizione su questa lingua cf. Baayen e Lieber 1991, Plag et al. 1999). In stretta collaborazione con l'unità di ricerca di Bologna ci si propone di elaborare meccanismi di individuazione e estrazione automatica dei dati da corpora, da rendere eventualmente disponibili in rete insieme ai corpora utilizzati per la ricerca (corredati dall'opportuno software necessario per la consultazione). Su questa base si potrà indagare: A) l'estensione quantitativa del fenomeno composizione nell'ambito della formazione delle parole rispetto alla derivazione nelle lingue indagate; B) i tipi presenti in termini qualitativi, fornendo una descrizione dettagliata dei fenomeni attestati e poi valutandone l'estensione quantitativa; C) la produttività dei tipi e della composizione in generale; D) il confronto della produttività dei composti costruiti a partire da lessemi autonomi con quella che coinvolge i confissi / semiparole e con quella di certe regole di formazione delle parole di recente espansione, come i prefissi valutativi del tipo di mini-, super-, ecc., che sembrano contraddistinte da valori di produttività altissimi e che si accompagnano a proprietà certo non tipiche degli affissi come l'autonomia sintattica in esempi del tipo una gonna troppo mini (cf. Gaeta e Ricca 2003a, Grandi e Montermini in stampa). L'approccio quantitativo si è in generale dimostrato utile oltre che per una constatazione oggettiva della misura dei fenomeni anche per fornire spunti di analisi più teorica rispetto allo statuto dei fenomeni indagati (cf. Gaeta e Ricca 2003a, in stampa a). Da questo punto di vista le metodologie di analisi della composizione sviluppate nella fase I andranno sia verificate in controluce rispetto alle tecniche di indagine elaborate per l'estrazione di dati dai corpora testuali sia ripensate rispetto ai dati empirici e quantitativi emergenti dalla fase II. L'ipotesi di fondo che guida entrambe le fasi della ricerca è che un approccio qualitativo e uno quantitativo alla composizione siano in grado di completarsi a vicenda da un lato mettendo in evidenza le peculiarità della composizione rispetto alla derivazione nello specifico delle lingue indagate e dall'altro ponendo l'accento sull'estensione concreta dei fenomeni indagati che fornisce indizi essenziali per l'interpretazione, anche da un punto di vista teorico, dei comportamenti messi in atto dal parlante.

Aspetti teorici e indagini quantitative della composizione in alcune lingue d'Europa (Unità di ricerca del progetto PRIN COMPONET coordinato da S. Scalise)

GAETA, LIVIO

2005

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

Citazioni

social impact

Aspetti teorici e indagini quantitative della composizione in alcune lingue d'Europa (Unità di ricerca del progetto PRIN COMPONET coordinato da S. Scalise)

GAETA, LIVIO

2005

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Citazioni

social impact

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)