Linguistica e informatica (2020/2021)

Codice insegnamento
4S008105
Docente
Flavio Massimiliano Cecchini
Coordinatore
Flavio Massimiliano Cecchini
crediti
6
Settore disciplinare
L-LIN/01 - GLOTTOLOGIA E LINGUISTICA
Lingua di erogazione
Italiano
Sede
VERONA
Periodo
II semestre (Lingue e letterature straniere) dal 15-feb-2021 al 29-mag-2021.

Orario lezioni

Vai all'orario delle lezioni

Obiettivi formativi

Il corso prepara gli studenti a conoscere i fondamenti delle scienze del linguaggio, delle diverse dimensioni delle lingue naturali e gli strumenti informatici pertinenti alla rappresentazione e al trattamento dei dati introducendo i concetti della linguistica uniti a quelli dell’informatica. Alla fine del corso lo studente - conoscerà i fondamenti della linguistica, degli strumenti informatici e dei metodi computazionali per l’analisi linguistica- - applicherà le conoscenze usando durante il corso alcuni strumenti per la rappresentazione e il trattamento dei dati; - avrà sviluppato una minima autonomia di giudizio nei confronti di teorie, metodi e strumenti; - saprà comunicare e interagire in modo più pertinente con tecnici ed esperti dei processi multimediali e informatici; - saprà orientarsi in modo più autonomo nel reperire materiale bibliografico, dati, e strumenti.

Programma

Il corso si divide in due parti principali, di magnitudine più o meno equivalente, che vogliono ciascuna presentare la linguistica computazionale partendo da uno dei suoi due estremi: la prima parte verte sul testo, la sua rappresentazione e la formalizzazione del dato linguistico, mentre la seconda parte introduce concetti e metodi matematico-statistici applicati all'analisi del linguaggio (inteso principalmente come testo scritto).

Dopo un'introduzione generale sugli obiettivi della linguistica computazionale e cenni alla storia della disciplina, gli argomenti trattati nella prima parte saranno:
- risorse linguistiche: i corpus
- codifica del testo e standardizzazione: Unicode & UTF8
- un linguaggio formale per il linguaggio naturale: espressioni regolari
- unità di analisi linguistiche e livelli di annotazione
- dalle frasi agli alberi: Universal Dependencies come esempio di annotazione morfosintattica

Nella seconda parte si affronteranno i seguenti temi:
- concetti statistici correlati al fenomeno linguistico: la legge di Zipf e grafi di parole
- metodi di analisi automatica e strumenti correlati: catene di Markov, entropia...
- cenni a differenti possibilità di indagine automatica: analisi morfologica, named entity recognition, sentiment analysis...
- approfondimento sull'analisi sintattica: il caso della non proiettività
- cicli e metodi di valutazione

In particolare per quanto riguarda la seconda parte, si intende dedicare una parte delle lezioni anche a un'applicazione pratica di metodi e programmi dal proprio terminale. A questo scopo saranno date ulteriori indicazioni all'inizio del corso.

Il programma potrebbe subire alcune variazioni in base alle competenze pregresse degli studenti, alla eventuale necessità di approfondire ulteriormente alcuni temi e alla gestione di aspetti tecnici.

Nota sulla bibliografia: il testo "di accompagnamento" del corso è solo Testo e computer; del volume Linguistica elementare è fortemente consigliata la lettura come propedeutica elementare alla linguistica; tutti gli altri testi indicati sono da considerarsi semplicemente fonti di approfondimento su base individuale.

Testi di riferimento
Autore Titolo Casa editrice Anno ISBN Note
Chris Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing MIT Press 1999 9780262133609 Sito di riferimento: https://nlp.stanford.edu/fsnlp/promo/ Sito della casa editrice: https://mitpress.mit.edu/books/foundations-statistical-natural-language-processing
Gaetano Berruto, Massimo Cerruti La linguistica. Un corso introduttivo UTET Università 2017 9788860084835 Più approfondito ed esaustivo rispetto alla Lingusitica elementare del De Mauro.
Tullio De Mauro Linguistica elementare Laterza 2003 9788842069775 Panoramica delle nozioni di base della linguistica esposti sinteticamente, con esercizi, mappe e tabelle
Dan Jurafsky, James H. Martin Speech and Language Processing Prentice Hall 2008 9780131873216 Completamente disponibile nell'ultima versione sul sito: https://web.stanford.edu/~jurafsky/slp3/
Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli Testo e computer: elementi di linguistica computazionale Carocci Aulamagna 2016 9788843083060 Testo di riferimento principale

Modalità d'esame

L'esame consterà di due fasi: un elaborato scritto a scelta dello studente e un orale, equipollenti ai fini della valutazione finale.

L'elaborato potrà assumere varie forme, ma dovrà approfondire o prendere spunto da temi trattati durante il corso ed essere in forma di un articolo di 4-10 pagine. Potrà toccare aspetti più teorici o più pratici. Alcune possibilità:
- creare un proprio piccolo corpus e osservare il funzionamento di metodi di analisi automatica su di esso
- usare Python per scrivere moduli per la tokenizzazione, la valutazione di un parser, o altro
- sviluppare e discutere una strategia di annotazione in Universal Dependencies per un linguaggio a scelta (preferibilmente NON inglese né italiano) ed eventualmente confrontarlo con annotazioni già esistenti per lo stesso

Uno dei criteri principali di valutazione sarà la correttezza formale prima ancora che l'originalità del tema scelto.

L'orale sarà prevedibilmente di circa mezz'ora (i tempi potranno variare in base al numero di esaminandi) e, partendo da una discussione dell'elaborato, potrà toccare tutti gli argomenti trattati nel corso, eventualmente con domande di ragionamento.