Antonio Sciarretta's Toponymy |
Tuttavia, questo metodo dà luogo a numerose piccoli "continua" e ad aree isolate, rendendo di fatto impossibile una classificazione comprensiva. In questa pagina propongo di usare un algoritmo basilare di partizione dati (clustering) al fine di raggruppare le aree omogenee in un numero dato di macro-aree. L'algoritmo in questione è il classico k-medie, che minimizza la somma delle distanze tra i dati di uno stesso raggruppamento ed il suo elemento medio. Diversamente da altri studi dialettometrici che hanno applicato k-medie (in realtà varianti più sofisticate dell'algoritmo base) prendendo come misura della "distanza" quella di Levenshtein fra singole parole rese nei vari dialetti, qui uso la distanza definita nella pagina precedente, cioè quella calcolata a partire dalle stringhe di 8 caratteri che codificano i 8 fenomeni fonetici considerati.
Usando questo metodo, ed imponendo successivamente la ripartizione in 2, 3, 4 e 5 macro-aree, ho ottenuto le carte seguenti.
I dati e i risultati sembrano confermare le ripartizioni "intuitive" che spesso vengono proposte dagli osservatori più attenti. Volendo fare 2 gruppi, si separano i dialetti "centro-orientali" da quelli "centro-occidentali". Aggiungendone un terzo, viene fuori un gruppo "settentrionale", in continuità con l'Abruzzo. Con K=4 si separa la parte più "orientale" (isernino e venfrano) da quella centrale. Con K=5 emerge l'area sud-orientale, che presenta dei tratti in comune con le contigue aree beneventane e daune.