Πόσοι γνωρίζουν ότι η κοινή νεοελληνική, η επίσημη γλώσσα μας, είναι η πελοποννησιακή διάλεκτος; Οτι τα τσακώνικα δεν προέρχονται, όπως όλες οι ελληνικές γλωσσικές ποικιλίες, από την ελληνιστική κοινή, αλλά είναι διάλεκτος δωρική, στον ελλαδικό χώρο η μοναδική; Οτι αναβιώνουν τα Γκρίκο στην Κάτω Ιταλία;
Κόντρα στο ρεύμα της κυριαρχίας των ισχυρών γλωσσών επί των διαλέκτων, που είναι από τις επίσημες πιο πολλές, ρυάκια λέξεων που ακόμη μουρμουρίζουν παραδόσεις και αξίες, όμως φθίνουν, υποτιμημένες και περιθωριοποιημένες ως παρακατιανές. Γιατί οι γλώσσες και οι ποικιλίες τους ψηλώνουν με το ψήλωμα και κονταίνουν με το κόντεμα των συνηθειών και των σκέψεων των ανθρώπων.

Το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) και η ερευνητική μονάδα στην τεχνητή νοημοσύνη «Αρχιμήδης» του Ερευνητικού Κέντρου «Αθηνά» γιορτάζουν την προσφάτως ανακηρυγμένη από την UNESCO Παγκόσμια Ημέρα της Ελληνικής Γλώσσας, στις 9 Φεβρουαρίου, ημέρα θανάτου του Διονυσίου Σολωμού, με την παρουσίαση ενός εξαιρετικά πολύτιμου, εθνικά πολυσήμαντου έργου τους: την τεχνολογική ανάσα ζωής στις ελληνικές διαλέκτους ώστε να επιβιώσουν στον ψηφιακό -κατ΄επέκταση και στον πραγματικό- διασυνδεδεμένο μας κόσμο. Τι ακριβώς κάνουν οι εξαίρετοι επιστήμονες; Υποστηρίζουν τις διαλέκτους με γλωσσικές τεχνολογίες, με τον ίδιο τρόπο που έχει υποστηριχθεί η κοινή ελληνική ώστε όλοι μας να κάνουμε χρήση των θαυμαστών καθημερινών ψηφιακών εφαρμογών στα ελληνικά και όχι στα αγγλικά. Δηλαδή να μπορούν στο μέλλον π.χ. οι Κρητικοί ή οι Κύπριοι να πληκτρολογούν στο κινητό τους στα κρητικά ή στα κυπριακά. Να τους μιλά ένα ChatGPT σε καλά κρητικά, καλά κυπριακά… Και με αυτόν τον τρόπο να διασώσουν την ποδοπατημένη λαλιά τους. Ακριβώς σ’ αυτό στοχεύει η δραστήρια ομάδα του ΙΕΛ και του «Αρχιμήδη», η οποία, αφού πρώτα συγκέντρωσε αυθεντικό διαλεκτικό λόγο, κατασκεύασε μοντέλα τεχνητής νοημοσύνης τα οποία μετατρέπουν αυτόματα τον προφορικό λόγο του κάθε ιδιώματος σε γραπτό κείμενο – ένας επιστημονικός και τεχνολογικός άθλος, καθώς οι ντοπιολαλιές είναι συνήθως μόνο προφορικές και ανακύπτουν απειράριθμα προβλήματα ορθογραφίας και γλωσσικών συμβάσεων (αλλιώς μιλάμε κι αλλιώς γράφουμε). Επίσης, δημιούργησε μοντέλα αυτόματης συντακτικής και σημασιολογικής ανάλυσης του ιδιωματικού λόγου, εργαλεία πολύ χρήσιμα για τη μηχανική μετάφραση των διαλέκτων, την αυτόματη περίληψη, αύριο τη συγγραφή λεξικών και βιβλίων γραμματικής των γλωσσικών ποικιλιών, τη δημιουργία chatbots που θα συνομιλούν στις διαλέκτους…
Ολα τα νευρωνικά μοντέλα, όπως και τα προφορικά σώματα κειμένων, οι δενδροτράπεζες (συντακτική αναπαράσταση προτάσεων ως δέντρα εξαρτήσεων) και οι συνοδευτικοί τους πόροι είναι ανοιχτά και διαθέσιμα στο κοινό, σε ιδιώτες και φορείς, οι οποίοι προσκαλούνται να καταθέσουν τη δική τους εμπειρία, τα δικά τους διασωθέντα υλικά στην ιστοσελίδα του Ινστιτούτου.
Επτά χρόνια
Η συζήτηση της «Κ» με τον διευθυντή του ΙΕΛ Βασίλη Κατσούρο και την ομάδα των ερευνητών για τις ελληνικές διαλέκτους ήταν αποκαλυπτική. Η προσέγγιση των διαλέκτων με εργαλεία τεχνητής νοημοσύνης έφερε στην επιφάνεια έναν ανεξάντλητο γλωσσικό πλούτο, τη μακρά τους ιστορία, που είναι και ιστορία της ελληνικής γλώσσας, και την υψηλή πολιτισμική τους αξία. Εδώ και επτά χρόνια δουλεύει εντατικά πάνω στις γλωσσικές μας ποικιλίες η ομάδα, επικεφαλής της οποίας είναι ο Αντώνης Αναστασόπουλος, καθηγητής στο Πανεπιστήμιο George Mason των ΗΠΑ, η Στέλλα Μαρκαντωνάτου, διευθύντρια ερευνών στο ΙΕΛ και η Αγγέλα Ράλλη, ομότιμη καθηγήτρια του Πανεπιστημίου Πατρών. Και οι τρεις είναι μέλη του «Αρχιμήδη».
Στη συζήτηση πήραν μέρος η κ. Μαρκαντωνάτου και οι ερευνητές και μεταδιδακτορικοί ερευνητές Βίβιαν Στάμου, Χαρά Τσουκαλά, Γιώργος Παρασκευόπουλος, Σταύρος Μπόμπολας, που βούτηξαν στα άδυτα ό,τι ζωντανού απέμεινε από αυτό που οι κυρίαρχες κουλτούρες καταβροχθίζουν στην Ελλάδα και στις ελληνόφωνες περιοχές εκτός συνόρων. Βορειοελλαδίτικα, ποντιακά, καππαδοκικά, αϊβαλιώτικα, λεσβιακά, κυπριακά, κυκλαδίτικα, επτανησιακά, πελοποννησιακά, κρητικά, κατωιταλιώτικα – κόσμοι ολόκληροι. Ενδεικτικά, η φράση «ε, ογώ εφτά χρονού ήδουμι, ντέ ξεβρισκα, πουλίμ, ογώ ντέ ξεβρισκα» (καππαδοκική) σημαίνει «ε, εγώ εφτά χρονών ήμουνα, δεν ήξερα, πουλί μου, εγώ δεν ήξερα» ή το «An den eskásti će δen glaδégwi ton ambéli, tróyi fiḍḍámbelo će δe stafiḍḍi» (κατωιταλιώτικα) σημαίνει: «Αν δεν σκάψει και δεν κλαδέψει το αμπέλι, θα τρώει αμπελόφυλλα και όχι σταφύλι».

«Στην Ελλάδα έχουμε δύο βασικές διαλεκτικές οικογένειες, που χωρίζουν τη χώρα στη μέση, στη βόρεια, η οποία κόβει τα φωνήεντα, και τη νότια -η κοινή νεοελληνική είναι νότια διάλεκτος-, που τα διατηρεί», λέει η κ. Μαρκαντωνάτου. Σε αυτές τις οικογένειες ανήκει μια πληθώρα διαλέκτων. Κάθε χωριό έχει και τη λαλιά του. Κάθε κοινότητα ομογενών, σε Ουκρανία, Νότια Αλβανία, Γερμανία, Καναδά, ΗΠΑ, Αυστραλία, τη δική της. Προφορική. Δεν γράφεται, δεν διδάσκεται στα σχολεία. Μεγάλες οι δυσκολίες στην αυτόματη μετατροπή τους σε γραπτό λόγο, «που έγινε σε συνεργασία με αυτούς που τις μιλούν», εξηγεί ο Σταύρος Μπόμπολας, «ώστε να μπορούν να τις γράψουν και να τις διαβάσουν». Για παράδειγμα, οι ελληνόφωνοι της Κάτω Ιταλίας, συμπληρώνει, γράφουν ιστορικά τα ελληνικά με λατινικούς χαρακτήρες. Ομως τελευταία «γίνεται μια προσπάθεια από ακτιβιστές για την αναβίωση των κατωιταλιώτικων, ώστε αυτά να αποτυπώνονται με το ελληνικό αλφάβητο».
Για οκτώ διαλέκτους
Η ομάδα έχει δημιουργήσει μέχρι στιγμής μοντέλα τεχνητής νοημοσύνης για οκτώ διαλέκτους: κατωιταλιώτικη, μεσσηνιακή, κρητική, αϊβαλιώτικη, λεσβιακή, απεραθίτικη, κυπριακή, καππαδοκική. Ενώ τώρα επεξεργάζεται την ποντιακή. Ολοι συμφωνούν πως οι γλωσσικές ποικιλίες δέχονται συντριπτικές πιέσεις από την κοινή νεοελληνική. «Στη Νότια Αλβανία και στην Κύπρο», λέει η κ. Μαρκαντωνάτου, «μιλούν στη διάλεκτο και γράφουν στην κοινή νεοελληνική, που διδάσκεται στα σχολεία τους, γιατί δεν θέλουν να αποκοπούν από τον κορμό, την Ελλάδα. Και η προφορική γλώσσα απέχει πολύ από τη γραπτή. Για παράδειγμα, η κυπριακή χρησιμοποιεί διπλά σύμφωνα, πολλά ν, ήχους τους οποίους δεν έχει η κοινή νεοελληνική, οι οποίοι για να αποδοθούν γραπτά χρειάζονται χαρακτήρες που δεν υπάρχουν στους 24 του ελληνικού αλφαβήτου». Είναι ένα πολύτιμο γλωσσικό ιδίωμα υπό εκτοπισμό, «που πρέπει περαιτέρω να υποστηριχθεί», λέει ο κ. Κατσούρος. «Σχεδιάζουμε να αναπτύξουμε στο Εργοστάσιο Τεχνητής Νοημοσύνης του Φάρου, σε συνεργασία με Κύπριους γλωσσολόγους και μηχανικούς, τεχνολογίες που θα το αποτυπώσουν ακόμη πιο πιστά. Μόνο αν καταγραφεί πλήρως θα διασωθεί».
«Οι νεοελληνικές διάλεκτοι είναι μετεξέλιξη της αττικοϊωνικής που χρησιμοποιούνταν ως lingua franca σε όλη τη Μεσόγειο στα χρόνια της αυτοκρατορίας του Μεγαλέξανδρου. Από αυτή προήλθε η ελληνιστική κοινή, η οποία κατά τον Μεσαίωνα άρχισε ανά περιοχές να διαφοροποιείται και να διασπάται στις νεοελληνικές διαλέκτους που γνωρίζουμε», σημειώνει ο κ. Μπόμπολας. «Σχεδόν όλες είναι κοινωνικά στιγματισμένες. Και η εσωτερική διγλωσσία -διάλεκτος στο σπίτι, κοινή νεοελληνική έξω από αυτό- οδηγεί στην εγκατάλειψή τους. Καμία διάλεκτος δεν είναι χειρότερη από την άλλη και πρέπει να προστατευθούν. Αν κάποια από αυτές χαθεί, θα χαθεί ένα κομμάτι της ιστορίας της ελληνικής γλώσσας», συνεχίζει ο ίδιος.
Ευτυχώς, λέει η κ. Μαρκαντωνάτου, «υπάρχουν ακόμη κάποιοι ισχυροί διαλεκτόφωνοι πληθυσμοί, στην Κρήτη, στη Λέσβο, στην Κέρκυρα, στην Απείρανθο της Νάξου, όπου μιλούν μια διάλεκτο εντελώς διαφορετική από την κυκλαδίτικη. Αλλά χρειάζεται να βοηθηθούν. Για παράδειγμα, οι διαλεκτόφωνοι Κύπριοι θα μπορούσαν με ειδικά πληκτρολόγια να επικοινωνούν στο κινητό στη ντοπιολαλιά τους».
Το πρόβλημα είναι, σύμφωνα με τη Χαρά Τσουκαλά και τον Γιώργο Παρασκευόπουλο, η έλλειψη εκείνης της ποσότητας δεδομένων, με την οποία θα εκπαιδεύονταν άριστα τα νευρωνικά μοντέλα. Ενα μοντέλο φωνής μπορεί να εκπαιδευτεί με λίγες αλλά και με χιλιάδες ώρες προφορικού λόγου. Στην αγγλική γλώσσα έχει τη δυνατότητα να εκπαιδευτεί σε φωνητικά δεδομένα που ισοδυναμούν με 85 χρόνια συνεχούς ομιλίας, οπότε η επίδοση είναι σ’ αυτήν την περίπτωση εξαιρετική. «Ενα μεγάλο γλωσσικό μοντέλο εκπαιδεύεται με δεδομένα που αντιστοιχούν στο περιεχόμενο 2 εκατομμυρίων βιβλίων», εξηγεί ο κ. Παρασκευόπουλος. Τέτοια δυνατότητα δεν υφίσταται στην εκπαίδευση μοντέλων στις ελληνικές διαλέκτους, όμως η ομάδα κάνει ακριβώς χρήση των μεγάλων γλωσσικών μοντέλων προκειμένου να δημιουργήσει συνθετικά δεδομένα, δηλαδή δεδομένα που παράγονται τεχνητά και μιμούνται τα χαρακτηριστικά των δεδομένων του πραγματικού κόσμου. Ισως δεν είναι η ιδανική λύση, λέει η Βίβιαν Στάμου, καθώς «είναι περισσότερο μια διαδικασία μίμησης παρά ενσωμάτωσης της γνώσης που έχει ήδη αποκτηθεί». Ομως είναι σίγουρα κομμάτι ενός παζλ που η επινοητική ομάδα επιλύει με συνδυασμούς τεχνικών και μεθόδων.
Ετσι ώστε να συνεχίσουν να ζουν οι ποικιλίες της «μόνης ινδοευρωπαϊκής γλώσσας με αδιάλειπτη γραπτή παράδοση και συνεχή ζωντανή χρήση άνω των 3.000 ετών», να εξακολουθήσουν, με τον ιδιαίτερο κραδασμό τους, να κινητοποιούν τις νοητικές και συγκινησιακές δυνάμεις μέσα σε εκείνους που τις μιλούν. Να μη σιωπήσουν.

