ΞΕΚΙΝΑ όπως πλείστες όσες ψηφιακές παρανομίες· με ένα torrent. Κάπου μέσα σε ένα σύμπλεγμα διακομιστών της Meta στο Menlo Park, ένας μηχανικός πληκτρολογεί ένα αίτημα. Λίγα δευτερόλεπτα αργότερα, ένας συμπιεσμένος φάκελος –πολλά terabytes πειρατικών βιβλίων από τη Library Genesis– εμφανίζεται στα logs.
Ολόκληρες βιβλιοθήκες εισέρχονται στο σύστημα: φιλοσοφία, βιολογία, σύγχρονη μυθοπλασία, σπάνια ακαδημαϊκά περιοδικά, πραγματείες για τη γλώσσα. Τα πάντα: από τη Βιρτζίνια Γουλφ μέχρι την ιολογία και από τον Ζακ Ντεριντά ώς τις σπάνιες γαίες. Τα πάντα με δυνατότητα download· όλα κατ’ ουσίαν παράνομα. Δίχως κανένα ηθικό ερώτημα· ένα ηθικό κόμπιασμα έστω.
Αργότερα, ο μηχανικός περνάει στο επόμενο στάδιο, την ενσωμάτωση. Μέσα σε λίγες εβδομάδες, οι κλεμμένες λέξεις θα μετατραπούν σε νευρώνες, βελτιστοποιημένους για να προβλέψουν την επόμενη πρόταση του μεγάλου γλωσσικού μοντέλου (LLM). Σε λίγους μήνες, η Meta θα παρουσιάσει το LLaMA 3, ένα υπερσύγχρονο μοντέλο τεχνητής νοημοσύνης που «εκδημοκρατίζει την τεχνητή νοημοσύνη και ενθαρρύνει τη δημιουργικότητα της βιομηχανίας». Αυτό που δεν θα αναφερθεί στα δελτία Τύπου είναι ότι χιλιάδες από τα βιβλία που το έμαθαν να μιλάει δεν έπρεπε, κατά τεκμήριο, να λειτουργήσουν ως «εκπαιδευτές» του μοντέλου.
Αυτό, ασφαλώς, δεν είναι ένα μεμονωμένο περιστατικό. Δεν είναι ένα ατύχημα. Είναι το θεμέλιο όλων· τα ερείσματα της «εξόρυξης» της πνευματικής ιδιοκτησίας.
Τα τελευταία πέντε χρόνια, σχεδόν κάθε σημαντική ανακάλυψη στην παραγωγική τεχνητή νοημοσύνη –από τη σύνθεση εικόνων έως τα LLM– έχει οικοδομηθεί πάνω σε τεράστιους, ανεξέλεγκτους όγκους δεδομένων που έχουν αποσπαστεί από το διαδίκτυο χωρίς τη συγκατάθεση ουδενός.
Ολόκληρες καριέρες, κουλτούρες και κληρονομιές έχουν διοχετευθεί αθόρυβα σε «αγωγούς» εκμάθησης των μηχανών της ΑΙ. Δημόσια, τα στελέχη της βιομηχανίας μιλούν για ευθυγράμμιση με τη ζήτηση της εποχής, η κλιμάκωση της οποίας λαμβάνει χώρα δίκαια και υπεύθυνα. Ιδιωτικά, τα μοντέλα τους εκπαιδεύονται στην «εξόρυξη».
Η κλοπή, όπως αποδεικνύεται, κλιμακώνεται υπέροχα.
MIA ΥΠΟΓΕΙΑ ΒΙΒΛΙΟΘΗΚΗ
Πριν γίνει επανάσταση, η τεχνητή νοημοσύνη ήταν ένας αρχειοθέτης με αποικιοκρατική λογική. Δεν οικοδομήθηκε μόνο με GPUs ή αλγορίθμους, αλλά με μια κρυφή, φρενήρη επιθυμία να απορροφήσει τον ανθρώπινο πολιτισμό. Να τον συλλέξει, να τον απογυμνώσει από τα συμφραζόμενά του και να τον μετατρέψει σε καύσιμο πρόβλεψης της επόμενης πρότασης του μοντέλου.

Πολύ πριν το ChatGPT μπει στις αίθουσες διδασκαλίας και στα emails, τα καλεντάρια και τα excel, προτού το LLaMA 2 καταστήσει τη Meta αξιοσέβαστη στους κύκλους της τεχνητής νοημοσύνης, το πιο κρίσιμο βήμα δεν ήταν αρχιτεκτονικό ή αλγοριθμικό· ήταν… αρχειακό. Αυτό που χρειάζονταν τα πιο ισχυρά μοντέλα, περισσότερο ακόμα από τις μονάδες επεξεργασίας γραφικών (GPU), ήταν η πρώτη ύλη: δισεκατομμύρια λέξεις, εικόνες, ήχοι, προτάσεις. Οχι από το μηδέν. Από εμάς.
Τις πρώτες ημέρες της επανάστασης στην ΑΙ, οι ερευνητές αντλούσαν δεδομένα από κάθε πρόσφορη πηγή: Reddit, Wikipedia, ιστολόγια. Καθώς όμως η λαχτάρα για δεδομένα και πωλήσεις έφτανε σε δυσθεώρητα ύψη –ειδικά για μοντέλα που είχαν σκοπό να μιμηθούν λογοτεχνικές αποχρώσεις, κειμενικούς ρυθμούς και συναισθηματικούς αντικατοπτρισμούς– είχαν ανάγκη από κάτι περισσότερο από αναρτήσεις σε φόρουμ. Χρειάζονταν βιβλία· χρειάζονταν τέχνη· χρειάζονταν τα πλήρως διαμορφωμένα προϊόντα της ανθρώπινης δημιουργίας.
Η LibGen ήταν ένα ανοιχτόκαρδο και μεγάθυμο χρυσωρυχείο. Ενα ανεξέλεγκτο εκπαιδευτικό υπέδαφος.
Τότε ήταν που στράφηκαν σε αυτό που θα μπορούσε να ονομαστεί «μαύρη αγορά της εκπαίδευσης» των μηχανών της ΑΙ. Η LibGen ήταν ένα ανοιχτόκαρδο και μεγάθυμο χρυσωρυχείο. Ενα ανεξέλεγκτο εκπαιδευτικό υπέδαφος. Μια υπόγεια βιβλιοθήκη μηχανικής μάθησης.
Το Library Genesis, ή LibGen, κινείτο πάντοτε σε μια γκρίζα ζώνη. Αποτελούσε, αφενός, ένα αχανές corpus παράνομων αρχείων και, αφετέρου, εκπαιδευτική σανίδα σωτηρίας. Για χρόνια, εξυπηρετούσε ερευνητές και φοιτητές που είχαν αποκλειστεί από τα paywalls των ακαδημαϊκών εκδόσεων, προσφέροντας πειρατικά PDFs επιστημονικών εργασιών, εγχειριδίων και πάσης φύσεως βιβλίων. Εντούτοις, η σιωπηλή και άναρχη αφθονία του το μετέτρεπε, μέσα σ’ όλα, σε μιαν εύκολη διέξοδο για τους ερευνητές που ήθελαν να κόψουν δρόμο στην ατέρμονα βιβλιογραφία.
Σύμφωνα με ρεπορτάζ του Atlantic, η Meta –και μαζί BloombergGPT του Bloomberg και το GPT-J της EleutherAI– χρησιμοποίησε ένα σύνολο δεδομένων γνωστό ως «Books3», το οποίο περιέχει δεκάδες χιλιάδες τίτλους που έχουν αντληθεί από το LibGen και το Z-Library. Η εταιρεία, όταν ρωτήθηκε, δεν το αρνήθηκε. Το σκεπτικό της; Τα δεδομένα ήταν διαθέσιμα στο διαδίκτυο. Κοντολογίς, απλώς χρησιμοποιούσαν αυτό που ήδη υπήρχε.
Τι ακριβώς υπήρχε όμως;
ΠΕΡΙ ΕΚΜΕΤΑΛΛΕΥΣΗΣ
Στο corpus του Books3 περιλαμβάνονται έργα των Τζορτζ Σόντερς, του Στέφεν Κινγκ, του Ζακ Ντεριντά – για να αναφερθούμε σε ελάχιστους δημιουργούς διεθνούς και διαχρονικού βεληνεκούς. Ολα αυτά, μαζί με κείμενα από πανεπιστημιακές και άλλες εκδόσεις, μεταφρασμένα έργα, τόμους θεωρίας, ρομαντικά μυθιστορήματα και μυθιστορήματα για παιδιά. Ορισμένα εξ αυτών φαίνεται να έχουν σκαναριστεί από φυσικά βιβλία. Πολλά από αυτά δεν προορίζονταν ποτέ να… επανασυσκευαστούν ως συνθετικό καύσιμο πρόβλεψης της επόμενης πρότασης ενός μοντέλου ΑΙ.
Οι Ελληνες της… LibGen
Σύμφωνα με ρεπορτάζ του Μανώλη Ανδριωτάκη στην κυριακάτικη «Κ» («Η μεγάλη κλοπή των βιβλίων», 30/3/2025), «εντοπίσαμε δεκάδες βιβλία Ελλήνων συγγραφέων, από το σύνολο σχεδόν της βιβλιογραφίας του Νίκου Καζαντζάκη ώς τις συλλογές της Κικής Δημουλά, μεταφρασμένα βιβλία του Γιώργου Σεφέρη, αλλά και συγγραφέων όπως του Πέτρου Μάρκαρη, της Ζυράννας Ζατέλη, της Ερσης Σωτηροπούλου. Η LibGen ξεκίνησε, υποτίθεται, για να υπηρετεί φοιτητές χωρών του Τρίτου Κόσμου που δεν έχουν πρόσβαση σε πανεπιστημιακές βάσεις δεδομένων, κι εξελίχθηκε σ’ έναν πειρατικό χώρο διακίνησης έργων που προστατεύονται από πνευματικά δικαιώματα. Μέσα σε αυτήν μπορεί πραγματικά κάποιος να βρει τα πάντα. Οπως, για παράδειγμα, το ευπώλητο βιβλίο του Πέτρου Τατσόπουλου “Η καλοσύνη των ξένων”».
Σε κάθε περίπτωση, έτσι δεν λειτουργεί η συγκατάθεση· έτσι λειτουργεί η εκμετάλλευση.
Και η saga συνεχίζεται. Τον Ιούλιο του 2023, η stand-up comedian και συγγραφέας Σάρα Σίλβερμαν προσχώρησε σε μιαν ομαδική αγωγή κατά της OpenAI και της Meta, ισχυριζόμενη παραβίαση πνευματικών δικαιωμάτων. Η αγωγή περιελάμβανε στοιχεία που έδειχναν ότι η Meta εκπαίδευσε τα μοντέλα της σε τεράστιες ποσότητες πειρατικών βιβλίων. Σύμφωνα με την υπεράσπιση, «το υλικό τους που προστατεύεται από κατοχυρωμένα πνευματικά δικαιώματα αντιγράφηκε και εισήχθη ως μέρος της εκπαίδευσης των μοντέλων. Πολλά από τα βιβλία των εναγόντων εμφανίζονται στο σύνολο δεδομένων που η Meta παραδέχτηκε ότι χρησιμοποίησε».
Ορισμένοι συγγραφείς ανακάλυψαν πολύ πρόσφατα ότι το έργο τους χρησιμοποιήθηκε στην εκπαίδευση της ΑΙ – συνήθως όχι μέσω της αποκάλυψης, αλλά μέσω της νομικής έρευνας.
Παράνομο corpus εκμάθησης και στις εικόνες

Η λογική της μαύρης αγοράς για την εκπαίδευση της τεχνητής νοημοσύνης δεν περιορίζεται στη λογοτεχνία. Εκτείνεται σε όλες τις μορφές τέχνης. Oταν η Stability AI κυκλοφόρησε το Stable Diffusion το 2022, η εταιρεία ανακοίνωσε ότι το μοντέλο δημιουργίας εικόνων που είχε λανσάρει είχε εκπαιδευτεί με αδειοδοτημένο ή ελεύθερο στο διαδίκτυο υλικό. Σε άλλο σημείο, ωστόσο, είχε αναφέρει ότι είχε εκπαιδευτεί, μεταξύ άλλων, με τη βάση δεδομένων LAION, η οποία είναι αντιμέτωπη με τη Δικαιοσύνη.
Το σύνολο δεδομένων εικόνων LAION-5B –που χρησιμοποιήθηκε για την εκπαίδευση του Stable Diffusion, του Imagen της Google και πιθανώς άλλων μοντέλων– καταρτίστηκε με το σάρωμα του διαδικτύου. Οι καλλιτέχνες ανακάλυψαν γρήγορα ότι η ΑΙ μπορούσε να αναπαραγάγει το οπτικό τους στυλ με ανατριχιαστική πιστότητα. Ουδείς καλλιτέχνης ενημερώθηκε. Ουδείς αποζημιώθηκε. Οι curators των δεδομένων απλώς αναζήτησαν και ταξινόμησαν δισεκατομμύρια εικόνες. Αν μια εικόνα συνοδευόταν από αρκετό κείμενο, την επέλεγαν – τους εξυπηρετούσε πολυεπίπεδα. Το μοντέλο, όπως και η αγορά, απλώς έκανε αυτό που ήταν να κάνει.
Ούτε καν ο κόσμος της φαντασίας και της τέχνης των άνιμε δεν γλίτωσε· ένας κόσμος που διέπεται από κάποια… πρωτόκολλα. Το NovelAI, ένα εργαλείο για δημιουργία εικόνων και ιστοριών, άντλησε υλικό από το Danbooru, μια τεράστια βάση δεδομένων με εικόνες άνιμε που έχει επιμεληθεί η κοινότητα των φανατικών οπαδών και των δημιουργών. Αν και δημόσια, η ηθική του ιστοτόπου βασιζόταν στον αμοιβαίο σεβασμό και στον κοινό δημιουργικό χώρο. Ο χώρος αυτός… εξορύχθηκε –σαν αποικία– από ένα μοντέλο που εκπαιδεύτηκε να παράγει άπειρες συνθέσεις εικόνων.
Στη Meta του Μαρκ Ζούκερμπεργκ, πάντως, τα πράγματα περιεπλάκησαν έτι περαιτέρω στη μάχη κατά της OpenAI, την οποία ένιωθαν ότι τους είχε μακράν ξεπεράσει στον αγώνα της τεχνητής νοημοσύνης. Τουλάχιστον δύο υπάλληλοι εξέφρασαν ανησυχίες σχετικά με τη χρήση πνευματικής ιδιοκτησίας και τη μη δίκαιη ή καθόλου πληρωμή συγγραφέων και άλλων καλλιτεχνών. Ενας εργαζόμενος αφηγήθηκε μιαν άλλη συζήτηση με ανώτερα στελέχη σχετικά με δεδομένα που προστατεύονται από πνευματικά δικαιώματα, δηλώνοντας ότι κανείς στη συνάντηση αυτή δεν εξέτασε την ηθική της χρήσης των έργων των δημιουργών, όπως είχαν αποκαλύψει οι New York Times.
Βέβαια, το δημόσια διαθέσιμο δεν είναι το ίδιο με το δεοντολογικά αποκτημένο. Αλλωστε, η δημιουργικότητα κατέστη dataset. Η φωνή, prompt. Και το δικαίωμα, εξαίρεση.
Η δημιουργικότητα κατέστη dataset. Η φωνή, prompt. Και το δικαίωμα, εξαίρεση.
Νομικά, η πράξη αυτή δεν είναι ουδέτερη. Η εκπαίδευση της παραγωγικής ΑΙ, όπως προκύπτει από την κουβέντα που είχαμε με την Αννα Δεσποτίδου, επίκ. καθηγήτρια Δικαίου Πνευματικής Ιδιοκτησίας στη Νομική Σχολή του ΑΠΘ, προϋποθέτει την αναπαραγωγή –έστω και προσωρινή ή μερική– τεράστιου όγκου προστατευόμενων έργων, χωρίς άδεια και αμοιβή των δημιουργών, πράγμα που συνιστά ευθεία προσβολή της αντίστοιχης περιουσιακής εξουσίας των τελευταίων επί των κατ’ ιδίαν έργων τους. Πρόκειται, δηλαδή, για «χρήση» προστατευόμενων (από το δίκαιο της πνευματικής ιδιοκτησίας) έργων, η οποία συνιστά «αναπαραγωγή» με τη νομική έννοια του όρου· και όχι απλώς για ουδέτερη επεξεργασία πληροφοριών.
Τι συμβαίνει στην Ε.Ε.
Στην Ε.Ε., οι εταιρείες ΑΙ επιχειρούν ματαίως να «κρυφτούν» πίσω από τη γενική εξαίρεση της εξόρυξης κειμένων και δεδομένων (text and data mining) για εμπορικούς σκοπούς. Οπως εξηγεί η Αννα Δεσποτίδου, όμως, «πρόκειται για ρύθμιση η οποία, κατά την ορθότερη άποψη, επιτρέπει μόνο την αναπαραγωγή έργων και άλλων αντικειμένων προστασίας μόνον προς τον σκοπό της αναζήτησης/εξόρυξης πληροφοριών, με στόχο τη δημιουργία νέων πληροφοριών και γνώσεων· και όχι για την εκπαίδευση εργαλείων και, ειδικότερα, συστημάτων παραγωγικής ΑΙ, που αποσκοπεί στη δημιουργία/παραγωγή έργων παρόμοιων (απομιμητικών). Εξάλλου, και αν ακόμη αυτό γινόταν δεκτό, δεν πρέπει να λησμονείται ότι οι δημιουργοί έχουν –σε κάθε περίπτωση– το δικαίωμα να εναντιωθούν (opt out) με μηχαναγνώσιμα μέσα στη χρήση/αναπαραγωγή των έργων τους προς τον σκοπό της εξόρυξης κειμένων και δεδομένων».
Η ΝΕΑ ΑΠΟΙΚΙΟΚΡΑΤΙΑ ΤΩΝ ΔΕΔΟΜΕΝΩΝ
Η Κέιτ Κρόφορντ, συγγραφέας του «Atlas of AI», πηγαίνει ένα βήμα παραπέρα. Περιγράφει την τρέχουσα φάση της ανάπτυξης της ΑΙ ως μια μορφή «εξόρυξης δεδομένων», μια μορφή που αντανακλά τη λογική της εξόρυξης και του αποικισμού.

Οπως οι αποικιοκρατικές αποστολές του 19ου αιώνα ξεκινούσαν με χάρτες και ονόματα, έτσι και οι πρώτες μεγάλες αποστολές των LLMs ξεκίνησαν με αρχεία (λίστες, μεταδεδομένα, πειρατικά PDFs). Η εξόρυξη δεν ήταν παρά μια μορφή ταξινόμησης χωρίς συναίνεση. Οπως κάποτε αποσπούσαν παγανιστικά ξόανα από τους ναούς της Συρίας για να τα εκθέσουν σε μουσεία του Λονδίνου, έτσι και τώρα η τεχνητή νοημοσύνη αποσπά «φωνές» από αρχεία, ποιήματα, pixels και μεταφράσεις. Ο πολιτισμός είναι το εκθέμα. Το μοντέλο είναι η νέα βιτρίνα.
Τα στελέχη της βιομηχανίας της ΑΙ μιλούν για την… απόξεση του διαδικτύου με τον τρόπο που οι παλιοί εξερευνητές μιλούσαν για τη χαρτογράφηση των ηπείρων. Χρησιμοποιούν λέξεις όπως «συγκομιδή», «εξόρυξη», «εκμετάλλευση». Συγκρίνουν σύνολα δεδομένων με φλέβες μεταλλεύματος, με κοιτάσματα πετρελαίου, με ανεξερεύνητες περιοχές. Δεν προσπαθούν να κρύψουν τη σύγκριση. Ενδέχεται, μάλιστα, να υπερηφανεύονται.
Οπως κάποτε αποσπούσαν παγανιστικά ξόανα από τους ναούς της Συρίας για να τα εκθέσουν σε μουσεία του Λονδίνου, έτσι και τώρα η ΑΙ αποσπά «φωνές» από αρχεία, ποιήματα, pixels και μεταφράσεις. Ο πολιτισμός είναι το εκθέμα. Το μοντέλο είναι η νέα βιτρίνα.
Σε αυτή τη νέα αυτοκρατορία, τα δεδομένα είναι γη· η εργασία, αόρατη· η εξόρυξη, αυτοματοποιημένη. Και αυτή η λογική της ιδιοποίησης είναι πιο ορατή στην αθόρυβη κατασκευή των ίδιων των συνόλων δεδομένων.
Σε αυτόν τον κόσμο, όπου τα δεδομένα κατάρτισης αντιμετωπίζονται ως κοινή ιδιοκτησία και η συγγραφή γίνεται υποχρέωση, το ζήτημα της δικαιοσύνης δεν είναι μόνο νομικό. Είναι οντολογικό. Ποιος μπορεί να είναι δημιουργός στην εποχή της μηχανικής συγγραφής; Ποιος πληρώνεται; Ποιος χάνει την αξία του και ποιος αποκτά μια νέα; Ποιος, εντέλει, εξαφανίζεται και ποιος αναδύεται;
Για πολλές εταιρείες, η απάντηση φαίνεται να είναι: μην το ψάχνετε πολύ – κανείς δεν χρειάζεται να το ξέρει.
Τα πολιτιστικά αγαθά –τα βιβλία, οι εικόνες, οι φωνές και τα στυλ των άλλων– έχουν γίνει κάτι πολύ παλιό με νέα ενδυμασία: μια αποικία προς λεηλασία. Η εικόνα αυτή δεν είναι μεταφορική. Είναι δομική.
Για τους μελετητές όπως η Κέιτ Κρόφορντ, η τρέχουσα φάση της τεχνητής νοημοσύνης δεν είναι απλώς τεχνολογική, είναι αυτοκρατορική. Σε άρθρο της, είχε από νωρίς χαρτογραφήσει την υποδομή της μηχανικής μάθησης μέσα από τη γλώσσα της κατάκτησης.
Αυτή η κοσμοθεωρία δεν προέκυψε από το πουθενά. Οπως όλα δείχνουν, είναι απλώς η τελευταία στροφή ενός ιστορικού τόξου – ενός τόξου στο οποίο η γνώση, όπως και η γη, διεκδικείται εδώ και καιρό χωρίς συγκατάθεση.
Εξάλλου, κάποιοι μιλούν ήδη για… εξάντληση των δεδομένων του διαδικτύου. Με την υποψία η ΑΙ θα δημιουργεί διαρκώς νέα.
ΤΟ ΨΗΦΙΑΚΟ ΠΕΡΙΒΛΗΜΑ
Από τη στιγμή που ένα σύνολο δεδομένων καθίσται θεμέλιος λίθος –ήγουν, από τη στιγμή που χρησιμοποιείται για την εκπαίδευση ενός σημαντικού μοντέλου– υποχωρεί από την ορατότητα. Δεν είναι πλέον ένα σώμα συγκεκριμένης συνεισφοράς· είναι μια μάζα, ένα βασικό στρώμα ή ένα ουδέτερο υπόστρωμα. Κάτι πάνω στο οποίο μπορεί να οικοδομηθεί ένα τεράστιο γλωσσικό μοντέλο. Δεν έχει πλέον σημασία ποιος έγραψε τη γραμμή, ζωγράφισε την εικόνα, μετέφρασε το σονέτο. Σημασία έχει μόνον ότι το μοντέλο μπορεί να τα μιμηθεί.
Μια και μόνο εκπαίδευση της ΑΙ μπορεί να απορροφήσει περισσότερο κείμενο απ’ ό,τι οι περισσότεροι άνθρωποι θα διαβάσουν σε όλη τους τη ζωή. Η προέλευση αυτού του κειμένου συχνά αποκρύπτεται. Μια παράγραφος ενός Βραζιλιάνου μεταφραστή γίνεται σύμβολο εκμάθησης. Ενα πορτρέτο από έναν Ουκρανό εικονογράφο γίνεται διάνυσμα. Ενα ποίημα ενός έφηβου από τη Μαλαισία γίνεται αναφορά σε στυλ, που αποσπάται από το Tumblr και αναβιώνει εντός μιας… θολούρας των ορίων.

Για τις εμπλεκόμενες εταιρείες, αυτό είναι ένα τεχνικό θαύμα. Για όλους τους υπόλοιπους, είναι μια απαλλοτρίωση μεταμφιεσμένη σε πρόοδο.
«Σχεδόν κάθε κοινωνική ανάγκη καλύπτεται πλέον με την ευκαιρία “σύνδεσης” μέσω ψηφιακών μέσων. Αλλά αυτή η ευκολία δεν είναι δωρεάν. Αγοράζεται με τεράστιες ποσότητες προσωπικών δεδομένων που μεταφέρονται μέσω σκοτεινών παρασκηνιακών καναλιών σε εταιρείες που τα χρησιμοποιούν για να παράγουν κέρδος», γράφουν ο Νικ Κόουλντρι και ο Γιούλισες Μεχίας στο βιβλίο τους «The Costs of Connection».
Οι δύο συγγραφείς το ονομάζουν αυτό «αποικιοκρατία των δεδομένων». Υποστηρίζουν ότι οι υποδομές του ψηφιακού καπιταλισμού λειτουργούν με βάση τις ίδιες αρχές με την αυτοκρατορική κατάκτηση: ιδιοποίηση, αφαίρεση, αποσυμβολισμός, κέρδος. Μόνο που τώρα αυτό που καταλαμβάνεται δεν είναι το καουτσούκ, το βαμβάκι ή ο χρυσός, αλλά η ταυτότητα, η δημιουργικότητα, η γλώσσα, η σκέψη. «H αποικιοκρατική νοοτροπία μάς λέει ότι τα δεδομένα, όπως η φύση και η εργασία πριν από αυτά, είναι φθηνός πόρος. Λέγεται ότι τα δεδομένα υπάρχουν σε αφθονία, είναι εκεί για να τα πάρουμε και δεν έχουν πραγματικό ιδιοκτήτη. Προκειμένου να υποστούν επεξεργασία, αυτό πρέπει να συμβεί με προηγμένες τεχνολογίες, όπως ακριβώς και οι προηγούμενοι αποικιακοί πόροι».
Το γεγονός ότι τα περισσότερα από αυτά συμβαίνουν κάτω από τη σημαία των «ανοικτών δεδομένων» επιτείνει την ειρωνεία. Στον κόσμο της τεχνητής νοημοσύνης, το «ανοικτό» είναι συχνά ευφημισμός για το ανεξέλεγκτο, το απροστάτευτο και το μη αμειβόμενο. Μια πολιτισμική ζώνη αδύναμων αμυντικών μηχανισμών. Ενας τόπος από τον οποίο μπορεί κανείς απλώς να πάρει, να εξορύξει, να εξαγάγει.
Η λέξη που χρησιμοποιεί συχνότερα η βιομηχανία της ΑΙ για να περιγράψει την αποστολή της δεν είναι το κέρδος, αλλά ο εκδημοκρατισμός.
Παρ’ όλα αυτά, η ρητορική παραμένει καλοπροαίρετη. Η λέξη που χρησιμοποιεί συχνότερα η βιομηχανία της ΑΙ για να περιγράψει την αποστολή της δεν είναι το κέρδος, αλλά ο εκδημοκρατισμός. Εντούτοις, υπάρχει, άραγε, διαφορά μεταξύ της πρόσβασης στα εργαλεία και της ιδιοκτησίας των μέσων δημιουργίας; Πού βρίσκονται τα όρια μεταξύ δημιουργίας και πνευματικής ιδιοκτησίας;
Στις δικαστικές αίθουσες των ΗΠΑ, οι εταιρείες ΑΙ επικαλούνται τον «εκδημοκρατιστικό» χαρακτήρα των μοντέλων τους και την αρχή της δίκαιης χρήσης. Ομως, το fair use δεν είναι αυτόματο διαβατήριο. Κρίνεται από τον δικαστή της ουσίας ad hoc, ενόψει των πραγματικών περιστατικών κάθε περίπτωσης, με βάση τέσσερα κριτήρια: τον σκοπό της χρήσης (λ.χ. εμπορικό ή μη) του επίδικου έργου, τη φύση του (λ.χ. έργο λόγου, τέχνης ή επιστήμης, έργο χαμηλού δημιουργικού ύψους ή «λειτουργικού»/τεχνολογικού χαρακτήρα κ.ο.κ.), την ποσότητα του αντιγραμμένου πρωτότυπου περιεχομένου και την επίδραση της εξεταζόμενης «χρήσης» του στη σχετική αγορά. Οπως επισημαίνει η Αννα Δεσποτίδου, «ορισμένα από τα παραπάνω κριτήρια δύσκολα θα πληρούνται στις περισσότερες περιπτώσεις εκπαίδευσης παραγωγικής ΑΙ, ιδίως όταν η νέα “δημιουργία”, που υπέχει θέση παράγωγου έργου, ανταγωνίζεται άμεσα το αρχικό, βλάπτοντας αδικαιολόγητα τα έννομα συμφέροντα του δημιουργού του».
ΚΑΙ Η ΣΥΓΚΑΤΑΘΕΣΗ;
Ως απάντηση στον αυξανόμενο έλεγχο, πολλές εταιρείες τεχνητής νοημοσύνης προβαίνουν πλέον σε χειρονομίες συγκατάθεσης. Προσφέρουν δυνατότητα εξαίρεσης, δημοσιεύουν εκθέσεις διαφάνειας και δηλώνουν ότι σέβονται τα πνευματικά δικαιώματα. Ωστόσο, αυτά τα μέτρα συχνά έρχονται εκ των υστέρων – αφού τα μοντέλα έχουν εκπαιδευτεί σε υπάρχοντα δεδομένα. Το παρελθόν, ως γνωστόν, έχει το κακό χούι να παραμένει αναλλοίωτο.
Τον Ιανουάριο του 2025, το Reuters μετέδωσε ότι η Meta είχε χρησιμοποιήσει σύνολα δεδομένων από τη LibGen για να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης της. Τα μηνύματα ηλεκτρονικού ταχυδρομείου μεταξύ των στελεχών της Meta συζητούσαν την αναγκαιότητα της χρήσης του LibGen για την επίτευξη κορυφαίων επιδόσεων, αναγνωρίζοντας την πειρατική φύση του συνόλου δεδομένων, αλλά θεωρώντας το απαραίτητο για να ανταγωνιστεί τους αντιπάλους όπως η OpenAI.

Αυτή η στρατηγική –η εκ των υστέρων συγκατάθεση– έχει γίνει κανόνας στον κόσμο της ΑΙ: πρώτα εξορύσσουμε, μετά μιλούμε για δικαιώματα. Το βάρος της αστυνόμευσης της χρήσης του έργου πέφτει στους ίδιους τους δημιουργούς, οι οποίοι συχνά δεν διαθέτουν τους πόρους για να «κυνηγήσουν» τις μεγάλες εταιρείες. Πώς, όμως, αμείβεις αυτόν που έγινε αλγόριθμος χωρίς να το ξέρει; Τι μένει από έναν συγγραφέα όταν έχει απομείνει μόνο το στυλ του;
Το βάρος της αστυνόμευσης της χρήσης του έργου πέφτει στους ίδιους τους δημιουργούς, οι οποίοι συχνά δεν διαθέτουν τους πόρους για να «κυνηγήσουν» τις μεγάλες εταιρείες.
Οι νομικές προκλήσεις έχουν εμφανιστεί σε παγκόσμιο επίπεδο. Τον Μάρτιο του 2025, οι κορυφαίες ενώσεις εκδοτών και συγγραφέων της Γαλλίας κατέθεσαν αγωγή κατά της Meta, ισχυριζόμενες μη εξουσιοδοτημένη χρήση περιεχομένου που προστατεύεται από πνευματικά δικαιώματα για την εκπαίδευση των συστημάτων τεχνητής νοημοσύνης. Περιέγραψαν την κατάσταση ως «μνημειώδη λεηλασία», αναδεικνύοντας την ανισορροπία μεταξύ μεμονωμένων δημιουργών και τεχνολογικών κολοσσών.
Ομοίως, στην Ινδία, εκδότες βιβλίων και συνάδελφοί τους από το εξωτερικό κατέθεσαν αγωγή για πνευματικά δικαιώματα κατά της OpenAI, κατηγορώντας την εταιρεία ότι χρησιμοποίησε το περιεχόμενό τους χωρίς άδεια για την εκπαίδευση του ChatGPT. Η Ομοσπονδία Ινδών Εκδοτών τόνισε την ανάγκη προστασίας των δικαιωμάτων πνευματικής ιδιοκτησίας μπροστά στην εξέλιξη των τεχνολογιών τεχνητής νοημοσύνης.
Το χρονικό των δικαστικών μαχών, 2022 – 2025
Οι νομικές διαμάχες, ων ουκ έστιν αριθμός, συνθέτουν ήδη ένα νέο δικαστικό τοπίο, που εκτείνεται από τη λογοτεχνία και την εικονογράφηση μέχρι τη μουσική, τον δημοσιογραφικό λόγο και τον προγραμματισμό. Το παρακάτω χρονολόγιο χαρτογραφεί την έκρηξη των αγωγών γύρω από την εκπαίδευση της ΑΙ, αποκαλύπτοντας το εύρος και την ένταση της σύγκρουσης.
🗓 Νοέμβριος 2022: Ομαδική αγωγή κατατέθηκε κατά των Microsoft, GitHub και OpenAI, ισχυριζόμενη ότι το εργαλείο GitHub Copilot παραβίασε πνευματικά δικαιώματα δημιουργών κώδικα, καθώς μπορούσε να παράγει κώδικα που ταυτίζεται με τον αρχικό χωρίς αναφορά στους δημιουργούς.
🗓 Ιανουάριος 2023: Τρεις Αμερικανίδες καλλιτέχνιδες, οι Sarah Andersen, Kelly McKernan και Karla Ortiz, υπέβαλαν ομαδική αγωγή κατά των Stability AI, Midjourney και DeviantArt, υποστηρίζοντας ότι οι εταιρείες εκπαίδευσαν τα εργαλεία τεχνητής νοημοσύνης τους σε δισεκατομμύρια εικόνες από το διαδίκτυο χωρίς τη συγκατάθεση των αρχικών δημιουργών.
🗓 Ιανουάριος 2023: Η Stability AI αντιμετώπισε αγωγή από την Getty Images στο Λονδίνο, κατηγορούμενη για χρήση εικόνων της Getty χωρίς άδεια στην εκπαίδευση των μοντέλων της. Wikipedia
🗓 Φεβρουάριος 2023: Η Getty Images κατέθεσε δεύτερη αγωγή κατά της Stability AI σε δικαστήριο των ΗΠΑ, υποστηρίζοντας ότι η εταιρεία παραβίασε πνευματικά δικαιώματα και χρησιμοποίησε το εμπορικό σήμα της Getty μέσω της δημιουργίας εικόνων με το υδατογράφημά της.
🗓 Ιούλιος 2023: Οι συγγραφείς Paul Tremblay και Mona Awad υπέβαλαν αγωγή κατά της OpenAI, ισχυριζόμενοι ότι το μοντέλο γλώσσας ChatGPT εκπαιδεύτηκε στα βιβλία τους χωρίς άδεια. Παρόμοιες αγωγές κατέθεσαν οι Sarah Silverman, Christopher Golden και Richard Kadrey κατά των Meta και OpenAI για παραβίαση πνευματικών δικαιωμάτων.
🗓 Δεκέμβριος 2023: Οι New York Times μήνυσαν τις Microsoft και OpenAI, υποστηρίζοντας ότι τα μοντέλα τους εκπαιδεύτηκαν σε άρθρα της εφημερίδας, παραβιάζοντας πνευματικά δικαιώματα και ανταγωνιζόμενα άμεσα το δημοσιογραφικό τους έργο.
🗓 Απρίλιος 2024: Οκτώ αμερικανικές εφημερίδες, ιδιοκτησίας της Tribune Publishing, κατέθεσαν αγωγή κατά των Microsoft και OpenAI για παραβίαση πνευματικών δικαιωμάτων, σχετική με τη χρήση των άρθρων τους στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης και τη δημιουργία παραπλανητικών πληροφοριών.
🗓 Ιούνιος 2024: Η Eνωση Δισκογραφικών Εταιρειών της Αμερικής (RIAA) και μεγάλες δισκογραφικές μήνυσαν τους δημιουργούς των Suno AI και Udio, μοντέλων τεχνητής νοημοσύνης που δημιουργούν τραγούδια, υποστηρίζοντας ότι εκπαιδεύτηκαν σε μουσική χωρίς άδεια.
🗓 Σεπτέμβριος 2024: Γερμανικό δικαστήριο απέρριψε αγωγή φωτογράφου κατά του μη κερδοσκοπικού οργανισμού LAION για μη εξουσιοδοτημένη αναπαραγωγή έργου του στη δημιουργία συνόλου δεδομένων για εκπαίδευση τεχνητής νοημοσύνης.
🗓 Νοέμβριος 2024: Καναδικά ειδησεογραφικά πρακτορεία, μέσω της News Media Canada, μήνυσαν την OpenAI για παραβίαση πνευματικών δικαιωμάτων, σχετική με τη χρήση των άρθρων τους στην εκπαίδευση του ChatGPT, διεκδικώντας αποζημιώσεις.
🗓 Νοέμβριος 2024: Το πρακτορείο ειδήσεων ANI της Ινδίας μήνυσε την OpenAI, ισχυριζόμενο ότι το ChatGPT αναπαράγει περιεχόμενο ειδήσεών τους χωρίς άδεια, παραβιάζοντας πνευματικά δικαιώματα και κάνοντας μη εξουσιοδοτημένη χρήση δημοσιογραφικού υλικού.
🗓 Δεκέμβριος 2024: Δικαστικές υποθέσεις κατά των OpenAI, Anthropic και Meta Platforms αναμένεται να καθορίσουν το μέλλον της τεχνητής νοημοσύνης, με επίκεντρο το αν η χρήση προστατευόμενου περιεχομένου για εκπαίδευση AI συνιστά «θεμιτή χρήση».
🗓 Μάρτιος 2025: Γαλλικές ενώσεις εκδοτών και συγγραφέων κατέθεσαν αγωγή κατά της Meta, κατηγορώντας τη για μαζική χρήση προστατευόμενων έργων χωρίς άδεια για την εκπαίδευση των συστημάτων τεχνητής νοημοσύνης της.
🗓 Μάρτιος 2025: Στην Ινδία, εκδότες βιβλίων και συνάδελφοί τους από το εξωτερικό κατέθεσαν αγωγή για πνευματικά δικαιώματα κατά της OpenAI, κατηγορώντας την εταιρεία ότι χρησιμοποίησε το περιεχόμενό τους χωρίς άδεια για την εκπαίδευση του ChatGPT.
Οι υποθέσεις αυτές υπογραμμίζουν κάτι κρίσιμο: ενώ οι εταιρείες τεχνητής νοημοσύνης υποστηρίζουν ότι η χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα για εκπαίδευση συνιστά θεμιτή χρήση, οι δημιουργοί υποστηρίζουν ότι τέτοιες πρακτικές παραβιάζουν τα δικαιώματα και τα μέσα διαβίωσής τους. Το νομικό τοπίο παραμένει αβέβαιο, με τα δικαστήρια να παλεύουν να εφαρμόσουν τους υφιστάμενους νόμους περί πνευματικών δικαιωμάτων στις νέες τεχνολογικές πραγματικότητες.
Οταν ένα μοντέλο μιμείται τον χρωστήρα ενός ζωγράφου ή απηχεί την έκφραση ενός μεταφραστή, θολώνει τη διάκριση μεταξύ στυλ και εμπορεύματος.
Για τους δημιουργούς, η ζημία δεν είναι μόνον οικονομική αλλά και υπαρξιακή. Οταν ένα μοντέλο μιμείται τον χρωστήρα ενός ζωγράφου ή απηχεί την έκφραση ενός μεταφραστή, θολώνει τη διάκριση μεταξύ στυλ και εμπορεύματος. Μετατρέπει τη βιωμένη εργασία σε μοντέλο, ισοπεδώνει τη συγγραφή σε λειτουργία αυτού του μοντέλου.
Οι συνεχιζόμενες νομικές διαμάχες και συζητήσεις υπογραμμίζουν την επείγουσα ανάγκη για μιαν επανεκτίμηση της συγκατάθεσης, της ιδιοκτησίας και της δίκαιης χρήσης στην εποχή της τεχνητής νοημοσύνης. Καθώς η τεχνολογία συνεχίζει να εξελίσσεται, το ίδιο πρέπει να κάνουν και τα ηθικά και νομικά μας πλαίσια για να διασφαλιστούν ο σεβασμός και η διατήρηση των δικαιωμάτων των δημιουργών.
Η ΕΠΑΝΑΚΤΗΣΗ ΤΟΥ ΜΕΛΛΟΝΤΟΣ
Οπως έχει φανεί ώς τώρα, τα πιο ισχυρά γλωσσικά μοντέλα στον κόσμο δεν μπορούν να εξηγήσουν από πού προήλθε η γνώση τους. Δεν μπορούν να αναφέρουν πηγές. Δεν μπορούν να κατονομάσουν τους ποιητές των οποίων τον ρυθμό απορρόφησαν ή τους εικονογράφους των οποίων οι πινελιές έγιναν υπολογιστικά διανύσματα. Δεν μπορούν να μας πουν ποια ιστορία τούς έμαθε να ακούγονται σαν άνθρωποι ή ποια φωνή έμαθαν αθόρυβα να μιμούνται.
Δεν έχουν καμία ανάμνηση των κλοπών τους. Εμείς όμως έχουμε.
Η τεχνητή νοημοσύνη, όπως συνάγεται, δεν αναπτύχθηκε σε κάποιον ουδέτερο ουρανό. Χτίστηκε πάνω σε βιβλιοθήκες που δεν της ανήκαν, σε εικόνες χωρίς άδεια, σε φωνές που δεν επέλεξαν να μιλήσουν. Αν υπάρχει ένας μύθος που καθορίζει αυτή την εποχή, είναι ότι η γνώση μπορεί να υπάρξει χωρίς μνήμη.
Αυτός ο μύθος τώρα καταρρέει. (Μάλλον.)
Ο πολιτισμός είναι το οξυγόνο της ύπαρξής μας. Δεν μπορούμε να τον εμπιστευτούμε στις μηχανές.
Το υφιστάμενο νομικό πλαίσιο δεν έχει ακόμη προσαρμοστεί στη νέα τεχνολογική πραγματικότητα. Η ανυπαρξία σαφών μηχανισμών προστασίας και αμοιβής των δημιουργών καθιστά το σημερινό καθεστώς όχι μόνο νομικά επισφαλές, αλλά και υπαρξιακά άδικο, σύμφωνα με όσα συνάγονται από την κουβέντα που είχαμε με την Αννα Δεσποτίδου. «Η νομοθεσία, η θεωρία και η νομολογία καλούνται, συνεπώς, να επανεφεύρουν τον τρόπο με τον οποίο θα εξισορροπηθούν οι ραγδαίες εξελίξεις στον τομέα της ΑΙ με την αναγνώριση της ανθρώπινης δημιουργικότητας ως θεμέλιο αυτών· και όχι, απλώς, ως “καύσιμο” της μηχανής».
Από τις συζητήσεις, πάντως, της «Κ» με ειδικούς, αυτονόητη παραμένει η αναγκαιότητα να μπει μια κάποια τάξη στο χάος, να διαμορφωθεί μια νέα δεοντολογία ή/και «ηθική» εύλογης χρήσης των αποτελεσμάτων της ανθρώπινης δημιουργικότητας. Ο λόγος; Να αντέξει στον ανταγωνισμό των παραγόμενων από την ΑΙ έργων και να συνεχίσει να υπάρχει. «Ο πολιτισμός είναι το οξυγόνο της ύπαρξής μας. Δεν μπορούμε να τον εμπιστευτούμε στις μηχανές», όπως λέγεται χαρακτηριστικά.
Ο μηχανικός στην αρχή του παρόντος δεν βρήκε καμία προειδοποίηση στον φάκελο – κανένα αίτημα άδειας, κανένα αποτύπωμα συγγραφέα. Μόνο νευρώνες και προβλέψεις.
Και κάπου στο βάθος, μια φωνή χωρίς συγκατάθεση που θα συνεχίσει να μιλά· με λέξεις που δεν της ανήκουν. Ή, μάλλον, που της ανήκαν. Once upon a time…
Κεντρική φωτογραφία: ©Shutterstock/AI generated

