ο υπολογιστικό Μορφολογικό και συντακτικό Λεξικό της Νέας Ελληνικής που αναπτύχθηκε από το ΙΕΛ/Ε.Κ. "Αθηνά" στο πλαίσιο του προγράμματος LE-PAROLE, προορίζεται να χρησιμοποιηθεί σε εφαρμογές Γλωσσικής Τεχνολογίας.
Περιλαμβάνει 20.149 λήμματα κωδικοποιημένα σε μορφολογικό και συντακτικό επίπεδο, σύμφωνα με το μοντέλο PAROLE, που βασίζεται στα διεθνή γλωσσολογικά πρότυπα. Με το ίδιο μοντέλο έχουν αναπτυχθεί λεξικά για 11 ακόμη ευρωπαϊκές γλώσσες (Αγγλικά, Γαλλικά, Γερμανικά, Δανικά, Ισπανικά, Ιταλικά, Καταλανικά, Ολλανδικά, Πορτογαλικά, Σουηδικά, Φινλανδικά). Τα λεξικά δεδομένα είναι διαθέσιμα σε μορφή SGML, όπως ορίζεται από ένα κοινό DTD για όλες τις γλώσσες.
Περιεχόμενα λεξικού
Για την επιλογή των 20.000 λημμάτων που περιλαμβάνονται στο λεξικό ακολουθήθηκε μια υβριδική διαδικασία:
στατιστική επεξεργασία ενός Σώματος Κειμένων 9.000.000 λέξεων περίπου, με στόχο τον εντοπισμό των συχνότερων λημμάτων,
επεξεργασία του καταλόγου των συχνότερων λημμάτων με βάση γλωσσολογικά κριτήρια.
Πιο συγκεκριμένα, το λεξικό περιλαμβάνει:
20.149 μορφολογικές μονάδες, και
25.092 συντακτικές μονάδες.
Στο μορφολογικό επίπεδο, τα λήμματα φέρουν πληροφορίες λημματολογίου (π.χ. σύνδεση με άλλα λήμματα, ορθογραφικές εκδοχές, κτλ.) και πληροφορίες μορφολογίας (γραμματική κατηγορία και υποκατηγορία, κλιτικό παράδειγμα, θέματα).
Στο επόμενο επίπεδο, κωδικοποιείται, με τη μορφή συντακτικών μονάδων, η συντακτική συμπεριφορά του λήμματος: κωδικοποιούνται, δηλαδή, τα συμπληρώματα με τα οποία συντάσσεται ένα λήμμα, καθώς και τα χαρακτηριστικά που απαιτούνται για τον χαρακτηρισμό και την αναγνώριση των συμπληρωμάτων αυτών (π.χ. αν πρόκειται για υποκείμενο - ουσιαστικό σε πτώση ονομαστική, κτλ.).