Σώμα κειμένων ΙΕΛ/“Ελευθεροτυπίας”
Τίτλος
Σώμα κειμένων ΙΕΛ/“Ελευθεροτυπίας”
Φορέας
Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ."Αθηνά"
Εναλλακτικός Τίτλος
English : ΙLSP/ELEFTHEROTYPIA Corpus
Περιγραφή
English : The ILSP/ELEFTHEROTYPIA Corpus contains approximately 3 million words classified and it is distributed through the European Language Resources Association (ELRA). It is annotated according to the common core PAROLE encoding standard, therefore, each file is classified according to the parameters of Medium, Topic and Genre, and structurally annotated at paragraph level (CES Level 1). The format of the corpus is SGML files. The source of the files is the Greek daily newspaper ELEFTHEROTYPIA. A subset of the corpus (250,000 words) is morpho-syntactically tagged; all the words are also lemmatised and checked. For the morphosyntactic annotation of the corpus, a stepwise procedure consisting of the following four steps was used: automatic morphosyntactic annotation, automatic disambiguation, manual disambiguation and checking, conversion into the PAROLE format requirements. In certain texts, some passages are written in "katharevoussa", an older version of Greek; these passages are marked as "distinct" and have not been morpho-syntactically annotated. The tagset used for the morphological annotation of the corpus is presented in the "Addendum to TA - Encoding features and values for the morphological layer in the lexicon Merged Tags" (P-WP1.1.-MEMO-ERLI-5).
Greek : Το σώμα κειμένων ΙΕΛ/“Ελευθεροτυπίας” διατίθεται μέσω της ELRA, ενός μη κερδοσκοπικού που αποτελεί τον Ευρωπαϊκό Σύνδεσμο Γλωσσικών Πόρων. Αποτελείται από περίπου 3.000.000 λέξεις, που έχουν αντληθεί από άρθρα της καθημερινής εφημερίδας “Ελευθεροτυπία”. Διατίθενται κείμενα κατηγοριοποιημένα και επισημειωμένα κατά το διεθνές πρότυπο επισημείωσης PAROLE. Έτσι, κάθε φάκελος κατηγοριοποιείται με βάση το μέσο δημοσίευσης, τη θεματική περιοχή και το κειμενκό είδος. Το σώμα κειμένων είναι δομικά επισημειωμένο σε επίπεδο παραγράφου και βρίσκεται σε μορφή αρχείων SGML. Μέρος του σώματος κειμένων, αποτελούμενο από 250.000 λέξεις, είναι μορφοσυντακτικά επισημειωμένο, ενώ όλες οι λέξεις είναι λημματοποιημένες και ελεγμένες. Ορισμένα κείμενα περιέχουν αποσπάσματα στην καθαρεύουσα, τα οποία είναι μαρκαρισμένα και δεν έχουν επισημειωθεί μορφοσυντακτικά.
Θέματα
Ελληνική γλώσσα, Σώματα κειμένων, Σωματοκειμενική γλωσσολογία, Γλωσσολογία, Εφημερίδες
Τελευταία τροποποίηση
2020-09-24 13:10:03
Μέγεθος
250000 λέξεις
Γλώσσα
Ελληνικά, Νέα (1453-)
Τύπος τεκμηρίων
Σύνολο Δεδομένων : βάσεις δεδομένων
Τύπος συλλογής
Ψηφιακή
Σχήμα μεταδεδομένων
ΔΕΝ ΔΙΑΘΕΤΕΙ ΣΧΗΜΑ ΜΕΤΑΔΕΔΟΜΕΝΩΝ
Δικαιώματα ιδιοκτησίας και κατοχής
Ο φορέας έχει πλήρη δικαιώματα στο σύνολο των κειμένων.
Δικαιώματα πρόσβασης - αδειοδότησης
Ο χρήστης έχει δυνατότητα πρόσβασης κατόπιν επικοινωνίας με τον φορέα
Τόπος | Συντεταγμένες |
---|---|
Ελλάδα | 39.63722, 22.42028 |
Περίοδος | Από | Έως |
---|---|---|
Νεότερη και σύγχρονη περίοδος | 19ος αι. μ.Χ. | 21ος αι. μ.Χ. |
Aνήκει/ είναι μέρος της : Προϊόντα - Γλωσσική Εκπαίδευση
URL ψηφιακής συλλογής
Είναι προσβάσιμη μέσω: http://www.ilsp.gr/el/services-products/langresources