Προφορικό σώμα κειμένων “Λογοτυπογραφία”

Τίτλος

Προφορικό σώμα κειμένων “Λογοτυπογραφία”

Εναλλακτικός Τίτλος

English : Logotypografia Corpus

Περιγραφή

Greek : Το Προφορικό σώμα κειμένων “Λογοτυπογραφία” διατίθεται μέσω της ELRA, ενός μη κερδοσκοπικού που αποτελεί τον Ευρωπαϊκό Σύνδεσμο Γλωσσικών Πόρων. Αποτελείται από αναγνώσεις που συλλέχθηκαν για να εξυπηρετήσουν την ανάπτυξη τεχνολογίας αναγνώρισης φωνής για τα ελληνικά. Όλες οι προτάσεις επιλέχθηκαν από αποσπάσματα του γραπτού σώματος κειμένων της Ελευθεροτυπίας και περιέχουν λεξιλόγιο περίπου 40.000 λέξεων. Ο συνολικός αριθμός εκφωνημάτων ξεπερνά τα 32.000, με σχεδόν 72 ώρες ηχητικό υλικό από 120 διαφορετικούς ομιλητές και των δύο φύλων.

English : The Logotypografia Corpus is distributed through the European Language Resources Association (ELRA). It consists of read material collected in order to be used for the development of continuous speech recognition systems for the Greek language. All recorded sentences were selected from extracts of the Elefterotypia-journal text corpus and provide a vocabulary of about 40,000 words. The total number of utterances is over 32,000 (aproximately 72 hours of speech material from 120 different speakers, male and female). Detailed orthographic transcription files are also included in the distribution. There are markings for the utterance's orthography and several speech and non-speech events (e.g. mispronunciations, truncation, noise etc). The recording procedure took place in three different environments : a sound proof room, a quiet environment and an office environment. Two different microphones were used : a desk microphone and a head-mounted close-talking microphone. The format of the waveform files is NIST. Waveforms are encoded using PCM coding format, 16000 sampling rate, 2 bytes per sample.

Θέματα

Ελληνική γλώσσα, Σώματα κειμένων, Προφορικός λόγος, Γλωσσολογία, Σωματοκειμενική γλωσσολογία

Τελευταία τροποποίηση

2019-07-19 13:13:24

Μέγεθος

40000 λέξεις, 72 ώρες ηχογράφησης

Γλώσσα

Ελληνικά, Νέα (1453-)

Τύπος συλλογής

Ψηφιακή

Σχήμα μεταδεδομένων

ΔΕΝ ΔΙΑΘΕΤΕΙ ΣΧΗΜΑ ΜΕΤΑΔΕΔΟΜΕΝΩΝ

Δικαιώματα ιδιοκτησίας και κατοχής

Ο φορέας έχει πλήρη δικαιώματα στο προφορικό υλικό και τις απομαγνητοφωνήσεις του σώματος κειμένων.

Δικαιώματα πρόσβασης - αδειοδότησης

Ο χρήστης έχει δυνατότητα πρόσβασης μετά από πληρωμή συνδρομής.

Τόπος Συντεταγμένες
Ελλάδα 39.63722, 22.42028
Περίοδος Από Έως
Νεότερη και σύγχρονη περίοδος 19ος αι. μ.Χ. 21ος αι. μ.Χ.

URL ψηφιακής συλλογής

Είναι προσβάσιμη μέσω: http://catalogue.elra.info/en-us/repository/browse/ELRA-S0111/