About: Letter frequency     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : owl:Thing, within Data Space : prod-dbpedia.inria.fr associated with source document(s)

AttributesValues
rdfs:label
  • Bokstavsfrekvens (sv)
  • Frequência de letras (pt)
  • Freqüència de les lletres (ca)
  • Fréquence d'apparition des lettres en français (fr)
  • Letter frequency (en)
  • Частотность (ru)
  • 字母频率 (zh)
rdfs:comment
  • Le calcul de la fréquence des lettres dans une langue est difficile et soumis à interprétation. On compte la fréquence des lettres d’un texte arbitrairement long, mais un certain nombre de paramètres influencent les résultats : (fr)
rdfs:seeAlso
sameAs
Wikipage page ID
Wikipage revision ID
dbo:wikiPageWikiLink
Link from a Wikipage to an external page
page length (characters) of wiki page
dct:subject
prop-fr:wikiPageUsesTemplate
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
has abstract
  • Le calcul de la fréquence des lettres dans une langue est difficile et soumis à interprétation. On compte la fréquence des lettres d’un texte arbitrairement long, mais un certain nombre de paramètres influencent les résultats : * Le style narratif : s’il y a beaucoup de verbes à la 2e personne du pluriel (le vouvoiement, présent dans beaucoup de dialogues), il y aura significativement plus de « Z ». * Le vocabulaire spécifique du document : si l’on parle de chemins de fer, il y aura beaucoup plus de « W » (wagon) ; si l’un des protagonistes se dénomme Loïs, le nombre d'« Ï » s’en ressentira. * Le type de document : des petites annonces en France présenteront souvent le symbole Euro (€), qui est absent de la plupart des autres documents. * La langue d'origine du texte : les noms propres restant généralement les mêmes entre sa version originale et sa version traduite, certaines variations de fréquences de lettres rares en français peuvent se faire ressentir. Dans un texte d'un auteur anglais par exemple, les noms propres auront tendance à faire augmenter les fréquences de lettres relativement communes dans cette langue, telles que le H, le W ou le Y. * L'époque à laquelle le texte a été rédigé : un texte français du dix-huitième siècle ne contiendra pas ou peu de W, car cette lettre était à cette époque beaucoup moins utilisée qu'aujourd'hui. * Les paramètres techniques : on peut facilement calculer des statistiques sur des textes informatisés, mais souvent ceux-ci ne comportent pas de majuscules accentuées (car difficiles à entrer sur certains ordinateurs) et il arrive aux auteurs d'oublier des accents. La graphie de l’e-dans-l’o (œ) est impossible à représenter dans le codage latin-1 qui est souvent utilisé pour les textes en français. C'est un problème parce que « œ » n'est pas une ligature esthétique (optionnelle) mais une ligature linguistique (obligatoire), elle se prononce différemment de la suite de voyelles « oe » . Par exemple, « œ » va se prononcer [ɛ] dans œsophage alors que « oe » va se prononcer [ɔ.ɛ] dans coexistence. * La présence de caractères non alphabétiques (symboles de ponctuation, chiffres, parenthèses et accolades, symboles mathématiques courants…) peut ou non être prise en compte ; la virgule, le point ou l’apostrophe sont par exemple plus fréquents que plus de la moitié des lettres[réf. souhaitée]. Si ces paramètres ont un impact spectaculaire sur les symboles les moins fréquents (la fréquence du œ varie entre 0,002 % et 0,09 % pour trois textes pris au hasard)[réf. nécessaire], elle est également sensible même pour les lettres les plus fréquentes (l’ordre de fréquence des lettres A, S, I, T et N, qui sont les plus fréquentes à part E, fluctue d’un texte à l’autre). (fr)
is dbo:wikiPageWikiLink of
is Wikipage redirect of
is oa:hasTarget of
is foaf:primaryTopic of
Faceted Search & Find service v1.16.111 as of Oct 19 2022


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3234 as of May 18 2022, on Linux (x86_64-ubuntu_bionic-linux-gnu), Single-Server Edition (39 GB total memory, 19 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software