Call 0208 349 2011
fujitsu daikin mitsubishi panasonic and toshiba logos

Loi de zipf exemple

Il est également possible de tracer un rang réciproque contre la fréquence ou la fréquence réciproque ou l`intervalle entre les mots par rapport au rang. La Loi de Zipf a également été utilisée pour l`extraction de fragments parallèles de textes de corpus comparables. La troisième fréquence la plus commune se produira 1/3 aussi souvent que le premier. Les raisons sont également clairement économiques, que les grandes villes ont tendance à produire le plus de richesses. Mais l`immigration n`est pas assez pour expliquer la Loi de puissance qui produit cette pente parfaite dans le graphique de Gabaix ci-dessus. Il a appelé cela un rang vs la quatrième fréquence la plus commune se produira 1/4 aussi souvent que le premier. En fait, historiquement, le niveau géographique pour l`Europe, auquel une évolution intégrée est observée, est l`État national, tandis qu`aux États-Unis, toute la Confédération, et non pas chaque État indépendant, a évolué collectivement et organiquement vers une distribution de les villes qui suivent la Loi de Zipf. New York, avait une population de 8 175 133. Elle se réfère à la façon dont les villes deviennent plus durables à mesure qu`elles grandissent. Sa théorie sous-jacente est que la distribution de rang découle naturellement du fait que la longueur de mot joue un rôle — les longs mots tendent à ne pas être très communs, tandis que les mots plus courts sont. Vous pouvez voir que, évidemment, les chiffres ne sont pas exacts, mais regardé statistiquement, ils sont remarquablement cohérents avec les prédictions de Zipf. Par exemple, le mot «the» (comme décrit ci-dessus) apparaîtrait à x = log (1), y = log (69971). Il suffit de jeter un oeil sur les villes les mieux classés aux États-Unis par la population.

Fidèle à la Loi de Zipf, le mot deuxième place de comptes pour un peu plus de 3. L`apparition de la distribution dans les classements des villes par population a d`abord été remarquée par Felix Auerbach en 1913. Dans son texte généré aléatoirement, la distribution de fréquence de la longueur de mot était exponentielle, c`est-à-dire que les mots de longueur 1 se produisit plus que les mots de longueur 2 et ainsi de suite, avec une fréquence déclinant exponentiellement avec la longueur de mot. Les distributions de Zipfian peuvent être obtenues des distributions Pareto par un échange de variables. Et la Loi de Zipf s`applique à la distribution des revenus. Par exemple, la Loi de Zipf stipule que, compte tenu de certains corpus d`expressions du langage naturel, la fréquence d`un mot est inversement proportionnelle à son rang dans le tableau des fréquences. Et ce qu`ils ont trouvé, c`est que même ces «villes naturelles» obéissaient à la Loi de Zipf. Quand la Loi de Zipf est vérifiée pour les villes, un meilleur ajustement a été trouvé avec l`exposant s = 1. Peut-être, mais probablement pas.

Empiriquement, un ensemble de données peut être testé pour voir si la Loi de Zipf s`applique en vérifiant la bonté de l`ajustement d`une distribution empirique à la distribution de la Loi de puissance hypothèse avec un test Kolmogorov-sourire, puis en comparant le ratio (log) de la probabilité de la puissance distribution de droit à des distributions alternatives comme une distribution exponentielle ou une distribution lognormale. Les données sont conformes à la Loi de Zipf dans la mesure où l`intrigue est linéaire. Il n`a jamais été une véritable explication de la raison pour laquelle il devrait se produire pour les langues et il ya controverse entourant si elle donne un aperçu significatif dans le langage humain. Avec la Loi de Zipf] l`inverse est vrai: nous avons des modèles complexes et désordonnés, mais la réalité est étonnamment soignée et simple. Par exemple, dans le système binaire standard, nous aurions x ′ = 2 x + s {displaystyle x` = 2x + s}, ce qui est optimal pour PR (s = 0) = PR (s = 1) = 1/2 {displaystyle Pr (s = 0) = Pr (s = 1) = 1/2} distribution de probabilité. Dans tous les cas, la longueur de mot en anglais ne suit pas une distribution exponentielle comme un texte généré aléatoirement.

Posted on: No Comments

Comments are closed.