Aniden Yazarım

Aniden ama nadiren!

Yule-Simon Modeli

with one comment

Kelimelerin metinlerde geçme sıklığını açıklamak için kullanılmış ama kullanım alanı burasıyla sınırlı kalmamış bir modeldir. Teknik detayları isteyen internetten araştırabilir [1]. Yule’un bitki biyolojisindeki bazı dağılımları açıklamak için 1925′te ortaya attığı bir modeli 1950′lerde Simon’ın metinlerdeki kelime sıklıklarını açıklamak için biraz düzeltmesi ile son hâline kavuştu. Gayet anlaşılır ve basittir:

Metni her adımda sonuna bir kelime ekleyecek şekilde oluşturuyorsunuz. Herhangi bir adımda p olasılıkla o ana kadar kullanılmayan yeni bir kelime üretin ve kullanın. Geriye kalan 1-p olasılıkla ise o ana kadar üretilmiş (metinde zaten var olan) kelimelerden birisini rasgele seçip kullanın. Seçim esnasında her kelimenin seçilme olasılığı metinde kaç defa geçtiği ile ile doğru orantılı olsun.  Eğer bu şekilde ilerlerseniz kelimelerin metinde geçme sıklıklarının dağılımı üs kuralını (power law) izler [2].

Bu modelin son zamanlarda popüler hale gelmesinin sebebi ise (evet henüz söylemedim ama bu popüler bir model) Barabasi-Albert model olarak bilinen ağ büyüme (network growth model) modelinin aslında bu modelle birebir aynı olmasıdır. 1990′ların ikinci yarısından itibaren popüler hâle gelen karmaşık ağ araştırmaları büyük ağların nasıl ortaya çıktığını, hangi dinamiklere göre büyüdüğünü açıklamaya çalıştı. Barabasi ve Albert’ de seçici bağlanma (preferential attachment) adını verdikleri bir dinamikle karmaşık ağlardaki “ilginç” derece dağılımları gibi özellikleri modelleyebildiklerini gördüler [3, 4]. Seçici bağlanma ise yukarıda anlattığımız Yule-Simon modelinde bir metinde yeni bir kelime yaratmanın bir ağda yeni bir düğüm yaratmaya, önceden kullanılmış bir kelimeyi tekrar kullanmanın ise önceden yaratılmış bir düğüme bir link vermeye denk gelmesinden başka bir şey değil.

Hem bu modelden hem de daha farklı modellerden faydalanan çalışmalar, son zamanlarda popüler olan Flickr, Sosyomat, Citeulike gibi kolektif etiketleme (collaborative tagging) mekanizmasına sahip sitelerde etiketlerin (tag) ne şekilde oluştuğu, evrildiği ve kullanıldığı sorularını cevaplamaya uğraşıyor [5]. Herhangi bir anda bir kullanıcı ya yeni bir etiket uydurur ya da varolanlardan birisini kullanır. Mevcut bir etiketin kullanılma olasılığı değişik etkenlere bağlı olabilir. Eğer “Bir etiketin yeniden kullanılma olasılığı o ana kadarki kullanılma sıklığıyla doğru orantılıdır.” dersek Yule-Simon modeli kullanmış oluruz. Bunu son zamanlarda daha sık kullanılmış olma gibi etkenlere bağlayıp varyasyonlar yaratma ve gerçek hayattan topladığımız veriye daha iyi uyan sonuçlar elde etme şansımız da var.

[1] http://www.eecs.harvard.edu/~michaelm/NEWWORK/postscripts/history.pdf
[2] http://aniden.wordpress.com/Zipf kanunu.
[3] http://www.scholarpedia.org/article/Scale-Free_Networks
[4] A.-L. Barabási and R. Albert (1999) Emergence of Scaling in Random Networks. Science 286, 509-512
[5] http://www.bibsonomy.org/bibtex/2d9fd1ea1b4a9ffdaf68332409cf90b6e/hotho

Written by amacinho

Nisan 22, 2008 12:20 am

One Response to 'Yule-Simon Modeli'

Subscribe to comments with RSS or TrackBack to 'Yule-Simon Modeli'.

  1. [...] kullanım alanı burasıyla sınırlı kalmamış bir model. Bu model hakkında bir sayfa açtım: Yule-Simon Modeli « [...]

Leave a Reply