My Authors
Read all threads
Küçük bir #textmining #metinmadenciliği bilgiseli yapayım dedim. Malumunuz, veri olarak metinler Türk sosyal bilimi geleneğinde yoğun olarak kullanılıyor. Görebildiğim kadarıyla akademik eserler niceliksel strateji ile üretilmemişse ağırlıklı olarak mülakatlar, ... /1
gazete içerikleri, odak grup çalışmalarından türemiş metinleri veri olarak kullanıyor. Bu verilerin bilimsel yöntemlere uygun ile işlenmesi, anlaşılması ve yorumlanması hayli meşakkatli bir iş. Zamanında bir hocamın tüm ofis duvarına mülakat deşifrelerini yapıştırıp, ... /2
metinlerin içerisindeki ortak ve ayrışan temaları yakalamaya çalışmak için aylarca duvarına baktığını bilirim. Bu son derece zor ve zaman tüketen işi aslında master öğrencilerime de önermekten imtina ederim hep. Bu girizgahtan sonra derdimi ve önerimi anlatayım ... /3
Türkiye'deki seçim aksaklıklarını incelediğim projemin veri tabanlarından birinde gazetelerden de veri topladım. Ekip gazete içeriklerini belli bir kod şeması içerisinde seçimsel aksaklıkları 8 ayrı tipte sınıflandıracak şekilde kodladı... /4
Kodlayıcıların kodladığı 2000 2010 arası yapılan seçimler için seçimsel aksaklıların dağılımı aşağıda. Görüldüğü üzere kodlayıcılar gazete haberlerini incelediklerinde haberlerin neredeyse yarısını seçimsel şiddet kategorisi altına kodlamışlar... /5
Yukarıdaki grafikten kabaca şu anlaşılabilir: Türkiye'de seçimsel aksaklıkların (neredeyse) yarısı seçimsel şiddet kategorisinde, kalan yarısı ise diğer başlıklarda gerçekleşmiş. Benim sorum ise şu: ..../6
Acaba bu sonuca kodlayıcılar olmadan gazete başlık içerikleri #metinmadenciliği araçları kullanılarak incelendiğinde ulaşılabilir mi? Bu iş için gene 2000 2010 arasında gerçekleşmiş seçimleri ait gazete haber başlıklarını #R içinde, .../7
metin madenciliği için üretilmiş paketler aracılığıyla inceledim. Teknik detayları geçiyorum, merak edenler bana her zaman mesaj atabilirler. Başlıkları Latent Drichlet Allocation ile iki başlık altında modellediğimde, başlıklara ait kelime bulutları aşağıdaki gibi oluştu.../8
Burada hemen söylemem lazım aşağıdaki #kelimebulutları birinci seviye frekans dağılımlarını göstermiyor. LDA ile probabilistic olarak modellendiğinde oluşan iki başlığın altına yoğunlaşmış/yerleşmiş kelimeleri gösteriyor. .../9
Sonuç bana kalırsa, sadece 30 satır kodla üretilmiş olduğu da dikkate alındığında gayet tatmin edici. Soldaki 1. başlık altına seçimsel şiddet ile ilgili kelimeler yerleşmiş. Sağdaki 2. başlık altında da diğer aksaklıklar kendini gösteriyor... /10
Modeli iki başlık yerine daha fazla başlık ile de kurabiliriz ama yukarıdaki niceliksel analize dayanarak 2 başlık seçtim. Bu kadar laftan ne çıkar? 1. Bu yöntemler alan literatürüne hakim olunduğunda gerçekten faydalı oluyor. 2. #Metinmadenciliği dillere bağlı değil .../11
3. #makinaöğrenmesi için kullanılabilir, zira bu veri tabanına yeni içerik girildiğinde (yeni haber başlığı) hangi kategoriye (seçimsel şiddet veya diğerleri) girme ihtimalini hesaplanabilir. 4. Çok karmaşık ve uzun metinlerin analizi mümkün hale geliyor. .../12
Şimdilik bu kadar, analiz için kullandığım kodu en kısa zamanda yayınlayacağım... Fikirleri merak ediyorum. :)
Missing some Tweet in this thread? You can try to force a refresh.

Keep Current with emre toros

Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!