Sözlük Crawler

Ekşisözlük, itüsözlük, uludağsözlük gibi popüler sözlüklerden belirtilen başlıklardaki tüm girdileri alıp, veritabanına yazan crawler. Akademik amaçlar için geliştirildi. Alınan temiz veri üzerinde çeşitli analizler yapmak amacı ile ortaya çıktı.

Örnek

Proje Sayfası » Analiz »

Açıklama

Temel olarak bu proje, bazı popüler başlıklarda yazılan girdilerde herhangi bir örüntü (pattern) olup olmadığı sorusunu cevaplamak üzere çıktı. Örneğin Recep Tayyip Erdoğan veya Türkiye'den siktir olup gitmek başlığına hangi ay/yıl daha fazla girdi yazıldı, insanlar en çok hangi kelimeleri kullandı, en çok girdi yazılan günlerin başka olaylar ile bağlantısı var mı gibi sorular aklıma gelen birkaç örnek. Veri ortaya çıktıktan sonra üzerine başka analizler yapmak da mümkün. Eğer ilginizi çekerse analiz fikirlerinizi e-posta atmaktan veya pull-request yapmaktan çekinmeyin.

Şunu da not etmem gerekir ki lütfen bokunu çıkarmadan kullanın. Bütün sözlüğü download edeceğim, istekler arasında hiç beklemeyeceğim ve bilerek/bilmeyerek DoS yapacağım diyenler varsa: sen kullanma ulan ayı!

Desteklenen Sözlükler

Kurulum

Proje sayfasında kurulum için teknik açıklamalar yer almakta. Lütfen kurulum için proje sayfasını ziyaret edin.

Kullanım

Ekşi, İtü veya Uludağsözlükte ilgilendiğiniz başlığın kök linkini (sayfalama olmaksızın, birinci sayfa) crawler'a vermeniz yeterlidir. Aşağıdaki komutlar ile crawler'ı başlatabilirsiniz.

Öntanımlı olarak konsola sadece INFO logları düşecektir. Eğer yeterince geek iseniz ve debug çıktısı görmek istiyorsanız komutun sonuna -L DEBUG ekleyerek bu çıktıyı görebilirsiniz.

scrapy crawl eksisozluk -a baslik='https://eksisozluk.com/turkiyeden-siktir-olup-gitmek--3843083'

scrapy crawl itusozluk -a baslik="https://www.itusozluk.com/goster.php/recep+tayyip+erdo%F0an"
scrapy crawl uludagsozluk -a baslik="www.uludagsozluk.com/k/recep-tayyip-erdoğan"

İletişim

Sorularınız, hata bildirimleriniz, ve önerileriniz için proje sayfasından issue açınız. Aklınıza gelen diğer özellikler ve desteklenmesini istediğiniz başka sözlükler için pull-request göndermeniz beni sevindirecektir.

E-posta: turkay.eren (et) gmail.com