27 Aralık 2010 Pazartesi

Web Crawler

Biraz da işimden bahsedeyim.
ODTÜ Teknokent'de USTA yazılım adlı şirkette bilgisyar mühendisi olarak çalışıyorum. İşimi yapmaktan çok zevk alıyorum çünkü patronlarım olsun iş ortamı olsun her şey çok iyi:) Ee ben iyiyim de ondan:P Gevezeliği bırakıp kısaca işten bahsedeyim.
Şu an geliştirilmekte olan bir projede başarı oranını yükseltmek için siteleri kategorilendirmemiz gerekiyor. Bu kategorilendirme işini ben yapıyorum. Bunun için başlangıç olarak bir Web Crawler yazdım. C# programlama dilini kullanıyoruz visual studio 2010 ortamında çalışıyoruz bu arada. Web Crawler bir örümcek gibi çalışıyor zaten Web Spider olarak da biliniyor. DMOZ gibi bazı projeler gönüllü editörler yardımıyla bir çok siteyi inceleyip kategorilendirmiş durumda. Ben de buna benzer bir siteyi baz alarak onun kategorilendirme yolunu izleyerek asıl linklere ulaşıyorum. Bu linkleri alarak daha sonra oluşturacağımız eğitim setine atacağız ki bilmediğimiz incelemediğimiz siteleri bu eğitim setini kullanarak kolayca kategorilendirelim. Linkleri toplarken Regular Expression lardan yararlanıyorum ki gereksiz içeriği temizleyebileyim
Devamı gelecek..

Hiç yorum yok:

Yorum Gönder