Spaces:

MuratKomurcu
/

webscraping

Sleeping

App Files Files Community

MuratKomurcu commited on Jul 16

Commit

26b5454

verified ·

1 Parent(s): 9152f2f

Upload app.py

Browse files

Files changed (1) hide show

app.py +103 -0

app.py ADDED Viewed

	@@ -0,0 +1,103 @@

+import requests
+from bs4 import BeautifulSoup
+import time
+# --- Konfigürasyon ---
+# Hedef Wikipedia sayfası
+URL = "https://tr.wikipedia.org/wiki/B%C3%BCy%C3%BCk_dil_modeli"
+# Wikipedia gibi siteler, bir tarayıcıdan gelmeyen (User-Agent'ı olmayan)
+# istekleri engelleyebilir. Profesyonel bir yaklaşım, isteğimize bir
+# User-Agent başlığı eklemektir. Bu, isteğimizin standart bir web tarayıcısından
+# geldiğini simüle eder.
+HEADERS = {
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
+}
+# Çıktı dosyasının adı
+OUTPUT_FILENAME = "buyuk_dil_modeli.txt"
+# --- Ana Script Mantığı ---
+def scrape_wikipedia_article(url, headers):
+    """
+    Verilen Wikipedia URL'sinden ana metin içeriğini çeker.
+    Args:
+        url (str): Hedef Wikipedia makalesinin URL'si.
+        headers (dict): HTTP isteği için gönderilecek başlıklar.
+    Returns:
+        str: Çekilen tüm paragrafların birleştirilmiş hali veya hata durumunda None.
+    """
+    print(f"'{url}' adresine istek gönderiliyor...")
+    try:
+        # Belirtilen başlıklarla birlikte GET isteği gönderiyoruz.
+        # timeout=10, isteğin 10 saniyeden uzun sürmesi durumunda hata vermesini sağlar.
+        response = requests.get(url, headers=headers, timeout=10)
+        # response.raise_for_status(), 200 (OK) dışında bir HTTP durum kodu
+        # (örn: 404 Not Found, 500 Server Error) gelirse bir hata fırlatır.
+        response.raise_for_status()
+        print("Sayfa başarıyla indirildi. İçerik ayrıştırılıyor...")
+        # Gelen HTML içeriğini BeautifulSoup ile ayrıştırılabilir bir objeye dönüştürüyoruz.
+        soup = BeautifulSoup(response.content, "html.parser")
+        # Adım 3'te keşfettiğimiz deseni burada kullanıyoruz:
+        # Sayfanın ana içeriğini barındıran div'i bul.
+        content_div = soup.find('div', class_='mw-parser-output')
+        # Eğer bu div bulunamazsa, sitenin yapısı değişmiş olabilir.
+        # Bu tür kontroller, kodumuzu daha sağlam (robust) yapar.
+        if not content_div:
+            print("Hata: Ana içerik alanı ('div' with class 'mw-parser-output') bulunamadı.")
+            print("Sitenin HTML yapısı değişmiş olabilir.")
+            return None
+        # Ana içerik div'i içindeki TÜM paragraf (<p>) etiketlerini bul.
+        paragraphs = content_div.find_all('p')
+        # Her bir paragraf etiketinin içindeki metni alıp bir listeye ekliyoruz.
+        # .get_text(strip=True) metodu, metnin başındaki ve sonundaki boşlukları temizler.
+        all_text = [p.get_text(strip=True) for p in paragraphs]
+        # Sadece boş metin içeren veya çok kısa olan paragrafları filtreleyebiliriz.
+        # Bu, veri temizleme (data cleaning) adımının bir parçasıdır.
+        cleaned_text = [text for text in all_text if len(text) > 20] # 20 karakterden uzun paragrafları al
+        print(f"Toplam {len(paragraphs)} paragraf bulundu, {len(cleaned_text)} tanesi işleme alındı.")
+        # Tüm paragrafları aralarına iki satır boşluk koyarak birleştiriyoruz.
+        return "\n\n".join(cleaned_text)
+    except requests.exceptions.RequestException as e:
+        print(f"Bir ağ hatası oluştu: {e}")
+        return None
+def save_to_file(content, filename):
+    """
+    Verilen içeriği belirtilen dosyaya kaydeder.
+    Args:
+        content (str): Dosyaya yazılacak metin içeriği.
+        filename (str): Çıktı dosyasının adı.
+    """
+    try:
+        with open(filename, 'w', encoding='utf-8') as f:
+            f.write(content)
+        print(f"İçerik başarıyla '{filename}' dosyasına kaydedildi.")
+    except IOError as e:
+        print(f"Dosyaya yazma sırasında bir hata oluştu: {e}")
+# --- Programın Başlangıç Noktası ---
+if __name__ == "__main__":
+    article_content = scrape_wikipedia_article(URL, HEADERS)
+    # scrape_wikipedia_article fonksiyonu bir içerik döndürdüyse (None değilse)
+    # bu içeriği dosyaya kaydet.
+    if article_content:
+        save_to_file(article_content, OUTPUT_FILENAME)
+    else:
+        print("İşlem başarısız oldu. Hiçbir içerik kaydedilmedi.")