Spaces:

MuratKomurcu
/

webscraping

Sleeping

App Files Files Community

MuratKomurcu commited on Jul 16

Commit

614c7a3

verified ·

1 Parent(s): 26b5454

Update app.py

Browse files

Files changed (1) hide show

app.py +77 -103

app.py CHANGED Viewed

@@ -1,103 +1,77 @@
-import requests
-from bs4 import BeautifulSoup
-import time
-# --- Konfigürasyon ---
-# Hedef Wikipedia sayfası
-URL = "https://tr.wikipedia.org/wiki/B%C3%BCy%C3%BCk_dil_modeli"
-# Wikipedia gibi siteler, bir tarayıcıdan gelmeyen (User-Agent'ı olmayan)
-# istekleri engelleyebilir. Profesyonel bir yaklaşım, isteğimize bir
-# User-Agent başlığı eklemektir. Bu, isteğimizin standart bir web tarayıcısından
-# geldiğini simüle eder.
-HEADERS = {
-    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
-}
-# Çıktı dosyasının adı
-OUTPUT_FILENAME = "buyuk_dil_modeli.txt"
-# --- Ana Script Mantığı ---
-def scrape_wikipedia_article(url, headers):
-    """
-    Verilen Wikipedia URL'sinden ana metin içeriğini çeker.
-    Args:
-        url (str): Hedef Wikipedia makalesinin URL'si.
-        headers (dict): HTTP isteği için gönderilecek başlıklar.
-    Returns:
-        str: Çekilen tüm paragrafların birleştirilmiş hali veya hata durumunda None.
-    """
-    print(f"'{url}' adresine istek gönderiliyor...")
-    try:
-        # Belirtilen başlıklarla birlikte GET isteği gönderiyoruz.
-        # timeout=10, isteğin 10 saniyeden uzun sürmesi durumunda hata vermesini sağlar.
-        response = requests.get(url, headers=headers, timeout=10)
-        # response.raise_for_status(), 200 (OK) dışında bir HTTP durum kodu
-        # (örn: 404 Not Found, 500 Server Error) gelirse bir hata fırlatır.
-        response.raise_for_status()
-        print("Sayfa başarıyla indirildi. İçerik ayrıştırılıyor...")
-        # Gelen HTML içeriğini BeautifulSoup ile ayrıştırılabilir bir objeye dönüştürüyoruz.
-        soup = BeautifulSoup(response.content, "html.parser")
-        # Adım 3'te keşfettiğimiz deseni burada kullanıyoruz:
-        # Sayfanın ana içeriğini barındıran div'i bul.
-        content_div = soup.find('div', class_='mw-parser-output')
-        # Eğer bu div bulunamazsa, sitenin yapısı değişmiş olabilir.
-        # Bu tür kontroller, kodumuzu daha sağlam (robust) yapar.
-        if not content_div:
-            print("Hata: Ana içerik alanı ('div' with class 'mw-parser-output') bulunamadı.")
-            print("Sitenin HTML yapısı değişmiş olabilir.")
-            return None
-        # Ana içerik div'i içindeki TÜM paragraf (<p>) etiketlerini bul.
-        paragraphs = content_div.find_all('p')
-        # Her bir paragraf etiketinin içindeki metni alıp bir listeye ekliyoruz.
-        # .get_text(strip=True) metodu, metnin başındaki ve sonundaki boşlukları temizler.
-        all_text = [p.get_text(strip=True) for p in paragraphs]
-        # Sadece boş metin içeren veya çok kısa olan paragrafları filtreleyebiliriz.
-        # Bu, veri temizleme (data cleaning) adımının bir parçasıdır.
-        cleaned_text = [text for text in all_text if len(text) > 20] # 20 karakterden uzun paragrafları al
-        print(f"Toplam {len(paragraphs)} paragraf bulundu, {len(cleaned_text)} tanesi işleme alındı.")
-        # Tüm paragrafları aralarına iki satır boşluk koyarak birleştiriyoruz.
-        return "\n\n".join(cleaned_text)
-    except requests.exceptions.RequestException as e:
-        print(f"Bir ağ hatası oluştu: {e}")
-        return None
-def save_to_file(content, filename):
-    """
-    Verilen içeriği belirtilen dosyaya kaydeder.
-    Args:
-        content (str): Dosyaya yazılacak metin içeriği.
-        filename (str): Çıktı dosyasının adı.
-    """
-    try:
-        with open(filename, 'w', encoding='utf-8') as f:
-            f.write(content)
-        print(f"İçerik başarıyla '{filename}' dosyasına kaydedildi.")
-    except IOError as e:
-        print(f"Dosyaya yazma sırasında bir hata oluştu: {e}")
-# --- Programın Başlangıç Noktası ---
-if __name__ == "__main__":
-    article_content = scrape_wikipedia_article(URL, HEADERS)
-    # scrape_wikipedia_article fonksiyonu bir içerik döndürdüyse (None değilse)
-    # bu içeriği dosyaya kaydet.
-    if article_content:
-        save_to_file(article_content, OUTPUT_FILENAME)
-    else:
-        print("İşlem başarısız oldu. Hiçbir içerik kaydedilmedi.")

+# Gerekli kütüphaneleri içe aktarıyoruz.
+import gradio as gr
+import requests
+from bs4 import BeautifulSoup
+# --- Çekirdek Mantık ---
+HEADERS = {
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
+}
+def scrape_wikipedia_article(url: str):
+    """
+    Kullanıcının girdiği URL'den Wikipedia makalesini çeker ve işler.
+    Bu fonksiyon, Gradio arayüzünün "beyni" olarak çalışacaktır.
+    """
+    if not url or "wikipedia.org" not in url:
+        return "Lütfen geçerli bir Wikipedia URL'si girin.", 0, ""
+    try:
+        response = requests.get(url, headers=HEADERS, timeout=10)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.content, "html.parser")
+        page_title_element = soup.find('h1', id='firstHeading')
+        page_title = page_title_element.text if page_title_element else "Başlık Bulunamadı"
+        content_div = soup.find('div', class_='mw-parser-output')
+        if not content_div:
+            return f"'{page_title}' sayfasında ana içerik alanı bulunamadı.", 0, ""
+        paragraphs_html = content_div.find_all('p')
+        cleaned_paragraphs = [p.get_text(strip=True) for p in paragraphs_html if len(p.get_text(strip=True)) > 50]
+        paragraph_count = len(cleaned_paragraphs)
+        if paragraph_count == 0:
+            return f"'{page_title}' sayfasında yeterli uzunlukta paragraf bulunamadı.", 0, ""
+        markdown_output = "\n".join([f"- {p}\n" for p in cleaned_paragraphs])
+        return page_title, paragraph_count, markdown_output
+    except requests.exceptions.RequestException as e:
+        error_message = f"Ağ hatası: URL'ye ulaşılamadı. Lütfen adresi kontrol edin.\nDetay: {e}"
+        return "Hata", 0, error_message
+    except Exception as e:
+        error_message = f"Beklenmedik bir hata oluştu: {e}"
+        return "Hata", 0, error_message
+# --- Gradio Arayüzü Tanımlaması ---
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown(
+        """
+        # Wikipedia Makale Çekme ve Analiz Aracı
+        Aşağıya bir Wikipedia makalesinin URL'sini yapıştırın ve "Analiz Et" butonuna tıklayarak
+        sayfadaki paragrafları çekin.
+        """
+    )
+    with gr.Row():
+        with gr.Column(scale=1):
+            url_input = gr.Textbox(label="Wikipedia URL'si", placeholder="https://tr.wikipedia.org/wiki/Yapay_zeka")
+            submit_btn = gr.Button("Analiz Et", variant="primary")
+            with gr.Row():
+                article_title_output = gr.Textbox(label="Makale Başlığı", interactive=False)
+                paragraph_count_output = gr.Number(label="Paragraf Sayısı", interactive=False)
+        with gr.Column(scale=2):
+            main_output = gr.Markdown(label="Çekilen Paragraflar")
+    submit_btn.click(
+        fn=scrape_wikipedia_article,
+        inputs=url_input,
+        outputs=[article_title_output, paragraph_count_output, main_output]
+    )
+    gr.Examples(
+        ["https://tr.wikipedia.org/wiki/Kuantum_bilgisayar%C4%B1", "https://tr.wikipedia.org/wiki/Makine_%C3%B6%C4%9Frenmesi"],
+        inputs=url_input
+    )