Spaces:

openfree
/

VisionOCR-Chat

Runtime error

App Files Files Community

openfree commited on Feb 10

Commit

b8ba0ff

verified ·

1 Parent(s): 5265989

Update app-backup.py

Browse files

Files changed (1) hide show

app-backup.py +47 -74

app-backup.py CHANGED Viewed

@@ -8,9 +8,7 @@ import re
 import uuid
 import pymupdf
-# =======================================================
-# magic-pdf & MinerU 설치 관련 (기존 코드 그대로 예시)
-# =======================================================
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
@@ -29,6 +27,9 @@ with open('/home/user/magic-pdf.json', 'w') as file:
 os.system('cp -r paddleocr /home/user/.paddleocr')
 import gradio as gr
 from loguru import logger
@@ -36,14 +37,8 @@ from magic_pdf.data.data_reader_writer import FileBasedDataReader
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
-###########################################
-# 1) UI 스타일(CSS) + PDF처리 관련 함수들
-###########################################
 def create_css():
-    """
-    화면을 가득 채우고 스크롤 가능하도록 설정
-    """
     return """
     .gradio-container {
         width: 100vw !important;
@@ -152,10 +147,7 @@ def to_pdf(file_path):
             return tmp_file_path
 def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
-    """
-    - PDF 변환 과정에서 'progress(...)' 로 진행률 업데이트
-    - Gradio 버전이 낮아도 'with progress:' 를 쓰지 않으면 __enter__ 오류가 안뜸
-    """
     progress(0, "PDF로 변환 중...")
     file_path = to_pdf(file_path)
     time.sleep(0.5)
@@ -177,23 +169,19 @@ def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table
         logger.error("압축 실패")
     time.sleep(0.5)
-    progress(70, "마크다운 로드 중...")
     md_path = os.path.join(local_md_dir, file_name + ".md")
     with open(md_path, 'r', encoding='utf-8') as f:
         txt_content = f.read()
     time.sleep(0.5)
-    progress(90, "이미지(base64) 변환 중...")
     md_content = replace_image_with_base64(txt_content, local_md_dir)
     time.sleep(0.5)
     progress(100, "변환 완료!")
     return md_content
-###############################
-# magic_pdf 모델 초기화
-###############################
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
@@ -223,10 +211,6 @@ other_lang = ['ch','en','korean','japan','chinese_cht','ta','te','ka']
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
-#################################
-# 2) Gemini (google.generativeai)
-#################################
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
@@ -234,13 +218,10 @@ import time
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 genai.configure(api_key=GEMINI_API_KEY)
 model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
-    """
-    Gemini가 이해할 수 있는 형식 (role, content)
-    """
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
@@ -251,16 +232,12 @@ def format_chat_history(messages: list) -> list:
     return formatted_history
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
-    """
-    Gemini 응답 스트리밍: user_message가 비어있으면 기본 문구로 대체
-    """
-    # 빈 문자열이면 기본 문구로 교체(오류 방지)
     if not user_message.strip():
-        user_message = "…(No content from user)…"
     try:
         print(f"\n=== [Gemini] New Request ===\nUser message: '{user_message}'")
         chat_history = format_chat_history(messages)
         chat = model.start_chat(history=chat_history)
         response = chat.send_message(user_message, stream=True)
@@ -269,7 +246,6 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         response_buffer = ""
         thinking_complete = False
-        # "Thinking" 메시지 추가
         messages.append(
             ChatMessage(
                 role="assistant",
@@ -284,7 +260,6 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
             current_chunk = parts[0].text
             if len(parts) == 2 and not thinking_complete:
-                # Complete thought
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
@@ -293,16 +268,13 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
                 )
                 yield convert_chat_messages_to_gradio_format(messages)
-                # Start final response
                 response_buffer = parts[1].text
                 messages.append(ChatMessage(role="assistant", content=response_buffer))
                 thinking_complete = True
             elif thinking_complete:
-                # Response ongoing
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
-                # Still thinking
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
@@ -320,38 +292,31 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         yield convert_chat_messages_to_gradio_format(messages)
 def convert_chat_messages_to_gradio_format(messages):
-    """
-    ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]
-    """
     gradio_chat = []
     user_text, assistant_text = None, None
     for msg in messages:
         if msg.role == "user":
-            # 이전 턴 저장
             if user_text is not None or assistant_text is not None:
                 gradio_chat.append((user_text or "", assistant_text or ""))
             user_text = msg.content
             assistant_text = None
         else:
-            # assistant
             if user_text is None:
                 user_text = ""
             if assistant_text is None:
                 assistant_text = msg.content
             else:
-                assistant_text += msg.content  # 스트리밍 시 누적
-    # 마지막 턴
     if user_text is not None or assistant_text is not None:
         gradio_chat.append((user_text or "", assistant_text or ""))
     return gradio_chat
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
-    """
-    doc_text(마크다운) 참고 문구를 자동 삽입
-    """
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     else:
@@ -360,49 +325,62 @@ def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
     history.append(ChatMessage(role="user", content=user_query))
     return "", history
-################################
-# 3) 통합 Gradio 앱 구성 & 실행
-################################
-with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     gr.HTML("""
     <div class="title-area">
-        <h1>OCR FLEX + Gemini Chat</h1>
-        <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, Gemini LLM 대화</p>
     </div>
     """)
-    md_state = gr.State("")
-    chat_history = gr.State([])
     with gr.Row():
         file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
         convert_btn = gr.Button("변환하기")
-    # 숨긴 컴포넌트들
-    max_pages = gr.Slider(1, 20, 10, visible=False, elem_classes="invisible")
-    layout_mode = gr.Dropdown(["layoutlmv3","doclayout_yolo"], value="doclayout_yolo", visible=False, elem_classes="invisible")
     language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
     formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
     is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
     table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
-    # 변환 클릭 -> to_markdown (progress)
     convert_btn.click(
         fn=to_markdown,
         inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
         outputs=md_state,
-        show_progress=True  # 프로그레스바+로딩 표시
     )
     # Gemini Chat
-    gr.Markdown("## Gemini 2.0 Flash (Thinking) Chat")
-    chatbot = gr.Chatbot(height=600)
     with gr.Row():
         chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
         clear_btn = gr.Button("대화 초기화")
-    # 프롬프트 전송 -> user_message -> stream_gemini_response
     chat_input.submit(
         fn=user_message,
         inputs=[chat_input, chat_history, md_state],
@@ -413,19 +391,14 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
         outputs=chatbot
     )
-    def clear_states():
-        return [], ""
     clear_btn.click(
-        fn=clear_states,
         inputs=[],
-        outputs=[chat_history, md_state]
-    ).then(
-        fn=lambda: [],
-        inputs=[],
-        outputs=chatbot
     )
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)

 import uuid
 import pymupdf
+# (기존 magic-pdf 설치 및 설정 로직)
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
 os.system('cp -r paddleocr /home/user/.paddleocr')
+###############################
+# Gradio 및 기타 라이브러리
+###############################
 import gradio as gr
 from loguru import logger
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
 def create_css():
+    """화면 가득 사용 + 스크롤 허용"""
     return """
     .gradio-container {
         width: 100vw !important;
             return tmp_file_path
 def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
+    """PDF 변환 함수 (프로그레스바 표시)"""
     progress(0, "PDF로 변환 중...")
     file_path = to_pdf(file_path)
     time.sleep(0.5)
         logger.error("압축 실패")
     time.sleep(0.5)
+    progress(70, "마크다운 읽는 중...")
     md_path = os.path.join(local_md_dir, file_name + ".md")
     with open(md_path, 'r', encoding='utf-8') as f:
         txt_content = f.read()
     time.sleep(0.5)
+    progress(90, "이미지 base64 변환 중...")
     md_content = replace_image_with_base64(txt_content, local_md_dir)
     time.sleep(0.5)
     progress(100, "변환 완료!")
     return md_content
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 genai.configure(api_key=GEMINI_API_KEY)
 model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
+    """Gemini가 이해할 수 있는 (role, parts[]) 형식으로 변환"""
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
     return formatted_history
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
+    """Gemini 응답 스트리밍 (user_message가 공백이면 기본 문구로 교체)"""
     if not user_message.strip():
+        user_message = "...(No content from user)..."
     try:
         print(f"\n=== [Gemini] New Request ===\nUser message: '{user_message}'")
         chat_history = format_chat_history(messages)
         chat = model.start_chat(history=chat_history)
         response = chat.send_message(user_message, stream=True)
         response_buffer = ""
         thinking_complete = False
         messages.append(
             ChatMessage(
                 role="assistant",
             current_chunk = parts[0].text
             if len(parts) == 2 and not thinking_complete:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
                 )
                 yield convert_chat_messages_to_gradio_format(messages)
                 response_buffer = parts[1].text
                 messages.append(ChatMessage(role="assistant", content=response_buffer))
                 thinking_complete = True
             elif thinking_complete:
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
         yield convert_chat_messages_to_gradio_format(messages)
 def convert_chat_messages_to_gradio_format(messages):
+    """ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]"""
     gradio_chat = []
     user_text, assistant_text = None, None
     for msg in messages:
         if msg.role == "user":
             if user_text is not None or assistant_text is not None:
                 gradio_chat.append((user_text or "", assistant_text or ""))
             user_text = msg.content
             assistant_text = None
         else:
             if user_text is None:
                 user_text = ""
             if assistant_text is None:
                 assistant_text = msg.content
             else:
+                assistant_text += msg.content
     if user_text is not None or assistant_text is not None:
         gradio_chat.append((user_text or "", assistant_text or ""))
     return gradio_chat
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
+    """doc_text(마크다운) 사용해 질문 자동 변형"""
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     else:
     history.append(ChatMessage(role="user", content=user_query))
     return "", history
+def reset_states(_):
+    """
+    새 파일 업로드 시
+    - chat_history -> 빈 리스트
+    - md_state -> 빈 문자열
+    - chatbot -> 빈 list of tuples
+    """
+    return [], "", []
+with gr.Blocks(title="VisionOCR", css=create_css()) as demo:
     gr.HTML("""
     <div class="title-area">
+        <h1>VisionOCR</h1>
+        <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, 추 LLM과 대화</p>
     </div>
     """)
+    md_state = gr.State("")      # 변환된 마크다운 텍스트
+    chat_history = gr.State([])  # ChatMessage 리스트
+    # 업로드 & 변환
     with gr.Row():
         file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
         convert_btn = gr.Button("변환하기")
+    # 새 파일 업로드 시: 이전 대화/마크다운/챗봇 초기화
+    chatbot = gr.Chatbot(height=600)  # 실제 Chatbot 컴포넌트
+    file.change(
+        fn=reset_states,
+        inputs=file,
+        outputs=[chat_history, md_state, chatbot]  # <--- 문자열 "chatbot" 아니라 chatbot 컴포넌트 객체
+    )
+    # 숨긴 컴포넌트
+    max_pages = gr.Slider(1,20,10, visible=False, elem_classes="invisible")
+    layout_mode = gr.Dropdown(["layoutlmv3","doclayout_yolo"],value="doclayout_yolo",visible=False,elem_classes="invisible")
     language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
     formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
     is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
     table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
     convert_btn.click(
         fn=to_markdown,
         inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
         outputs=md_state,
+        show_progress=True  # 프로그레스바 표시
     )
     # Gemini Chat
+    gr.Markdown("##추론 LLM과 대화")
     with gr.Row():
         chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
         clear_btn = gr.Button("대화 초기화")
     chat_input.submit(
         fn=user_message,
         inputs=[chat_input, chat_history, md_state],
         outputs=chatbot
     )
+    def clear_all():
+        return [], "", []
     clear_btn.click(
+        fn=clear_all,
         inputs=[],
+        outputs=[chat_history, md_state, chatbot]
     )
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)