Spaces:

openfree
/

VisionOCR-Chat

Runtime error

App Files Files Community

openfree commited on Feb 10

Commit

e8abc11

verified ·

1 Parent(s): 6fdd5a5

Update app-backup.py

Browse files

Files changed (1) hide show

app-backup.py +318 -93

app-backup.py CHANGED Viewed

@@ -8,7 +8,9 @@ import re
 import uuid
 import pymupdf
-# (기존 magic-pdf 설치 및 설정 로직)
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
@@ -28,17 +30,26 @@ with open('/home/user/magic-pdf.json', 'w') as file:
 os.system('cp -r paddleocr /home/user/.paddleocr')
 ###############################
-# Gradio 및 기타 라이브러리
 ###############################
 import gradio as gr
 from loguru import logger
 from magic_pdf.data.data_reader_writer import FileBasedDataReader
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
 def create_css():
-    """화면 가득 사용 + 스크롤 허용"""
     return """
     .gradio-container {
         width: 100vw !important;
@@ -135,6 +146,9 @@ def replace_image_with_base64(markdown_text, image_dir_path):
     return re.sub(pattern, replace, markdown_text)
 def to_pdf(file_path):
     with pymupdf.open(file_path) as f:
         if f.is_pdf:
             return file_path
@@ -147,7 +161,10 @@ def to_pdf(file_path):
             return tmp_file_path
 def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
-    """PDF 변환 함수 (프로그레스바 표시)"""
     progress(0, "PDF로 변환 중...")
     file_path = to_pdf(file_path)
     time.sleep(0.5)
@@ -183,6 +200,9 @@ def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table
     return md_content
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
         model_manager = ModelSingleton()
@@ -198,6 +218,9 @@ def init_model():
 model_init = init_model()
 logger.info(f"model_init: {model_init}")
 latin_lang = [
     'af','az','bs','cs','cy','da','de','es','et','fr','ga','hr','hu','id','is','it','ku',
     'la','lt','lv','mi','ms','mt','nl','no','oc','pi','pl','pt','ro','rs_latin','sk','sl',
@@ -211,17 +234,21 @@ other_lang = ['ch','en','korean','japan','chinese_cht','ta','te','ka']
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
-import time
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 genai.configure(api_key=GEMINI_API_KEY)
 model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
-    """Gemini가 이해할 수 있는 (role, parts[]) 형식으로 변환"""
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
@@ -231,8 +258,37 @@ def format_chat_history(messages: list) -> list:
             })
     return formatted_history
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
-    """Gemini 응답 스트리밍 (user_message가 공백이면 기본 문구로 교체)"""
     if not user_message.strip():
         user_message = "...(No content from user)..."
@@ -246,6 +302,7 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         response_buffer = ""
         thinking_complete = False
         messages.append(
             ChatMessage(
                 role="assistant",
@@ -259,6 +316,7 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
             parts = chunk.candidates[0].content.parts
             current_chunk = parts[0].text
             if len(parts) == 2 and not thinking_complete:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
@@ -272,9 +330,11 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
                 messages.append(ChatMessage(role="assistant", content=response_buffer))
                 thinking_complete = True
             elif thinking_complete:
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
@@ -291,32 +351,10 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         messages.append(ChatMessage(role="assistant", content=f"I encountered an error: {str(e)}"))
         yield convert_chat_messages_to_gradio_format(messages)
-def convert_chat_messages_to_gradio_format(messages):
-    """ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]"""
-    gradio_chat = []
-    user_text, assistant_text = None, None
-    for msg in messages:
-        if msg.role == "user":
-            if user_text is not None or assistant_text is not None:
-                gradio_chat.append((user_text or "", assistant_text or ""))
-            user_text = msg.content
-            assistant_text = None
-        else:
-            if user_text is None:
-                user_text = ""
-            if assistant_text is None:
-                assistant_text = msg.content
-            else:
-                assistant_text += msg.content
-    if user_text is not None or assistant_text is not None:
-        gradio_chat.append((user_text or "", assistant_text or ""))
-    return gradio_chat
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
-    """doc_text(마크다운) 사용해 질문 자동 변형"""
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     else:
@@ -334,71 +372,258 @@ def reset_states(_):
     """
     return [], "", []
-with gr.Blocks(title="VisionOCR", css=create_css()) as demo:
-    gr.HTML("""
-    <div class="title-area">
-        <h1>VisionOCR</h1>
-        <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, 추 LLM과 대화</p>
-    </div>
-    """)
-    md_state = gr.State("")      # 변환된 마크다운 텍스트
-    chat_history = gr.State([])  # ChatMessage 리스트
-    # 업로드 & 변환
-    with gr.Row():
-        file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
-        convert_btn = gr.Button("변환하기")
-    # 새 파일 업로드 시: 이전 대화/마크다운/챗봇 초기화
-    chatbot = gr.Chatbot(height=600)  # 실제 Chatbot 컴포넌트
-    file.change(
-        fn=reset_states,
-        inputs=file,
-        outputs=[chat_history, md_state, chatbot]  # <--- 문자열 "chatbot" 아니라 chatbot 컴포넌트 객체
-    )
-    # 숨긴 컴포넌트
-    max_pages = gr.Slider(1,20,10, visible=False, elem_classes="invisible")
-    layout_mode = gr.Dropdown(["layoutlmv3","doclayout_yolo"],value="doclayout_yolo",visible=False,elem_classes="invisible")
-    language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
-    formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
-    is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
-    table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
-    convert_btn.click(
-        fn=to_markdown,
-        inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
-        outputs=md_state,
-        show_progress=True  # 프로그레스바 표시
     )
-    # Gemini Chat
-    gr.Markdown("##추론 LLM과 대화")
-    with gr.Row():
-        chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
-        clear_btn = gr.Button("대화 초기화")
-    chat_input.submit(
-        fn=user_message,
-        inputs=[chat_input, chat_history, md_state],
-        outputs=[chat_input, chat_history]
-    ).then(
-        fn=stream_gemini_response,
-        inputs=[chat_input, chat_history],
-        outputs=chatbot
-    )
-    def clear_all():
-        return [], "", []
-    clear_btn.click(
-        fn=clear_all,
-        inputs=[],
-        outputs=[chat_history, md_state, chatbot]
-    )
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)

 import uuid
 import pymupdf
+###############################
+# 환경 설정
+###############################
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
 os.system('cp -r paddleocr /home/user/.paddleocr')
 ###############################
+# 그 외 라이브러리
 ###############################
 import gradio as gr
 from loguru import logger
+from gradio_pdf import PDF
+###############################
+# magic_pdf 관련 모듈
+###############################
 from magic_pdf.data.data_reader_writer import FileBasedDataReader
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
+###############################
+# 공통 함수들
+###############################
 def create_css():
+    """
+    기본 CSS 스타일.
+    """
     return """
     .gradio-container {
         width: 100vw !important;
     return re.sub(pattern, replace, markdown_text)
 def to_pdf(file_path):
+    """
+    이미지(JPG/PNG 등)를 PDF로 컨버팅.
+    """
     with pymupdf.open(file_path) as f:
         if f.is_pdf:
             return file_path
             return tmp_file_path
 def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
+    """
+    업로드된 PDF/이미지 -> PDF 변환 -> 마크다운 변환
+    (프로그레스 바 표시용)
+    """
     progress(0, "PDF로 변환 중...")
     file_path = to_pdf(file_path)
     time.sleep(0.5)
     return md_content
 def init_model():
+    """
+    magic-pdf 모델 초기화
+    """
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
         model_manager = ModelSingleton()
 model_init = init_model()
 logger.info(f"model_init: {model_init}")
+###############################
+# 언어 목록
+###############################
 latin_lang = [
     'af','az','bs','cs','cy','da','de','es','et','fr','ga','hr','hu','id','is','it','ku',
     'la','lt','lv','mi','ms','mt','nl','no','oc','pi','pl','pt','ro','rs_latin','sk','sl',
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
+###############################
+# (1) PDF Chat 용 LLM 관련
+###############################
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 genai.configure(api_key=GEMINI_API_KEY)
 model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
+    """
+    Gemini가 이해할 수 있는 (role, parts[]) 형식으로 변환
+    """
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
             })
     return formatted_history
+def convert_chat_messages_to_gradio_format(messages):
+    """
+    ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]
+    """
+    gradio_chat = []
+    user_text, assistant_text = None, None
+    for msg in messages:
+        if msg.role == "user":
+            if user_text is not None or assistant_text is not None:
+                gradio_chat.append((user_text or "", assistant_text or ""))
+            user_text = msg.content
+            assistant_text = None
+        else:
+            if user_text is None:
+                user_text = ""
+            if assistant_text is None:
+                assistant_text = msg.content
+            else:
+                assistant_text += msg.content
+    if user_text is not None or assistant_text is not None:
+        gradio_chat.append((user_text or "", assistant_text or ""))
+    return gradio_chat
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
+    """
+    Gemini 응답 스트리밍
+    (user_message가 공백이면 기본 문구로 대체)
+    """
     if not user_message.strip():
         user_message = "...(No content from user)..."
         response_buffer = ""
         thinking_complete = False
+        # "Thinking" 역할
         messages.append(
             ChatMessage(
                 role="assistant",
             parts = chunk.candidates[0].content.parts
             current_chunk = parts[0].text
+            # 만약 parts 가 2개라면, parts[0]는 thinking, parts[1]은 최종답변
             if len(parts) == 2 and not thinking_complete:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                 messages.append(ChatMessage(role="assistant", content=response_buffer))
                 thinking_complete = True
             elif thinking_complete:
+                # 이미 최종답변 중
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
+                # 아직 thinking 중
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
         messages.append(ChatMessage(role="assistant", content=f"I encountered an error: {str(e)}"))
         yield convert_chat_messages_to_gradio_format(messages)
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
+    """
+    doc_text(마크다운) 사용해 질문 자동 변형
+    """
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     else:
     """
     return [], "", []
+###############################
+# (2) OCR FLEX 전용 (스니펫)
+###############################
+# 별도의 LaTeX 설정
+latex_delimiters = [
+    {"left": "$$", "right": "$$", "display": True},
+    {"left": '$', "right": '$', "display": False}
+]
+def to_markdown_ocr_flex(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language):
+    """
+    스니펫에서 사용:
+    업로드된 PDF/이미지를 변환 후
+    (마크다운 렌더링 / 마크다운 텍스트 / 압축파일 / PDF미리보기) 반환
+    """
+    file_path = to_pdf(file_path)
+    if end_pages > 20:
+        end_pages = 20
+    local_md_dir, file_name = parse_pdf(
+        file_path, './output', end_pages - 1, is_ocr,
+        layout_mode, formula_enable, table_enable, language
     )
+    archive_zip_path = os.path.join("./output", compute_sha256(local_md_dir) + ".zip")
+    zip_archive_success = compress_directory_to_zip(local_md_dir, archive_zip_path)
+    if zip_archive_success == 0:
+        logger.info("압축 성공")
+    else:
+        logger.error("압축 실패")
+    md_path = os.path.join(local_md_dir, file_name + ".md")
+    with open(md_path, 'r', encoding='utf-8') as f:
+        txt_content = f.read()
+    md_content = replace_image_with_base64(txt_content, local_md_dir)
+    new_pdf_path = os.path.join(local_md_dir, file_name + "_layout.pdf")
+    return md_content, txt_content, archive_zip_path, new_pdf_path
+###############################
+# UI 통합
+###############################
 if __name__ == "__main__":
+    with gr.Blocks(title="VisionOCR", css=create_css()) as demo:
+        # 탭 영역
+        with gr.Tabs():
+            #########################################################
+            # Tab (1) : PDF -> Markdown 변환 + Chat
+            #########################################################
+            with gr.Tab("PDF Chat with LLM"):
+                gr.HTML("""
+                <div class="title-area">
+                    <h1>VisionOCR</h1>
+                    <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, 추 LLM과 대화</p>
+                </div>
+                """)
+                md_state = gr.State("")      # 변환된 마크다운 텍스트
+                chat_history = gr.State([])  # ChatMessage 리스트
+                # 업로드 & 변환
+                with gr.Row():
+                    file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
+                    convert_btn = gr.Button("변환하기")
+                chatbot = gr.Chatbot(height=600)
+                # 새 파일 업로드 시: 이전 대화/마크다운/챗봇 초기화
+                file.change(
+                    fn=reset_states,
+                    inputs=file,
+                    outputs=[chat_history, md_state, chatbot]
+                )
+                # 숨김 요소들
+                max_pages = gr.Slider(1, 20, 10, visible=False, elem_classes="invisible")
+                layout_mode = gr.Dropdown(["layoutlmv3","doclayout_yolo"], value="doclayout_yolo", visible=False, elem_classes="invisible")
+                language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
+                formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
+                is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
+                table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
+                convert_btn.click(
+                    fn=to_markdown,
+                    inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
+                    outputs=md_state,
+                    show_progress=True
+                )
+                # Gemini Chat
+                gr.Markdown("## 추론 LLM과 대화")
+                with gr.Row():
+                    chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
+                    clear_btn = gr.Button("대화 초기화")
+                chat_input.submit(
+                    fn=user_message,
+                    inputs=[chat_input, chat_history, md_state],
+                    outputs=[chat_input, chat_history]
+                ).then(
+                    fn=stream_gemini_response,
+                    inputs=[chat_input, chat_history],
+                    outputs=chatbot
+                )
+                def clear_all():
+                    return [], "", []
+                clear_btn.click(
+                    fn=clear_all,
+                    inputs=[],
+                    outputs=[chat_history, md_state, chatbot]
+                )
+            #########################################################
+            # Tab (2) : OCR FLEX (스니펫 코드)
+            #########################################################
+            with gr.Tab("OCR FLEX"):
+                gr.HTML("""
+                <div class="title-area">
+                    <h1>OCR FLEX</h1>
+                    <p>PDF와 이미지에서 텍스트를 빠르고 정확하게 추출하세요</p>
+                </div>
+                """)
+                with gr.Row():
+                    # 왼쪽 패널
+                    with gr.Column(variant='panel', scale=5):
+                        file_ocr = gr.File(
+                            label="PDF 또는 이미지 파일을 업로드하세요",
+                            file_types=[".pdf", ".png", ".jpeg", ".jpg"]
+                        )
+                        max_pages_ocr = gr.Slider(
+                            1, 20, 10,
+                            step=1,
+                            label='최대 변환 페이지 수'
+                        )
+                        with gr.Row():
+                            layout_mode_ocr = gr.Dropdown(
+                                ["layoutlmv3", "doclayout_yolo"],
+                                label="레이아웃 모델",
+                                value="doclayout_yolo"
+                            )
+                            language_ocr = gr.Dropdown(
+                                all_lang,
+                                label="언어",
+                                value='auto'
+                            )
+                        with gr.Row():
+                            formula_enable_ocr = gr.Checkbox(
+                                label="수식 인식 활성화",
+                                value=True
+                            )
+                            is_ocr_ocr = gr.Checkbox(
+                                label="OCR 강제 활성화",
+                                value=False
+                            )
+                            table_enable_ocr = gr.Checkbox(
+                                label="표 인식 활성화(테스트)",
+                                value=True
+                            )
+                        with gr.Row():
+                            change_bu_ocr = gr.Button("변환")
+                            # ★ ClearButton 수정 ★
+                            # 첫 번째 인자 -> clear할 대상(컴포넌트),
+                            # 버튼에 표시될 텍스트는 value="초기화"
+                            clear_bu_ocr = gr.ClearButton(
+                                components=[file_ocr, max_pages_ocr, layout_mode_ocr, language_ocr,
+                                            formula_enable_ocr, is_ocr_ocr, table_enable_ocr],
+                                value="초기화"
+                            )
+                        pdf_show_ocr = PDF(
+                            label='PDF 미리보기',
+                            interactive=False,
+                            visible=True,
+                            height=800
+                        )
+                        # 예제 폴더가 있다면 사용 (실제 실행환경에 따라 주의)
+                        with gr.Accordion("예제:", open=False):
+                            example_root = (
+                                os.path.join(os.path.dirname(__file__), "examples")
+                                if "__file__" in globals() else "./examples"
+                            )
+                            if os.path.exists(example_root):
+                                gr.Examples(
+                                    examples=[
+                                        os.path.join(example_root, _) for _ in os.listdir(example_root)
+                                        if _.endswith("pdf")
+                                    ],
+                                    inputs=file_ocr
+                                )
+                            else:
+                                gr.Markdown("예제 폴더가 존재하지 않습니다.")
+                    # 오른쪽 패널
+                    with gr.Column(variant='panel', scale=5):
+                        output_file_ocr = gr.File(
+                            label="변환 결과",
+                            interactive=False
+                        )
+                        with gr.Tabs():
+                            with gr.Tab("마크다운 렌더링"):
+                                md_ocr = gr.Markdown(
+                                    label="마크다운 렌더링",
+                                    height=1100,
+                                    show_copy_button=True,
+                                    latex_delimiters=latex_delimiters,
+                                    line_breaks=True
+                                )
+                            with gr.Tab("마크다운 텍스트"):
+                                md_text_ocr = gr.TextArea(
+                                    lines=45,
+                                    show_copy_button=True
+                                )
+                # 이벤트 핸들러 (OCR FLEX)
+                file_ocr.change(
+                    fn=to_pdf,
+                    inputs=file_ocr,
+                    outputs=pdf_show_ocr
+                )
+                def run_ocr_flex(*args):
+                    return to_markdown_ocr_flex(*args)
+                change_bu_ocr.click(
+                    fn=run_ocr_flex,
+                    inputs=[
+                        file_ocr,
+                        max_pages_ocr,
+                        is_ocr_ocr,
+                        layout_mode_ocr,
+                        formula_enable_ocr,
+                        table_enable_ocr,
+                        language_ocr
+                    ],
+                    outputs=[
+                        md_ocr,
+                        md_text_ocr,
+                        output_file_ocr,
+                        pdf_show_ocr
+                    ]
+                )
+    # 전체 앱 실행
+    demo.launch(server_name="0.0.0.0", server_port=7860, debug=True, ssr_mode=True)