Deep Learning/자연어 처리

pdf2zh(Window version)+ ollama(linux version) 이용해서 번역하기

쉼터장 2025. 3. 4. 21:01

pdf2zh : 논문 보실 때, PDF(영어) -> 번역  -> PDF(한글)로 출력해주는 프로그램 입니다. (물론 다른 언어도 됨.)

AlphaFold3 논문번역

 

 

Gradio

Build & Share Delightful Machine Learning Apps

www.gradio.app

https://pdf2zh.com/ : 웹 버전으로도 편리하게 그냥 사용할 수 있습니다. 

 

하지만, 멋지게 CLI(Command Line Interface)로 하는 방법도 있습니다.

그리고 보안이 중요한 문서들을 번역할 때는 망설여집니다.  

 

그럴 때, ollama 라는 tool을 활용해서 로컬 영역에서 LLM을 구축하고 구축된 LLM으로 번역을 하는 방식으로 pdf2zh를 사용할 수 있습니다!  

 

pdf2zh 설치 (파이썬이 설치되었다는 가정 하에) 

# window cmd

pip install pdf2zh 

 

간단한 사용법

# window cmd

pdf2zh test.pdf -li en -lo ko  

[변환 시킬 pdf] : ex) test.pdf 

-li : lang in -> 입력 언어 (en = English)

-lo : lang out  -> 출력 언어 (ko = Korean)

- Default로 google 번역기가 사용됨 

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

ollama : 오픈 소스 LLM를 다룰 수 있게 해주는 프로그램입니다. 

 

ollama 설치 

 

https://ollama.com/download/linux 에 가셔서 

 

# linux 서버

명령어 :  curl -fsSL https://ollama.com/install.sh | sh

복사 후 붙여넣기하세요.    

 

ollama에서 원하는 LLM 설치 

 

https://ollama.com/library 에 가시면 다양한 LLM 모델이 있습니다. 

여기서 맘에 드는 거 이름 고르신 다음에, 저는 deepseek-r1:7b로 정했습니다. 

(파라미터 수가 늘어날 수록 고사양의 컴퓨팅 시스템(ex. RAM or GPU)이 필요합니다!!)

 

다운로드

# linux 서버

ollama pull deepseek-r1:7b 

하면 다운로드 됩니다. 

 

다운로드 확인

다운로드 잘 되었는지는 

# linux 서버

ollama list 

하면 됩니다.

 

Linux 서버 사용

서버에서 바로 사용해보실거면 

# linux 서버

ollama run deepseek-r1:7b 

하면 바로 사용가능합니다. 

 

Ollama 서버 작동

ollama server를 열어두려면, 서버 terminal에서 

# linux 서버

OLLAMA_HOST=xxx.xxx.xxx.xxx:(원하는 port number) ollama serve

(ex. OLLAMA_HOST=192.168.12.345:8080 ollama serve)

를 하게 되면 ollama server가 실행됩니다. 

 

Window에서 사용

그리고 local 윈도우에 돌아와서, 

# window cmd

OLLAMA_HOST=xxx.xxx.xxx.xxx:(원하는 port number)

OLLAMA_MODEL=deepseek-r1:7b

이렇게 환경설정 해줍니다. 

 

마지막으로,

# window cmd  

pdf2zh test.pdf -li en -lo ko  -s ollama

해주면, 구축된 ollama 기반 LLM 모델로 번역이 되어, 

번역된 PDF가 생성됩니다.