Deep Learning/자연어 처리 2

pdf2zh(Window version)+ ollama(linux version) 이용해서 번역하기

pdf2zh : 논문 보실 때, PDF(영어) -> 번역  -> PDF(한글)로 출력해주는 프로그램 입니다. (물론 다른 언어도 됨.)  GradioBuild & Share Delightful Machine Learning Appswww.gradio.apphttps://pdf2zh.com/ : 웹 버전으로도 편리하게 그냥 사용할 수 있습니다.  하지만, 멋지게 CLI(Command Line Interface)로 하는 방법도 있습니다.그리고 보안이 중요한 문서들을 번역할 때는 망설여집니다.   그럴 때, ollama 라는 tool을 활용해서 로컬 영역에서 LLM을 구축하고 구축된 LLM으로 번역을 하는 방식으로 pdf2zh를 사용할 수 있습니다!   pdf2zh 설치 (파이썬이 설치되었다는 가정 하에) #..

자연어 처리 : 1. 시소러스

자연어 처리의 역사를 되돌아보면, 단어의 의미를 인력을 동원해 정의하려는 시도는 수없이 있어왔습니다. 단, '표준국어대사전' 같이 사람이 이용하여 일반적인 사전이 아니라 시소러스 형태의 사전을 사용했습니다.  시소러스란 기본적으로 '유의어 사전'으로 '뜻이 같은 단어(동의어)'나 '뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류되어 있습니다.  예시)car = auto, automobile, machine, motorcar 단어 사이의 '상위와 하위' 혹은 '전체와 부분' 등 을 정의해둔 경우 예시)objectmotor vehiclecarSUVcompacthatch-backgo-karttruck"car"의 상위 개념으로 "motor vehicle(동력차)"이라는 단어가 존재하고 "car"의 하위 개념으로..