목록PYTHON/LLM & Langchain (3)
도찐개찐

1. Why Markdown?2024년 5월1일 Dhaval Nagar가 작성한 글입니다.여기서 가장 중요한 부분은 LLM과 PDF에서 구조화된 데이터를 추출할 때, Markdown 텍스트가 일반 텍스트보다 우월하다는 것입니다. PDF 파일을 Markdown으로 변환하는 것은 데이터의 구조와 맥락을 유지하는 데 중요하며, 특히 Retrieval-Augmented Generation(RAG) 응용 프로그램에서 중요하다는 것입니다. https://www.appgambit.com/blog/llms-love-structure-using-markdown-for-pdf-analysis Markdown이 유리한 이유는 다음과 같습니다.마크다운 학습 : 최신 LLM은 마크다운으로 학습한 데이터가 많기 때문에 LLM..
Huggingface에서 Model을 로컬에 다운받으려면, 세 가지 방법이 있다.1. 직접 Huggingface 페이지에서 다운로드2. Python 코드로 다운로드3. CLI를 활용한 다운로드이 중에서 가장 간편하고 쉬운 방법은 CLI에서 명령어를 입력하는 것이다. 명령어는 git lfs를 활용하면 된다.git lfs clone https://huggingface.co/[허깅페이스 모델 레포 주소]예를들어, falcon-180B를 다운받는다면 아래와 같이 입력하면 된다.git lfs clone https://huggingface.co/tiiuae/falcon-180B어떤 모델 같은 경우에는 승인받은 경우에만 사용할 수 있으므로 아래와 같이 인증키를 입력하거나, 자신의 아이디와 비밀번호를 입력하면 된다.h..
1. Transformer 아키텍처 - 현재 NLP 모델의 거의 대부분은 Transformer 아키텍처를 기반으로 함 - 모델의 용도에 따라 Transformer의 Encoder, Decoder를 개별 또는 통합하여 사용 - 즉, Transformer의 발전 양상이 곧 LLM의 발전의 양상 - Decoder 중심으로 빠른 발전이 있었음 ex) Chat-GPT, BARD 등등 2. Closed Source, Open Source - Closed Source(OpenAI, Google) - 뛰어난 성능, API 방식의 편리한 사용성 - But, 보장할 수 없는 보안, API 호출 비용 - Open Source(LLaMA) - Closed Source 못지 않은 성능, 높은 보안성, 낮은 비용 - But, 개..