목록PYTHON (60)
도찐개찐
1. Why Markdown?2024년 5월1일 Dhaval Nagar가 작성한 글입니다.여기서 가장 중요한 부분은 LLM과 PDF에서 구조화된 데이터를 추출할 때, Markdown 텍스트가 일반 텍스트보다 우월하다는 것입니다. PDF 파일을 Markdown으로 변환하는 것은 데이터의 구조와 맥락을 유지하는 데 중요하며, 특히 Retrieval-Augmented Generation(RAG) 응용 프로그램에서 중요하다는 것입니다. https://www.appgambit.com/blog/llms-love-structure-using-markdown-for-pdf-analysis Markdown이 유리한 이유는 다음과 같습니다.마크다운 학습 : 최신 LLM은 마크다운으로 학습한 데이터가 많기 때문에 LLM..
Huggingface에서 Model을 로컬에 다운받으려면, 세 가지 방법이 있다.1. 직접 Huggingface 페이지에서 다운로드2. Python 코드로 다운로드3. CLI를 활용한 다운로드이 중에서 가장 간편하고 쉬운 방법은 CLI에서 명령어를 입력하는 것이다. 명령어는 git lfs를 활용하면 된다.git lfs clone https://huggingface.co/[허깅페이스 모델 레포 주소]예를들어, falcon-180B를 다운받는다면 아래와 같이 입력하면 된다.git lfs clone https://huggingface.co/tiiuae/falcon-180B어떤 모델 같은 경우에는 승인받은 경우에만 사용할 수 있으므로 아래와 같이 인증키를 입력하거나, 자신의 아이디와 비밀번호를 입력하면 된다.h..
ModuleNotFoundError: No module named 'setuptools.config.expand'; 'setuptools.config' is not a package $ pip install -U pip setuptools
1. Transformer 아키텍처 - 현재 NLP 모델의 거의 대부분은 Transformer 아키텍처를 기반으로 함 - 모델의 용도에 따라 Transformer의 Encoder, Decoder를 개별 또는 통합하여 사용 - 즉, Transformer의 발전 양상이 곧 LLM의 발전의 양상 - Decoder 중심으로 빠른 발전이 있었음 ex) Chat-GPT, BARD 등등 2. Closed Source, Open Source - Closed Source(OpenAI, Google) - 뛰어난 성능, API 방식의 편리한 사용성 - But, 보장할 수 없는 보안, API 호출 비용 - Open Source(LLaMA) - Closed Source 못지 않은 성능, 높은 보안성, 낮은 비용 - But, 개..
0. 정리 - pipeline은 간단한 사용법을 제시한 것으로 기본 모델 말고 모델을 지정할 때에는 모델마다 작동 여부가 다름 - max_length, return_sequences 등의 파라미터도 모델에 따라서 적용 여부가 다름 - NLP를 단순하게 소개 하거나, 기초자를 대상으로 할 때 흥미를 가지는 용도로 사용 1. pipeline 이란? - transformers 라이브러리의 가장 기본 객체 - 전처리 + 후처리 과정을 모델과 연결하여 쉽게 NLP 모델을 사용할 수 있게 함. - 사용전에 transformers 라이브러리 설치 !pip install transformers 2. pipeline 활용 가. pipline을 사용할 때 모델을 지정하지 않으면 기본 모델이 들어가고, 특정 모델을 지정하고..
CPU는 빠르고 순차적인 방식으로 많은 일반 작업을 처리할 수 있는 반면, GPU는 병렬 컴퓨팅을 사용하여 엄청나게 복잡한 문제를 여러 개의 작은 동시 계산으로 분해합니다. 따라서 기계 학습에 필요한 대규모 분산 계산 프로세스를 처리하는 데 이상적입니다. 이 기사에서는 CPU와 GPU의 차이점과 기계 학습, 신경망 및 딥 러닝을 사용한 각각의 애플리케이션을 비교해 보겠습니다 . CPU란 무엇입니까? 중앙 처리 장치 또는 CPU는 산술, 논리 기능, I/O 작업과 같은 컴퓨터의 기본 명령을 처리하는 프로세서입니다. 일반적으로 컴퓨터 마더보드에 통합된 작지만 강력한 칩입니다. CPU는 대부분의 컴퓨터 하드웨어 및 소프트웨어 명령을 해석하고 실행하기 때문에 컴퓨터의 두뇌로 간주됩니다. CPU의 표준 구성 요소..
KoNLPy NLTK는 영어 정보처리를 위한 패키지 반면, KoNLPy는 한국어 정보처리를 위한 패키지임 서울대학교 산업공학과 개발한 형태소 분석기 이미 개발된 한글 형태소 분석기를 파이썬에서 바로 사용할 수 있도록 도와줌 일종의 래퍼 패키지 현재까지 지원하는 형태소분석기는 모두 5가지 Hannanum, Kkma, Komoran, mecab, Okt konlpy-ko.readthedocs.io / konlpy.org 설치방법 KoNLPy 설치전 필수 패키지가 JPype1 인데 Visual C++ 14 버젼 필요!! (OS가 윈도우인 경우) Many binaries depend on numpy+mkl and the current Microsoft Visual C++ Redistributable for Vi..
텍스트 마이닝 자연어로 구성된 "비정형 데이터"에서 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법들을 의미 트위터, 페이스북, 블로그, 웹게시판, 온라인 뉴스등 웹 상에 존재하는 방대한 비정형 데이터를 실시간으로 수집/분석하여 고객의 감성 및 의도등을 알아내는 과정을 의미 자연어 처리(Natural Language Processing)와 텍스트 분석(Text Analytics)등이 핵심 분야 텍스트 마이닝 활용분야 텍스트분류 : 문서가 특정 분류/카테고리에 속하는 것을 예측 감성분석 : 텍스트에 나타나는 감정/판단/믿음/의견등 주관적인 요소를 분석 텍스트요약 : 텍스트 내에서 중요한 주제나 중심사상을 추출 텍스트군집화 : 비슷한 유형의 문서에 대해 군집화를 수행 텍스트 분석 수행 과정 텍스트..