본문 바로가기

Heute lerne ich/AI

(4)
[엘리스] 문서 유사도 및 언어 모델 문서 유사도 및 언어 모델 01 문서 유사도 측정 문서는 다양한 요소와 이들의 상호작용으로 구성 가장 기본 단위인 단어조차 문서와 관련된 다양한 정보(형태소, 키워드, 개체명, 중의적 단어 …)를 포함 상위 개념인 문장 또한 추가적인 정보(목적어, 주어, 문장 간 관계, 상호 참조 해결)를 제공 ⇒ 문서의 가장 기본 단위인 단어를 활용하여 문서를 표현 이를 위해 단어 기준으로 생성한 문서 벡터 간의 코사인 유사도 사용 정확한 문서 유사도 측정을 위해 문서의 특징을 잘 보존하는 벡터 표현 방식이 중요 02 Bag of words 문서 내 단어의 빈도수를 기준으로 문서 벡터를 생성 자주 발생하는 단어가 문서의 특징을 나타낸다는 것을 가정 Bag of words 문서 벡터의 차원은 데이터 내 발생하는 모든 단..
[엘리스] 자연어 처리 및 문장 유사도 / 모델 심화 자연어 처리 및 문장 유사도 01 한국어 자연어 처리 텍스트의 단어를 통해 문장의 의미, 구성 요소 및 특징 파악 가능 영어에서는 띄어쓰기를 통해 구별했으나 한국에서 단어의 기준은 명확하지 않음 한국어에서의 단어란 : 교착어, 의미적 기능 + 문법적 기능을 하는 부분의 조합으로 구성 엘리스는 / 엘리스가 먹다 / 먹었다 / 먹는다 ⇒ 단어의 의미적 기능과 문법적인 기능을 구분하는 것이 중요 02 KoNLPy 형태소 분석 : 주어진 한국어 텍스트를 단어의 원형 형태로 분리해주는 작업 KoNLPy는 형태소 사전을 기반으로 한국어 단어를 추출하는 라이브러리 (Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text) from konlpy.tag import Kkma, Okt sent = "..
[엘리스] 모델 학습 및 서비스 모델 학습 01 Background Tensorflow : google, 강력한 시각화 Pytorch : facebook, 데이터 처리, 모델의 구현 → tensorflow 사용 Tensorflow : session을 단위로 실행 코드를 작성하고 수동으로 모델을 구현 Keras: 공식 api (2.0 버전부터) 과적합 : 모델이 데이터의 일반적인 특징이 아닌 학습 데이터에만 특화되어 학습 데이터의 수나 다양성이 부족할 때 데이터에 비해 모델이 너무 클 때 너무 많은 epoch를 학습했을 때 ↔ 너무 적은 epoch를 학습하면 과소적합(underfitting) 과적합을 막기 위한 방법 데이터를 늘린다 ⇒ best! 과적합이 일어나기 전에 학습을 정지함 (Early Stop) 데이터 증강 (Data augm..
[엘리스] 자연어 처리 *필자는 엘리스 AI 트랙 8기를 수강중이다. 당일 배운 내용에 대한 포스팅이다. 자연어 처리 01 자연어 처리 Natural Language Processing, NLP 자연어 처리 : 컴퓨터를 통해 인간의 언어를 분석 및 처리하는 인공지능의 한 분야 ex) 문서 분류, 키워드 추출 (불필요한 단어 제거), 감정 분석 자연어처리 + 머신러닝 : 학습 가능한 데이터양의 증가 및 연산 처리 속도의 발전으로 자연어 처리 또한 더욱 복잡한 머신러닝 알고리즘 적용 가능 ex) 문서 요약, 기계 번역, chat bot 02 텍스트 전처리 모델링을 위한 데이터 탐색 및 전처리 데이터 탐색 : 최소 단위(단어의 개수, 단어별 빈도수)를 기준으로 데이터 통계치 / 변수별 특징 등 .. 데이터 전처리 : 최소 단위(특수..