intro 빈도수 기반 표현은 단어 간 의미차를 표현할 수 없다. 단어-단어 거리를 계산해서 차이를 얘기하는 것이 어렵다. 유사도를 비교할 수는 있겠지만 논리적인 의미는 없다. 단지 컴퓨터에서 처리하기 적합한 자료 구조일 뿐이다. 단어 자체의 의미를 다차원 공간에서 벡터화 필요 단어들 사이의 유사도 측정 가능 단어들 간의 평균 및 연산을 통해 추론 가능 벡터의 연산 ex king - man + woman = queen 한국 - 서울 + 도쿄 = 일본 장점 : dimension도 엄청나게 줄일 수 있고, 단어 간 연산도 가능하다. Continuous Bag of Words (CBoW) 주변에 있는 단어들로 중간에 있는 단어들을 예측하는 방법이다. The fat cat (sat) on the mat. {'T..
Python/NLP 자연어처리
KoNLPy 설치 Jpype 설치 https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 에서 파이썬과 운영체제에 맞는 파일 다운로드 기존 jpype 제거 후 설치 pip uninstall jpype1 pip install 파일명.whl JVM 설치해야 #error msg jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. https://github.com/ojdkbuild/ojdkbuild 에서 설치 파이썬에서 javac 쓰면 나와야 해 환경 변수 설정에서 변수이름은 ..
단어 빈도수 기반 CountVectorizer 단어 문서 행렬(term-document matrix: 이하 TDM)는 문서별로 나타난 단어의 빈도를 표(행렬) 형태로 나타낸 것이다. 문장들 corpus = [ 'you know I want your love', 'I like you', 'what should I do' ] split 혹은 dictionary str = " ".join(corpus) print(str) words = str.split(' ') print(words) freq = {} #dictionary는 초기화 필수 for w in words : #freq[w] +=1 #오류남 freq[w] = freq.get(w,0) + 1 #d..