KoNLPy 설치 Jpype 설치 https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 에서 파이썬과 운영체제에 맞는 파일 다운로드 기존 jpype 제거 후 설치 pip uninstall jpype1 pip install 파일명.whl JVM 설치해야 #error msg jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. https://github.com/ojdkbuild/ojdkbuild 에서 설치 파이썬에서 javac 쓰면 나와야 해 환경 변수 설정에서 변수이름은 ..
Python
단어 빈도수 기반 CountVectorizer 단어 문서 행렬(term-document matrix: 이하 TDM)는 문서별로 나타난 단어의 빈도를 표(행렬) 형태로 나타낸 것이다. 문장들 corpus = [ 'you know I want your love', 'I like you', 'what should I do' ] split 혹은 dictionary str = " ".join(corpus) print(str) words = str.split(' ') print(words) freq = {} #dictionary는 초기화 필수 for w in words : #freq[w] +=1 #오류남 freq[w] = freq.get(w,0) + 1 #d..
자연어 처리(NLP)는 컴퓨터 과학, 인공지능, 언어학이 합쳐진 분야이다. 자연어 처리 업무 난이도 쉬움: 스펠링 체크, 키워드 검사, 유사어 감지 난이도 중간: 웹사이트 및 서류의 형태 해석, 구문해석 ex) 영수증 해석 난이도 어려움:기계번역, 감정분석, 질의응답 시스템 자연어 처리의 어려움 언어,상황,환경,지각 지식의 학습 및 표현의 복잡함 -> Rule 기반만으로는 무리인가? 영상은 벡터로 분석, 수치화 가능했다. 그런데 언어는? 기존의 알고리즘을 적용하기 어렵다. DNN은 분산표현의 장점으로 인해 모호하지만 풍부한 정보를 얻을 수 있다. -> 단어의 벡터화로부터 시작 언어 데이터의 특성 불연속적인 심볼의 sequence (영상, 음성은 연속적이다. Text는 불연속적) 계열 길이가 샘플에 따..