분류 전체보기

단어 빈도수 기반 CountVectorizer 단어 문서 행렬(term-document matrix: 이하 TDM)는 문서별로 나타난 단어의 빈도를 표(행렬) 형태로 나타낸 것이다. 문장들 corpus = [ 'you know I want your love', 'I like you', 'what should I do' ] split 혹은 dictionary str = " ".join(corpus) print(str) words = str.split(' ') print(words) freq = {} #dictionary는 초기화 필수 for w in words : #freq[w] +=1 #오류남 freq[w] = freq.get(w,0) + 1 #d..
자연어 처리(NLP)는 컴퓨터 과학, 인공지능, 언어학이 합쳐진 분야이다. 자연어 처리 업무 난이도 쉬움: 스펠링 체크, 키워드 검사, 유사어 감지 난이도 중간: 웹사이트 및 서류의 형태 해석, 구문해석 ​ ex) 영수증 해석 난이도 어려움:기계번역, 감정분석, 질의응답 시스템 자연어 처리의 어려움 언어,상황,환경,지각 지식의 학습 및 표현의 복잡함 -> Rule 기반만으로는 무리인가? 영상은 벡터로 분석, 수치화 가능했다. 그런데 언어는? 기존의 알고리즘을 적용하기 어렵다. DNN은 분산표현의 장점으로 인해 모호하지만 풍부한 정보를 얻을 수 있다. -> 단어의 벡터화로부터 시작 언어 데이터의 특성 불연속적인 심볼의 sequence (영상, 음성은 연속적이다. Text는 불연속적) 계열 길이가 샘플에 따..
from selenium.common.exceptions import NoSuchWindowException from selenium.webdriver.support.ui import WebDriverWait def found_window(name): def predicate(driver): try: driver.switch_to_window(name) except NoSuchWindowException: return False else: return True # found window return predicate driver.find_element_by_id("id of the button that opens new window").click() WebDriverWait(driver, timeout=..
noodle-dev
'분류 전체보기' 카테고리의 글 목록 (22 Page)