자연어처리(개념)
자연어 처리
자연어 처리의 가능성
- 사람들의 관심사 파악
- 의견,호감 분야 파악
- 사람을 대신하여 응대
- 문서의 요약,분류
- 자동 번역
- 정형 데이터와의 연계로 새로운 의미 파악
정형데이터와 비정형데이터
- 정형데이터 : 약간의 전처리 과정을 거치면 즉시 분석 작업에 들어갈 수 있도록 데이터의 구조가 정형화 되어 있는 것
- 일관된 표 형태로 정리
- 의미 단위가 단순한 의미의 숫자로 기록
- 업무 처리, 매매 거래, 로그 데이터 등
- 비정형데이터 : 정보를 추출하기 어려운 형태로 되어 있는 것
- 많은 전처리 과정을 거쳐야 핵심 분석 작업 가능
- 일관된 모습으로 저장 X
- 의미 단위 요소를 파악하기가 어렵다.
- SNS 데이터, 고객 게시글, QR코드 등
형태소 분석
- 형태소 분석이 필요한 비정형 데이터
- 비정형데이터는 가능한 정형데이터와 비슷한 형태로 만들어 정형데이터처럼 단위 형태를 예상해 처리해야 한다.
- 가장 작은 의미 단위만(형태소)을 추출할 필요가 있다.
실질형태소 : 실질적으로 의미를 가지는 형태소,구체적인 대상이나 동작 예) 명사,동사 형식형태소 : 실질 형태소에 붙어 주로 말과 말 사이의 관계를 표시 예) 나는,조사,어미
- 형태소 분석의 주요 활용 분야
- 빈도 분석 : 해당 문서에서 고빈도 단어가 무엇인지를 파악, 문서의 주요 단어가 무엇인지를 알 수 있다.
- 감성 분석 : 각 문서가 긍정적 or 부정적인지 판단, 영화 리뷰 등에 적용하여 글쓴이가 해당 영화 등에 어떠한 평가를 내리는지 알 수 있음
- 문장 생성 : 사람과 컴퓨터와의 대화에서 사람이 어떠한 말을 하는지에 따라 문장을 다르게 생성, 대답을 하는 챗봇 등에 많이 사용
Leave a comment