자연어처리(개념)

1 minute read

자연어 처리

자연어 처리의 가능성

  1. 사람들의 관심사 파악
  2. 의견,호감 분야 파악
  3. 사람을 대신하여 응대
  4. 문서의 요약,분류
  5. 자동 번역
  6. 정형 데이터와의 연계로 새로운 의미 파악

정형데이터와 비정형데이터

  1. 정형데이터 : 약간의 전처리 과정을 거치면 즉시 분석 작업에 들어갈 수 있도록 데이터의 구조가 정형화 되어 있는 것
    • 일관된 표 형태로 정리
    • 의미 단위가 단순한 의미의 숫자로 기록
    • 업무 처리, 매매 거래, 로그 데이터 등
  2. 비정형데이터 : 정보를 추출하기 어려운 형태로 되어 있는 것
    • 많은 전처리 과정을 거쳐야 핵심 분석 작업 가능
    • 일관된 모습으로 저장 X
    • 의미 단위 요소를 파악하기가 어렵다.
    • SNS 데이터, 고객 게시글, QR코드 등

형태소 분석

  1. 형태소 분석이 필요한 비정형 데이터
  • 비정형데이터는 가능한 정형데이터와 비슷한 형태로 만들어 정형데이터처럼 단위 형태를 예상해 처리해야 한다.
  • 가장 작은 의미 단위만(형태소)을 추출할 필요가 있다.

실질형태소 : 실질적으로 의미를 가지는 형태소,구체적인 대상이나 동작 예) 명사,동사 형식형태소 : 실질 형태소에 붙어 주로 말과 말 사이의 관계를 표시 예) 나는,조사,어미

  1. 형태소 분석의 주요 활용 분야
  • 빈도 분석 : 해당 문서에서 고빈도 단어가 무엇인지를 파악, 문서의 주요 단어가 무엇인지를 알 수 있다.
  • 감성 분석 : 각 문서가 긍정적 or 부정적인지 판단, 영화 리뷰 등에 적용하여 글쓴이가 해당 영화 등에 어떠한 평가를 내리는지 알 수 있음
  • 문장 생성 : 사람과 컴퓨터와의 대화에서 사람이 어떠한 말을 하는지에 따라 문장을 다르게 생성, 대답을 하는 챗봇 등에 많이 사용

Leave a comment