CRF 실습 진행했다 (3) CRF 개체명 인식 실습(한국어)

코드는 여기 : https://github.com/dhaldhd/crf_ner
한국어 데이터 : expo_kor.train, expo_kor.test
한국어 데이터 적용하기

  • 그냥 돌리면 아마 죽을거임 죽지만 않게 일단 고쳐보자
  • 예) 한편, AFC 챔피언스리그 E조에 속한 포항 역시 대회 8강 진출이 불투명하다.
  • 데이터 포맷

    • 맨앞에 있는 숫자는 '어절번호'
    • 띄어쓰기 단위로 나누면 어절임
      • "한편, AFC 챔피언스리그 E조에 속한 포항 역시 대회 8강 진출이 불투명하다." 이런 문장이면.... 
      • 한편,(1번어절)/ AFC(2번어절)/ 챔피언스리그(3번어절)/ E조에(4번어절)/...
  • Hints!
    • sent2labels
    • word2features
    • sent2tokens
    • In, out 파일 이름, 모델 이름 
  • (30분 뒤 정답 공개)
    • 정답 소스 : ner_kor.py
  • 실행



한국어에 적합한 자질 추가하기
  • 어절 내 형태소 번호
    • 한 어절 안에서, 해당 형태소가 몇번째 형태소 인지!!!
  • 어절의 마지막 형태소가 조사일 경우, 마지막 형태소의 ‘word/postag’ 
  • 어절의 마지막 형태소가 조사가 아닐 경우, ‘-’
  • 형태소의 길이
  • Word의 첫 1글자, 2글자
  • 좋을 것 같은 자질 더 추가해서 성능을 높여 보세요!
  • 자질이 추가된 예시


  • Hints!
    • Sent2features
      • add_features_to_sent

    • Word2features
      • 자질 추가!
      • Issuper, istitle? 필요할까??
  • (60분 뒤 정답 공개)
    • 정답 소스 : ner_kor_mod.py
  • 실행


to be continued....
bi LSTM  으로 개체명 인식하기
bi LSTM CRF 로 개체명 인식하기...
웅.. 유진아 좀 하자 응??
니 최애를바 을-마나 열씨미 하니
황민현 잘생겼다

댓글

가장 많이 본 글