CRF 실습 진행했다 (3) CRF 개체명 인식 실습(한국어)
코드는 여기 : https://github.com/dhaldhd/crf_ner
한국어 데이터 : expo_kor.train, expo_kor.test
한국어 데이터 적용하기
to be continued....
bi LSTM 으로 개체명 인식하기
bi LSTM CRF 로 개체명 인식하기...
웅.. 유진아 좀 하자 응??
니 최애를바 을-마나 열씨미 하니
황민현 잘생겼다
한국어 데이터 : expo_kor.train, expo_kor.test
한국어 데이터 적용하기
- 그냥 돌리면 아마 죽을거임 죽지만 않게 일단 고쳐보자
- 예) 한편, AFC 챔피언스리그 E조에 속한 포항 역시 대회 8강 진출이 불투명하다.
- 데이터 포맷
- 맨앞에 있는 숫자는 '어절번호'
- 띄어쓰기 단위로 나누면 어절임
- 예
- "한편, AFC 챔피언스리그 E조에 속한 포항 역시 대회 8강 진출이 불투명하다." 이런 문장이면....
- 한편,(1번어절)/ AFC(2번어절)/ 챔피언스리그(3번어절)/ E조에(4번어절)/...
- Hints!
- sent2labels
- word2features
- sent2tokens
- In, out 파일 이름, 모델 이름
- (30분 뒤 정답 공개)
- 정답 소스 : ner_kor.py
- 실행
한국어에 적합한 자질 추가하기
- 어절 내 형태소 번호
- 한 어절 안에서, 해당 형태소가 몇번째 형태소 인지!!!
- 어절의 마지막 형태소가 조사일 경우, 마지막 형태소의 ‘word/postag’
- 어절의 마지막 형태소가 조사가 아닐 경우, ‘-’
- 형태소의 길이
- Word의 첫 1글자, 2글자
- 좋을 것 같은 자질 더 추가해서 성능을 높여 보세요!
- 자질이 추가된 예시
- Hints!
- Sent2features
- add_features_to_sent
- Word2features
- 자질 추가!
- Issuper, istitle? 필요할까??
- (60분 뒤 정답 공개)
- 정답 소스 : ner_kor_mod.py
- 실행
to be continued....
bi LSTM 으로 개체명 인식하기
bi LSTM CRF 로 개체명 인식하기...
웅.. 유진아 좀 하자 응??
니 최애를바 을-마나 열씨미 하니
황민현 잘생겼다
댓글
댓글 쓰기