본문 바로가기

Data handling/한글(hwp) 파일 핸들링

(2)
[Python3] hwp 파일 글상자 내 텍스트 추출하기 대량의 코퍼스를 수집하다보면 다양한 형식의 파일을 수집하게 됩니다. 파일의 형식은 대부분 텍스트 파일(.txt)로 통일하여 합칩니다. 그런데, 다른 형식의 파일들과 달리 문제가 되는 아이가 있습니다: 한글(hwp)!!! 이전 포스트에서 이를 pyhwp를 사용해 txt 파일로 변환하는 방법을 알아보았습니다. 2020/06/13 - [Data handling/한글(hwp) 파일 핸들링] - [pyhwp] Python3으로 한글(hwp)파일 txt로 변환하기 feat. jupyter notebook 그런데, 큰 문제가 하나 생겼습니다. pyhwp는 전체 선택(ctrl+A)를 했을 때 선택이 되는 텍스트만을 txt 파일로 변환해줍니다. 그런데, 보시다 시피 글상자 내의 텍스트 파일은 전체 선택(ctrl+A)로 ..
[pyhwp] Python3으로 한글(hwp)파일 txt로 변환하기 feat. jupyter notebook 대량의 코퍼스를 수집하다 보면 다양한 형식의 파일을 수집하게 됩니다. 파일의 형식은 대부분 텍스트 파일(.txt)로 통일하여 합칩니다. 그런데, 다른 형식의 파일들과 달리 문제가 되는 아이가 있습니다: 한글(hwp) 파일!!!!!! hwp 안의 글을 파싱해서 가져와야 하는 경우, 단순히 read 함수로 읽으면 알아볼 수 없는 문자로 출력이 됩니다. 강제로 형식을 바꿔도 마찬가지입니다. 그렇다고 대용량 코퍼스를 모두 복사 붙여 넣기 하는 것은 말이 안 되죠. 한국의 많은 텍스트 데이터가 hwp로 되어있기에, 포기할 수도 없습니다. 따라서, 파이썬으로 내부에 있는 텍스트만 긁어오거나, 깨지지 않게 txt파일로 바꾸는 방법을 찾고 있었습니다. 그리고 마침내, Python3에서 hwp를 깨지지 않게 다양한 확장..

출처: https://privatedevelopnote.tistory.com/81 [개인노트]