본문 바로가기

분류 전체보기

(8)
[NLP with D.L] 1) Word Representation, Word Sense and Word2Vec with Gensim 본 포스트는 Christopher Manning 교수님의 CS224N 강의를 바탕으로 hyyoka가 필요하다고 생각한 내용을 추가한 것임을 밝힙니다. Contents Human langauge and word meaning Word2vec Gensim library를 이용한 Word2vec 1. Human langauge and word meaning When we study human language, we are approaching what some might call the “human essence,” the distinctive qualities of mind that are, so far as we know, unique to man. @ NOAM CHOMSKY, Language and Mi..
All about GPT-2 : 이론부터 fine-tuning까지(2) 지난 포스트에서는 GPT-2의 이론과 구조에 대해 설명했습니다. 2020/07/23 - [Natural Language Processing] - All about GPT-2 : 이론부터 fine-tuning까지(1) 이번 포스트에서는 영어 교과서 코퍼스를 이용하여 gpt-2를 finetuning하는 법에 대해 다룹니다. 비교를 위해 pre-trained된 모델을 사용한 결과와 비교할 것입니다. 목차는 다음과 같습니다. What is GPT-2 언어 모델(Language Model) Transformers for Language Modeling Bert vs GPT-2 Architecture : gpt-2의 구조 Byte Pair Encoding, BPE Input Encoding : Positional ..
All about GPT-2 : 이론부터 fine-tuning까지(1) OpenAI의 GPT-2는 NLG(Natural Language Generation)에서 가장 탁월한 성능을 보인다고 알려져 있습니다. 소설을 작성하는 데모를 제공함으로써 그 뛰어난 능력을 세상에 알렸죠. 그래서 흔히 소설쓰는 인공지능 모델이라고 많이 불립니다. 본 포스트에서는 GPT-2의 이론과 구조를 이해한 뒤, 이를 사용해보는 것을 목표로 합니다. 단순히 pre-trained된 모델을 돌려보는 것만에서 그치지 않고 fine-tuning하는 법까지 차근차근 적어보겠습니다. 목차는 다음과 같습니다. What is GPT-2 언어 모델(Language Model) Transformers for Language Modeling Bert vs GPT-2 Architecture : gpt-2의 구조 Byte ..
[Python3] hwp 파일 글상자 내 텍스트 추출하기 대량의 코퍼스를 수집하다보면 다양한 형식의 파일을 수집하게 됩니다. 파일의 형식은 대부분 텍스트 파일(.txt)로 통일하여 합칩니다. 그런데, 다른 형식의 파일들과 달리 문제가 되는 아이가 있습니다: 한글(hwp)!!! 이전 포스트에서 이를 pyhwp를 사용해 txt 파일로 변환하는 방법을 알아보았습니다. 2020/06/13 - [Data handling/한글(hwp) 파일 핸들링] - [pyhwp] Python3으로 한글(hwp)파일 txt로 변환하기 feat. jupyter notebook 그런데, 큰 문제가 하나 생겼습니다. pyhwp는 전체 선택(ctrl+A)를 했을 때 선택이 되는 텍스트만을 txt 파일로 변환해줍니다. 그런데, 보시다 시피 글상자 내의 텍스트 파일은 전체 선택(ctrl+A)로 ..
[pyhwp] Python3으로 한글(hwp)파일 txt로 변환하기 feat. jupyter notebook 대량의 코퍼스를 수집하다 보면 다양한 형식의 파일을 수집하게 됩니다. 파일의 형식은 대부분 텍스트 파일(.txt)로 통일하여 합칩니다. 그런데, 다른 형식의 파일들과 달리 문제가 되는 아이가 있습니다: 한글(hwp) 파일!!!!!! hwp 안의 글을 파싱해서 가져와야 하는 경우, 단순히 read 함수로 읽으면 알아볼 수 없는 문자로 출력이 됩니다. 강제로 형식을 바꿔도 마찬가지입니다. 그렇다고 대용량 코퍼스를 모두 복사 붙여 넣기 하는 것은 말이 안 되죠. 한국의 많은 텍스트 데이터가 hwp로 되어있기에, 포기할 수도 없습니다. 따라서, 파이썬으로 내부에 있는 텍스트만 긁어오거나, 깨지지 않게 txt파일로 바꾸는 방법을 찾고 있었습니다. 그리고 마침내, Python3에서 hwp를 깨지지 않게 다양한 확장..
[Pandas] DataFrame의 수정과 삭제 DataFrame의 칼럼 데이터 세트 생성과 수정 DataFrame에 새로운 칼럼을 추가하는 방법은 파이썬 딕셔너리와 유사합니다. 다음과 같은 형태로 추가해주시면 됩니다: DataFrameName\['COL_NAME'] = Val 밑의 코드를 통해 한번 확인해봅시다! data = { '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'], '이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'], '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]} df = pd.DataFrame(data) # Dataframe에 새로운 칼럼 추가하기: 일괄적으로 0 df['키'] ..
[Pandas] 외부 데이터 읽기: csv, txt, json 외부 데이터 읽기 판다스는 CSV, txt, Excel, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터프레임을 생성할 수 있습니다. # 예시 1: csv 파일 읽기 data = pd.read_csv(r"C:\Users\user\OneDrive\바탕화면\Hyowon\Dataset\titanic\train.csv") read_csv(file_path, sep='') 데이터를 나누는 기준은 sep로 인자를 따로 넘겨줄 수 있습니다. read_csv 메서드는 특히 텍스트 파일을 다룰 때 유용합니다. 이렇게 읽어온 외부 데이터는 판다스에서 주어진 다양한 메서드를 통해 그 형태와 특성을 파악할 수 있습니다. 다음은 유용한 메서드들과 그에 대한 설명 및 코드입니다! data.head() , data.tai..
[Pandas] Series, DataFrame의 이해와 생성 What is Pandas import pandas as pd 판다스(Pandas)는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리입니다. 특히, 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리하고 데이터를 분석할 수 있는 다양한 기능들을 제공합니다. 판다스는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터뿐만 아니라 CSV, Excel, json 파일 등을 쉽게 DataFrame으로 변경해 데이터의 가공과 분석을 편리하게 수행할 수 있게 합니다. 판다스에는 3가지의 데이터 구조체가 있습니다: 1. DataFrame : 2차원 - # col 2. Series : 1차원 - 1 col 3. Pannel 이 중 판다스의 핵심 객체는 DataFrame입니다. 그리고 이를 온전히 ..

출처: https://privatedevelopnote.tistory.com/81 [개인노트]