반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리


반응형

16.1. Sentiment Analysis and the Dataset — Dive into Deep Learning 1.0.3 documentation (d2l.ai)

 

16.1. Sentiment Analysis and the Dataset — Dive into Deep Learning 1.0.3 documentation

 

d2l.ai

 

16.1. Sentiment Analysis and the Dataset

 

With the proliferation of online social media and review platforms, a plethora of opinionated data has been logged, bearing great potential for supporting decision making processes. Sentiment analysis studies people’s sentiments in their produced text, such as product reviews, blog comments, and forum discussions. It enjoys wide applications to fields as diverse as politics (e.g., analysis of public sentiments towards policies), finance (e.g., analysis of sentiments of the market), and marketing (e.g., product research and brand management).

 

온라인 소셜 미디어와 리뷰 플랫폼이 확산되면서 수많은 의견이 있는 데이터가 기록되어 의사 결정 프로세스를 지원할 수 있는 큰 잠재력을 갖게 되었습니다. 감정 분석은 제품 리뷰, 블로그 댓글, 포럼 토론 등 생성된 텍스트에서 사람들의 감정을 연구합니다. 이는 정치(예: 정책에 대한 대중 정서 분석), 금융(예: 시장 정서 분석), 마케팅(예: 제품 연구 및 브랜드 관리) 등 다양한 분야에 폭넓게 적용됩니다.

 

Since sentiments can be categorized as discrete polarities or scales (e.g., positive and negative), we can consider sentiment analysis as a text classification task, which transforms a varying-length text sequence into a fixed-length text category. In this chapter, we will use Stanford’s large movie review dataset for sentiment analysis. It consists of a training set and a testing set, either containing 25000 movie reviews downloaded from IMDb. In both datasets, there are equal number of “positive” and “negative” labels, indicating different sentiment polarities.

 

감정은 별개의 극성 또는 척도(예: 긍정적 및 부정적)로 분류될 수 있으므로 감정 분석을 다양한 길이의 텍스트 시퀀스를 고정 길이의 텍스트 범주로 변환하는 텍스트 분류 작업으로 간주할 수 있습니다. 이 장에서는 감정 분석을 위해 Stanford의 대규모 영화 리뷰 데이터 세트를 사용합니다. 이는 IMDb에서 다운로드한 25,000개의 영화 리뷰를 포함하는 훈련 세트와 테스트 세트로 구성됩니다. 두 데이터세트 모두 동일한 수의 "긍정적" 레이블과 "부정적" 레이블이 있어 서로 다른 감정 극성을 나타냅니다.

 

import os
import torch
from torch import nn
from d2l import torch as d2l

 

16.1.1. Reading the Dataset

First, download and extract this IMDb review dataset in the path ../data/aclImdb.

 

먼저 ../data/aclImdb 경로에서 이 IMDb 검토 데이터 세트를 다운로드하고 추출합니다.

 

#@save
d2l.DATA_HUB['aclImdb'] = (d2l.DATA_URL + 'aclImdb_v1.tar.gz',
                          '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')

이 코드는 파이썬 프로그램으로, 주로 딥 러닝과 관련된 작업을 수행하는 데 사용됩니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. import 문을 통해 필요한 모듈을 가져옵니다:
    • os: 운영 체제 관련 기능을 사용할 수 있는 모듈입니다.
    • torch: 파이토치 딥 러닝 라이브러리입니다.
    • nn (torch의 하위 모듈인 torch.nn): 신경망 관련 기능을 포함한 모듈입니다.
    • d2l: "Dive into Deep Learning" 책의 예제 및 유틸리티 함수를 담고 있는 사용자 지정 라이브러리입니다. torch as d2l로 불러왔으므로 이후에 d2l을 사용하여 파이토치 관련 작업을 수행할 수 있습니다.
  2. d2l.DATA_HUB에 새 데이터 세트를 추가합니다:
    • d2l.DATA_HUB['aclImdb']에는 데이터 세트의 URL과 해시 값이 튜플로 저장되어 있습니다. 이 정보는 데이터를 다운로드하고 압축을 해제할 때 사용됩니다. 여기서는 IMDB 영화 리뷰 데이터 세트에 대한 정보가 저장되었습니다.
  3. data_dir 변수를 생성합니다:
    • d2l.download_extract() 함수를 사용하여 데이터 세트를 다운로드하고 압축을 해제한 후, 압축 해제된 데이터가 저장될 디렉터리 경로를 data_dir 변수에 저장합니다. 이때 'aclImdb'는 데이터 세트의 이름이며, 두 번째 'aclImdb'는 데이터가 압축 해제될 디렉터리 이름입니다.

즉, 이 코드는 IMDB 영화 리뷰 데이터 세트를 다운로드하고 압축을 해제하여 data_dir 디렉터리에 저장하는 작업을 수행합니다. 이 데이터는 후속 작업에서 자연어 처리나 감정 분석과 같은 NLP 작업에 활용될 수 있습니다.

 

aclImdb 압축 해제 후 볼 수 있는 폴더 구조.

 

 

Next, read the training and test datasets. Each example is a review and its label: 1 for “positive” and 0 for “negative”.

 

다음으로 훈련 및 테스트 데이터 세트를 읽습니다. 각 예는 리뷰이며 해당 라벨은 '긍정적'인 경우 1이고 '부정적인'인 경우 0입니다.

 

#@save
def read_imdb(data_dir, is_train):
    """Read the IMDb review dataset text sequences and labels."""
    data, labels = [], []
    for label in ('pos', 'neg'):
        folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                                   label)
        for file in os.listdir(folder_name):
            with open(os.path.join(folder_name, file), 'rb') as f:
                review = f.read().decode('utf-8').replace('\n', '')
                data.append(review)
                labels.append(1 if label == 'pos' else 0)
    return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('# trainings:', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
    print('label:', y, 'review:', x[:60])

 

이 코드는 IMDb 영화 리뷰 데이터셋의 텍스트 시퀀스와 레이블을 읽어오는 함수를 정의하고, 이를 활용하여 데이터를 읽고 출력하는 작업을 수행합니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. read_imdb(data_dir, is_train) 함수를 정의합니다:
    • 이 함수는 IMDb 영화 리뷰 데이터셋의 텍스트 시퀀스와 레이블을 읽어옵니다.
    • data_dir은 데이터가 저장된 디렉터리 경로이며, is_train은 훈련 데이터인지 여부를 나타냅니다.
  2. 데이터를 읽어오는 과정:
    • 먼저 긍정('pos')과 부정('neg') 리뷰에 대한 각각의 레이블을 순회합니다.
    • folder_name은 데이터가 저장된 디렉터리 경로를 나타냅니다. is_train 값에 따라 'train' 또는 'test' 디렉터리에서 데이터를 읽습니다.
    • 각 레이블 폴더 내의 파일을 순회하며 파일을 열고 내용을 읽어옵니다. 이 때 파일 내용을 UTF-8로 디코딩하고 개행 문자를 제거하여 리뷰 텍스트를 얻습니다.
    • 읽어온 리뷰와 해당 레이블(긍정인 경우 1, 부정인 경우 0)을 data와 labels 리스트에 추가합니다.
  3. train_data에 데이터를 읽어옵니다:
    • read_imdb() 함수를 사용하여 훈련 데이터를 읽어옵니다. data_dir는 앞서 정의한 데이터 디렉터리 경로이며, is_train=True로 설정하여 훈련 데이터를 읽습니다.
  4. 데이터 출력:
    • train_data의 길이를 출력하여 훈련 데이터의 총 개수를 보여줍니다.
    • 첫 번째 3개의 데이터 샘플에 대해서 레이블과 리뷰 일부를 출력합니다.

이 코드는 IMDb 영화 리뷰 데이터셋을 읽고, 데이터와 레이블을 추출하여 이를 활용할 수 있도록 하는 작업을 수행합니다.

 

# trainings: 25000
label: 1 review: Zentropa has much in common with The Third Man, another noir
label: 1 review: Zentropa is the most original movie I've seen in years. If y
label: 1 review: Lars Von Trier is never backward in trying out new technique

16.1.2. Preprocessing the Dataset

Treating each word as a token and filtering out words that appear less than 5 times, we create a vocabulary out of the training dataset.

 

각 단어를 토큰으로 처리하고 5번 미만으로 나타나는 단어를 필터링하여 훈련 데이터 세트에서 어휘를 생성합니다.

 

train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])

이 코드는 IMDb 영화 리뷰 텍스트 데이터를 토큰화하고 어휘 사전을 생성하는 작업을 수행합니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. train_data[0]에 있는 영화 리뷰 데이터를 토큰화합니다:
    • d2l.tokenize() 함수를 사용하여 영화 리뷰 텍스트를 토큰화합니다. train_data[0]에는 훈련 데이터의 리뷰 텍스트가 저장되어 있습니다.
    • token='word'는 단어 단위로 텍스트를 토큰화하라는 의미입니다.
  2. 어휘 사전을 생성합니다:
    • d2l.Vocab() 함수를 사용하여 어휘 사전을 생성합니다. 어휘 사전은 텍스트 데이터에서 사용되는 단어들을 숫자로 매핑하여 표현하는데 사용됩니다.
    • train_tokens는 토큰화된 훈련 데이터의 리스트입니다.
    • min_freq=5는 최소 빈도를 나타내며, 이 값보다 적게 등장한 단어는 어휘 사전에 포함되지 않습니다.
    • reserved_tokens=['<pad>']는 특정 단어를 어휘 사전에 예약하고 추가하는 역할을 합니다. 여기서는 <pad>라는 토큰을 예약하여 패딩을 위한 토큰으로 사용하고 있습니다.

즉, 이 코드는 훈련 데이터의 리뷰 텍스트를 단어 단위로 토큰화하고, 이 토큰들을 바탕으로 어휘 사전을 생성하는 작업을 수행합니다. 이렇게 생성된 어휘 사전은 텍스트 데이터를 숫자로 변환하여 모델이 이해하고 처리할 수 있도록 돕습니다.

 

After tokenization, let’s plot the histogram of review lengths in tokens.

 

토큰화 후에 리뷰 길이의 히스토그램을 토큰 단위로 그려보겠습니다.

 

d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));

이 코드는 영화 리뷰 데이터의 토큰 개수 분포를 히스토그램으로 시각화하는 작업을 수행합니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. d2l.set_figsize():
    • 그래프의 크기를 설정하는 함수입니다. 시각화 결과의 크기를 조절하는 역할을 합니다.
  2. d2l.plt.xlabel('# tokens per review'):
    • x축에 레이블을 설정하는 함수로, 그래프의 x축에 "리뷰 당 토큰 수"를 나타내는 레이블을 추가합니다.
  3. d2l.plt.ylabel('count'):
    • y축에 레이블을 설정하는 함수로, 그래프의 y축에 "개수"를 나타내는 레이블을 추가합니다.
  4. d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));:
    • 히스토그램을 그리는 함수로, train_tokens 리스트 내의 각 리뷰의 토큰 개수에 대한 히스토그램을 생성합니다.
    • len(line) for line in train_tokens는 train_tokens 리스트 내 각 리뷰의 토큰 개수를 나타냅니다.
    • bins=range(0, 1000, 50)는 히스토그램의 구간(bin)을 나타내며, 0부터 1000까지 50 단위로 나눈 범위를 사용합니다.

이 코드는 훈련 데이터 내의 각 리뷰에 대한 토큰 개수를 히스토그램으로 시각화하여, 리뷰의 길이 분포를 확인할 수 있도록 돕습니다. 이를 통해 리뷰 텍스트의 길이 특성을 이해하고 모델을 설계하는 데 도움을 줄 수 있습니다.

As we expected, the reviews have varying lengths. To process a minibatch of such reviews at each time, we set the length of each review to 500 with truncation and padding, which is similar to the preprocessing step for the machine translation dataset in Section 10.5.

 

예상한 대로 리뷰의 길이는 다양합니다. 매번 이러한 리뷰의 미니 배치를 처리하기 위해 섹션 10.5의 기계 번역 데이터 세트에 대한 전처리 단계와 유사하게 잘림 및 패딩을 사용하여 각 리뷰의 길이를 500으로 설정했습니다.

 

num_steps = 500  # sequence length
train_features = torch.tensor([d2l.truncate_pad(
    vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
print(train_features.shape)

이 코드는 토큰화된 영화 리뷰 데이터를 처리하여 시퀀스 길이를 맞추고 패딩을 적용하는 작업을 수행합니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. num_steps = 500:
    • 시퀀스 길이를 나타내는 변수로, 각 리뷰의 토큰 수를 최대 500개로 제한하고자 합니다.
  2. train_features = torch.tensor([...]):
    • 리스트 컴프리헨션을 사용하여 각 리뷰의 토큰을 처리하고 시퀀스 길이를 조절하는 작업을 수행합니다.
    • vocab[line]은 토큰화된 리뷰를 어휘 사전을 이용해 숫자로 변환한 결과입니다.
    • d2l.truncate_pad(...) 함수는 토큰 시퀀스를 주어진 시퀀스 길이로 자르거나 패딩을 적용하여 길이를 맞추는 역할을 합니다.
    • vocab['<pad>']는 패딩 토큰 '<pad>'의 숫자 표현을 나타냅니다.
  3. print(train_features.shape):
    • 변환된 데이터의 크기를 출력합니다. train_features는 토큰 시퀀스를 처리하여 시퀀스 길이를 맞추고 패딩을 적용한 결과로, 이 텐서의 형태를 출력합니다.

즉, 이 코드는 토큰화된 영화 리뷰 데이터를 어휘 사전을 활용하여 숫자 시퀀스로 변환하고, 시퀀스 길이를 맞추기 위해 패딩을 적용한 후, 그 결과의 형태를 출력하는 작업을 수행합니다. 이는 모델 학습을 위해 데이터를 준비하는 단계 중 하나입니다.

torch.Size([25000, 500])

print(train_features[:1])
tensor([[ 9590, 45841, 45793, 35404, 48194, 17311, 33838, 20000, 45544, 35301,
         35404, 23749, 18774, 29385, 32497, 23653, 28550, 15892, 32497, 30257,
         32554, 22945, 37421, 36449, 45586, 38202, 32497, 25457, 29744, 32207,
         48797, 49280, 47063, 36449, 45586, 35433, 15815, 19877, 41287,  9681,
         49252, 36145, 36705, 46106, 35259, 33408, 38345, 31265, 45650, 45793,
         38920, 32477, 45586, 35404, 28546, 49258,  9590, 45841, 18139, 45586,
         17647, 31580, 45586, 35404, 48482, 37015,  7401, 21639, 30257, 45610,
         28999, 35143, 18388, 45586, 19192, 19076, 45586, 16121,  8000,  7965,
         48194, 33163, 45932, 45586, 48616, 45743,  9590, 45841, 45586, 41374,
         48194, 17311, 45119, 37028, 45586, 46215, 31580, 36633, 37402, 18785,
         20982, 45564, 32165, 25523, 10115,  6597, 32452, 40859, 31580, 45556,
         18254, 32511, 42133, 31580, 45586, 29038, 32497, 39855, 34135, 49242,
         41831, 45586, 38736,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,
          3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680,  3680]])

 

 

16.1.3. Creating Data Iterators

 

Now we can create data iterators. At each iteration, a minibatch of examples are returned.

이제 데이터 반복자를 만들 수 있습니다. 각 반복마다 예제의 미니배치가 반환됩니다.
train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])), 64)

for X, y in train_iter:
    print('X:', X.shape, ', y:', y.shape)
    break
print('# batches:', len(train_iter))

이 코드는 데이터를 미니배치로 나누어 반복적으로 사용할 수 있도록 데이터 로더를 생성하는 작업을 수행합니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])), 64):
    • d2l.load_array(...) 함수를 사용하여 데이터를 로딩하고 미니배치로 나누는 데이터 로더를 생성합니다.
    • (train_features, torch.tensor(train_data[1]))는 입력 데이터와 해당 데이터의 레이블을 나타내는 튜플입니다.
    • 64는 미니배치 크기를 나타내며, 데이터를 64개의 샘플로 나누어 미니배치를 생성합니다.
  2. for X, y in train_iter::
    • train_iter를 반복하여 미니배치 데이터를 순회합니다.
    • 각 미니배치에서 X는 입력 데이터, y는 해당 데이터의 레이블을 나타냅니다.
  3. print('X:', X.shape, ', y:', y.shape):
    • 각 미니배치의 입력 데이터 X와 레이블 y의 크기를 출력합니다.
    • X.shape는 X의 형태(shape)를 나타내며, y.shape는 y의 형태를 나타냅니다.
  4. break:
    • 첫 번째 미니배치만 출력한 후 반복문을 종료합니다.
  5. print('# batches:', len(train_iter)):
    • 생성된 미니배치의 총 개수를 출력합니다.
    • len(train_iter)는 train_iter의 미니배치 개수를 나타냅니다.

즉, 이 코드는 데이터를 미니배치로 나누어주는 데이터 로더를 생성하고, 첫 번째 미니배치의 입력 데이터와 레이블을 출력하며, 생성된 미니배치의 총 개수를 출력하는 작업을 수행합니다. 이는 모델 학습 시 데이터를 효율적으로 처리하기 위한 단계 중 하나입니다.

X: torch.Size([64, 500]) , y: torch.Size([64])
# batches: 391

16.1.4. Putting It All Together

 

Last, we wrap up the above steps into the load_data_imdb function. It returns training and test data iterators and the vocabulary of the IMDb review dataset.

 

마지막으로 위의 단계를 load_data_imdb 함수로 마무리합니다. 훈련 및 테스트 데이터 반복자와 IMDb 검토 데이터 세트의 어휘를 반환합니다.

 

#@save
def load_data_imdb(batch_size, num_steps=500):
    """Return data iterators and the vocabulary of the IMDb review dataset."""
    data_dir = d2l.download_extract('aclImdb', 'aclImdb')
    train_data = read_imdb(data_dir, True)
    test_data = read_imdb(data_dir, False)
    train_tokens = d2l.tokenize(train_data[0], token='word')
    test_tokens = d2l.tokenize(test_data[0], token='word')
    vocab = d2l.Vocab(train_tokens, min_freq=5)
    train_features = torch.tensor([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
    test_features = torch.tensor([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in test_tokens])
    train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])),
                                batch_size)
    test_iter = d2l.load_array((test_features, torch.tensor(test_data[1])),
                               batch_size,
                               is_train=False)
    return train_iter, test_iter, vocab

이 코드는 IMDb 영화 리뷰 데이터셋을 처리하고 데이터 이터레이터와 어휘 사전을 생성하여 반환하는 함수를 정의합니다. 코드의 작동 방식을 단계별로 설명하겠습니다.

  1. 함수 시그니처 설명:
    • load_data_imdb(batch_size, num_steps=500): IMDb 리뷰 데이터셋의 데이터 이터레이터와 어휘 사전을 반환하는 함수입니다.
    • batch_size: 미니배치 크기를 나타내는 인자입니다.
    • num_steps: 시퀀스 길이를 나타내는 인자로, 기본값은 500입니다.
  2. 데이터 로딩 및 전처리:
    • 데이터를 다운로드하고 압축을 해제하여 데이터 디렉터리를 얻습니다.
    • read_imdb() 함수를 사용하여 훈련 데이터와 테스트 데이터를 읽어옵니다.
    • 각 데이터의 텍스트를 토큰화하여 토큰 시퀀스로 변환합니다.
  3. 어휘 사전 생성:
    • 훈련 데이터의 토큰을 이용하여 어휘 사전 vocab을 생성합니다. 단어의 최소 빈도는 min_freq=5로 설정됩니다.
  4. 시퀀스 길이 조절 및 패딩 적용:
    • 훈련 데이터와 테스트 데이터의 토큰 시퀀스를 시퀀스 길이로 자르거나 패딩을 적용하여 길이를 맞춥니다.
  5. 데이터 이터레이터 생성:
    • 훈련 데이터와 해당 레이블을 이용하여 훈련 데이터 이터레이터 train_iter를 생성합니다.
    • 테스트 데이터와 해당 레이블을 이용하여 테스트 데이터 이터레이터 test_iter를 생성합니다.
    • is_train=False로 설정하여 테스트 데이터를 로딩하는 것을 나타냅니다.
  6. 반환:
    • 생성된 훈련 데이터 이터레이터, 테스트 데이터 이터레이터, 그리고 어휘 사전을 반환합니다.

이 코드는 IMDb 리뷰 데이터셋을 처리하고 데이터 이터레이터를 생성하여 모델 학습에 활용할 수 있도록 하는 작업을 수행합니다.

 

16.1.5. Summary

  • Sentiment analysis studies people’s sentiments in their produced text, which is considered as a text classification problem that transforms a varying-length text sequence into a fixed-length text category.
  • 감정 분석은 생산된 텍스트에서 사람들의 감정을 연구하는데, 이는 다양한 길이의 텍스트 시퀀스를 고정 길이의 텍스트 범주로 변환하는 텍스트 분류 문제로 간주됩니다.
  • After preprocessing, we can load Stanford’s large movie review dataset (IMDb review dataset) into data iterators with a vocabulary.
  • 전처리 후에 Stanford의 대규모 영화 리뷰 데이터 세트(IMDb 리뷰 데이터 세트)를 어휘가 있는 데이터 반복기에 로드할 수 있습니다.

 

16.1.6. Exercises

  1. What hyperparameters in this section can we modify to accelerate training sentiment analysis models?
  2. Can you implement a function to load the dataset of Amazon reviews into data iterators and labels for sentiment analysis?

 

 

 

반응형