3.4. Linear Regression Implementation from Scratch — Dive into Deep Learning 1.0.3 documentation




We are now ready to work through a fully functioning implementation of linear regression. In this section, we will implement the entire method from scratch, including (i) the model; (ii) the loss function; (iii) a minibatch stochastic gradient descent optimizer; and (iv) the training function that stitches all of these pieces together. Finally, we will run our synthetic data generator from Section 3.3 and apply our model on the resulting dataset. While modern deep learning frameworks can automate nearly all of this work, implementing things from scratch is the only way to make sure that you really know what you are doing. Moreover, when it is time to customize models, defining our own layers or loss functions, understanding how things work under the hood will prove handy. In this section, we will rely only on tensors and automatic differentiation. Later, we will introduce a more concise implementation, taking advantage of the bells and whistles of deep learning frameworks while retaining the structure of what follows below.


이제 우리는 선형 회귀의 완전한 기능 구현을 통해 작업할 준비가 되었습니다. 이 섹션에서는 (i) 모델; (ii) 손실 함수; (iii) 미니배치 확률적 경사하강법 최적화기; (iv) 이 모든 부분을 하나로 묶는 훈련 기능. 마지막으로 섹션 3.3의 합성 데이터 생성기를 실행하고 결과 데이터 세트에 모델을 적용합니다. 최신 딥 러닝 프레임워크는 이 작업을 거의 모두 자동화할 수 있지만, 처음부터 구현하는 것이 현재 수행 중인 작업이 무엇인지 확실히 알 수 있는 유일한 방법입니다. 더욱이, 모델을 맞춤화하고 자체 레이어나 손실 기능을 정의해야 할 때 내부적으로 작동하는 방식을 이해하는 것이 도움이 될 것입니다. 이 섹션에서는 텐서와 자동 미분에만 의존합니다. 나중에 우리는 아래의 구조를 유지하면서 딥 러닝 프레임워크의 부가 기능을 활용하는 보다 간결한 구현을 소개할 것입니다.


%matplotlib inline
import torch
from d2l import torch as d2l



3.4.1. Defining the Model

Before we can begin optimizing our model’s parameters by minibatch SGD, we need to have some parameters in the first place. In the following we initialize weights by drawing random numbers from a normal distribution with mean 0 and a standard deviation of 0.01. The magic number 0.01 often works well in practice, but you can specify a different value through the argument sigma. Moreover we set the bias to 0. Note that for object-oriented design we add the code to the __init__ method of a subclass of d2l.Module (introduced in Section 3.2.2).


미니배치 SGD로 모델 매개변수 최적화를 시작하려면 먼저 몇 가지 매개변수가 필요합니다. 다음에서는 평균이 0이고 표준편차가 0.01인 정규분포에서 난수를 뽑아 가중치를 초기화합니다. 매직 넘버 0.01은 실제로 잘 작동하는 경우가 많지만 시그마 인수를 통해 다른 값을 지정할 수 있습니다. 또한 바이어스를 0으로 설정했습니다. 객체 지향 설계의 경우 d2l.Module 하위 클래스의 __init__ 메서드에 코드를 추가합니다(섹션 3.2.2에 소개됨).


class LinearRegressionScratch(d2l.Module):  #@save
    """The linear regression model implemented from scratch."""
    def __init__(self, num_inputs, lr, sigma=0.01):
        self.w = torch.normal(0, sigma, (num_inputs, 1), requires_grad=True)
        self.b = torch.zeros(1, requires_grad=True)


Next we must define our model, relating its input and parameters to its output. Using the same notation as (3.1.4) for our linear model we simply take the matrix–vector product of the input features X and the model weights w, and add the offset b to each example. The product Xw is a vector and b is a scalar. Because of the broadcasting mechanism (see Section 2.1.4), when we add a vector and a scalar, the scalar is added to each component of the vector. The resulting forward method is registered in the LinearRegressionScratch class via add_to_class (introduced in Section 3.2.1).


다음으로 입력과 매개변수를 출력과 연결하여 모델을 정의해야 합니다. 선형 모델에 대해 (3.1.4)와 동일한 표기법을 사용하여 입력 특성 X와 모델 가중치 w의 행렬-벡터 곱을 취하고 각 예에 오프셋 b를 추가합니다. 곱 Xw는 벡터이고 b는 스칼라입니다. 브로드캐스팅 메커니즘(섹션 2.1.4 참조)으로 인해 벡터와 스칼라를 추가하면 스칼라가 벡터의 각 구성 요소에 추가됩니다. 결과 전달 메서드는 add_to_class(섹션 3.2.1에 소개됨)를 통해 LinearRegressionScratch 클래스에 등록됩니다.


@d2l.add_to_class(LinearRegressionScratch)  #@save
def forward(self, X):
    return torch.matmul(X, self.w) + self.b



3.4.2. Defining the Loss Function

Since updating our model requires taking the gradient of our loss function, we ought to define the loss function first. Here we use the squared loss function in (3.1.5). In the implementation, we need to transform the true value y into the predicted value’s shape y_hat. The result returned by the following method will also have the same shape as y_hat. We also return the averaged loss value among all examples in the minibatch.


모델을 업데이트하려면 손실 함수의 기울기를 사용해야 하므로 손실 함수를 먼저 정의해야 합니다. 여기에서는 (3.1.5)의 제곱 손실 함수를 사용합니다. 구현에서는 실제 값 y를 예측 값의 모양 y_hat로 변환해야 합니다. 다음 메서드에서 반환된 결과도 y_hat과 동일한 모양을 갖습니다. 또한 미니배치의 모든 예제 중에서 평균 손실 값을 반환합니다.


3.4.3. Defining the Optimization Algorithm

As discussed in Section 3.1, linear regression has a closed-form solution. However, our goal here is to illustrate how to train more general neural networks, and that requires that we teach you how to use minibatch SGD. Hence we will take this opportunity to introduce your first working example of SGD. At each step, using a minibatch randomly drawn from our dataset, we estimate the gradient of the loss with respect to the parameters. Next, we update the parameters in the direction that may reduce the loss.


섹션 3.1에서 설명한 것처럼 선형 회귀에는 닫힌 형식의 솔루션이 있습니다. 그러나 여기서 우리의 목표는 보다 일반적인 신경망을 훈련하는 방법을 설명하는 것이며 이를 위해서는 미니배치 SGD를 사용하는 방법을 가르쳐야 합니다. 따라서 이번 기회에 SGD의 첫 번째 실제 사례를 소개하겠습니다. 각 단계에서 데이터세트에서 무작위로 추출된 미니배치를 사용하여 매개변수에 대한 손실 기울기를 추정합니다. 다음으로 손실을 줄일 수 있는 방향으로 매개변수를 업데이트합니다.


The following code applies the update, given a set of parameters, a learning rate lr. Since our loss is computed as an average over the minibatch, we do not need to adjust the learning rate against the batch size. In later chapters we will investigate how learning rates should be adjusted for very large minibatches as they arise in distributed large-scale learning. For now, we can ignore this dependency.


다음 코드는 학습률 lr이라는 매개변수 집합이 주어지면 업데이트를 적용합니다. 손실은 미니배치의 평균으로 계산되므로 배치 크기에 따라 학습률을 조정할 필요가 없습니다. 이후 장에서는 분산 대규모 학습에서 발생하는 매우 큰 미니 배치에 대해 학습 속도를 어떻게 조정해야 하는지 조사할 것입니다. 지금은 이 종속성을 무시해도 됩니다.


We define our SGD class, a subclass of d2l.HyperParameters (introduced in Section 3.2.1), to have a similar API as the built-in SGD optimizer. We update the parameters in the step method. The zero_grad method sets all gradients to 0, which must be run before a backpropagation step.


내장된 SGD 최적화 프로그램과 유사한 API를 갖도록 d2l.HyperParameters(섹션 3.2.1에서 소개)의 하위 클래스인 SGD 클래스를 정의합니다. step 메소드에서 매개변수를 업데이트합니다. zero_grad 메소드는 모든 그래디언트를 0으로 설정하며, 역전파 단계 전에 실행해야 합니다.


class SGD(d2l.HyperParameters):  #@save
    """Minibatch stochastic gradient descent."""
    def __init__(self, params, lr):

    def step(self):
        for param in self.params:
            param -= self.lr * param.grad

    def zero_grad(self):
        for param in self.params:
            if param.grad is not None:


We next define the configure_optimizers method, which returns an instance of the SGD class.


다음으로 SGD 클래스의 인스턴스를 반환하는configure_optimizers 메소드를 정의합니다.


@d2l.add_to_class(LinearRegressionScratch)  #@save
def configure_optimizers(self):
    return SGD([self.w, self.b], self.lr)



3.4.4. Training

Now that we have all of the parts in place (parameters, loss function, model, and optimizer), we are ready to implement the main training loop. It is crucial that you understand this code fully since you will employ similar training loops for every other deep learning model covered in this book. In each epoch, we iterate through the entire training dataset, passing once through every example (assuming that the number of examples is divisible by the batch size). In each iteration, we grab a minibatch of training examples, and compute its loss through the model’s training_step method. Then we compute the gradients with respect to each parameter. Finally, we will call the optimization algorithm to update the model parameters. In summary, we will execute the following loop:


이제 모든 부분(매개변수, 손실 함수, 모델 및 최적화 프로그램)이 준비되었으므로 기본 훈련 루프를 구현할 준비가 되었습니다. 이 책에서 다루는 다른 모든 딥러닝 모델에 대해 유사한 훈련 루프를 사용하게 되므로 이 코드를 완전히 이해하는 것이 중요합니다. 각 에포크에서 우리는 전체 교육 데이터 세트를 반복하여 모든 예시를 한 번 통과합니다(예제 수를 배치 크기로 나눌 수 있다고 가정). 각 반복에서 우리는 훈련 예제의 미니 배치를 잡고 모델의 training_step 방법을 통해 손실을 계산합니다. 그런 다음 각 매개변수에 대한 기울기를 계산합니다. 마지막으로 최적화 알고리즘을 호출하여 모델 매개변수를 업데이트합니다. 요약하면 다음 루프를 실행합니다.



Recall that the synthetic regression dataset that we generated in Section 3.3 does not provide a validation dataset. In most cases, however, we will want a validation dataset to measure our model quality. Here we pass the validation dataloader once in each epoch to measure the model performance. Following our object-oriented design, the prepare_batch and fit_epoch methods are registered in the d2l.Trainer class (introduced in Section 3.2.4).


섹션 3.3에서 생성한 합성 회귀 데이터세트는 검증 데이터세트를 제공하지 않는다는 점을 기억하세요. 그러나 대부분의 경우 모델 품질을 측정하기 위해 검증 데이터 세트가 필요합니다. 여기서는 모델 성능을 측정하기 위해 각 epoch마다 검증 데이터로더를 한 번씩 전달합니다. 객체 지향 설계에 따라 prepare_batch 및 fit_epoch 메소드는 d2l.Trainer 클래스에 등록됩니다(섹션 3.2.4에 소개됨).


@d2l.add_to_class(d2l.Trainer)  #@save
def prepare_batch(self, batch):
    return batch

@d2l.add_to_class(d2l.Trainer)  #@save
def fit_epoch(self):
    for batch in self.train_dataloader:
        loss = self.model.training_step(self.prepare_batch(batch))
        with torch.no_grad():
            if self.gradient_clip_val > 0:  # To be discussed later
                self.clip_gradients(self.gradient_clip_val, self.model)
        self.train_batch_idx += 1
    if self.val_dataloader is None:
    for batch in self.val_dataloader:
        with torch.no_grad():
        self.val_batch_idx += 1


We are almost ready to train the model, but first we need some training data. Here we use the SyntheticRegressionData class and pass in some ground truth parameters. Then we train our model with the learning rate lr=0.03 and set max_epochs=3. Note that in general, both the number of epochs and the learning rate are hyperparameters. In general, setting hyperparameters is tricky and we will usually want to use a three-way split, one set for training, a second for hyperparameter selection, and the third reserved for the final evaluation. We elide these details for now but will revise them later.


모델을 훈련할 준비가 거의 완료되었지만 먼저 훈련 데이터가 필요합니다. 여기서는 SyntheticRegressionData 클래스를 사용하고 일부 실제 매개변수를 전달합니다. 그런 다음 학습률 lr=0.03으로 모델을 훈련하고 max_epochs=3으로 설정합니다. 일반적으로 에포크 수와 학습 속도는 모두 하이퍼파라미터입니다. 일반적으로 하이퍼파라미터를 설정하는 것은 까다로우며 일반적으로 3방향 분할을 사용하여 한 세트는 훈련용, 두 번째는 하이퍼파라미터 선택용, 세 번째는 최종 평가용으로 예약합니다. 지금은 이러한 세부 사항을 생략하고 나중에 수정하겠습니다.


model = LinearRegressionScratch(2, lr=0.03)
data = d2l.SyntheticRegressionData(w=torch.tensor([2, -3.4]), b=4.2)
trainer = d2l.Trainer(max_epochs=3)
trainer.fit(model, data)



Because we synthesized the dataset ourselves, we know precisely what the true parameters are. Thus, we can evaluate our success in training by comparing the true parameters with those that we learned through our training loop. Indeed they turn out to be very close to each other.


우리는 데이터세트를 직접 합성했기 때문에 실제 매개변수가 무엇인지 정확하게 알고 있습니다. 따라서 실제 매개변수와 훈련 루프를 통해 배운 매개변수를 비교하여 훈련 성공 여부를 평가할 수 있습니다. 실제로 그들은 서로 매우 가까운 것으로 밝혀졌습니다.


with torch.no_grad():
    print(f'error in estimating w: {data.w - model.w.reshape(data.w.shape)}')
    print(f'error in estimating b: {data.b - model.b}')


error in estimating w: tensor([ 0.1408, -0.1493])
error in estimating b: tensor([0.2130])


We should not take the ability to exactly recover the ground truth parameters for granted. In general, for deep models unique solutions for the parameters do not exist, and even for linear models, exactly recovering the parameters is only possible when no feature is linearly dependent on the others. However, in machine learning, we are often less concerned with recovering true underlying parameters, but rather with parameters that lead to highly accurate prediction (Vapnik, 1992). Fortunately, even on difficult optimization problems, stochastic gradient descent can often find remarkably good solutions, owing partly to the fact that, for deep networks, there exist many configurations of the parameters that lead to highly accurate prediction.


우리는 실측 매개변수를 정확하게 복구하는 능력을 당연하게 여겨서는 안 됩니다. 일반적으로 심층 모델의 경우 매개변수에 대한 고유한 솔루션이 존재하지 않으며 선형 모델의 경우에도 다른 기능에 선형적으로 종속되는 기능이 없는 경우에만 매개변수를 정확하게 복구하는 것이 가능합니다. 그러나 기계 학습에서 우리는 실제 기본 매개 변수를 복구하는 것보다 매우 정확한 예측으로 이어지는 매개 변수에 관심을 두는 경우가 많습니다(Vapnik, 1992). 다행스럽게도 어려운 최적화 문제에서도 확률적 경사하강법은 종종 매우 좋은 솔루션을 찾을 수 있는데, 이는 부분적으로 심층 네트워크의 경우 매우 정확한 예측으로 이어지는 매개변수의 많은 구성이 존재한다는 사실 때문입니다.


3.4.5. Summary


In this section, we took a significant step towards designing deep learning systems by implementing a fully functional neural network model and training loop. In this process, we built a data loader, a model, a loss function, an optimization procedure, and a visualization and monitoring tool. We did this by composing a Python object that contains all relevant components for training a model. While this is not yet a professional-grade implementation it is perfectly functional and code like this could already help you to solve small problems quickly. In the coming sections, we will see how to do this both more concisely (avoiding boilerplate code) and more efficiently (using our GPUs to their full potential).


이 섹션에서는 완전한 기능을 갖춘 신경망 모델과 훈련 루프를 구현하여 딥러닝 시스템을 설계하는 중요한 단계를 밟았습니다. 이 과정에서 우리는 데이터 로더, 모델, 손실 함수, 최적화 절차, 시각화 및 모니터링 도구를 구축했습니다. 우리는 모델 훈련을 위한 모든 관련 구성요소를 포함하는 Python 객체를 구성하여 이를 수행했습니다. 아직 전문가 수준의 구현은 아니지만 완벽하게 기능하며 이와 같은 코드는 이미 작은 문제를 신속하게 해결하는 데 도움이 될 수 있습니다. 다음 섹션에서는 이 작업을 보다 간결하게(보일러플레이트 코드 방지), 보다 효율적으로(GPU를 최대한 활용하는 방법) 수행하는 방법을 살펴보겠습니다.


3.4.6. Exercises






3.3. Synthetic Regression Data — Dive into Deep Learning 1.0.3 documentation




Machine learning is all about extracting information from data. So you might wonder, what could we possibly learn from synthetic data? While we might not care intrinsically about the patterns that we ourselves baked into an artificial data generating model, such datasets are nevertheless useful for didactic purposes, helping us to evaluate the properties of our learning algorithms and to confirm that our implementations work as expected. For example, if we create data for which the correct parameters are known a priori, then we can check that our model can in fact recover them.


머신러닝은 데이터에서 정보를 추출하는 것입니다. 그렇다면 합성 데이터에서 무엇을 배울 수 있을지 궁금할 것입니다. 우리는 인공 데이터 생성 모델에 직접 적용한 패턴에 본질적으로 관심을 두지 않을 수도 있지만 그럼에도 불구하고 이러한 데이터 세트는 교훈적인 목적으로 유용하며 학습 알고리즘의 속성을 평가하고 구현이 예상대로 작동하는지 확인하는 데 도움이 됩니다. 예를 들어, 올바른 매개변수가 선험적으로 알려진 데이터를 생성하는 경우 모델이 실제로 해당 매개변수를 복구할 수 있는지 확인할 수 있습니다.


%matplotlib inline
import random
import torch
from d2l import torch as d2l



3.3.1. Generating the Dataset

For this example, we will work in low dimension for succinctness. The following code snippet generates 1000 examples with 2-dimensional features drawn from a standard normal distribution. The resulting design matrix X belongs to **1000×2. We generate each label by applying a ground truth linear function, corrupting them via additive noise ϵ , drawn independently and identically for each example:


이 예에서는 간결성을 위해 낮은 차원에서 작업하겠습니다. 다음 코드 조각은 표준 정규 분포에서 추출된 2차원 특징을 사용하여 1000개의 예를 생성합니다. 결과 설계 행렬 X는 ℝ **1000×2에 속합니다. 우리는 Ground Truth 선형 함수를 적용하여 각 라벨을 생성하고, 각 예에 대해 독립적이고 동일하게 그려진 추가 노이즈 ϵ 를 통해 라벨을 손상시킵니다.



For convenience we assume that ϵ  is drawn from a normal distribution with mean μ =0 and standard deviation σ =0.01. Note that for object-oriented design we add the code to the __init__ method of a subclass of d2l.DataModule (introduced in Section 3.2.3). It is good practice to allow the setting of any additional hyperparameters. We accomplish this with save_hyperparameters(). The batch_size will be determined later.


편의상 ϵ는 평균 μ =0이고 표준편차 σ =0.01인 정규 분포에서 도출되었다고 가정합니다. 객체 지향 설계의 경우 d2l.DataModule 하위 클래스의 __init__ 메서드에 코드를 추가합니다(섹션 3.2.3에 소개됨). 추가 하이퍼파라미터 설정을 허용하는 것이 좋습니다. save_hyperparameters()를 사용하여 이를 수행합니다. Batch_size는 나중에 결정됩니다.


class SyntheticRegressionData(d2l.DataModule):  #@save
    """Synthetic data for linear regression."""
    def __init__(self, w, b, noise=0.01, num_train=1000, num_val=1000,
        n = num_train + num_val
        self.X = torch.randn(n, len(w))
        noise = torch.randn(n, 1) * noise
        self.y = torch.matmul(self.X, w.reshape((-1, 1))) + b + noise


Below, we set the true parameters to w=[2,−3.4]⊤ and b=4.2. Later, we can check our estimated parameters against these ground truth values.


아래에서는 실제 매개변수를 w=[2,−3.4]⊤ 및 b=4.2로 설정했습니다. 나중에 이러한 실제 값과 비교하여 추정된 매개변수를 확인할 수 있습니다.


data = SyntheticRegressionData(w=torch.tensor([2, -3.4]), b=4.2)


Each row in features consists of a vector in ℝ**2 and each row in labels is a scalar. Let’s have a look at the first entry.


특성의 각 행은 ℝ**2의 벡터로 구성되고 레이블의 각 행은 스칼라입니다. 첫 번째 항목을 살펴보겠습니다.


print('features:', data.X[0],'\nlabel:', data.y[0])
features: tensor([0.9026, 1.0264])
label: tensor([2.5148])


3.3.2. Reading the Dataset

Training machine learning models often requires multiple passes over a dataset, grabbing one minibatch of examples at a time. This data is then used to update the model. To illustrate how this works, we implement the get_dataloader method, registering it in the SyntheticRegressionData class via add_to_class (introduced in Section 3.2.1). It takes a batch size, a matrix of features, and a vector of labels, and generates minibatches of size batch_size. As such, each minibatch consists of a tuple of features and labels. Note that we need to be mindful of whether we’re in training or validation mode: in the former, we will want to read the data in random order, whereas for the latter, being able to read data in a pre-defined order may be important for debugging purposes.


기계 학습 모델을 훈련하려면 한 번에 하나의 미니 배치 예제를 가져오는 데이터 세트에 대한 여러 번의 전달이 필요한 경우가 많습니다. 그런 다음 이 데이터는 모델을 업데이트하는 데 사용됩니다. 이것이 어떻게 작동하는지 설명하기 위해 get_dataloader 메소드를 구현하고 이를 add_to_class를 통해 SyntheticRegressionData 클래스에 등록합니다(섹션 3.2.1에 소개됨). 배치 크기, 기능 매트릭스, 레이블 벡터를 사용하고 배치_크기 크기의 미니 배치를 생성합니다. 따라서 각 미니 배치는 기능과 레이블의 튜플로 구성됩니다. 훈련 모드에 있는지 검증 모드에 있는지 주의해야 합니다. 전자에서는 데이터를 무작위 순서로 읽으려는 반면, 후자의 경우 미리 정의된 순서로 데이터를 읽을 수 있으면 디버깅 목적으로 중요합니다.


def get_dataloader(self, train):
    if train:
        indices = list(range(0, self.num_train))
        # The examples are read in random order
        indices = list(range(self.num_train, self.num_train+self.num_val))
    for i in range(0, len(indices), self.batch_size):
        batch_indices = torch.tensor(indices[i: i+self.batch_size])
        yield self.X[batch_indices], self.y[batch_indices]



To build some intuition, let’s inspect the first minibatch of data. Each minibatch of features provides us with both its size and the dimensionality of input features. Likewise, our minibatch of labels will have a matching shape given by batch_size.


직관력을 키우기 위해 첫 번째 데이터 미니 배치를 살펴보겠습니다. 각 기능의 미니 배치는 입력 기능의 크기와 차원을 모두 제공합니다. 마찬가지로, 우리의 라벨 미니 배치는 배치_크기에 따라 일치하는 모양을 갖습니다.


X, y = next(iter(data.train_dataloader()))
print('X shape:', X.shape, '\ny shape:', y.shape)
X shape: torch.Size([32, 2])
y shape: torch.Size([32, 1])


While seemingly innocuous, the invocation of iter(data.train_dataloader()) illustrates the power of Python’s object-oriented design. Note that we added a method to the SyntheticRegressionData class after creating the data object. Nonetheless, the object benefits from the ex post facto addition of functionality to the class.


겉으로는 무해해 보이지만 iter(data.train_dataloader())의 호출은 Python의 객체 지향 설계의 힘을 보여줍니다. 데이터 객체를 생성한 후 SyntheticRegressionData 클래스에 메서드를 추가했습니다. 그럼에도 불구하고 객체는 사후에 클래스에 기능을 추가함으로써 이점을 얻습니다.


Throughout the iteration we obtain distinct minibatches until the entire dataset has been exhausted (try this). While the iteration implemented above is good for didactic purposes, it is inefficient in ways that might get us into trouble with real problems. For example, it requires that we load all the data in memory and that we perform lots of random memory access. The built-in iterators implemented in a deep learning framework are considerably more efficient and they can deal with sources such as data stored in files, data received via a stream, and data generated or processed on the fly. Next let’s try to implement the same method using built-in iterators.


반복을 통해 전체 데이터 세트가 소진될 때까지 별도의 미니 배치를 얻습니다(이것을 시도하십시오). 위에 구현된 반복은 교훈적인 목적으로는 좋지만 실제 문제를 해결할 수 있다는 점에서는 비효율적입니다. 예를 들어, 모든 데이터를 메모리에 로드하고 많은 무작위 메모리 액세스를 수행해야 합니다. 딥 러닝 프레임워크에 구현된 내장 반복자는 훨씬 더 효율적이며 파일에 저장된 데이터, 스트림을 통해 수신된 데이터, 즉석에서 생성되거나 처리되는 데이터와 같은 소스를 처리할 수 있습니다. 다음으로 내장된 반복자를 사용하여 동일한 메서드를 구현해 보겠습니다.


3.3.3. Concise Implementation of the Data Loade


Rather than writing our own iterator, we can call the existing API in a framework to load data. As before, we need a dataset with features X and labels y. Beyond that, we set batch_size in the built-in data loader and let it take care of shuffling examples efficiently.


자체 반복자를 작성하는 대신 프레임워크에서 기존 API를 호출하여 데이터를 로드할 수 있습니다. 이전과 마찬가지로 특성 X와 레이블 y가 있는 데이터 세트가 필요합니다. 그 외에도 내장 데이터 로더에서 배치_크기를 설정하고 셔플링 예제를 효율적으로 처리하도록 했습니다.


@d2l.add_to_class(d2l.DataModule)  #@save
def get_tensorloader(self, tensors, train, indices=slice(0, None)):
    tensors = tuple(a[indices] for a in tensors)
    dataset = torch.utils.data.TensorDataset(*tensors)
    return torch.utils.data.DataLoader(dataset, self.batch_size,

@d2l.add_to_class(SyntheticRegressionData)  #@save
def get_dataloader(self, train):
    i = slice(0, self.num_train) if train else slice(self.num_train, None)
    return self.get_tensorloader((self.X, self.y), train, i)



The new data loader behaves just like the previous one, except that it is more efficient and has some added functionality.


새로운 데이터 로더는 더 효율적이고 몇 가지 추가 기능이 있다는 점을 제외하면 이전 데이터 로더와 동일하게 작동합니다.


X, y = next(iter(data.train_dataloader()))
print('X shape:', X.shape, '\ny shape:', y.shape)
X shape: torch.Size([32, 2])
y shape: torch.Size([32, 1])


For instance, the data loader provided by the framework API supports the built-in __len__ method, so we can query its length, i.e., the number of batches.


예를 들어 프레임워크 API에서 제공하는 데이터 로더는 내장된 __len__ 메서드를 지원하므로 해당 길이, 즉 배치 수를 쿼리할 수 있습니다.




3.3.4. Summary

Data loaders are a convenient way of abstracting out the process of loading and manipulating data. This way the same machine learning algorithm is capable of processing many different types and sources of data without the need for modification. One of the nice things about data loaders is that they can be composed. For instance, we might be loading images and then have a postprocessing filter that crops them or modifies them in other ways. As such, data loaders can be used to describe an entire data processing pipeline.


데이터 로더는 데이터 로드 및 조작 프로세스를 추상화하는 편리한 방법입니다. 이러한 방식으로 동일한 기계 학습 알고리즘은 수정 없이도 다양한 유형과 데이터 소스를 처리할 수 있습니다. 데이터 로더의 좋은 점 중 하나는 구성이 가능하다는 것입니다. 예를 들어 이미지를 로드한 다음 이미지를 자르거나 다른 방식으로 수정하는 후처리 필터를 사용할 수 있습니다. 따라서 데이터 로더를 사용하여 전체 데이터 처리 파이프라인을 설명할 수 있습니다.


As for the model itself, the two-dimensional linear model is about the simplest we might encounter. It lets us test out the accuracy of regression models without worrying about having insufficient amounts of data or an underdetermined system of equations. We will put this to good use in the next section.


모델 자체에 관해서는 2차원 선형 모델이 우리가 접할 수 있는 가장 간단한 모델입니다. 이를 통해 데이터 양이 부족하거나 방정식 시스템이 불충분하게 결정되는 것에 대한 걱정 없이 회귀 모델의 정확성을 테스트할 수 있습니다. 다음 섹션에서 이를 잘 활용하겠습니다.


3.3.5. Exercises

  1. What will happen if the number of examples cannot be divided by the batch size. How would you change this behavior by specifying a different argument by using the framework’s API?
  2. Suppose that we want to generate a huge dataset, where both the size of the parameter vector w and the number of examples num_examples are large.
    1. What happens if we cannot hold all data in memory?
    2. How would you shuffle the data if it is held on disk? Your task is to design an efficient algorithm that does not require too many random reads or writes. Hint: pseudorandom permutation generators allow you to design a reshuffle without the need to store the permutation table explicitly (Naor and Reingold, 1999).
  3. Implement a data generator that produces new data on the fly, every time the iterator is called.
  4. How would you design a random data generator that generates the same data each time it is called?








In our introduction to linear regression, we walked through various components including the data, the model, the loss function, and the optimization algorithm. Indeed, linear regression is one of the simplest machine learning models. Training it, however, uses many of the same components that other models in this book require. Therefore, before diving into the implementation details it is worth designing some of the APIs that we use throughout. Treating components in deep learning as objects, we can start by defining classes for these objects and their interactions. This object-oriented design for implementation will greatly streamline the presentation and you might even want to use it in your projects.


선형 회귀 소개에서는 데이터, 모델, 손실 함수 및 최적화 알고리즘을 포함한 다양한 구성 요소를 살펴보았습니다. 실제로 선형 회귀는 가장 간단한 기계 학습 모델 중 하나입니다. 그러나 이를 훈련하는 데는 이 책의 다른 모델에 필요한 것과 동일한 구성 요소가 많이 사용됩니다. 따라서 구현 세부 사항을 살펴보기 전에 우리가 전체적으로 사용하는 일부 API를 설계하는 것이 좋습니다. 딥 러닝의 구성 요소를 객체로 처리하려면 이러한 객체와 해당 상호 작용에 대한 클래스를 정의하는 것부터 시작할 수 있습니다. 구현을 위한 이 객체 지향 디자인은 프레젠테이션을 크게 간소화하며 프로젝트에서 이를 사용하고 싶을 수도 있습니다.


Inspired by open-source libraries such as PyTorch Lightning, at a high level we wish to have three classes: (i) Module contains models, losses, and optimization methods; (ii) DataModule provides data loaders for training and validation; (iii) both classes are combined using the Trainer class, which allows us to train models on a variety of hardware platforms. Most code in this book adapts Module and DataModule. We will touch upon the Trainer class only when we discuss GPUs, CPUs, parallel training, and optimization algorithms.


PyTorch Lightning과 같은 오픈 소스 라이브러리에서 영감을 받아 높은 수준에서 우리는 세 가지 클래스를 갖고 싶습니다. (i) 모듈에는 모델, 손실 및 최적화 방법이 포함되어 있습니다. (ii) DataModule은 교육 및 검증을 위한 데이터 로더를 제공합니다. (iii) 두 클래스 모두 Trainer 클래스를 사용하여 결합되어 다양한 하드웨어 플랫폼에서 모델을 교육할 수 있습니다. 이 책에 나오는 대부분의 코드는 Module과 DataModule을 채택합니다. GPU, CPU, 병렬 훈련 및 최적화 알고리즘을 논의할 때만 Trainer 클래스를 다룰 것입니다.


D2L 모듈 인스톨이 안 되서 실행 못함

import time
import numpy as np
import torch
from torch import nn
from d2l import torch as d2l


3.2.1. Utilities

We need a few utilities to simplify object-oriented programming in Jupyter notebooks. One of the challenges is that class definitions tend to be fairly long blocks of code. Notebook readability demands short code fragments, interspersed with explanations, a requirement incompatible with the style of programming common for Python libraries. The first utility function allows us to register functions as methods in a class after the class has been created. In fact, we can do so even after we have created instances of the class! It allows us to split the implementation of a class into multiple code blocks.


Jupyter 노트북에서 객체 지향 프로그래밍을 단순화하려면 몇 가지 유틸리티가 필요합니다. 과제 중 하나는 클래스 정의가 상당히 긴 코드 블록인 경향이 있다는 것입니다. 노트북 가독성을 위해서는 설명이 산재된 짧은 코드 조각이 필요합니다. 이는 Python 라이브러리에 일반적인 프로그래밍 스타일과 호환되지 않는 요구 사항입니다. 첫 번째 유틸리티 함수를 사용하면 클래스가 생성된 후 함수를 클래스의 메서드로 등록할 수 있습니다. 사실, 클래스의 인스턴스를 생성한 후에도 그렇게 할 수 있습니다! 이를 통해 클래스 구현을 여러 코드 블록으로 분할할 수 있습니다.


def add_to_class(Class):  #@save
    """Register functions as methods in created class."""
    def wrapper(obj):
        setattr(Class, obj.__name__, obj)
    return wrapper


Let’s have a quick look at how to use it. We plan to implement a class A with a method do. Instead of having code for both A and do in the same code block, we can first declare the class A and create an instance a.


사용법을 간단히 살펴보겠습니다. 우리는 do 메소드를 사용하여 클래스 A를 구현할 계획입니다. A와 do에 대한 코드를 동일한 코드 블록에 두는 대신 먼저 클래스 A를 선언하고 인스턴스 a를 만들 수 있습니다.


class A:
    def __init__(self):
        self.b = 1

a = A()


Next we define the method do as we normally would, but not in class A’s scope. Instead, we decorate this method by add_to_class with class A as its argument. In doing so, the method is able to access the member variables of A just as we would expect had it been included as part of A’s definition. Let’s see what happens when we invoke it for the instance a.


다음으로 우리는 평소처럼 do 메서드를 정의하지만 클래스 A의 범위에서는 그렇지 않습니다. 대신, 클래스 A를 인수로 사용하여 add_to_class로 이 메소드를 장식합니다. 그렇게 함으로써, 메소드는 A의 정의의 일부로 포함되었을 때 예상했던 것처럼 A의 멤버 변수에 액세스할 수 있습니다. 인스턴스 a에 대해 호출하면 어떤 일이 발생하는지 살펴보겠습니다.


def do(self):
    print('Class attribute "b" is', self.b)



The second one is a utility class that saves all arguments in a class’s __init__ method as class attributes. This allows us to extend constructor call signatures implicitly without additional code.


두 번째는 클래스 속성으로 클래스의 __init__ 메서드에 있는 모든 인수를 저장하는 유틸리티 클래스입니다. 이를 통해 추가 코드 없이 생성자 호출 서명을 암시적으로 확장할 수 있습니다.


class HyperParameters:  #@save
    """The base class of hyperparameters."""
    def save_hyperparameters(self, ignore=[]):
        raise NotImplemented



We defer its implementation into Section 23.7. To use it, we define our class that inherits from HyperParameters and calls save_hyperparameters in the __init__ method.


우리는 그 구현을 섹션 23.7로 연기합니다. 이를 사용하려면 HyperParameters에서 상속하고 __init__ 메서드에서 save_hyperparameters를 호출하는 클래스를 정의합니다.


# Call the fully implemented HyperParameters class saved in d2l
class B(d2l.HyperParameters):
    def __init__(self, a, b, c):
        print('self.a =', self.a, 'self.b =', self.b)
        print('There is no self.c =', not hasattr(self, 'c'))

b = B(a=1, b=2, c=3)
self.a = 1 self.b = 2
There is no self.c = True


The final utility allows us to plot experiment progress interactively while it is going on. In deference to the much more powerful (and complex) TensorBoard we name it ProgressBoard. The implementation is deferred to Section 23.7. For now, let’s simply see it in action.


최종 유틸리티를 사용하면 실험이 진행되는 동안 대화식으로 실험 진행 상황을 플롯할 수 있습니다. 훨씬 더 강력하고 복잡한 TensorBoard를 존중하여 우리는 이를 ProgressBoard라고 명명합니다. 구현은 섹션 23.7로 연기됩니다. 지금은 실제로 작동하는 모습을 살펴보겠습니다.


The draw method plots a point (x, y) in the figure, with label specified in the legend. The optional every_n smooths the line by only showing 1/n points in the figure. Their values are averaged from the n neighbor points in the original figure.


draw 메소드는 범례에 지정된 레이블을 사용하여 그림의 점(x, y)을 플롯합니다. 선택적 Every_n은 그림에 1/n 지점만 표시하여 선을 매끄럽게 만듭니다. 해당 값은 원래 그림의 n개 이웃 점에서 평균을 냅니다.


class ProgressBoard(d2l.HyperParameters):  #@save
    """The board that plots data points in animation."""
    def __init__(self, xlabel=None, ylabel=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 ls=['-', '--', '-.', ':'], colors=['C0', 'C1', 'C2', 'C3'],
                 fig=None, axes=None, figsize=(3.5, 2.5), display=True):

    def draw(self, x, y, label, every_n=1):
        raise NotImplemented


In the following example, we draw sin and cos with a different smoothness. If you run this code block, you will see the lines grow in animation.


다음 예에서는 다른 부드러움으로 sin과 cos를 그립니다. 이 코드 블록을 실행하면 애니메이션에서 줄이 늘어나는 것을 볼 수 있습니다.


board = d2l.ProgressBoard('x')
for x in np.arange(0, 10, 0.1):
    board.draw(x, np.sin(x), 'sin', every_n=2)
    board.draw(x, np.cos(x), 'cos', every_n=10)

3.2.2. Models


The Module class is the base class of all models we will implement. At the very least we need three methods. The first, __init__, stores the learnable parameters, the training_step method accepts a data batch to return the loss value, and finally, configure_optimizers returns the optimization method, or a list of them, that is used to update the learnable parameters. Optionally we can define validation_step to report the evaluation measures. Sometimes we put the code for computing the output into a separate forward method to make it more reusable.


모듈 클래스는 우리가 구현할 모든 모델의 기본 클래스입니다. 최소한 세 가지 방법이 필요합니다. 첫 번째 __init__는 학습 가능한 매개변수를 저장하고, training_step 메서드는 데이터 배치를 받아 손실 값을 반환하며, 마지막으로configure_optimizers는 학습 가능한 매개변수를 업데이트하는 데 사용되는 최적화 메서드 또는 그 목록을 반환합니다. 선택적으로 평가 측정값을 보고하기 위해 유효성 검사 단계를 정의할 수 있습니다. 때때로 우리는 출력을 더 쉽게 재사용할 수 있도록 별도의 전달 메서드에 출력을 계산하는 코드를 넣습니다.


class Module(nn.Module, d2l.HyperParameters):  #@save
    """The base class of models."""
    def __init__(self, plot_train_per_epoch=2, plot_valid_per_epoch=1):
        self.board = ProgressBoard()

    def loss(self, y_hat, y):
        raise NotImplementedError

    def forward(self, X):
        assert hasattr(self, 'net'), 'Neural network is defined'
        return self.net(X)

    def plot(self, key, value, train):
        """Plot a point in animation."""
        assert hasattr(self, 'trainer'), 'Trainer is not inited'
        self.board.xlabel = 'epoch'
        if train:
            x = self.trainer.train_batch_idx / \
            n = self.trainer.num_train_batches / \
            x = self.trainer.epoch + 1
            n = self.trainer.num_val_batches / \
        self.board.draw(x, value.to(d2l.cpu()).detach().numpy(),
                        ('train_' if train else 'val_') + key,

    def training_step(self, batch):
        l = self.loss(self(*batch[:-1]), batch[-1])
        self.plot('loss', l, train=True)
        return l

    def validation_step(self, batch):
        l = self.loss(self(*batch[:-1]), batch[-1])
        self.plot('loss', l, train=False)

    def configure_optimizers(self):
        raise NotImplementedError



You may notice that Module is a subclass of nn.Module, the base class of neural networks in PyTorch. It provides convenient features for handling neural networks. For example, if we define a forward method, such as forward(self, X), then for an instance a we can invoke this method by a(X). This works since it calls the forward method in the built-in __call__ method. You can find more details and examples about nn.Module in Section 6.1.


Module은 PyTorch 신경망의 기본 클래스인 nn.Module의 하위 클래스라는 것을 알 수 있습니다. 신경망 처리에 편리한 기능을 제공합니다. 예를 들어, 전달(self, X)와 같은 전달 메서드를 정의하면 인스턴스 a에 대해 이 메서드를 a(X)로 호출할 수 있습니다. 이는 내장된 __call__ 메서드에서 전달 메서드를 호출하기 때문에 작동합니다. 섹션 6.1에서 nn.Module에 대한 자세한 내용과 예제를 확인할 수 있습니다.



3.2.3. Data

The DataModule class is the base class for data. Quite frequently the __init__ method is used to prepare the data. This includes downloading and preprocessing if needed. The train_dataloader returns the data loader for the training dataset. A data loader is a (Python) generator that yields a data batch each time it is used. This batch is then fed into the training_step method of Module to compute the loss. There is an optional val_dataloader to return the validation dataset loader. It behaves in the same manner, except that it yields data batches for the validation_step method in Module.


DataModule 클래스는 데이터의 기본 클래스입니다. 데이터를 준비하는 데 __init__ 메서드가 자주 사용됩니다. 여기에는 필요한 경우 다운로드 및 전처리가 포함됩니다. train_dataloader는 훈련 데이터 세트에 대한 데이터 로더를 반환합니다. 데이터 로더는 사용될 때마다 데이터 배치를 생성하는 (Python) 생성기입니다. 그런 다음 이 배치는 모듈의 training_step 메서드에 입력되어 손실을 계산합니다. 유효성 검사 데이터 세트 로더를 반환하는 선택적 val_dataloader가 있습니다. Module의 유효성 검사 단계 메서드에 대한 데이터 배치를 생성한다는 점을 제외하면 동일한 방식으로 작동합니다.


class DataModule(d2l.HyperParameters):  #@save
    """The base class of data."""
    def __init__(self, root='../data', num_workers=4):

    def get_dataloader(self, train):
        raise NotImplementedError

    def train_dataloader(self):
        return self.get_dataloader(train=True)

    def val_dataloader(self):
        return self.get_dataloader(train=False)


3.2.4. Training

The Trainer class trains the learnable parameters in the Module class with data specified in DataModule. The key method is fit, which accepts two arguments: model, an instance of Module, and data, an instance of DataModule. It then iterates over the entire dataset max_epochs times to train the model. As before, we will defer the implementation of this method to later chapters.


Trainer 클래스는 DataModule에 지정된 데이터를 사용하여 Module 클래스의 학습 가능한 매개변수를 교육합니다. 핵심 메소드는 fit입니다. 이는 Module의 인스턴스인 model과 DataModule의 인스턴스인 data라는 두 가지 인수를 허용합니다. 그런 다음 전체 데이터 세트 max_epochs 회를 반복하여 모델을 교육합니다. 이전과 마찬가지로 이 메서드의 구현은 이후 장으로 미루겠습니다.


class Trainer(d2l.HyperParameters):  #@save
    """The base class for training models with data."""
    def __init__(self, max_epochs, num_gpus=0, gradient_clip_val=0):
        assert num_gpus == 0, 'No GPU support yet'

    def prepare_data(self, data):
        self.train_dataloader = data.train_dataloader()
        self.val_dataloader = data.val_dataloader()
        self.num_train_batches = len(self.train_dataloader)
        self.num_val_batches = (len(self.val_dataloader)
                                if self.val_dataloader is not None else 0)

    def prepare_model(self, model):
        model.trainer = self
        model.board.xlim = [0, self.max_epochs]
        self.model = model

    def fit(self, model, data):
        self.optim = model.configure_optimizers()
        self.epoch = 0
        self.train_batch_idx = 0
        self.val_batch_idx = 0
        for self.epoch in range(self.max_epochs):

    def fit_epoch(self):
        raise NotImplementedError



3.2.5. Summary

To highlight the object-oriented design for our future deep learning implementation, the above classes simply show how their objects store data and interact with each other. We will keep enriching implementations of these classes, such as via @add_to_class, in the rest of the book. Moreover, these fully implemented classes are saved in the D2L library, a lightweight toolkit that makes structured modeling for deep learning easy. In particular, it facilitates reusing many components between projects without changing much at all. For instance, we can replace just the optimizer, just the model, just the dataset, etc.; this degree of modularity pays dividends throughout the book in terms of conciseness and simplicity (this is why we added it) and it can do the same for your own projects.


미래의 딥 러닝 구현을 위한 객체 지향 설계를 강조하기 위해 위 클래스에서는 객체가 데이터를 저장하고 서로 상호 작용하는 방법을 간단히 보여줍니다. 이 책의 나머지 부분에서는 @add_to_class를 통해 이러한 클래스의 구현을 계속 강화할 것입니다. 또한 완벽하게 구현된 이러한 클래스는 딥 러닝을 위한 구조화된 모델링을 쉽게 만들어주는 경량 툴킷인 D2L 라이브러리에 저장됩니다. 특히, 프로젝트 간에 많은 구성요소를 전혀 변경하지 않고도 재사용할 수 있습니다. 예를 들어, 옵티마이저만, 모델만, 데이터세트만 교체할 수 있습니다. 이러한 수준의 모듈화는 간결함과 단순성 측면에서 책 전반에 걸쳐 이점을 제공하며(이것이 우리가 이를 추가한 이유입니다) 귀하의 프로젝트에서도 동일한 작업을 수행할 수 있습니다.


3.2.6. Exercises

  1. Locate full implementations of the above classes that are saved in the D2L library. We strongly recommend that you look at the implementation in detail once you have gained some more familiarity with deep learning modeling.
  2. Remove the save_hyperparameters statement in the B class. Can you still print self.a and self.b? Optional: if you have dived into the full implementation of the HyperParameters class, can you explain why?






3. Linear Neural Networks for Regression

Before we worry about making our neural networks deep, it will be helpful to implement some shallow ones, for which the inputs connect directly to the outputs. This will prove important for a few reasons. First, rather than getting distracted by complicated architectures, we can focus on the basics of neural network training, including parametrizing the output layer, handling data, specifying a loss function, and training the model. Second, this class of shallow networks happens to comprise the set of linear models, which subsumes many classical methods of statistical prediction, including linear and softmax regression. Understanding these classical tools is pivotal because they are widely used in many contexts and we will often need to use them as baselines when justifying the use of fancier architectures. This chapter will focus narrowly on linear regression and the next one will extend our modeling repertoire by developing linear neural networks for classification.


신경망을 깊게 만드는 것에 대해 걱정하기 전에 입력이 출력에 직접 연결되는 얕은 신경망을 구현하는 것이 도움이 될 것입니다. 이는 몇 가지 이유로 중요할 것입니다. 첫째, 복잡한 아키텍처로 인해 산만해지기보다는 출력 레이어 매개변수화데이터 처리손실 함수 지정모델 훈련 등 신경망 훈련의 기본에 집중할 수 있습니다. 둘째, 이 얕은 네트워크 클래스는 선형 및 소프트맥스 회귀를 포함하여 많은 고전적인 통계 예측 방법을 포함하는 선형 모델 세트로 구성됩니다. 이러한 고전적인 도구는 다양한 상황에서 널리 사용되며 더 멋진 아키텍처의 사용을 정당화할 때 이를 기준으로 사용해야 하기 때문에 이를 이해하는 것이 매우 중요합니다. 이 장에서는 선형 회귀에 초점을 맞추고 다음 장에서는 분류를 위한 선형 신경망을 개발하여 모델링 레퍼토리를 확장합니다.


3.1. Linear Regression (선형 회귀)

- Regression (회귀) : 주어진 데이터 포인트 x에 해당하는 실제 값으로 주어지는 타겟 y를 예측하는 과제.

   예1) 주택가격, 주가, 기온, 판매량, 입원기간 예측 같은 연속된 값을 예측하는 문제

   예2) 주택가격 책정 - 면적, years, 이전 매매가격, 위치 등의 training data set (training set) 가 필요함

- 주로 숫자 값을 예측하려 할 때 나타남.

- Regression 문제와 구별되는 것은 discrete (이산적인) classification (구분) 문제가 있음 (소속을 예측하는 문제)


Terminology ***

Training Dataset (Training set) : Target y 를 구하기 위해 제공된는 데이터 x들을 일컫는 말 

Example (data point, instance, sample) : 한개의 데이터 포인트 x (row) .  (하나의 집)

Label (Target) : 우리가 예측 하려는 것. (집의 판매 가격)

Features (Covariates): 예측의 기반이 되는 변수들.(Label을 예측하기 위해 사용된 값)


이후 나오는 예제는 PYTORCH를 사용할 것임.




PyTorch is an open-source deep learning framework that provides a flexible and dynamic approach to building and training neural networks. It is widely used in the field of artificial intelligence (AI) and has gained popularity due to its ease of use and efficient computation capabilities.


PyTorch는 유연하고 동적인 방식으로 신경망을 구축하고 훈련할 수 있는 오픈 소스 딥러닝 프레임워크입니다. 인공지능(AI) 분야에서 널리 사용되며 사용 편의성과 효율적인 연산 능력으로 인기를 얻고 있습니다.


Here are some key features of PyTorch:

PyTorch의 주요 특징은 다음과 같습니다:

  1. Dynamic computation graph: PyTorch uses a dynamic computational graph, which allows you to define and modify the computation graph on the fly. This flexibility makes it easier to debug and experiment with different network architectures.
    동적 계산 그래프: PyTorch는 동적 계산 그래프를 사용하여 계산 그래프를 실시간으로 정의하고 수정할 수 있습니다. 이 유연성은 디버깅 및 다양한 네트워크 아키텍처 실험에 유용합니다.

  2. Automatic differentiation: PyTorch provides automatic differentiation, which means it can automatically compute gradients for you. Gradients are essential for optimizing neural networks using gradient descent-based algorithms such as backpropagation. The autograd package in PyTorch enables automatic differentiation, making it easier to train models.
    자동 미분: PyTorch는 자동 미분을 제공하여 자동으로 그래디언트를 계산할 수 있습니다. 그래디언트는 역전파와 같은 그래디언트 하강 기반 알고리즘을 사용하여 신경망을 최적화하는 데 필수적입니다. PyTorch의 autograd 패키지는 자동 미분을 가능하게 하며, 모델 훈련을 쉽게 할 수 있습니다.

  3. GPU acceleration: PyTorch supports seamless GPU acceleration for faster training and inference. It leverages the power of Graphics Processing Units (GPUs) to perform parallel computations, which significantly speeds up the training process for deep learning models.
    GPU 가속화: PyTorch는 빠른 훈련과 추론을 위해 매끄러운 GPU 가속을 지원합니다. GPU의 파워를 활용하여 병렬 계산을 수행하여 딥러닝 모델의 훈련 과정을 크게 가속화할 수 있습니다.

  4. Dynamic neural networks: With PyTorch, you can build dynamic neural networks that can change their architecture during runtime. This capability allows for the creation of complex models with variable input sizes, recurrent connections, and conditional branching.
    동적 신경망: PyTorch를 사용하면 런타임 중에 아키텍처를 변경할 수 있는 동적 신경망을 구축할 수 있습니다. 이 기능을 사용하여 변수 크기의 입력, 순환 연결 및 조건 분기를 포함한 복잡한 모델을 만들 수 있습니다.

  5. Rich ecosystem and community support: PyTorch has a vibrant community and provides extensive documentation, tutorials, and pre-trained models. It also integrates well with other popular libraries and frameworks, such as NumPy, SciPy, and scikit-learn.
    다양한 생태계와 커뮤니티 지원: PyTorch는 활발한 커뮤니티를 가지고 있으며, 상세한 문서, 튜토리얼 및 사전 훈련된 모델을 제공합니다. 또한 NumPy, SciPy, scikit-learn과 같은 인기있는 라이브러리와 프레임워크와 잘 통합됩니다.


Overall, PyTorch offers a user-friendly and intuitive interface for deep learning research and development. It provides a solid foundation for implementing various machine learning algorithms, including linear regression, convolutional neural networks (CNNs), recurrent neural networks (RNNs), and more.


전반적으로 PyTorch는 딥러닝 연구 및 개발에 사용자 친화적이고 직관적인 인터페이스를 제공합니다. 선형 회귀, 합성곱 신경망(CNN), 순환 신경망(RNN) 등 다양한 머신러닝 알고리즘을 구현하는 데 견고한 기반을 제공합니다.


첫번째 예제

%matplotlib inline
import math
import time
import numpy as np
import torch
from d2l import torch as d2l


코드 설명


The code snippet you provided imports necessary libraries and modules for working with PyTorch and the "d2l" library, which is a companion library for the book "Dive into Deep Learning."

제공한 코드 조각은 PyTorch 및 "Dive into Deep Learning"의 동반 라이브러리인 "d2l"을 사용하기 위한 필수 라이브러리 및 모듈을 가져옵니다.


Here is a breakdown of the code:

아래는 코드의 세부 내용을 설명한 것입니다:


  1. %matplotlib inline: This is a Jupyter Notebook magic command that enables the inline plotting of graphs within the notebook.
    %matplotlib inline: 이는 Jupyter Notebook의 매직 명령어로, 노트북 내에서 그래프를 인라인으로 표시할 수 있도록 합니다.

  2. import math: This imports the math module, which provides mathematical functions and constants.
    import math: math 모듈을 가져옵니다. 이 모듈은 수학 함수와 상수를 제공합니다.

  3. import time: This imports the time module, which allows you to measure and control the execution time of your code.
    import time: time 모듈을 가져옵니다. 이 모듈은 코드의 실행 시간을 측정하고 제어하는 기능을 제공합니다.

  4. import numpy as np: This imports the NumPy library, which provides support for efficient numerical computations and arrays.
    import numpy as np: NumPy 라이브러리를 가져옵니다. 이 라이브러리는 효율적인 수치 계산과 배열에 대한 지원 기능을 제공합니다.

  5. import torch: This imports the PyTorch library, which is the main focus of the code. It provides functionalities for building, training, and evaluating neural networks.
    import torch: PyTorch 라이브러리를 가져옵니다. 이 코드의 주요 대상입니다. PyTorch는 신경망을 구축하고 훈련하며 평가하는 데 필요한 기능을 제공합니다.

  6. from d2l import torch as d2l: This imports the d2l module from the "d2l" library. The "d2l" library is a collection of utility functions and custom layers specifically designed to accompany the book "Dive into Deep Learning." It provides convenient functions and utilities for working with PyTorch.
    from d2l import torch as d2l: "d2l" 라이브러리의 d2l 모듈을 가져옵니다. "d2l" 라이브러리는 "Dive into Deep Learning" 책과 함께 사용하기 위해 특별히 설계된 유틸리티 함수와 사용자 정의 레이어의 모음입니다. PyTorch와 함께 사용하기 위한 편리한 함수와 유틸리티를 제공합니다.

By executing this code, you ensure that the necessary libraries and modules are imported and available for use in the subsequent code snippets.

이 코드를 실행함으로써 필요한 라이브러리와 모듈이 가져와져서 이후의 코드 조각에서 사용할 수 있게 됩니다.


코드 실행 결과

pip install d2l==1.0.0-beta0
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting d2l==1.0.0-beta0
  Downloading d2l-1.0.0b0-py3-none-any.whl (141 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 141.6/141.6 kB 7.7 MB/s eta 0:00:00
Collecting jupyter (from d2l==1.0.0-beta0)
  Downloading jupyter-1.0.0-py2.py3-none-any.whl (2.7 kB)
Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from d2l==1.0.0-beta0) (1.22.4)
Requirement already satisfied: matplotlib in /usr/local/lib/python3.10/dist-packages (from d2l==1.0.0-beta0) (3.7.1)
Requirement already satisfied: matplotlib-inline in /usr/local/lib/python3.10/dist-packages (from d2l==1.0.0-beta0) (0.1.6)
Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from d2l==1.0.0-beta0) (2.27.1)
Requirement already satisfied: pandas in /usr/local/lib/python3.10/dist-packages (from d2l==1.0.0-beta0) (1.5.3)
Collecting gym==0.21.0 (from d2l==1.0.0-beta0)
  Downloading gym-0.21.0.tar.gz (1.5 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.5/1.5 MB 48.4 MB/s eta 0:00:00
  error: subprocess-exited-with-error
  × python setup.py egg_info did not run successfully.
  │ exit code: 1
  ╰─> See above for output.
  note: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (setup.py) ... error
error: metadata-generation-failed

× Encountered error while generating package metadata.
╰─> See above for output.

note: This is an issue with the package mentioned above, not pip.
%matplotlib inline
import math
import time
import numpy as np
import torch
from d2l import torch as d2l
ModuleNotFoundError                       Traceback (most recent call last)
<ipython-input-3-7a344dafd5da> in <cell line: 6>()
      4 import numpy as np
      5 import torch
----> 6 from d2l import torch as d2l

ModuleNotFoundError: No module named 'd2l'

NOTE: If your import is failing due to a missing package, you can
manually install dependencies using either !pip or !apt.

To view examples of installing some common dependencies, click the
"Open Examples" button below.

==> Local에서 시도해도 같은 결과임.


3.1.1. Basics

Linear regression is both the simplest and most popular among the standard tools for tackling regression problems. Dating back to the dawn of the 19th century (Gauss, 1809, Legendre, 1805), linear regression flows from a few simple assumptions.


선형 회귀는 회귀 문제를 해결하기 위한 표준 도구 중에서 가장 간단하고 널리 사용됩니다. 19세기 초(Gauss, 1809, Legendre, 1805)로 거슬러 올라가는 선형 회귀는 몇 가지 간단한 가정에서 시작되었습니다.


First, we assume that the relationship between features x and target y is approximately linear, i.e., that the conditional mean E[Y∣X=x] can be expressed as a weighted sum of the features x. This setup allows that the target value may still deviate from its expected value on account of observation noise.


먼저, 특징 features  x와 목표 target   y 사이의 관계가 대략 선형 linear 이라고 가정합니다. 즉, 조건부 평균 conditional mean  E[Y∣X=x]는 특징 x의 가중 합으로 표현될 수 있습니다. 이 설정을 사용하면 관찰 노이즈로 인해 목표 값이 여전히 예상 값에서 벗어날 수 있습니다.


Next, we can impose the assumption that any such noise is well behaved, following a Gaussian distribution. Typically, we will use n to denote the number of examples in our dataset. We use superscripts to enumerate samples and targets, and subscripts to index coordinates. More concretely, x**(i) denotes the i th sample and xj(i) denotes its jth coordinate.


다음으로, 가우스 분포에 따라 그러한 잡음이 잘 동작한다는 가정을 부과할 수 있습니다. 일반적으로 데이터 세트의 예제 수를 나타내기 위해 n을 사용합니다. 샘플과 타겟을 열거하기 위해 위 첨자를 사용하고, 인덱스 좌표에 아래 첨자를 사용합니다. 보다 구체적으로 x**(i)는 i번째 샘플을 나타내고 xj(i)는 해당 샘플의 j번째 좌표를 나타냅니다.


- Linear Regression은 가장 간단하면서도 가장 널리 이용되는 Regression 문제들을 해결하기 위한 표준 도구

- Linear Regression은 몇가지 간단한 가정들이 전제 된다.

 * features x 와 target y의 관계는 선형적이라고 가정한다.

 * 조건부 평균 E[Y|X=x] 는 features x 의 가중합 (weighted sum)으로 표현될 수 있음

 * 이 설정을 사용하면 관찰 노이즈로 인해 target 값이 expected 값에서 벗어날 수 있음

 * Gaussian distribution (정규분포)을 따르면 그러한 노이즈들이 올바르게 작동한는 가정을 할 수 있음

 * n을 사용하여 data set의 examples의 수를 나타낼 것임

 * 윗첨자 (superscript)를 사용하여 samples와 target을 표현할 것임

 * 아랫첨자(subscript)를 사용하여 인덱스 좌표를 나타내는데 사용할 것임

x(i) : 이것은 i 번째 sample임을 나타냄

x(i)j : 이것은 j번째 coordinate 임을 나타냄


Linear algebra (선형 대수학) 에서 선형성 (Linear) 란?

함수 에 대하여,

1. 가산성 (Additivity) : 임의의 ,에 대하여, 

2. 동치성 (Homogeneity) : 임의의 수 에 대하여, 

위 두 성질이 항상 성립할 때 함수 는 선형적이라고 한다.


조건부 평균 E[Y|X=x] 에 대하여.


In linear algebra, the notation E[Y|X=x] represents the conditional expectation of a random variable Y given that another random variable X takes on a specific value x. It is a concept from probability theory that relates to the expected value of a random variable under a specific condition.

선형 대수에서 E[Y|X=x] 표기는 조건부 기댓값을 의미합니다. 여기서 Y는 다른 랜덤 변수 X가 특정 값 x를 가질 때의 조건부 기댓값입니다. 이는 확률 이론에서 사용되는 개념으로, 특정 조건 하에서 랜덤 변수의 기댓값과 관련이 있습니다.


To break it down:

자세히 설명하면 다음과 같습니다:


  • E[Y|X] denotes the conditional expectation of Y given X.
  • E[Y|X]는 X가 주어졌을 때 Y의 조건부 기댓값을 나타냅니다.
  • x represents a specific value that X can take on.
  • x는 X가 가질 수 있는 특정 값입니다.

The expression E[Y|X=x] indicates that we are interested in the expected value of Y when X is fixed at the value x. It represents the average or expected value of Y when the condition X=x is satisfied.


표현식 E[Y|X=x]은 X가 값 x로 고정되었을 때의 Y의 기댓값을 의미합니다. 이는 조건 X=x가 만족되는 경우 Y의 평균값 또는 기댓값을 나타냅니다.


Conditional expectation allows us to analyze the relationship between two random variables and understand how the value of one variable influences the expected value of another variable when a certain condition is met.


조건부 기댓값은 두 개의 랜덤 변수 간의 관계를 분석하고, 특정 조건이 충족되었을 때 한 변수의 값이 다른 변수의 기댓값에 어떤 영향을 미치는지 이해하는 데 도움을 줍니다.



E[YX=x] 란?


수식 은 랜덤 변수 의 조건부 기대값을 나타냅니다. 여기에 나오는 표기법에 대한 설명은 다음과 같습니다:

  • : 기대값을 나타내며, 이는 확률 분포의 중심 또는 평균을 나타냅니다.
  • : 기대값을 찾고자 하는 랜덤 변수입니다.
  • : 수직 막대는 "주어진" 또는 "조건부"를 나타냅니다.
  • : 이것은 랜덤 변수 가 특정 값 를 가질 때의 시나리오를 나타냅니다.

따라서 는 "X가 특정 값 일 때의 의 조건부 기대값"으로 해석됩니다. 이는 우리가 가 특정 값 를 가질 때 가 가질 평균 값으로 생각할 수 있습니다.

조건부 기대값에 대한 이 수식은 주로 확률 이론과 통계에서 사용됩니다. 이 개념은 다른 랜덤 변수의 값에 조건을 걸었을 때, 기대값이 어떻게 변하는지 이해하는 데 중요합니다. 이는 랜덤 변수 간의 관계를 모델링하고 분석하는 데 필수적인 도구입니다.


What is Gaussian distribution?


The Gaussian distribution, also known as the normal distribution or bell curve, is a continuous probability distribution that is widely used in statistics and probability theory. It is characterized by its symmetric, bell-shaped curve when plotted on a graph.


가우시안 분포는 확률론과 통계학에서 널리 사용되는 연속형 확률 분포로, 정규 분포 또는 종모양 곡선으로도 알려져 있습니다. 그래프로 그릴 때는 대칭적이고 종 모양의 곡선으로 특징화됩니다.


Here are some key properties and characteristics of the Gaussian distribution:

가우시안 분포의 주요 특성과 특징은 다음과 같습니다:


  1. Shape: The Gaussian distribution has a symmetric shape, with the peak of the curve occurring at the mean (average) value. The curve is bell-shaped and tapers off gradually as it extends towards positive and negative infinity.
    형태: 가우시안 분포는 대칭적인 모양을 가지며, 곡선의 정점은 평균값(평균)에 해당합니다. 곡선은 종 모양이며, 양의 무한대와 음의 무한대로 갈수록 서서히 감소합니다.

  2. Central Limit Theorem: The Gaussian distribution plays a fundamental role in the Central Limit Theorem, which states that the sum or average of a large number of independent and identically distributed random variables tends to follow a Gaussian distribution, regardless of the underlying distribution of the individual variables.
    중심극한정리: 가우시안 분포는 중심극한정리에서 중요한 역할을 합니다. 중심극한정리는 독립적이고 동일하게 분포된 많은 수의 확률 변수의 합 또는 평균이 기본 분포와 상관없이 가우시안 분포를 따른다는 것을 말합니다.

  3. Parameters: The Gaussian distribution is defined by two parameters: the mean (μ) and the standard deviation (σ). The mean represents the center of the distribution, while the standard deviation determines the spread or dispersion of the data. The variance (σ^2) is the square of the standard deviation.
    파라미터: 가우시안 분포는 평균(μ)과 표준편차(σ) 두 가지 파라미터로 정의됩니다. 평균은 분포의 중심을 나타내고, 표준편차는 데이터의 분산이나 퍼짐 정도를 결정합니다. 분산(σ^2)은 표준편차의 제곱입니다.

  4. Probability Density Function (PDF): The probability density function of the Gaussian distribution is given by the formula:where e is the base of the natural logarithm.
    확률 밀도 함수 (PDF): 가우시안 분포의 확률 밀도 함수는 다음 수식으로 주어집니다:여기서 e는 자연로그의 밑을 나타냅니다.
    f(x) = (1 / √(2πσ^2)) * e^(-(x-μ)^2 / (2σ^2))
    여기서 e는 자연로그의 밑을 나타냅니다.

  5. Empirical Rule: The Gaussian distribution follows the Empirical Rule (also known as the 68-95-99.7 rule), which states that approximately 68% of the data falls within one standard deviation of the mean, about 95% falls within two standard deviations, and roughly 99.7% falls within three standard deviations.
    경험적 법칙: 가우시안 분포는 경험적 법칙(또는 68-95-99.7 법칙)을 따릅니다. 이 법칙에 따르면 대략 68%의 데이터가 평균에서 표준편차의 범위 내에 있으며, 약 95%는 평균에서 2배 표준편차의 범위 내에 있으며, 대략 99.7%는 평균에서 3배 표준편차의 범위 내에 있습니다.

  6. Applications: The Gaussian distribution is commonly used in various fields, including statistics, physics, finance, and engineering. It serves as an important assumption in many statistical models and methods, and it provides a foundation for performing statistical inference and hypothesis testing.
    응용: 가우시안 분포는 통계, 물리학, 금융, 공학 등 다양한 분야에서 널리 사용됩니다. 많은 통계 모델과 방법에서 중요한 가정이 되며, 통계적 추론과 가설 검정을 수행하는 데 기초를 제공합니다.

The Gaussian distribution is widely studied and utilized due to its mathematical tractability and its prevalence in natural and social phenomena. It serves as a useful tool for describing and analyzing random variables and their associated probabilities.


가우시안 분포는 수학적으로 다루기 쉽고 자연적이며 사회적 현상에서 많이 나타나기 때문에 널리 연구되고 활용됩니다. 확률 변수와 관련된 확률을 기술하고 분석하는 유용한 도구로 사용됩니다.

At the heart of every solution is a model that describes how features can be transformed into an estimate of the target. The assumption of linearity means that the expected value of the target (price) can be expressed as a weighted sum of the features (area and age):


모든 솔루션의 중심에는 기능을 목표 추정치로 변환하는 방법을 설명하는 모델이 있습니다. 선형성 가정은 목표(가격)의 기대값이 특성(면적 및 연령)의 가중합으로 표현될 수 있음을 의미합니다.


- features를 가지고 어떻게 target을 estimate하는지를 설명하는 Model은 모든 solution의 핵심이다.

- linear means의 가정은 target (가격)의 기대값이 features (면적, 연령)의 가중합계 (weighted sum)으로 표현됨을 의미


price = warea * area + wage * age + b    (3.1.1)


 warea 와 wage 를 weights (가중치) 라고 하고 b는 bias (of offset or intercept) 라고 한다.


weights (가중치)는 prediction(예측)에 대한 각 feature의 영향을 결정함

bias는 모든 features가 0일 때 estimate ((여기서는 price) 값을 결정함 


Here w area and w age are called weights, and b is called a bias (or offset or intercept). The weights determine the influence of each feature on our prediction. The bias determines the value of the estimate when all features are zero. Even though we will never see any newly-built homes with precisely zero area, we still need the bias because it allows us to express all linear functions of our features (rather than restricting us to lines that pass through the origin). Strictly speaking, (3.1.1) is an affine transformation of input features, which is characterized by a linear transformation of features via a weighted sum, combined with a translation via the added bias. Given a dataset, our goal is to choose the weights w and the bias b that, on average, make our model’s predictions fit the true prices observed in the data as closely as possible.


여기서 w areaw age 을 가중치라고 하고 b를 편향(또는 오프셋 또는 절편)이라고 합니다. 가중치는 예측에 대한 각 특성의 영향을 결정합니다. 편향은 모든 특성이 0일 때 추정값을 결정합니다. 면적이 정확히 0인 새로 지어진 주택을 결코 볼 수 없더라도 바이어스를 사용하면 (원점을 통과하는 선으로 제한하지 않고) 기능의 모든 선형 기능을 표현할 수 있기 때문에 여전히 바이어스가 필요합니다. 엄밀히 말하면, (3.1.1)은 입력 특성의 아핀 변환으로, 추가된 편향을 통한 변환과 결합된 가중 합을 통한 특성의 선형 변환을 특징으로 합니다. 데이터 세트가 주어지면 우리의 목표는 평균적으로 모델의 예측이 데이터에서 관찰된 실제 가격과 최대한 일치하도록 가중치 w와 편향 b를 선택하는 것입니다.


엄밀히 말하면 3.1.1은 가중합계, 추가적인 bias를 통해 translation되고 combine된 것들을 통해 features의 linear transformation에 의해 특정되어진 입력 features의 affine transformation이다.


Affine transformation 이란?


An affine transformation refers to a geometric transformation that preserves parallel lines and ratios of distances. It is a type of transformation commonly used in computer graphics, computer vision, and image processing.


어파인 변환(affine transformation)은 평행선과 거리 비율을 보존하는 기하학적 변환을 의미합니다. 이는 컴퓨터 그래픽스, 컴퓨터 비전, 이미지 처리 등에서 자주 사용되는 변환 유형입니다.


Key characteristics of affine transformations are as follows:

어파인 변환의 주요 특징은 다음과 같습니다:

  1. Line Preservation: Affine transformations maintain the parallelism of lines. This means that if two lines are parallel before the transformation, they will remain parallel after the transformation.
    선 보존: 어파인 변환은 선의 평행성을 유지합니다. 즉, 변환 전에 평행한 두 선은 변환 후에도 평행한 상태를 유지합니다.

  2. Ratio Preservation: Affine transformations preserve the ratio of distances along parallel lines. This property ensures that objects' shapes are preserved during the transformation.
    비율 보존: 어파인 변환은 평행한 선 상의 거리 비율을 보존합니다. 이 속성은 변환 중에 객체의 형태를 보존합니다.

  3. Combination of Translation, Rotation, Scaling, and Shearing: Affine transformations can be represented as a combination of translation (shifting), rotation (rotation around a point), scaling (resizing), and shearing (distorting in a non-uniform manner) operations.
    이동, 회전, 스케일링, 기울임 변환의 조합: 어파인 변환은 이동(이동), 회전(특정 점을 중심으로 회전), 스케일링(크기 조정) 및 기울임(비등방적 왜곡) 연산의 조합으로 나타낼 수 있습니다.

  4. Linearity: Affine transformations are linear transformations, which means they preserve the properties of linearity such as preserving the origin and vector addition.
    선형성: 어파인 변환은 선형 변환으로, 원점과 벡터 덧셈 등 선형성의 속성을 보존합니다.

  5. Matrix Representation: Affine transformations can be represented by a matrix multiplication. The transformation matrix includes parameters for translation, rotation, scaling, and shearing operations.
    행렬 표현: 어파인 변환은 행렬 곱셈으로 표현될 수 있습니다. 변환 행렬에는 이동, 회전, 스케일링 및 기울임 연산에 대한 매개변수가 포함됩니다.

Applications of affine transformations include:

어파인 변환의 응용분야는 다음과 같습니다:


  • Computer Graphics: Affine transformations are used to render 2D and 3D graphics, such as transforming and projecting objects onto a screen or changing their size and position.
  • 컴퓨터 그래픽스: 어파인 변환은 2D 및 3D 그래픽을 렌더링하는 데 사용되며, 객체를 화면에 투영하거나 크기와 위치를 변경하는 등의 작업에 활용됩니다.
  • Image Processing: Affine transformations are employed to perform operations such as scaling, rotating, and shearing images.
  • 이미지 처리: 어파인 변환은 이미지의 크기 조정, 회전, 기울임 등을 수행하는 데 사용됩니다.
  • Computer Vision: Affine transformations play a role in tasks like object recognition, image registration, and feature extraction.
  • 컴퓨터 비전: 어파인 변환은 객체 인식, 이미지 등록, 특징 추출 등의 작업에서 사용됩니다.
  • Geometric Modeling: Affine transformations are used to transform and manipulate geometric shapes in modeling applications.
  • 기하 모델링: 어파인 변환은 모델링 애플리케이션에서 기하학적인 형상을 변환하고 조작하는 데 사용됩니다.

Overall, affine transformations provide a versatile and fundamental tool for manipulating and analyzing geometric objects in various fields.

전반적으로 어파인 변환은 다양한 분야에서 기하 객체를 조작하고 분석하는 다재다능하고 기본적인 도구를 제공합니다.


An image of a fern-like fractal (Barnsley's fern) that exhibits affine self-similarity. Each of the leaves of the fern is related to each other leaf by an affine transformation. For instance, the red leaf can be transformed into both the dark blue leaf and any of the light blue leaves by a combination of reflection, rotation, scaling, and translation.



***우리의 목표는 주어진 dataset에서 weight w와 bias b를 선택하는 겁니다. *** (항목마다 가중치를 얼마나 주고 bias를 얼마나 주어야 제대로 된 target을 얻을 수 있는가?) 그럼으로서 평균적으로 우리의 모델의 예측이 데이터에서 관찰된 실제 가격과 최대한 가까이 가도록 하는 겁니다. 


In disciplines where it is common to focus on datasets with just a few features, explicitly expressing models long-form, as in (3.1.1), is common. In machine learning, we usually work with high-dimensional datasets, where it is more convenient to employ compact linear algebra notation. When our inputs consist of d features, we can assign each an index (between 1 and d ) and express our prediction (in general the “hat” symbol denotes an estimate) as


몇 가지 기능만 포함된 데이터 세트에 초점을 맞추는 것이 일반적인 분야에서는 (3.1.1)에서와 같이 모델을 긴 형식으로 명시적으로 표현하는 것이 일반적입니다. 기계 학습에서는 일반적으로 고차원 데이터 세트를 사용하여 압축 선형 대수 표기법을 사용하는 것이 더 편리합니다. 입력이 d개의 특징으로 구성되면 각각에 인덱스(1과 d 사이)를 할당하고 예측 ŷ(일반적으로 hat- symbol 는 추정치를 나타냄)를 다음과 같이 표현할 수 있습니다.


기계 학습에서는 흔히 *** 다차원 데이터세트 (high-dimensional datasets) ***를 다룹니다.

예를 들어 입력값이 d 개의 features로 구성돼 있고 각각을 1에서 d 까지의 인덱스로 각각 할당할 수 있습니다.

여기서 우리의 prediction은 ŷ로 표기합니다. (일반적으로 ^ -hat- symbol은 estimate를 나타냄)


 ŷ = w1x1 ... + wdxd + b.                                     (3.1.2)


모든 features들과 weights들이 아래 vector일 경우 


Collecting all features into a vector x∈R**d and all weights into a vector w∈R*d, we can express our model compactly via the dot product between w and x:


모든 특징을 벡터 x∈R**d로 수집하고 모든 가중치를 벡터 w∈R*d로 수집하면 w와 x 사이의 내적을 통해 모델을 간결하게 표현할 수 있습니다.


우리는 w와 x사이의 dot product를 통해 우리의 모델을 다음과 같이 표현할 수 있습니다.




In (3.1.3), the vector x corresponds to the features of a single example. We will often find it convenient to refer to features of our entire dataset of n examples via the design matrix X∈R**n×d. Here, X contains one row for every example and one column for every feature. For a collection of features X, the predictions∈R**n can be expressed via the matrix–vector product:


(3.1.3)에서 벡터 x는 단일 예의 특징에 해당합니다. 우리는 설계 행렬 X∈R**n×d를 통해 n개의 예제로 구성된 전체 데이터 세트의 특징을 참조하는 것이 편리하다는 것을 종종 알게 될 것입니다. 여기서 X에는 모든 예에 대해 하나의 행과 모든 기능에 대해 하나의 열이 포함됩니다. 특성 X 모음의 경우 예측 ŷ ∈R**n은 행렬-벡터 곱을 통해 표현될 수 있습니다.


여기서 vector(벡터) x는 단일 예제의 특징 입니다. 

Design matrix

위 디자인 매트릭스를 통해 n개의 examples로 구성된 전체 dataset의 features들을 참조하면 편리합니다.

여기서 X는 모든 example에 대한 하나의 row와 모든 feature에 대한 하나의 column을 포함합니다.

features X의 collection의 경우 matrix-vector product를 통해 아래 predictions로 표현될 수 있습니다.




training dataset X와 이에 해당하는 labels y는 주어진 features들입니다.

*** linear regression의 목표는 weight vector w와 bias term b를 찾는 것입니다. ***

이는 X와 동일한 분포로부터 sampled된 새로운 data example,의 주어진 features 을 기반으로 찾게 됩니다.

새로운 example의 label 은 낮은 오류로 예측 될 것입니다.


where broadcasting (Section 2.1.4) is applied during the summation. Given features of a training dataset X and corresponding (known) labels y, the goal of linear regression is to find the weight vector w and the bias term b such that, given features of a new data example sampled from the same distribution as X, the new example’s label will (in expectation) be predicted with the smallest error.


여기서는 합산 중에 브로드캐스팅(섹션 2.1.4)이 적용됩니다. 훈련 데이터세트 X의 특징과 해당(알려진) 라벨 y가 주어지면 선형 회귀의 목표는 X와 동일한 분포에서 샘플링된 새로운 데이터 예제의 주어진 특징이 다음과 같이 되도록 가중치 벡터 w와 편향 항 b를 찾는 것입니다. 새 예제의 레이블은 (예상대로) 가장 작은 오류로 예측됩니다.


Even if we believe that the best model for predicting y given x is linear, we would not expect to find a real-world dataset of n examples where y**(i) exactly equals w⊤x**(i)+b for all 1≤i≤n. For example, whatever instruments we use to observe the features X and labels y, there might be a small amount of measurement error. Thus, even when we are confident that the underlying relationship is linear, we will incorporate a noise term to account for such errors.


x가 주어졌을 때 y를 예측하는 가장 좋은 모델이 선형이라고 믿는다고 해도, y**(i)가 w⊤x**(i)+b와 정확히 일치하는 n개 사례의 실제 데이터 세트를 찾을 수는 없을 것입니다. 모두 1≤i≤n입니다. 예를 들어, 특징 X와 라벨 y를 관찰하기 위해 어떤 도구를 사용하든 약간의 측정 오류가 있을 수 있습니다. 따라서 기본 관계가 선형이라고 확신하는 경우에도 이러한 오류를 설명하기 위해 노이즈 항을 포함합니다.


Before we can go about searching for the best parameters (or model parameters) w and b, we will need two more things: (i) a measure of the quality of some given model; and (ii) a procedure for updating the model to improve its quality.


최상의 매개변수(또는 모델 매개변수) w와 b를 검색하기 전에 두 가지가 더 필요합니다. (i) 특정 모델의 품질을 측정하는 것; (ii) 모델의 품질을 개선하기 위해 모델을 업데이트하는 절차.


주어진 x로 y를 예측하기 위한 가장 최적의 모델이 linear라고 믿는다고 해도, 우리는 1 <= i <= n에 대해  y(i)가 wTx(i)+b 와 정확히 같은 n examples의 실제 데이터 세트를 찾을 것이라고 기대하지는 않습니다.

예를 들어 features X와 labels Y를 관찰하는데 어떤 instruments를 사용하던 약간의 측정 오류는 있을 수 있습니다.

주택 가격의 경우 일반적으로 age가 더해 질 수록 가격이 하락하지만 역사적인 가치가 있는 경우 age가 더해 질 수록 가격이 더 올라갈 수도 있습니다.

그러므로 기본적으로 관계가 linear라고 확신해도 그러한 에러들을 설명하기 위해 noise term을 같이 사용합니다.


best parameters (or model parameters) w 와 b를 searching 하기 전에 우리는 다음의 두가지를 필요로 합니다.

1) 주어진 모델에 대한 품질 측정

2) 품질을 개선하기 위해 모델을 업데이트 하는 절차

*** Loss Function


Naturally, fitting our model to the data requires that we agree on some measure of fitness (or, equivalently, of unfitness). Loss functions quantify the distance between the real and predicted values of the target. The loss will usually be a nonnegative number where smaller values are better and perfect predictions incur a loss of 0. For regression problems, the most common loss function is the squared error. When our prediction for an example i is y^**(i) and the corresponding true label is y**(i), the squared error is given by:


당연히 모델을 데이터에 맞추려면 적합도(또는 동등하게 부적합) 측정에 동의해야 합니다. 손실 함수는 대상의 실제 값과 예측 값 사이의 거리를 정량화합니다. 손실은 일반적으로 값이 작을수록 좋고 완벽한 예측에서는 0의 손실이 발생하는 음수가 아닌 숫자입니다. 회귀 문제의 경우 가장 일반적인 손실 함수는 제곱 오류입니다. 예시 i에 대한 예측이 y^**(i)이고 해당 실제 레이블이 y**(i)인 경우 제곱 오차는 다음과 같이 계산됩니다.




Translation results

Translation result

당연히 모델을 데이터에 맞추려면 적합도(또는 동등하게 부적합) 측정에 동의해야 합니다. 손실 함수는 대상의 실제 값과 예측 값 사이의 거리를 정량화합니다. 손실은 일반적으로 값이 작을수록 좋고 완벽한 예측에서는 0의 손실이 발생하는 음수가 아닌 숫자입니다. 회귀 문제의 경우 가장 일반적인 손실 함수는 제곱 오류입니다. 예시 i에 대한 예측이 y^**(i)이고 해당 실제 레이블이 y**(i)인 경우 제곱 오차는 다음과 같이 계산됩니다.


모델을 데이터에 맞추려면 어느정도 measure of fitness (or equivalently, of unfitness)에 agree 해야 합니다.

Loss functions는 target의 real value와 predicted value 사이의 거리를 정량화 합니다. ***

(모델이 예측한 가격과 실제 가격의 오차를 측정해야 함.) ***

loss는 대개 음수가 아닌 숫자입니다. 낮을수록 좋습니다. 손실이 0이면 가장 좋은 겁니다.

Regression problem의 경우 대개 일반적인 loss function은 squared error (제곱오차) 입니다.


Squared Error (제곱오차)란?


Squared error, also known as mean squared error (MSE), is a common measure used to quantify the discrepancy between predicted values and the corresponding true values in regression problems. It is calculated as the average of the squared differences between predicted and true values.


평균 제곱 오차(Mean Squared Error, MSE)는 회귀 문제에서 예측 값과 해당하는 실제 값 사이의 차이를 측정하는 데 사용되는 일반적인 지표입니다. 이는 예측 값과 실제 값의 차이를 제곱하여 평균화한 것입니다.


In the context of regression, when we make predictions using a model, the squared error is computed by taking the difference between the predicted value and the true value for each data point, squaring the difference, and then averaging the squared differences across all data points. This measures the average squared deviation between the predicted values and the true values.


회귀 문제에서 모델로부터 예측을 수행할 때, 평균 제곱 오차는 각 데이터 포인트에 대해 예측 값과 실제 값의 차이를 제곱한 후 이를 모든 데이터 포인트에 대해 평균화하여 계산됩니다. 이는 예측 값과 실제 값 사이의 평균 제곱 편차를 측정합니다.


Using squared error has several advantages. Firstly, squaring the differences ensures that negative and positive errors do not cancel each other out when averaged. Secondly, the squared error puts more emphasis on larger errors due to the squaring operation. This means that larger errors contribute more to the overall error than smaller errors.


평균 제곱 오차를 사용하는 것에는 여러 가지 장점이 있습니다. 첫째, 차이를 제곱함으로써 평균화할 때 음수 오차와 양수 오차가 상쇄되지 않습니다. 둘째, 제곱 연산에 의해 큰 오차에 더 많은 가중치가 부여됩니다. 이는 큰 오차가 작은 오차보다 전체 오차에 더 큰 기여를 한다는 의미입니다.


Minimizing the squared error is often the goal in many regression problems. The process of minimizing the squared error involves adjusting the parameters of the model to find the best-fit line or curve that minimizes the average squared difference between the predicted values and the true values. This is commonly achieved through optimization techniques such as gradient descent.


평균 제곱 오차를 최소화하는 것은 많은 회귀 문제에서의 목표입니다. 평균 제곱 오차를 최소화하기 위해 모델의 매개변수를 조정하여 예측 값과 실제 값 사이의 평균 제곱 차이를 최소화하는 최적의 선 또는 곡선을 찾는 과정입니다. 이는 경사 하강법과 같은 최적화 기법을 통해 보통 달성됩니다.


In summary, squared error is a measure that quantifies the average squared difference between predicted values and true values in regression problems. It is widely used as an objective function to evaluate the performance of regression models and to guide the process of parameter estimation and model optimization.


요약하면, 평균 제곱 오차는 회귀 문제에서 예측 값과 실제 값 사이의 평균 제곱 차이를 측정하는 지표입니다. 회귀 모델의 성능을 평가하고 매개변수 추정과 모델 최적화 과정을 이끄는 목적 함수로 널리 사용됩니다.



example i에 대한 우리의 prediction이 ŷ(i)이고 그에 상응하는 true label이 y(i)인 경우 squared error은 다음과 같습니다.





상수 1/2는 실제적으로 크게 영향을 미칠 정도로 역할을 하지 않지만 derivative of the loss를 취하면 상쇄되기 때문에 표기상 convenient하다는 것이 증명되어 사용됩니다..

(즉 1/2 상수값은 2차원 항목을 미분했을 때 값이 1이 되게 만들어서 조금 더 간단하게 수식을 만들기 위해 사용합니다.

이것을 사용하면 오류값이 작을 수록 예측된 값이 실제 가격과 더 비슷해지게 되고 두 값이 같으면 오류는 0이 됩니다.)


왜냐하면 우리에게 주어진 training dataset은 우리가 임의로 변경할 수는 없는 것이기 때문입니다.

empirical error (경험적 오류)는 모델 파라미터의 함수일 뿐입니다.

(ML에서 이와 같이 오류를 측정하는 함수를 Loss function이라고 부릅니다.)

아래 Figure는 1차원 입력 문제에서 linear regression model의 적합성을 시각화 한 것입니다. (Fig. 3.1.1)


The constant 1/2 makes no real difference but proves to be notationally convenient, since it cancels out when we take the derivative of the loss. Because the training dataset is given to us, and thus is out of our control, the empirical error is only a function of the model parameters. In Fig. 3.1.1, we visualize the fit of a linear regression model in a problem with one-dimensional inputs.


상수 1/2은 실제 차이는 없지만 손실의 미분을 취하면 상쇄되기 때문에 표기법상 편리한 것으로 입증되었습니다. 훈련 데이터 세트가 우리에게 제공되어 우리가 통제할 수 없기 때문에 경험적 오류는 모델 매개변수의 함수일 뿐입니다. 그림 3.1.1에서 우리는 1차원 입력 문제에 대한 선형 회귀 모델의 적합성을 시각화합니다.



derivative of the loss 란?


The derivative of the loss refers to the rate of change of the loss function with respect to the model's parameters. In machine learning and optimization, the loss function is a measure of how well the model performs on a given task or dataset. By taking the derivative of the loss function with respect to the model's parameters, we can determine the direction and magnitude of the steepest ascent or descent in the loss landscape.


손실 함수의 도함수는 모델의 파라미터에 대한 손실 함수의 변화율을 나타냅니다. 기계 학습과 최적화에서 손실 함수는 모델이 주어진 작업이나 데이터셋에서 얼마나 잘 수행되는지를 측정하는 척도입니다. 손실 함수의 도함수를 계산함으로써, 손실 랜드스케이프에서 가장 가파른 상승 또는 하강 방향과 크기를 결정할 수 있습니다.


Here are a few key points about the derivative of the loss:

손실의 도함수에 관한 몇 가지 주요한 사항은 다음과 같습니다:


  1. Gradient: The derivative of the loss is often referred to as the gradient. It represents the vector of partial derivatives of the loss function with respect to each parameter of the model.
    그래디언트: 손실의 도함수는 종종 그래디언트라고도 합니다. 이는 손실 함수의 각 파라미터에 대한 편미분의 벡터를 나타냅니다.

  2. Optimization: The derivative of the loss is essential for optimization algorithms, such as gradient descent, which aim to minimize the loss function. By computing the gradient, we can update the model's parameters in the direction that reduces the loss.
    최적화: 손실의 도함수는 그래디언트 디센트와 같은 최적화 알고리즘에서 필수적입니다. 손실 함수를 최소화하기 위해 그래디언트를 계산하여 손실을 줄이는 방향으로 모델의 파라미터를 업데이트할 수 있습니다.

  3. Learning Rate: The derivative of the loss helps determine the step size or learning rate in optimization algorithms. It scales the magnitude of the parameter updates based on the steepness of the loss landscape.
    학습률: 손실의 도함수는 최적화 알고리즘에서 스텝 크기 또는 학습률을 결정하는 데 도움을 줍니다. 손실 랜드스케이프의 가파른 정도에 따라 파라미터 업데이트의 크기를 조정합니다.

  4. Backpropagation: In neural networks, the derivative of the loss is computed through the process of backpropagation. It involves propagating the gradients backward from the output layer to the input layer, using the chain rule of calculus, to efficiently compute the gradients with respect to the model's parameters.
    역전파: 신경망에서 손실의 도함수는 역전파 과정을 통해 계산됩니다. 이는 미분 연쇄 법칙을 사용하여 그래디언트를 출력층에서 입력층으로 효율적으로 전파하여 모델의 파라미터에 대한 그래디언트를 계산하는 과정입니다.

  5. Parameter Updates: The derivative of the loss guides the updates of the model's parameters during training. By descending along the negative gradient direction, the parameters are adjusted to improve the model's performance on the task.
    파라미터 업데이트: 손실의 도함수는 학습 중에 모델의 파라미터 업데이트를 안내합니다. 음의 그래디언트 방향으로 하강함으로써 모델의 성능을 개선하기 위해 파라미터가 조정됩니다.

In summary, the derivative of the loss provides crucial information about the direction and magnitude of parameter updates that are necessary for optimizing and improving the model's performance during training.


***요약하면, 손실의 도함수는 학습 중에 모델의 파라미터 업데이트에 필요한 방향과 크기에 대한 중요한 정보를 제공합니다. 이를 통해 모델의 성능을 최적화하고 개선하는 데 필요한 파라미터 업데이트를 수행할 수 있습니다.***



Empirical Error 란?


Empirical error refers to the error or discrepancy between the predictions made by a model and the actual observed outcomes or labels in the training data. It is a measure of how well the model fits or approximates the training data.

경험적 오차(empirical error)는 모델의 예측과 훈련 데이터에서 관찰된 실제 결과 또는 레이블 사이의 오차나 불일치를 의미합니다. 이는 모델이 훈련 데이터에 얼마나 잘 맞는지 또는 근사하는지를 측정하는 척도입니다.


Here are a few key points about empirical error:

경험적 오차에 관한 몇 가지 주요한 사항은 다음과 같습니다:


  1. Training Data: Empirical error is calculated based on the training data. The model's predictions on the training examples are compared to their actual labels or outcomes.
    훈련 데이터: 경험적 오차는 훈련 데이터를 기반으로 계산됩니다. 모델의 예측값을 훈련 예제의 실제 레이블이나 결과와 비교합니다.

  2. Measure of Fit: Empirical error quantifies the model's performance on the training data. It provides an indication of how well the model captures the patterns, relationships, or trends present in the training examples.
    적합도 측정: 경험적 오차는 모델의 훈련 데이터에 대한 성능을 측정합니다. 이는 모델이 훈련 예제에 존재하는 패턴, 관계 또는 경향을 얼마나 잘 포착하는지를 나타냅니다.

  3. Loss Function: Empirical error is typically evaluated using a loss function that measures the discrepancy between the predicted values and the actual labels. Common loss functions include mean squared error (MSE), cross-entropy loss, or absolute difference.
    손실 함수: 경험적 오차는 일반적으로 예측값과 실제 레이블 사이의 불일치를 측정하는 손실 함수를 사용하여 평가됩니다. 일반적인 손실 함수로는 평균 제곱 오차(MSE), 크로스 엔트로피 손실, 절댓값 차이 등이 있습니다.

  4. Minimization: During the training process, the model aims to minimize the empirical error by adjusting its parameters through optimization algorithms like gradient descent. The goal is to find the parameter values that yield the lowest empirical error on the training data.
    최소화: 훈련 과정에서 모델은 경험적 오차를 최소화하기 위해 그래디언트 디센트와 같은 최적화 알고리즘을 통해 파라미터를 조정합니다. 목표는 훈련 데이터에서 경험적 오차를 최소화하는 파라미터 값을 찾는 것입니다.

  5. Generalization: While empirical error measures the model's performance on the training data, it does not guarantee its performance on unseen or test data. The model may overfit the training data and perform poorly on new examples, indicating a lack of generalization.
    일반화: 경험적 오차는 모델의 훈련 데이터에 대한 성능을 측정하지만, 새로운 데이터나 테스트 데이터에 대한 성능을 보장하지는 않습니다. 모델은 훈련 데이터에 과적합되어 새로운 예제에서 성능이 저하될 수 있으며, 이는 일반화 부족을 나타냅니다.
  6. Validation and Test Error: To assess the model's generalization ability, it is important to evaluate its performance on separate validation or test datasets. These datasets provide a measure of the model's error on unseen data, which can be different from the empirical error.
    검증 및 테스트 오차: 모델의 일반화 능력을 평가하기 위해 별도의 검증 또는 테스트 데이터셋에서 성능을 평가하는 것이 중요합니다. 이러한 데이터셋은 보이지 않은 데이터에 대한 모델의 오차를 제공하며, 이는 경험적 오차와 다를 수 있습니다.

In summary, empirical error represents the discrepancy between a model's predictions and the observed outcomes in the training data. It serves as a measure of how well the model fits the training examples, but additional evaluation on separate datasets is needed to assess its generalization performance.

요약하면, 경험적 오차는 모델의 예측과 훈련 데이터에서 관찰된 결과 사이의 오차를 나타냅니다. 이는 모델이 훈련 예제에 얼마나 잘 맞는지를 측정하는 지표이지만, 일반화 성능을 평가하기 위해서는 별도의 데이터셋에서 평가가 필요합니다.


Note that large differences between estimates y^**(i) and targets y**(i) lead to even larger contributions to the loss, due to its quadratic form (this quadraticity can be a double-edge sword; while it encourages the model to avoid large errors it can also lead to excessive sensitivity to anomalous data). To measure the quality of a model on the entire dataset of n examples, we simply average (or equivalently, sum) the losses on the training set:


추정치 y^**(i)와 목표 y**(i) 사이의 큰 차이는 2차 형식으로 인해 손실에 더 큰 기여를 한다는 점에 유의하세요(이 2차는 양날의 검이 될 수 있습니다. 큰 오류를 피하기 위해 모델을 사용하면 비정상적인 데이터에 대한 과도한 민감도가 발생할 수도 있습니다. n개의 예제로 구성된 전체 데이터세트에서 모델의 품질을 측정하려면 훈련 세트의 손실을 간단히 평균(또는 동등하게 합산)하면 됩니다.



estimates  ŷ(i)  와 target y(i) 사이의 큰 차이는 loss의 quadratic form (2차 형태)로 인해 손실에 더 큰 기여를 이끈다는 겁니다.

이것은 양날의 검입니다. 모델이 large error들을 피할 수 있도록 하면 비정상적인 데이터에 대한 지나친 민감도를 유도할 수 있습니다.


n examples의 전체 dataset에 대한 모델의 quality를 측정하기 위해 우리는 간단하게 training set에 대한 losses의 평균 (or equivalently, sum) 을 구합니다.


모델을 training 할 때 우리는 파라미터 (w*, b*)를 찾기를 원합니다. 

그럼으로써 모든 traning examples에 걸쳐 총 loss를 minimize할 수 있기 때문입니다.


When training the model, we seek parameters (w∗,b∗) that minimize the total loss across all training examples:


모델을 훈련할 때 모든 훈련 예제에서 총 손실을 최소화하는 매개변수(w*,b*)를 찾습니다. Analytic Solution

Unlike most of the models that we will cover, linear regression presents us with a surprisingly easy optimization problem. In particular, we can find the optimal parameters (as assessed on the training data) analytically by applying a simple formula as follows. First, we can subsume the bias b into the parameter w by appending a column to the design matrix consisting of all 1s. Then our prediction problem is to minimize ‖y−Xw‖2. As long as the design matrix X has full rank (no feature is linearly dependent on the others), then there will be just one critical point on the loss surface and it corresponds to the minimum of the loss over the entire domain. Taking the derivative of the loss with respect to w and setting it equal to zero yields:


우리가 다룰 대부분의 모델과 달리 선형 회귀는 놀라울 정도로 쉬운 최적화 문제를 제시합니다. 특히, 다음과 같은 간단한 공식을 적용하여 분석적으로 최적의 매개변수(훈련 데이터에서 평가된)를 찾을 수 있습니다. 먼저, 모두 1로 구성된 설계 행렬에 열을 추가하여 편향 b를 매개변수 w에 포함시킬 수 있습니다. 그러면 우리의 예측 문제는 "y−Xw"2를 최소화하는 것입니다. 설계 행렬 X가 전체 순위를 갖는 한(어떤 특성도 다른 특성에 선형적으로 종속되지 않음) 손실 표면에는 단 하나의 임계점이 있으며 이는 전체 도메인에 대한 손실의 최소값에 해당합니다. w에 대한 손실의 미분을 취하고 이를 0으로 설정하면 다음과 같습니다.



다음과 같은 간단한 공식을 적용하여 최적의 매개변수를 찾을 수 있습니다.


모든 것이 하나로 들어있는 design matrix에 하나의 column을 추가함으로서 bias b를 parameter w 에 포함시킬 수 있습니다.

이렇게 되면 우리의 prediction problem은 ||y - Xw||2 를 최소화 하는 것입니다..

design matrix X가 full rank (그 어떤 feature도 다른것에 linearly 종속되지 않는)를 갖는 한 loss surface에는 하나의 critical point만이 있게 됩니다. 그리고 이는 전체 domain에 대한 loss의 minimum에 해당합니다.

w에 대한 loss의 derivative (도함수)를 취하고 이를 0으로 설정하면 다음이 생성 됩니다.



Solving for w provides us with the optimal solution for the optimization problem. 


w를 풀면 최적화 문제에 대한 최적의 솔루션이 제공됩니다. 



matrix (행렬) XTX가 invertible (가역적)일 때 이것은 unique할 것입니다.

예) design matrix의 columns들이 linearly independent (선형적으로 독립적)일 때 이것은 unique할 것입니다.

linear regression과 같은 간단한 문제는 analytic solution들을 admit할 수 있지만 이러한 운에 익숙해 지면 안됩니다.

Analytic solution이 훌륭한 mathematical analysis를 허용한다고 하더라도 analytic solution의 requirement는 너무 제한적입니다. 그래서 deep learning의 여러 흥미로운 측면들을 배제할 수 있는 위험성이 있습니다.


Note that this solution  will only be unique when the matrix X⊤X is invertible, i.e., when the columns of the design matrix are linearly independent (Golub and Van Loan, 1996).


이 솔루션은 행렬 X⊤X가 가역적일 때, 즉 설계 행렬의 열이 선형적으로 독립일 때에만 고유합니다(Golub and Van Loan, 1996).


While simple problems like linear regression may admit analytic solutions, you should not get used to such good fortune. Although analytic solutions allow for nice mathematical analysis, the requirement of an analytic solution is so restrictive that it would exclude almost all exciting aspects of deep learning.


선형 회귀와 같은 간단한 문제는 분석적 솔루션을 허용할 수 있지만 그러한 행운에 익숙해져서는 안 됩니다. 분석 솔루션을 사용하면 훌륭한 수학적 분석이 가능하지만 분석 솔루션의 요구 사항이 너무 제한적이어서 딥 러닝의 흥미로운 측면을 거의 모두 배제할 수 있습니다. Minibatch Stochastic Gradient Descent

Fortunately, even in cases where we cannot solve the models analytically, we can still often train models effectively in practice. Moreover, for many tasks, those hard-to-optimize models turn out to be so much better that figuring out how to train them ends up being well worth the trouble.


다행스럽게도 모델을 분석적으로 해결할 수 없는 경우에도 실제로 모델을 효과적으로 훈련할 수 있는 경우가 많습니다. 더욱이, 많은 작업에서 최적화하기 어려운 모델은 훨씬 더 나은 것으로 판명되어 모델을 훈련하는 방법을 알아내는 것은 결국 문제를 해결할 가치가 충분히 있습니다.


The key technique for optimizing nearly every deep learning model, and which we will call upon throughout this book, consists of iteratively reducing the error by updating the parameters in the direction that incrementally lowers the loss function. This algorithm is called gradient descent .


거의 모든 딥러닝 모델을 최적화하기 위한 핵심 기술이자 이 책 전체에서 사용할 핵심 기술은 손실 함수를 점진적으로 낮추는 방향으로 매개변수를 업데이트하여 오류를 반복적으로 줄이는 것으로 구성됩니다. 이 알고리즘을 경사하강법 gradient descent  이라고 합니다.


거의 모든 Deep learning model을 optimizing 하기 위한 key technique이자 이 책에서 계속 다룰 것은  loss function을 점진적으로 낮추는 방향으로 parameter들을 update함으로서 반복적으로 error들을 줄여 나가는 방법입니다.

이 알고리즘을 gradient descent 라고 부릅니다.


Gradient descent 란?


Gradient descent is an optimization algorithm commonly used in machine learning and deep learning for minimizing the loss function and finding the optimal values of the model's parameters. It works by iteratively adjusting the parameter values in the direction of the negative gradient of the loss function.

경사 하강법(Gradient descent)은 머신러닝과 딥러닝에서 일반적으로 사용되는 최적화 알고리즘으로, 손실 함수를 최소화하고 모델의 파라미터의 최적값을 찾는 데 사용됩니다. 이는 손실 함수의 음의 그래디언트 방향으로 모델의 파라미터 값을 반복적으로 조정하는 방식으로 동작합니다.


Here are a few key points about gradient descent:

경사 하강법에 관한 주요한 사항은 다음과 같습니다:


  1. Loss Function: Gradient descent requires a differentiable loss function that measures the discrepancy between the model's predictions and the true labels or outcomes. The goal is to minimize this loss function.
    손실 함수: 경사 하강법은 모델의 예측과 실제 레이블 또는 결과 사이의 차이를 측정하는 미분 가능한 손실 함수가 필요합니다. 목표는 이 손실 함수를 최소화하는 것입니다.

  2. Gradient: The gradient is a vector of partial derivatives of the loss function with respect to each parameter of the model. It indicates the direction and magnitude of the steepest ascent in the loss landscape.
    그래디언트: 그래디언트는 손실 함수에 대한 각 파라미터의 편미분으로 이루어진 벡터입니다. 이는 손실 랜드스케이프에서 가파른 상승 방향과 크기를 나타냅니다.

  3. Iterative Optimization: Gradient descent iteratively updates the model's parameters by taking small steps in the direction opposite to the gradient. It continues this process until it converges to a minimum of the loss function or reaches a predefined stopping criterion.
    반복적 최적화: 경사 하강법은 반복적으로 파라미터 값을 업데이트합니다. 각 반복에서 그래디언트의 반대 방향으로 작은 단계를 취합니다. 이 과정은 손실 함수의 최소값에 수렴하거나 미리 정의된 중단 기준에 도달할 때까지 계속됩니다.
  4. Learning Rate: The learning rate determines the step size or the magnitude of parameter updates in each iteration. It scales the gradient to control the speed of convergence and prevent overshooting or slow convergence.
    학습률: 학습률은 각 반복에서 파라미터 업데이트의 크기 또는 스텝 크기를 결정합니다. 학습률은 그래디언트를 조절하여 수렴 속도를 제어하고 과도한 진동이나 느린 수렴을 방지합니다.

  5. Batch and Stochastic Gradient Descent: Gradient descent can be performed on different subsets of the training data. Batch gradient descent updates the parameters using the gradients computed on the entire training dataset, while stochastic gradient descent updates the parameters using the gradients computed on individual training examples.
    배치 경사 하강법과 확률적 경사 하강법: 경사 하강법은 훈련 데이터의 다른 부분집합에 대해 수행될 수 있습니다. 배치 경사 하강법은 전체 훈련 데이터셋에서 그래디언트를 계산하여 파라미터를 업데이트하고, 확률적 경사 하강법은 개별 훈련 예제에서 그래디언트를 계산하여 파라미터를 업데이트합니다.

  6. Variants of Gradient Descent: Various variants of gradient descent have been developed to improve convergence speed and overcome limitations. Examples include mini-batch gradient descent, momentum-based methods, and adaptive learning rate methods like Adam.
    경사 하강법의 변형: 수렴 속도를 개선하고 제약을 극복하기 위해 경사 하강법의 다양한 변형이 개발되었습니다. 예를 들어 미니배치 경사 하강법, 모멘텀 기반 방법, Adam과 같은 적응적 학습률 방법이 있습니다.

In summary, gradient descent is an iterative optimization algorithm that updates the model's parameters in the direction opposite to the gradient of the loss function. By minimizing the loss function, gradient descent helps to find the optimal parameter values for the model.

요약하면, 경사 하강법은 손실 함수의 그래디언트의 반대 방향으로 모델의 파라미터를 반복적으로 업데이트하는 최적화 알고리즘입니다. 손실 함수를 최소화함으로써 경사 하강법은 모델의 최적 파라미터 값을 찾는 데 도움을 줍니다.


The most naive application of gradient descent consists of taking the derivative of the loss function, which is an average of the losses computed on every single example in the dataset. In practice, this can be extremely slow: we must pass over the entire dataset before making a single update, even if the update steps might be very powerful (Liu and Nocedal, 1989). Even worse, if there is a lot of redundancy in the training data, the benefit of a full update is limited.


경사하강법의 가장 순진한 적용은 손실 함수의 미분을 취하는 것으로 구성됩니다. 손실 함수는 데이터 세트의 모든 단일 예에서 계산된 손실의 평균입니다. 실제로 이는 매우 느릴 수 있습니다. 업데이트 단계가 매우 강력하더라도 단일 업데이트를 수행하기 전에 전체 데이터 세트를 전달해야 합니다(Liu and Nocedal, 1989). 더 나쁜 것은 훈련 데이터에 중복성이 많으면 전체 업데이트의 이점이 제한된다는 것입니다.


Gradient Descent의 가장 간단한 방법은 dataset에 있는 모든 single example에서 계산된 손실의 평균인 손실 함수의 미분을 취하는 것입니다. 그 과정이 끝나면 파라미터를 업데이트 하게 됩니다.

이 방법은 간단하지만 느릴 수 있다는 단점이 있습니다.

우선 전체 데이터 세트가 전달 되어야 하고 그 다음에 단일 example별로 계산을 합니다. 이 dataset에 중복된 데이터가 많으면 전체 처리 시간이 더 길어 집니다.


The other extreme is to consider only a single example at a time and to take update steps based on one observation at a time. The resulting algorithm, stochastic gradient descent (SGD) can be an effective strategy (Bottou, 2010), even for large datasets. Unfortunately, SGD has drawbacks, both computational and statistical. One problem arises from the fact that processors are a lot faster multiplying and adding numbers than they are at moving data from main memory to processor cache. It is up to an order of magnitude more efficient to perform a matrix–vector multiplication than a corresponding number of vector–vector operations. This means that it can take a lot longer to process one sample at a time compared to a full batch. A second problem is that some of the layers, such as batch normalization (to be described in Section 8.5), only work well when we have access to more than one observation at a time.


또 다른 극단적인 방법은 한 번에 하나의 예만 고려하고 한 번에 하나의 관찰을 기반으로 업데이트 단계를 수행하는 것입니다. 결과 알고리즘인 확률적 경사 하강법(SGD)은 대규모 데이터 세트의 경우에도 효과적인 전략이 될 수 있습니다(Bottou, 2010). 불행하게도 SGD에는 계산적, 통계적 측면 모두에서 단점이 있습니다. 한 가지 문제는 프로세서가 주 메모리에서 프로세서 캐시로 데이터를 이동할 때보다 숫자를 곱하고 더하는 속도가 훨씬 빠르다는 사실에서 발생합니다. 해당 수의 벡터-벡터 연산보다 행렬-벡터 곱셈을 수행하는 것이 최대 10배 더 효율적입니다. 이는 전체 배치에 비해 한 번에 하나의 샘플을 처리하는 데 훨씬 더 오랜 시간이 걸릴 수 있음을 의미합니다. 두 번째 문제는 배치 정규화(8.5절에서 설명)와 같은 일부 레이어가 한 번에 둘 이상의 관측값에 접근할 수 있는 경우에만 잘 작동한다는 것입니다.



다른 극단적인 방법은 하나의 예만을 독립적으로 고려하여 계산해서 파라미터들을 업데이트 하는 것입니다.

이는 대규모 dataset의 경우에도 효과적으로 일을 처리할 수 있습니다.

이는 곱하고 더하는 연산보다 메인 메모리에서 프로세서 캐시로 데이터를 이동하는 것이 더 시간이 걸리기 때문에 시간이 더 오래 걸릴 수 있습니다. 또한 한번에 둘 이상의 관측값에 엑세스 할 수 있을 때만 잘 작동합니다.


The solution to both problems is to pick an intermediate strategy: rather than taking a full batch or only a single sample at a time, we take a minibatch of observations (Li et al., 2014). The specific choice of the size of the said minibatch depends on many factors, such as the amount of memory, the number of accelerators, the choice of layers, and the total dataset size. Despite all that, a number between 32 and 256, preferably a multiple of a large power of 2, is a good start. This leads us to minibatch stochastic gradient descent.


두 문제에 대한 해결책은 중간 전략을 선택하는 것입니다. 즉, 전체 배치를 취하거나 한 번에 단일 샘플만 취하는 대신 관찰의 미니 배치를 취합니다(Li et al., 2014). 해당 미니배치 크기의 구체적인 선택은 메모리 양, 가속기 수, 레이어 선택, 전체 데이터세트 크기 등 여러 요소에 따라 달라집니다. 그럼에도 불구하고 32에서 256 사이의 숫자, 바람직하게는 2의 큰 거듭제곱의 배수가 좋은 시작입니다. 이는 미니배치 확률적 경사하강법으로 이어집니다.


두 방법의 단점을 극복하는 방법은 중간 전략을 선택하는 것입니다.

미니 배치들로 나눠서 가져오는 방법입니다.

이 방법을 minibatch stochastic gradient descent 라고 부릅니다.  


In its most basic form, in each iteration t, we first randomly sample a minibatch β t consisting of a fixed number | β | of training examples. We then compute the derivative (gradient) of the average loss on the minibatch with respect to the model parameters. Finally, we multiply the gradient by a predetermined small positive value η , called the learning rate, and subtract the resulting term from the current parameter values. We can express the update as follows:


가장 기본적인 형태인 각 반복 t에서 먼저 고정된 수 | β | 훈련 예시. 그런 다음 모델 매개변수와 관련하여 미니배치의 평균 손실의 미분(기울기)을 계산합니다. 마지막으로, 기울기에 미리 결정된 작은 양수 값(학습률이라고 함)을 곱하고 현재 매개변수 값에서 결과 항을 뺍니다. 업데이트를 다음과 같이 표현할 수 있습니다.


가장 기본적인 형태는 각 iteration t에서 우선 training examples에 있는 고정된 숫자 |Β| 에서 랜덤하게 샘플 minibatch Βt를 가져옵니다. 그 다음 Model parameters와 관련하여 minibatch의 average loss의 derivative (gradient)를 계산합니다.

마지막으로 learning rate라고 하는 미리 정해진 small positive value n을 gradient에 곱합니다. 그리고 나서 현재 parameter value에서 result term을 뺍니다. 이는 다음과 같이 표현할 수 있습니다.


In summary, minibatch SGD proceeds as follows: (i) initialize the values of the model parameters, typically at random; (ii) iteratively sample random minibatches from the data, updating the parameters in the direction of the negative gradient. For quadratic losses and affine transformations, this has a closed-form expansion:


요약하면 미니배치 SGD는 다음과 같이 진행됩니다. (i) 일반적으로 무작위로 모델 매개변수의 값을 초기화합니다. (ii) 데이터에서 무작위 미니배치를 반복적으로 샘플링하여 음의 기울기 방향으로 매개변수를 업데이트합니다. 2차 손실 및 아핀 변환의 경우 이는 폐쇄 형식 확장을 갖습니다.


요약하면 minibatch SGD(Stochastic Gradient Descent)는 다음과 같이 진행됩니다.

1. Model parameters의 값을 random값으로 초기화 합니다.

2. data에서 random minibatches를 반복적으로 샘플링 한 후 negative gradient (음의 기울기) 방향으로 parameters를 업데이트 합니다.


SGD (Stochastic Gradient Descent) 란?


SGD stands for Stochastic Gradient Descent. It is an optimization algorithm commonly used in machine learning and deep learning for minimizing the loss function and finding the optimal parameters of a model.


SGD는 Stochastic Gradient Descent의 약자로, 머신러닝과 딥러닝에서 주로 사용되는 최적화 알고리즘입니다. 이 알고리즘은 손실 함수를 최소화하고 모델의 최적 매개변수를 찾기 위해 사용됩니다.


The term "stochastic" refers to the fact that the algorithm randomly selects a subset of training examples (also called a mini-batch) at each iteration, rather than using the entire training set. This sampling of mini-batches introduces randomness into the optimization process.


"Stochastic"이란 용어는 알고리즘이 각 반복에서 훈련 예제의 일부 (미니배치라고도 함)를 무작위로 선택하는 것을 의미합니다. 이러한 미니배치 샘플링은 최적화 과정에 무작위성을 도입합니다.


The term "gradient descent" refers to the process of iteratively updating the model parameters in the direction of the negative gradient of the loss function. The gradient represents the slope of the loss function with respect to each parameter, and moving in the direction of the negative gradient allows the algorithm to descend towards the minimum of the loss function.


"Gradient Descent"라는 용어는 손실 함수의 음의 그래디언트 방향으로 모델 매개변수를 반복적으로 업데이트하는 과정을 말합니다. 그래디언트는 각 매개변수에 대한 손실 함수의 기울기를 나타내며, 음의 그래디언트 방향으로 이동함으로써 알고리즘이 손실 함수의 최솟값에 접근할 수 있습니다.


In each iteration of SGD, the algorithm computes the gradients of the loss function with respect to the mini-batch of training examples and updates the model parameters accordingly. The size of the mini-batch can be adjusted, typically ranging from a few to a few hundred examples, and it affects the trade-off between computational efficiency and convergence speed.


SGD의 각 반복에서 알고리즘은 훈련 예제의 미니배치에 대한 손실 함수의 그래디언트를 계산하고 이를 사용하여 모델 매개변수를 업데이트합니다. 미니배치의 크기는 조정할 수 있으며, 일반적으로 몇 개에서 수백 개의 예제로 구성됩니다. 미니배치의 크기는 계산 효율성과 수렴 속도 사이의 균형을 조절하는 역할을 합니다.


SGD has become a popular optimization algorithm due to its simplicity and efficiency, particularly in large-scale machine learning tasks where the entire dataset cannot fit into memory. It allows models to be trained on subsets of data at a time, making it computationally feasible for large datasets.


SGD는 단순성과 효율성으로 인해 널리 사용되는 최적화 알고리즘으로, 전체 데이터 세트를 메모리에 저장할 수 없는 대규모 머신러닝 작업에서 특히 유용합니다. 이 알고리즘을 사용하면 모델을 한 번에 데이터의 일부로 훈련시킬 수 있으므로 대규모 데이터셋에 대한 계산적인 문제를 해결할 수 있습니다.


It's important to note that there are variations of SGD, such as mini-batch gradient descent and batch gradient descent, where the size of the mini-batch is set to 1 (pure SGD) or the entire training set, respectively. These variations have different characteristics in terms of computational efficiency and convergence properties.


중요한 점은 SGD의 변종이 있으며, 미니배치 그래디언트 디센트와 배치 그래디언트 디센트 등이 있습니다. 미니배치 크기가 각각 1(순수한 SGD) 또는 전체 훈련 세트인 경우입니다. 이러한 변종은 계산 효율성과 수렴 특성에 따라 다른 특징을 가지고 있습니다.


In summary, SGD is a widely used optimization algorithm that iteratively updates the model parameters using mini-batches of training examples and the gradients of the loss function. It enables efficient and scalable training of machine learning models.


요약하면, SGD는 훈련 예제의 미니배치와 손실 함수의 그래디언트를 사용하여 모델 매개변수를 반복적으로 업데이트하는 널리 사용되는 최적화 알고리즘입니다. 이를 통해 효율적이고 확장 가능한 머신러닝 모델을 훈련시킬 수 있습니다.



quandratic losses와 affine transformations에 대해서는 closed-form expansion이 있습니다.


Since we pick a minibatch β  we need to normalize by its size | β |. Frequently minibatch size and learning rate are user-defined. Such tunable parameters that are not updated in the training loop are called hyperparameters. They can be tuned automatically by a number of techniques, such as Bayesian optimization (Frazier, 2018). In the end, the quality of the solution is typically assessed on a separate validation dataset (or validation set).


미니배치 β를 선택했으므로 크기 | β |. 미니배치 크기와 학습률은 사용자가 정의하는 경우가 많습니다. 훈련 루프에서 업데이트되지 않는 조정 가능한 매개변수를 하이퍼 매개변수라고 합니다. 베이지안 최적화(Frazier, 2018)와 같은 다양한 기술을 통해 자동으로 조정될 수 있습니다. 결국 솔루션의 품질은 일반적으로 별도의 검증 데이터 세트(또는 검증 세트)에서 평가됩니다.


minibatch Β를 선택했으므로 그것의 size |Β|에 대해 normalize 해야 합니다.

training loop에서 업데이트 되지 않은 조정 가능한 parameters를 hyperparameters라고 합니다.

결국 solution의 품질은 일반적으로 별도의 validation dataset (or validation set) 로 평가 됩니다.


After training for some predetermined number of iterations (or until some other stopping criterion is met), we record the estimated model parameters, denoted w^,b^. Note that even if our function is truly linear and noiseless, these parameters will not be the exact minimizers of the loss, nor even deterministic. Although the algorithm converges slowly towards the minimizers it typically will not find them exactly in a finite number of steps. Moreover, the minibatches β  used for updating the parameters are chosen at random. This breaks determinism.


미리 결정된 반복 횟수만큼(또는 다른 중지 기준이 충족될 때까지) 학습한 후 w^,b^로 표시된 추정 모델 매개변수를 기록합니다. 우리의 함수가 실제로 선형적이고 잡음이 없더라도 이러한 매개변수는 손실을 정확하게 최소화하지도 않고 결정적이지도 않습니다. 알고리즘은 최소화기를 향해 천천히 수렴하지만 일반적으로 유한한 수의 단계에서 정확하게 최소화기를 찾지는 않습니다. 더욱이, 매개변수 업데이트에 사용되는 미니배치 β는 무작위로 선택됩니다. 이것은 결정론을 깨뜨립니다.


미리 정해진 횟수 만큼 반복적으로 training 합니다. (또는 다른 기준이 충족될 때까지)

그 다음 ŵ,b̂로 표기된 estimated model parameters들로 기록합니다.

이러한 방법이 완벽할 수 는 없습니다. 또한 parameter를 update 하는데 사용되는 minibatch B 는 무작위로 선택됩니다.

This breaks determinism.


Linear regression happens to be a learning problem with a global minimum (whenever X is full rank, or equivalently, whenever X⊤X is invertible). However, the loss surfaces for deep networks contain many saddle points and minima. Fortunately, we typically do not care about finding an exact set of parameters but merely any set of parameters that leads to accurate predictions (and thus low loss). In practice, deep learning practitioners seldom struggle to find parameters that minimize the loss on training sets (Frankle and Carbin, 2018, Izmailov et al., 2018). The more formidable task is to find parameters that lead to accurate predictions on previously unseen data, a challenge called generalization. We return to these topics throughout the book.


선형 회귀는 전역 최소값이 있는 학습 문제입니다(X가 전체 순위일 때마다 또는 X⊤X가 반전될 때마다). 그러나 심층 네트워크의 손실 표면에는 많은 안장점과 최소값이 포함되어 있습니다. 다행스럽게도 우리는 일반적으로 정확한 매개변수 세트를 찾는 데 관심이 없고 단지 정확한 예측(따라서 낮은 손실)으로 이어지는 매개변수 세트만 찾는 데 관심이 있습니다. 실제로 딥 러닝 실무자는 훈련 세트의 손실을 최소화하는 매개변수를 찾는 데 어려움을 겪는 경우가 거의 없습니다(Frankle and Carbin, 2018, Izmailov et al., 2018). 더 어려운 작업은 이전에 볼 수 없었던 데이터에 대한 정확한 예측으로 이어지는 매개변수를 찾는 것입니다. 이를 일반화라고 합니다. 우리는 책 전반에 걸쳐 이러한 주제로 돌아갑니다.


Linear regression은 global minimum이 있는 learning problem 입니다. 

일반적으로 정확한 매개변수 세트가 아니라 정확한 예측을 이끌어 내는 매개변수 세트를 찾는데 더 관심이 있습니다.

실무에서 이러한 매개변수를 찾는데 큰 어려움은 없습니다.

어려울 때는 이전에 없었던 데이터에 대한 정확한 예측으로 이어지는 매개변수를 찾는 것인데 이를 generalization이라고 합니다. Predictions

Given the model w^⊤x+b^, we can now make predictions for a new example, e.g., predicting the sales price of a previously unseen house given its area x1 and age x2. Deep learning practitioners have taken to calling the prediction phase inference but this is a bit of a misnomer—inference refers broadly to any conclusion reached on the basis of evidence, including both the values of the parameters and the likely label for an unseen instance. If anything, in the statistics literature inference more often denotes parameter inference and this overloading of terminology creates unnecessary confusion when deep learning practitioners talk to statisticians. In the following we will stick to prediction whenever possible.


모델 w^⊤x+b^가 주어지면 이제 새로운 예에 대한 예측을 할 수 있습니다. 예를 들어 면적 x1과 연령 x2를 고려하여 이전에 볼 수 없었던 주택의 판매 가격을 예측하는 것입니다. 딥 러닝 실무자들은 예측 단계 추론이라고 부르지만 이것은 약간 잘못된 명칭입니다. 추론은 매개변수의 값과 보이지 않는 인스턴스에 대한 가능한 레이블을 모두 포함하여 증거를 기반으로 도달한 모든 결론을 광범위하게 나타냅니다. 오히려 통계 문헌에서 추론은 매개변수 추론을 의미하는 경우가 더 많으며 이러한 용어의 과부하는 딥 러닝 실무자가 통계학자와 대화할 때 불필요한 혼란을 야기합니다. 다음에서는 가능할 때마다 예측을 고수하겠습니다.



Tx + b̂ 모델이 주어 졌을 때 이제 우리는 new example에 대한 predictions를 만들 수 있습니다.

예를 들어 면적 x1과 age x2가 주어진 이전에 못 보았던 집의 판매 가격을 예측하는 것입니다.



3.1.2. Vectorization for Speed

When training our models, we typically want to process whole minibatches of examples simultaneously. Doing this efficiently requires that we vectorize the calculations and leverage fast linear algebra libraries rather than writing costly for-loops in Python.


모델을 훈련할 때 일반적으로 예제의 전체 미니 배치를 동시에 처리하려고 합니다. 이를 효율적으로 수행하려면 Python에서 비용이 많이 드는 for 루프를 작성하는 대신 계산을 벡터화하고 빠른 선형 대수 라이브러리를 활용해야 합니다.


우리의 모델을 training 할 때 우리는 동시에 examples의 모든 minibatches를 처리하려고 합니다. 이것을 효과적으로 처리하려면 Python에서 고비용의 for 루프를 돌리는 대신 계산을 벡터화 하고 빠른 linear algebra 라이브러리를 활용해야 합니다.


To see why this matters so much, let’s consider two methods for adding vectors. To start, we instantiate two 10,000-dimensional vectors containing all 1s. In the first method, we loop over the vectors with a Python for-loop. In the second, we rely on a single call to +.


이것이 왜 그렇게 중요한지 알아보기 위해 벡터를 추가하는 두 가지 방법을 고려해 보겠습니다. 시작하려면 모두 1을 포함하는 두 개의 10,000차원 벡터를 인스턴스화합니다. 첫 번째 방법에서는 Python for-loop를 사용하여 벡터를 반복합니다. 두 번째에서는 +에 대한 단일 호출에 의존합니다.


이 방법이 왜 중요한지 설명하기 위해 벡터를 추가하는 두가지 방법을 보여드리겠습니다. 이것을 시작하려면 1만 차원의 벡터 두개를 초기화 할 겁니다. 

초기화 하는 한 방법은 Python의 for 문을 사용해서 vectors에 루프를 돌립니다. 

다른 방법은 +에 대한 단일 호출에 의존할 겁니다.



n = 10000
a = torch.ones(n)
b = torch.ones(n)

이 PyTorch 코드는 a와 b 두 개의 텐서를 1로 초기화합니다. 아래는 코드의 설명입니다:

  1. n = 10000: 이 줄은 변수 n에 값 10000을 할당합니다. 이는 텐서(tensors ) a와 b의 크기 또는 길이를 나타냅니다.
  2. a = torch.ones(n): 이 줄은 길이가 n (이 경우에는 10000)인 텐서 a를 생성하고 1로 채웁니다. torch.ones() 함수는 지정된 크기의 텐서를 생성하고 1로 채우는 데 사용됩니다.
  3. b = torch.ones(n): 이 줄은 a와 동일한 길이인 (10000) 텐서 b를 생성하고 1로 채웁니다. 앞선 줄과 유사한 방식으로 동작합니다.

요약하면, 이 코드는 길이가 10000인 a와 b 두 개의 텐서를 생성하고 torch.ones() 함수를 사용하여 1로 초기화합니다.



A tensor is a fundamental data structure in deep learning and scientific computing. It is a multi-dimensional array that can store and manipulate numerical data efficiently. Tensors are a generalization of vectors and matrices to higher dimensions and can represent scalars, vectors, matrices, and higher-dimensional arrays.

텐서(Tensor)는 딥러닝과 과학적 계산에 사용되는 기본적인 데이터 구조입니다. 텐서는 숫자 데이터를 효율적으로 저장하고 조작할 수 있는 다차원 배열입니다. 텐서는 벡터와 행렬을 고차원으로 일반화한 것으로, 스칼라, 벡터, 행렬 및 고차원 배열을 표현할 수 있습니다.


Here are a few key points about tensors:

텐서에 대한 주요한 사항은 다음과 같습니다:


  1. Dimensionality: Tensors can have any number of dimensions, also known as axes or ranks. Scalars have zero dimensions, vectors have one dimension, matrices have two dimensions, and tensors have more than two dimensions.
    차원성: 텐서는 임의의 차원을 가질 수 있으며, 축 또는 순위라고도 합니다. 스칼라는 0차원, 벡터는 1차원, 행렬은 2차원이며, 텐서는 2차원 이상의 차원을 가집니다.

  2. Shape: The shape of a tensor refers to the size of each dimension. For example, a 2D tensor with shape (3, 4) represents a matrix with 3 rows and 4 columns. The shape provides information about the tensor's structure and the arrangement of its elements.
    형상: 텐서의 형상은 각 차원의 크기를 나타냅니다. 예를 들어, 형상이 (3, 4)인 2D 텐서는 3개의 행과 4개의 열로 구성된 행렬을 나타냅니다. 형상은 텐서의 구조와 요소의 배열 방식에 대한 정보를 제공합니다.

  3. Data Types: Tensors can have different data types such as float, integer, or boolean. The choice of data type depends on the nature of the data being represented and the computations to be performed.
    데이터 유형: 텐서는 부동 소수점, 정수, 부울 등 다양한 데이터 유형을 가질 수 있습니다. 데이터 유형의 선택은 표현하려는 데이터의 특성과 수행해야 할 계산에 따라 달라집니다.

  4. Operations: Tensors support various mathematical operations and transformations such as addition, multiplication, dot product, matrix multiplication, reshaping, and slicing. These operations enable computations and transformations on large amounts of data efficiently.
    연산: 텐서는 덧셈, 곱셈, 내적, 행렬 곱셈, 형태 변환, 슬라이싱, broadcasting, indexing 등 다양한 수학적 연산과 변환을 지원합니다. 이러한 연산을 통해 대량의 데이터에 대한 계산과 변환을 효율적으로 수행할 수 있습니다.

  5. GPU Acceleration: Tensors can be efficiently processed on GPUs (Graphics Processing Units) for faster computations. Deep learning frameworks like PyTorch provide GPU acceleration, allowing tensor operations to leverage the parallel processing power of GPUs.
    GPU 가속화: 텐서는 GPU(그래픽 처리 장치)에서 효율적으로 처리될 수 있어 더 빠른 계산이 가능합니다. PyTorch와 TensorFlow와 같은 딥러닝 프레임워크는 GPU 가속화를 제공하여 텐서 연산이 GPU의 병렬 처리 능력을 활용할 수 있게 합니다.

Tensors are a foundational data structure in deep learning frameworks like PyTorch and TensorFlow. They enable efficient representation, manipulation, and computation of numerical data, making them essential for building and training deep learning models.

텐서는 PyTorch와 TensorFlow와 같은 딥러닝 프레임워크에서 핵심적인 데이터 구조입니다. 텐서는 숫자 데이터의 효율적인 표현, 조작 및 계산을 가능하게 하므로, 딥러닝 모델의 구축과 훈련에 필수적입니다.









PyTorch : #1 Tensors

Introduce to Tensors in PyTorch Tensors are the basic building blocks of data in PyTorch. They are multi-dimensional arrays, similar to NumPy arrays, but with some additional features that make them especially useful for deep learning applications. In this



Now we can benchmark the workloads. First, we add them, one coordinate at a time, using a for-loop.


이제 초기화 한 값을 for 루프로 돌려 보겠습니다.

c = torch.zeros(n)
t = time.time()
for i in range(n):
    c[i] = a[i] + b[i]
f'{time.time() - t:.5f} sec'

위 PyTorch 코드는 두 개의 텐서 a와 b의 요소별 덧셈을 수행하고 연산에 소요된 시간을 측정합니다. 코드를 설명하겠습니다:

  1. c = torch.zeros(n): 이 줄은 a와 b와 동일한 길이인 c라는 텐서를 생성하고, torch.zeros() 함수를 사용하여 0으로 초기화합니다.
  2. t = time.time(): 이 줄은 현재 시간을 기록합니다. time.time() 함수를 사용하여 현재 시점을 기준으로 시간을 측정합니다.
  3. for i in range(n):: 이 줄은 0부터 n-1까지의 인덱스를 순회하는 반복문을 시작합니다.
  4. c[i] = a[i] + b[i]: 반복문 내부에서 해당하는 인덱스의 a와 b의 요소를 요소별로 더한 결과를 c의 해당 인덱스에 할당합니다.
  5. f'{time.time() - t:.5f} sec': 이 줄은 반복문이 실행되는 데 걸린 시간을 계산합니다. t에 기록된 시작 시간을 현재 시간에서 빼는 방식으로 시간을 측정합니다. 시간을 소수점 다섯 자리로 포맷하여 문자열로 표시하고, "sec"를 추가합니다.

요약하면, 이 코드는 a와 b와 같은 길이의 빈 텐서 c를 생성하고, a와 b의 요소별 덧셈을 반복문으로 수행하여 기록된 시간을 측정합니다. 경과된 시간은 소수점 다섯 자리로 포맷하여 "sec"과 함께 문자열로 표시됩니다.


위 코드를 실행한 결과 입니다. 

for loop를 사용한 경우 0.13464초 걸렸습니다.


Alternatively, we rely on the reloaded + operator to compute the elementwise sum.


이제 각 element별로 합계를 계산하기 위해 +연산자를 사용하겠습니다.

t = time.time()
d = a + b
f'{time.time() - t:.5f} sec'

실행 결과는 아래와 같습니다.

+연산자를 사용한 경우가 for loop를 사용한 경우보다 훨씬 처리 속도가 빠른 것을 볼 수 있습니다.

벡터화 하면 엄청난 속도 향상이 발생합니다. 또 직접 계산을 작성하지 않고 라이브러리를 이용하면 오류 가능성을 줄이고 code의 portability도 증가시킬 수 있습니다.


The second method is dramatically faster than the first. Vectorizing code often yields order-of-magnitude speedups. Moreover, we push more of the mathematics to the library so we do not have to write as many calculations ourselves, reducing the potential for errors and increasing portability of the code.


두 번째 방법은 첫 번째 방법보다 훨씬 빠릅니다. 코드를 벡터화하면 속도가 엄청나게 향상되는 경우가 많습니다. 더욱이 우리는 더 많은 수학을 라이브러리에 푸시하므로 스스로 많은 계산을 작성할 필요가 없으므로 오류 가능성이 줄어들고 코드 이식성이 향상됩니다.


3.1.3. The Normal Distribution and Squared Loss

So far we have given a fairly functional motivation of the squared loss objective: the optimal parameters return the conditional expectation E[Y∣X] whenever the underlying pattern is truly linear, and the loss assigns large penalties for outliers. We can also provide a more formal motivation for the squared loss objective by making probabilistic assumptions about the distribution of noise.


지금까지 우리는 제곱 손실 목표에 대해 상당히 기능적인 동기를 부여했습니다. 최적의 매개변수는 기본 패턴이 실제로 선형일 때마다 조건부 기대값 E[Y∣X]를 반환하고 손실은 이상치에 대해 큰 페널티를 할당합니다. 또한 잡음 분포에 대한 확률적 가정을 통해 제곱 손실 목표에 대한 보다 공식적인 동기를 제공할 수도 있습니다.



지금까지 squared loss (제곱된 손실) 을 왜 처리해야 되는지를 설명했습니다. 

기본적인 패턴이 truly linear할 경우 optimal parameters는 조건부 기대값인 E[Y|X]를 반환합니다.

그리고 loss는 outliers에 대해 outsize penalties를 assign 합니다.

noise 분포에 대한 확률적 가정을 함으로서 squared loss objective에 대한 보다 formal 한 motivation을 제공할 수도 있습니다.


Linear regression was invented at the turn of the 19th century. While it has long been debated whether Gauss or Legendre first thought up the idea, it was Gauss who also discovered the normal distribution (also called the Gaussian). It turns out that the normal distribution and linear regression with squared loss share a deeper connection than common parentage.


선형 회귀는 19세기 초에 발명되었습니다. 이 아이디어를 처음 생각해낸 사람이 가우스인지 르장드르인지 오랫동안 논쟁이 있었지만, 정규 분포(가우시안이라고도 함)를 발견한 사람도 가우스였습니다. 정규 분포와 손실 제곱을 사용한 선형 회귀는 공통 계열보다 더 깊은 연관성을 공유하는 것으로 나타났습니다.


Linear regression (선형 회귀)와 normal distribution (정규 분포)를 시작하려면 다음을 기억하세요.


Below we define a function to compute the normal distribution.


아래는 normal distribution을 계산하는 함수 입니다.

def normal(x, mu, sigma):
    p = 1 / math.sqrt(2 * math.pi * sigma**2)
    return p * np.exp(-0.5 * (x - mu)**2 / sigma**2)


위 코드는 정규 분포의 확률 밀도 함수를 계산하는 함수인 normal을 정의합니다. 코드를 설명하겠습니다:

  1. def normal(x, mu, sigma):: 이 줄은 normal이라는 이름의 함수를 선언합니다. 이 함수는 x, mu, sigma라는 세 가지 입력 매개변수를 받습니다. 이 매개변수들은 각각 PDF를 평가할 값, 정규 분포의 평균, 그리고 표준 편차를 나타냅니다.
  2. p = 1 / math.sqrt(2 * math.pi * sigma**2): 이 줄은 PDF를 정규화하는 계수 p를 계산합니다. 이 계수는 2π와 분포의 분산(sigma**2)의 곱의 제곱근의 역수로 계산됩니다.
  3. return p * np.exp(-0.5 * (x - mu)**2 / sigma**2): 이 줄은 주어진 입력 값 x에서 PDF의 값을 계산하고 반환합니다. 이 식은 정규 분포 PDF의 공식을 사용하여 계산됩니다. x와 mu 사이의 제곱 차이를 2 * sigma**2로 나눈 후 음수로 지수화하고, 이를 계수 p와 곱합니다. np.exp() 함수를 사용하여 지수 값을 계산합니다.

요약하면, normal 함수는 주어진 입력 값 x에서 정규 분포의 확률 밀도 함수를 계산합니다. 이를 위해 제공된 평균 mu와 표준 편차 sigma를 사용합니다. 함수는 정규 분포 공식에 따라 해당 지점에서의 확률 밀도 값을 반환합니다.


PDF(Probability Density Function)란?


PDF stands for Probability Density Function. In the context of probability theory and statistics, a PDF is a mathematical function that describes the probability distribution of a continuous random variable. It specifies the relative likelihood of the random variable taking on a specific value or falling within a particular range of values.


PDF는 확률 밀도 함수(Probability Density Function)를 나타냅니다. 확률 이론과 통계학의 맥락에서, PDF는 연속적인 확률 변수의 확률 분포를 기술하는 수학적인 함수입니다. 이 함수는 특정 값을 가지거나 특정 값 범위 내에 떨어질 확률의 상대적인 가능성을 나타냅니다.


The PDF represents the probability density, which is the probability per unit of the variable. Unlike the probability of a specific outcome in a discrete distribution, the PDF gives the probability density over an interval in a continuous distribution. The integral of the PDF over a range of values gives the probability of the random variable falling within that range.


PDF는 단위별로 나타내는 확률 밀도로, 연속적인 분포에서 특정 구간 내에서의 확률을 나타냅니다. 이산적인 분포에서 특정 결과의 확률과 달리, PDF는 연속적인 분포에서 구간 내의 확률 밀도를 제공합니다. 구간 내에서의 확률은 PDF를 그 구간 상에서 적분함으로써 구할 수 있습니다.


In the given context, the normal function computes the PDF of a normal distribution. It calculates the probability density at a given input value x based on the mean mu and standard deviation sigma of the normal distribution. The PDF provides information about the relative likelihood of x occurring in the distribution.


주어진 맥락에서, normal 함수는 정규 분포의 확률 밀도 함수를 계산합니다. 이 함수는 주어진 입력 값 x에서 정규 분포의 평균 mu와 표준 편차 sigma를 기반으로 확률 밀도를 계산합니다. PDF는 x가 분포에서 발생할 상대적인 가능성에 대한 정보를 제공합니다.



We can now visualize the normal distributions.


이제 우리는 normal distributions (정규분포)를 시각화 할 수 있습니다.

# Use NumPy again for visualization
x = np.arange(-7, 7, 0.01)

# Mean and standard deviation pairs
params = [(0, 1), (0, 2), (3, 1)]
d2l.plot(x, [normal(x, mu, sigma) for mu, sigma in params], xlabel='x',
         ylabel='p(x)', figsize=(4.5, 2.5),
         legend=[f'mean {mu}, std {sigma}' for mu, sigma in params])

위 코드는 NumPy와 이전에 정의한 normal 함수를 사용하여 세 가지 다른 정규 분포를 시각화하는 작업을 수행합니다. 코드를 설명하겠습니다:

  1. x = np.arange(-7, 7, 0.01): 이 줄은 NumPy의 arange 함수를 사용하여 배열 x를 생성합니다. 이 함수는 -7부터 7까지 0.01 간격으로 값을 생성합니다. 이 값들은 정규 분포를 그릴 때 x축 값으로 사용됩니다.
  2. params = [(0, 1), (0, 2), (3, 1)]: 이 줄은 params라는 이름의 튜플의 리스트를 정의합니다. 각 튜플은 정규 분포의 평균과 표준 편차 값을 나타냅니다. 이 경우 세 개의 페어가 지정되었습니다: (0, 1), (0, 2), (3, 1).
  3. d2l.plot(x, [normal(x, mu, sigma) for mu, sigma in params], xlabel='x', ylabel='p(x)', figsize=(4.5, 2.5), legend=[f'mean {mu}, std {sigma}' for mu, sigma in params]): 이 줄은 d2l.plot() 함수를 사용하여 정규 분포를 시각화합니다. 다음 인수들을 사용합니다:
    • x: 플롯의 x축 값입니다.
    • [normal(x, mu, sigma) for mu, sigma in params]: 리스트 내장을 사용하여 각 분포에 대한 확률 밀도 값을 계산합니다. params 리스트를 반복하면서 각 평균과 표준 편차 조합에 대해 PDF를 계산합니다.
    • xlabel='x' 및 ylabel='p(x)': 플롯의 x축과 y축 레이블을 지정합니다.
    • figsize=(4.5, 2.5): 플롯의 크기를 설정합니다.
    • legend=[f'mean {mu}, std {sigma}' for mu, sigma in params]: 플롯의 범례 레이블을 설정합니다. 리스트 내장을 사용하여 각 평균과 표준 편차 조합에 대한 "mean mu, std sigma" 형식의 레이블을 생성합니다.

요약하면, 이 코드는 x축 값 배열 x를 생성하고, 세 개의 평균과 표준 편차 값 조합을 정의한 다음, normal 함수를 사용하여 해당하는 정규 분포를 그립니다. 결과 플롯은 각 분포의 확률 밀도 곡선을 보여주며, 범례는 각 곡선의 평균과 표준 편차 값을 나타냅니다.


나의 경우 위 코드를 실행하면 맨 처음에 d2l 모듈 인스톨에 실패했기 때문에 아래와 같은 에러가 나옵니다.

D2L 홈페이지를 보면 제대로 작동했을 경우 아래와 같은 표를 볼 수 있습니다.


mean (평균)을 바꾼다는 것은 x축을 따라 이동한다는 말입니다. 그리고 variance(분산)을 spreads하면 distribution(분포)가 넓어져서 peak가 낮아지게 됩니다.


Note that changing the mean corresponds to a shift along the x-axis, and increasing the variance spreads the distribution out, lowering its peak.


평균을 변경하는 것은 x축을 따라 이동하는 것에 해당하며, 분산을 늘리면 분포가 퍼져서 피크가 낮아집니다.


One way to motivate linear regression with squared loss is to assume that observations arise from noisy measurements, where the noise ε  follows the normal distribution N(0, σ 2):


제곱 손실을 사용하여 선형 회귀를 활성화하는 한 가지 방법은 관측값이 잡음이 있는 측정에서 발생한다고 가정하는 것입니다. 여기서 잡음 ε은 정규 분포 N(0, σ 2)를 따릅니다.


squared loss (손실 제곱)으로 linear regression (선형 회귀)를 유도하는 한 방법은 noise가 아래와 같이 인반적으로 분포되는 noisy measurements에서 관찰이 발생한다고 가정하는 것입니다.



Thus, we can now write out the likelihood of seeing a particular y for a given x via


이제 주어진 x에대한 특정 y를 볼 likelihood 아래와 같이 표기 할 수 있습니다.


As such, the likelihood factorizes. According to the principle of maximum likelihood, the best values of parameters w and b are those that maximize the likelihood of the entire dataset:


likelihood는 factorizes (인수분해) 됩니다. . the principle of maximum likehood에 따라 parameters w와 b의 최적의 값들은 전체 dataset의 likehood를 maximize 하는 겁니다.


likelihood 란?


Likelihood refers to the probability of observing a set of data given specific values of the parameters in a statistical model. It is a measure of how well the parameters of a model explain the observed data.


우도(likelihood)는 통계 모형의 특정 파라미터 값들에 대해 관측 데이터를 관찰할 확률을 의미합니다. 이는 모형의 파라미터가 관측된 데이터를 얼마나 잘 설명하는지를 측정하는 척도입니다.


In statistical inference, the likelihood function is constructed based on the assumption that the data are independent and identically distributed (i.i.d.). The likelihood function is defined as the probability of the observed data, viewed as a function of the model parameters. It represents the plausibility of the data given different values of the parameters.


통계적 추론에서 가능도 함수(likelihood function)는 데이터가 독립적이고 동일하게 분포되어 있다는 가정에 기반하여 구성됩니다. 가능도 함수는 모델 파라미터의 값으로 본 데이터의 확률로 정의됩니다. 이 함수는 다양한 파라미터 값에 대해 데이터가 얼마나 타당한지를 나타냅니다.


The likelihood is often used in maximum likelihood estimation (MLE), where the goal is to find the parameter values that maximize the likelihood function. This involves finding the parameter values that make the observed data most probable.


가능도는 최대 가능도 추정(maximum likelihood estimation, MLE)에서 자주 사용됩니다. 여기서 목표는 가능도 함수를 최대화하는 파라미터 값을 찾는 것입니다. 이는 관측된 데이터가 가장 확률적으로 발생할 수 있는 파라미터 값을 찾는 것을 의미합니다.


It is important to note that likelihood is different from probability. Probability quantifies the likelihood of a future event given known parameters, while likelihood quantifies the compatibility of observed data with different parameter values.


확률과 가능도는 서로 다른 개념임을 주목해야 합니다. 확률은 알려진 파라미터 값에 따라 미래 사건이 일어날 확률을 측정하는 반면, 가능도는 관측된 데이터와 다양한 파라미터 값들 사이의 호환성을 측정합니다.


In summary, likelihood represents the probability of observing a specific set of data given particular parameter values in a statistical model, and it plays a central role in statistical inference and parameter estimation.


요약하면, 가능도는 통계 모형의 특정 파라미터 값들에 대해 특정 데이터 집합을 관측할 확률을 나타내며, 통계적 추론과 파라미터 추정에 중요한 역할을 합니다.



The equality follows since all pairs (x**(i),y**(i)) were drawn independently of each other. Estimators chosen according to the principle of maximum likelihood are called maximum likelihood estimators. While, maximizing the product of many exponential functions, might look difficult, we can simplify things significantly, without changing the objective, by maximizing the logarithm of the likelihood instead. For historical reasons, optimizations are more often expressed as minimization rather than maximization. So, without changing anything, we can minimize the negative log-likelihood, which we can express as follows:


모든 쌍 (x**(i),y**(i))이 서로 독립적으로 그려졌으므로 동등성이 따릅니다. 최대 우도 원칙에 따라 선택된 추정기를 최대 우도 추정기라고 합니다. 많은 지수 함수의 곱을 최대화하는 것이 어려워 보일 수 있지만 대신 우도의 로그를 최대화함으로써 목적을 변경하지 않고도 상황을 크게 단순화할 수 있습니다. 역사적 이유로 최적화는 최대화보다는 최소화로 표현되는 경우가 더 많습니다. 따라서 아무것도 변경하지 않고 음의 로그 가능성을 최소화할 수 있으며 다음과 같이 표현할 수 있습니다.


equiality는 모든 (x(i),y(i)) 쌍이 서로 독립적으로 그려진 것을 따릅니다. 

maximum likelihood의 원칙에 의한 Estimators를 maximum likelihood estimators라고 합니다. 

(exponential functions(지수함수)의 product를 maxmizing 하는 것은 어렵지만 이 likelihood의 알고리즘을 maxmization 함으로서 아무것도 바꾸지 않고 간단하게 처리할 수 있습니다.)

아무것도 변경하지 않고 우리는 negative log-likelihoo를 minimize 할 수 있습니다.



If we assume that σ  is fixed, we can ignore the first term, because it does not depend on w or b. The second term is identical to the squared error loss introduced earlier, except for the multiplicative constant 1/σ**2 . Fortunately, the solution does not depend on σ  either. It follows that minimizing the mean squared error is equivalent to the maximum likelihood estimation of a linear model under the assumption of additive Gaussian noise.


σ가 고정되어 있다고 가정하면 첫 번째 항은 w 또는 b에 의존하지 않으므로 무시할 수 있습니다. 두 번째 항은 곱셈 상수 1/σ**2 를 제외하고 앞서 소개된 제곱 오차 손실과 동일합니다. 다행히도 해는 σ에도 의존하지 않습니다. 평균 제곱 오차를 최소화하는 것은 가산성 가우스 잡음을 가정한 선형 모델의 최대 우도 추정과 동일합니다.


σ 가 고정되어 있다고 가정하면 w 또는 b에 의존하지 않기 때문에 첫번째 항은 무시할 수 있습니다.

두번째 항은 multiplacative constant (곱셈상수) 1/σ2 만 빼면 이전에 봤던 squared error loss (제곱오차손실)와 동일합니다.

다행히 솔루션은 σ (sigma)에 의존하지 않습니다. mean squared error (평균 제곱 오차)를 minimizing 하는 것은 additive Gaussian noise (가산 가우시안 노이즈)의 가정 아래에서 linear model의 maximum likelihood estimation 하는 것과 동일합니다.


3.1.4. Linear Regression as a Neural Network

While linear models are not sufficiently rich to express the many complicated networks that we will introduce in this book, (artificial) neural networks are rich enough to subsume linear models as networks in which every feature is represented by an input neuron, all of which are connected directly to the output.


선형 모델은 이 책에서 소개할 많은 복잡한 네트워크를 표현할 만큼 풍부하지 않지만, (인공) 신경망은 선형 모델을 모든 기능이 입력 뉴런으로 표현되는 네트워크로 포함할 만큼 풍부합니다. 출력에 직접 연결됩니다.


linear model은 이 책에서 소개할 많은 복잡한 neural networks를 표현하기에 충분히 풍부하지는 않습니다.

neural network는 이 linear model들을 포함할 만큼 풍부합니다. (범위가 넓습니다.) 

아래 그림은 linear regression을 neural network로 표현한 것입니다.

이 다이어 그램은 connectivity pattern들을 강조합니다. (각각의 input이 어떻게 output과 연결되는지...)

하지만 weights나 biases에 의해 취해진 특정 값들은 표시하지 못합니다.


Fig. 3.1.2 depicts linear regression as a neural network. The diagram highlights the connectivity pattern, such as how each input is connected to the output, but not the specific values taken by the weights or biases.


그림 3.1.2는 선형 회귀를 신경망으로 묘사합니다. 다이어그램은 각 입력이 출력에 연결되는 방식과 같은 연결 패턴을 강조하지만 가중치나 편향이 취하는 특정 값은 강조하지 않습니다.


The inputs are x1,…,xd. We refer to d as the number of inputs or the feature dimensionality in the input layer. The output of the network is o1. Because we are just trying to predict a single numerical value, we have only one output neuron. Note that the input values are all given. There is just a single computed neuron. In summary, we can think of linear regression as a single-layer fully connected neural network. We will encounter networks with far more layers in later chapters.


입력은 x1,…,xd입니다. 우리는 d를 입력 수 또는 입력 레이어의 특징 차원이라고 부릅니다. 네트워크의 출력은 o1입니다. 우리는 단지 하나의 숫자 값을 예측하려고 하기 때문에 출력 뉴런이 하나만 있습니다. 입력 값은 모두 제공됩니다. 계산된 뉴런은 단 하나뿐입니다. 요약하면 선형 회귀는 단일 계층의 완전히 연결된 신경망으로 생각할 수 있습니다. 우리는 이후 장에서 훨씬 더 많은 레이어를 가진 네트워크를 접하게 될 것입니다.


입력은 x1,...xd 입니다. 여기서 d는 input의 수 혹은 input layer의 feature dimensionality를 나타냅니다.

이 network의 output은 o1입니다.

단일 숫자값을 예측하려고 하기 때문에 출력 뉴런은 하나만 있습니다. input 값들이 모두 제공되고 있음을 유의하세요.

여기에는 오직 하나의 computed neuron만이 있습니다. 

요약하면 linear regression은 완전히 연결된 neural network의 single-layer라고 말할 수 있습니다.

다음 장에서는 훨씬 더 많은 계층을 가진 네트워크를 접하게 될 것입니다. Biology

Because linear regression predates computational neuroscience, it might seem anachronistic to describe linear regression in terms of neural networks. Nonetheless, they were a natural place to start when the cyberneticists and neurophysiologists Warren McCulloch and Walter Pitts began to develop models of artificial neurons. Consider the cartoonish picture of a biological neuron in Fig. 3.1.3, consisting of dendrites (input terminals), the nucleus (CPU), the axon (output wire), and the axon terminals (output terminals), enabling connections to other neurons via synapses.


선형 회귀는 계산 신경과학보다 앞서기 때문에 선형 회귀를 신경망 측면에서 설명하는 것은 시대착오적으로 보일 수 있습니다. 그럼에도 불구하고 사이버네틱스 학자이자 신경 생리학자인 Warren McCulloch와 Walter Pitts가 인공 뉴런 모델을 개발하기 시작했을 때 그것은 자연스러운 시작이었습니다. 수상돌기(입력 단자), 핵(CPU), 축삭(출력선),
  그리고 축삭 말단(출력 단자)은 시냅스를 통해 다른 뉴런과의 연결을 가능하게 합니다.



linear regression은 computational neuroscience 보다 이전에 나왔습니다.

neural networks의 측면에서 linear regression을 묘사하는 것은 anachronistic (시대착오적)이라고 할 수도 있습니다.

그럼에도 불구하고 Warren McCulloch와 Walter Pitts가 artificial neurons 모델 개발을 시작했을 때 이는 자연스러운 출발점이었습니다.

아래 그림은 dendrites (수상돌기, input terminals), the nucleus(핵, CPU), the axon (축삭, output wire) 그리고 axon terninals (축삭 단자, 출력 단자)로 구성된 synapses를 통해 다른 뉴런에 연결할 수 있는 biological neuron을 그린 것입니다.


Fig. 3.1.3&nbsp; The real neuron (source: &ldquo;Anatomy and Physiology&rdquo; by the US National Cancer Institute&rsquo;s Surveillance, Epidemiology and End Results (SEER) Program).



Information xi  arriving from other neurons (or environmental sensors) is received in the dendrites. In particular, that information is weighted by synaptic weights wi , determining the effect of the inputs, e.g., activation or inhibition via the product xiwi . The weighted inputs arriving from multiple sources are aggregated in the nucleus as a weighted sum y = ∑ixiwi+b , possibly subject to some nonlinear postprocessing via a function σ(y). This information is then sent via the axon to the axon terminals, where it reaches its destination (e.g., an actuator such as a muscle) or it is fed into another neuron via its dendrites.


다른 뉴런(또는 환경 센서)에서 도착하는 정보 xi는 수상돌기에서 수신됩니다. 특히, 해당 정보는 시냅스 가중치 wi 에 의해 가중치가 부여되어 입력의 효과(예: 생성물 xiwi 를 통한 활성화 또는 억제)를 결정합니다. 여러 소스에서 도착하는 가중 입력은 가중 합 y = ∑ixiwi+b 로 핵에 집계되며, 함수 σ(y)를 통해 일부 비선형 후처리가 적용될 수 있습니다. 그런 다음 이 정보는 축삭을 통해 축삭 말단으로 전송되어 목적지(예: 근육과 같은 작동기)에 도달하거나 수상돌기를 통해 다른 뉴런에 공급됩니다.


다른 뉴런에서 도착한 xi은 dendrites (수상돌기)에서 수신됩니다. 특히 그 정보는 synaptic weights (시냅스 가중치) wi에 의해 가중되어 입력의 효과, 예를 들어 product xiwi를 통해 활성화 또는 억제를 결정합니다. 여러 소스에서 도착하는 weighted inputs(가중 입력)은 weighted sum (가중합계) y = ∑ixiwi+b로 nucleus (핵)에서 집게 되며, 아마도 σ(y)를 통해 일부 nonlinear postprocessing (비선형 후처리)가 적용될 수 있습니다. 그런 다음 이 정보는 axon(축삭)을 통해 axon terminal (축삭 말단)으로 전송되어 목적지 (예: 근육과 같은 actuator -작동기-)에 도달하거나 dendrites(수상돌기)를 통해 다른 뉴런으로 공급됩니다.


Certainly, the high-level idea that many such units could be combined, provided they have the correct connectivity and learning algorithm, to produce far more interesting and complex behavior than any one neuron alone could express arises from our study of real biological neural systems. At the same time, most research in deep learning today draws inspiration from a much wider source. We invoke Russell and Norvig (2016) who pointed out that although airplanes might have been inspired by birds, ornithology has not been the primary driver of aeronautics innovation for some centuries. Likewise, inspiration in deep learning these days comes in equal or greater measure from mathematics, linguistics, psychology, statistics, computer science, and many other fields.


확실히, 그러한 많은 단위들이 올바른 연결성과 학습 알고리즘을 가지고 있다면 결합되어 하나의 뉴런만으로 표현할 수 있는 것보다 훨씬 더 흥미롭고 복잡한 행동을 생성할 수 있다는 높은 수준의 아이디어는 실제 생물학적 신경 시스템에 대한 우리의 연구에서 비롯되었습니다. 동시에 오늘날 딥러닝에 대한 대부분의 연구는 훨씬 더 광범위한 소스에서 영감을 얻습니다. 우리는 비행기가 새에서 영감을 받았을지라도 조류학이 몇 세기 동안 항공 혁신의 주요 동인이 되지 못했다고 지적한 Russell과 Norvig(2016)를 인용합니다. 마찬가지로 오늘날 딥 러닝에 대한 영감은 수학, 언어학, 심리학, 통계, 컴퓨터 과학 및 기타 여러 분야에서 동등하거나 더 큰 수준으로 나옵니다.


뇌의 구조는 아주 다양합니다. 어떤 것들은 다소 임의적으로 보이지만, 어떤 것들은 아주 규칙적인 구조를 가지고 있습니다. 예를 들면, 여러 곤충들의 시각 시스템은 아주 구조적입니다. 이 구조들에 대한 분석을 통해서 신경과학자들은 새로운 아키텍처를 제안하는데 영감을 받기도 하고, 어떤 경우에는 아주 성공적이었습니다. 하지만, 비행기가 새로부터 영감을 받아서 만들어 졌지만 차이가 많은 것과 같이, 이 둘의 직접적인 관계를 찾아보는 것은 오류가 되기도 합니다. 수학과 컴퓨터과학이 영감의 같은 근원이라고 볼 수 있습니다


이렇듯 deep learning은 신경망 연구의 도움을 많이 받습니다.

이 외에도 deep learning은 수학, 언어학, 심리학, 통게학, 컴퓨터 과학 밑 기타 여러 분야로 부터 많은 영감을 받습니다.


* Likelihood 란?


AI와 통계학의 맥락에서 "우도(likelihood)"는 특정 모델 또는 가설에서 특정 데이터 세트가 관측될 확률을 나타냅니다. 이는 모델이 관측된 데이터를 얼마나 잘 설명하는지를 측정하는 지표로, 통계적 추론에서 중요한 개념입니다.

간단히 설명하면 다음과 같습니다:

  • 우도 함수(Likelihood Function): 통계 모델과 매개변수 세트가 주어졌을 때, 우도 함수는 해당 모델 및 특정 매개변수 값에서 관측된 데이터의 발생 확률을 측정합니다. 수학적으로는 종종 로 나타내며, 여기서 는 모델의 매개변수를 나타냅니다.
  • 최대 우도 추정(MLE): 최대 우도 추정 원칙은 우도 함수를 최대화하는 모델 매개변수의 값을 찾는 것을 포함합니다. 이러한 매개변수 값은 관측된 데이터가 주어졌을 때 가장 가능성이 높다고 간주됩니다.
  • 해석: 높은 우도는 주어진 모델과 매개변수 값에서 관측된 데이터가 발생할 가능성이 높음을 나타내며, 이는 좋은 적합성을 시사합니다. 반대로 낮은 우도는 모델이 관측된 데이터를 설명하는 데 적합하지 않을 수 있다는 것을 나타냅니다.

요약하면, AI와 통계에서의 우도는 특정 모델 및 매개변수화에서 관측된 데이터가 발생할 확률을 측정하는 지표로, 관측된 데이터를 기반으로 모델을 추정하고 선택하는 과정에서 중요한 개념입니다.



3.1.5. Summary

In this section, we introduced traditional linear regression, where the parameters of a linear function are chosen to minimize squared loss on the training set. We also motivated this choice of objective both via some practical considerations and through an interpretation of linear regression as maximimum likelihood estimation under an assumption of linearity and Gaussian noise. After discussing both computational considerations and connections to statistics, we showed how such linear models could be expressed as simple neural networks where the inputs are directly wired to the output(s). While we will soon move past linear models altogether, they are sufficient to introduce most of the components that all of our models require: parametric forms, differentiable objectives, optimization via minibatch stochastic gradient descent, and ultimately, evaluation on previously unseen data.


이 섹션에서는 훈련 세트의 제곱 손실을 최소화하기 위해 선형 함수의 매개변수를 선택하는 전통적인 선형 회귀를 소개했습니다. 우리는 또한 몇 가지 실제적인 고려 사항과 선형성 및 가우스 잡음을 가정한 최대 우도 추정으로 선형 회귀 해석을 통해 이러한 목표 선택에 동기를 부여했습니다. 계산상의 고려 사항과 통계와의 연결을 논의한 후 이러한 선형 모델이 입력이 출력에 직접 연결되는 간단한 신경망으로 어떻게 표현될 수 있는지 보여주었습니다. 곧 선형 모델을 완전히 넘어갈 것이지만, 모든 모델에 필요한 대부분의 구성요소(모수적 형태, 미분 가능한 목표, 미니배치 확률적 경사하강법을 통한 최적화, 궁극적으로 이전에 볼 수 없었던 데이터에 대한 평가)를 도입하는 데 충분합니다.


이번 섹션에서는 training set의 squared loss 를 최소화 하기 위해 linear function의 parameter를 선택하는 전통적인 linear regression을 소개했습니다. 이 외에도 몇가지 실용적인 고려사항과 선형성 및 가우시안 노이즈 가정 하에서 maximimum likelihood estimation 추정으로서 linear regression 해석을 통해 이러한 목표 선택에 설득력을 부여했습니다. 계산적인 고려사항과 통계와의 연관성을 논의한 후, 입력이 출력에 직접 연결되는 간단한 신경망 형태로 선형 모델을 표현하는 방법을 보여주었습니다. 선형 모델을 완전히 벗어나는 시점은 곧 찾아올 것이지만, 선형 모델은 우리 모델에 필요한 대부분의 구성 요소를 소개하는 데 충분합니다: 파라미터 형태, 미분 가능한 목적 함수, 미니배치 확률적 경사 하강법을 통한 최적화, 그리고 마지막으로 이전에 보지 못한 데이터에 대한 평가입니다.

  • 머신러닝에서 중요한 요소는 학습 데이터, loss 함수, 최적화 알고리즘, 그리고 당연하지만 모델 자체입니다.
  • 벡터화는 모든 것(수학)을 좋게 만들고, (코드를) 빠르게 만들어 줍니다.
  • objective 함수를 최소화하는 것과 maximum likelihood를 구하는 것은 같은 것입니다.
  • 선형 모델도 뉴럴 모델입니다.



* 미분 가능 조건 ( differentiable conditions)


함수가 미분 가능하려면 특정 조건을 만족해야 합니다. 미분 가능성의 주요 조건은 다음과 같습니다:

  1. 연속성(Continuity): 함수는 미분이 고려되는 지점에서 연속적이어야 합니다. 연속성이 없거나 갑작스러운 모퉁이가 있는 경우 미분이 어려워질 수 있습니다.
  2. 도함수의 존재: 도함수를 정의하는 극한은 해당 지점에서 존재해야 합니다. 이는 함수의 그래프에 대한 접선의 기울기가 해당 지점에서 유한한 값을 가져야 함을 의미합니다.
  3. 부드러움(Smoothness): 함수는 급격한 변화나 모퉁이가 없어야 합니다. 갑작스러운 점프나 연속성이 없는 지점이 없는 부드러운 함수는 미분 가능성이 높습니다.
  4. 수직 접선이 없어야 함: 함수는 수직 접선을 가져서는 안 됩니다. 수직선은 기울기가 정의되지 않기 때문입니다.
  5. 커스프가 없어야 함: 함수는 접선의 방향이 갑작스럽게 바뀌는 지점이 없어야 합니다.
  6. 수직 아수피토트가 없어야 함: 함수는 해당 지점에서 수직 아수피토트를 가지면 안 됩니다. 이는 정의되지 않은 기울기를 유발할 수 있습니다.

신경망 및 최적화 관점에서 손실 함수는 중요한 구성 요소입니다. 미분 가능성이 거의 모든 곳에서 보장되면 확률적 경사 하강법과 같은 기울기 기반 최적화 방법을 효과적으로 사용할 수 있습니다. 이것은 모델 매개변수를 반복적으로 업데이트하기 위해 기울기 정보를 사용할 수 있게 합니다.

머신러닝에서 신경망을 교육하는 데 사용되는 많은 인기 있는 손실 함수들은 모델 매개변수에 대해 미분 가능하며, 이는 훈련 중에 손실 함수의 최소값을 찾기 위해 기울기 기반 최적화 알고리즘을 사용할 수 있게 합니다.



3.1.6 Exercises





D2L - Setup

Function calling and other API updates

We’re announcing updates including more steerable API models, function calling capabilities, longer context, and lower prices.



Function calling and other API updates

We’re announcing updates including more steerable API models, function calling capabilities, longer context, and lower prices.

우리는 더 조정 가능한 API 모델, 함수 호출 기능, 더 긴 컨텍스트 및 더 낮은 가격을 포함한 업데이트를 발표합니다.


June 13, 2023



We released gpt-3.5-turbo and gpt-4 earlier this year, and in only a short few months, have seen incredible applications built by developers on top of these models.


우리는 올해 초에 gpt-3.5-turbo 및 gpt-4를 출시했고 불과 몇 달 만에 개발자들이 이러한 모델 위에 구축한 놀라운 애플리케이션을 보았습니다.


Today, we’re following up with some exciting updates:


오늘 우리는 다음과 같은 몇 가지 흥미로운 업데이트를 진행합니다.


  • new function calling capability in the Chat Completions API
  • Chat Completions API의 새로운 함수 호출 기능
  • updated and more steerable versions of gpt-4 and gpt-3.5-turbo
  • gpt-4 및 gpt-3.5-turbo의 업데이트되고 조정 가능한 버전
  • new 16k context version of gpt-3.5-turbo (vs the standard 4k version)
  • gpt-3.5-turbo의 새로운 16k 컨텍스트 버전(표준 4k 버전 대비)
  • 75% cost reduction on our state-of-the-art embeddings model
  • 최첨단 임베딩 모델로 비용 75% 절감
  • 25% cost reduction on input tokens for gpt-3.5-turbo
  • gpt-3.5-turbo의 입력 토큰 비용 25% 감소
  • announcing the deprecation timeline for the gpt-3.5-turbo-0301 and gpt-4-0314 models
  • gpt-3.5-turbo-0301 및 gpt-4-0314 모델에 대한 지원 중단 일정 발표

All of these models come with the same data privacy and security guarantees we introduced on March 1 — customers own all outputs generated from their requests and their API data will not be used for training.


이러한 모든 모델에는 3월 1일에 도입한 것과 동일한 데이터 개인 정보 보호 및 보안 보장이 제공됩니다. 고객은 요청에서 생성된 모든 출력을 소유하고 API 데이터는 교육에 사용되지 않습니다.


Function calling

Developers can now describe functions to gpt-4-0613 and gpt-3.5-turbo-0613, and have the model intelligently choose to output a JSON object containing arguments to call those functions. This is a new way to more reliably connect GPT's capabilities with external tools and APIs.


개발자는 이제 gpt-4-0613 및 gpt-3.5-turbo-0613에 함수를 설명하고 모델이 이러한 함수를 호출하기 위한 인수가 포함된 JSON 개체를 출력하도록 지능적으로 선택하도록 할 수 있습니다. 이는 GPT의 기능을 외부 도구 및 API와 보다 안정적으로 연결하는 새로운 방법입니다.



These models have been fine-tuned to both detect when a function needs to be called (depending on the user’s input) and to respond with JSON that adheres to the function signature. Function calling allows developers to more reliably get structured data back from the model. For example, developers can:


이러한 모델은 (사용자 입력에 따라) 함수를 호출해야 하는 시기를 감지하고 함수 서명을 준수하는 JSON으로 응답하도록 미세 조정되었습니다. 함수 호출을 통해 개발자는 모델에서 구조화된 데이터를 보다 안정적으로 가져올 수 있습니다. 예를 들어 개발자는 다음을 수행할 수 있습니다.


  • Create chatbots that answer questions by calling external tools (e.g., like ChatGPT Plugins)
  • 외부 도구(예: ChatGPT 플러그인)를 호출하여 질문에 답하는 챗봇 생성


Convert queries such as “Email Anya to see if she wants to get coffee next Friday” to a function call like send_email(to: string, body: string), or “What’s the weather like in Boston?” to get_current_weather(location: string, unit: 'celsius' | 'fahrenheit').


"다음 금요일에 커피를 마시고 싶은지 확인하기 위해 Anya에게 이메일 보내기"와 같은 쿼리를 send_email(to: 문자열, 본문: 문자열) 또는 "보스턴의 날씨는 어떻습니까?"와 같은 쿼리를 get_current_weather(location: string, unit: 'celsius' | 'fahrenheit') 함수 호출로 변환합니다.


  • Convert natural language into API calls or database queries
  • 자연어를 API 호출 또는 데이터베이스 쿼리로 변환


Convert “Who are my top ten customers this month?” to an internal API call such as get_customers_by_revenue(start_date: string, end_date: string, limit: int), or “How many orders did Acme, Inc. place last month?” to a SQL query using sql_query(query: string).


"이번 달 내 상위 10명의 고객은 누구입니까?" 를 get_customers_by_revenue(start_date: string, end_date: string, limit: int)과 같은 internal API 로 convert 합니다. 또는 "지난 달 Acme, Inc.에서 몇 건의 주문을 했습니까?"와 같은 내부 API 호출에 sql_query(query: string)를 사용한 SQL 쿼리로 변환합니다.


  • Extract structured data from text
  • 텍스트에서 구조화된 데이터 추출


Define a function called extract_people_data(people: [{name: string, birthday: string, location: string}]), to extract all people mentioned in a Wikipedia article.


extract_people_data(people: [{name: string, birthday: string, location: string}])라는 함수를 정의하여 Wikipedia 기사에 언급된 모든 사람을 추출합니다.


These use cases are enabled by new API parameters in our /v1/chat/completions endpoint, functions and function_call, that allow developers to describe functions to the model via JSON Schema, and optionally ask it to call a specific function. Get started with our developer documentation and add evals if you find cases where function calling could be improved


이러한 사용 사례는 개발자가 JSON 스키마를 통해 모델에 함수를 설명하고 선택적으로 특정 함수를 호출하도록 요청할 수 있는 /v1/chat/completions 엔드포인트, functions 및 function_call의 새로운 API 매개변수에 의해 활성화됩니다. 개발자 설명서를 시작하고 함수 호출을 개선할 수 있는 경우를 찾으면 평가를 추가하십시오.


Function calling example


curl https://api.openai.com/v1/chat/completions -u :$OPENAI_API_KEY -H 'Content-Type: application/json' -d '{
  "model": "gpt-3.5-turbo-0613",
  "messages": [
    {"role": "user", "content": "What is the weather like in Boston?"}
  "functions": [
      "name": "get_current_weather",
      "description": "Get the current weather in a given location",
      "parameters": {
        "type": "object",
        "properties": {
          "location": {
            "type": "string",
            "description": "The city and state, e.g. San Francisco, CA"
          "unit": {
            "type": "string",
            "enum": ["celsius", "fahrenheit"]
        "required": ["location"]



  "id": "chatcmpl-123",
  "choices": [{
    "index": 0,
    "message": {
      "role": "assistant",
      "content": null,
      "function_call": {
        "name": "get_current_weather",
        "arguments": "{ \"location\": \"Boston, MA\"}"
    "finish_reason": "function_call"




curl https://weatherapi.com/...


{ "temperature": 22, "unit": "celsius", "description": "Sunny" }




curl https://api.openai.com/v1/chat/completions -u :$OPENAI_API_KEY -H 'Content-Type: application/json' -d '{
  "model": "gpt-3.5-turbo-0613",
  "messages": [
    {"role": "user", "content": "What is the weather like in Boston?"},
    {"role": "assistant", "content": null, "function_call": {"name": "get_current_weather", "arguments": "{ \"location\": \"Boston, MA\"}"}},
    {"role": "function", "name": "get_current_weather", "content": "{\"temperature\": "22", \"unit\": \"celsius\", \"description\": \"Sunny\"}"}
  "functions": [
      "name": "get_current_weather",
      "description": "Get the current weather in a given location",
      "parameters": {
        "type": "object",
        "properties": {
          "location": {
            "type": "string",
            "description": "The city and state, e.g. San Francisco, CA"
          "unit": {
            "type": "string",
            "enum": ["celsius", "fahrenheit"]
        "required": ["location"]



  "id": "chatcmpl-123",
  "choices": [{
    "index": 0,
    "message": {
      "role": "assistant",
      "content": "The weather in Boston is currently sunny with a temperature of 22 degrees Celsius.",
    "finish_reason": "stop"


Since the alpha release of ChatGPT plugins, we have learned much about making tools and language models work together safely. However, there are still open research questions. For example, a proof-of-concept exploit illustrates how untrusted data from a tool’s output can instruct the model to perform unintended actions. We are working to mitigate these and other risks. Developers can protect their applications by only consuming information from trusted tools and by including user confirmation steps before performing actions with real-world impact, such as sending an email, posting online, or making a purchase.


ChatGPT 플러그인의 알파 릴리스 이후로 우리는 도구와 언어 모델이 안전하게 함께 작동하도록 만드는 방법에 대해 많은 것을 배웠습니다. 그러나 여전히 열려 있는 연구 질문이 있습니다. 예를 들어 개념 증명 익스플로잇은 도구 출력의 신뢰할 수 없는 데이터가 의도하지 않은 작업을 수행하도록 모델에 지시할 수 있는 방법을 보여줍니다. 우리는 이러한 위험 및 기타 위험을 완화하기 위해 노력하고 있습니다. 개발자는 신뢰할 수 있는 도구의 정보만 사용하고 이메일 보내기, 온라인 게시 또는 구매와 같은 실제 영향이 있는 작업을 수행하기 전에 사용자 확인 단계를 포함하여 애플리케이션을 보호할 수 있습니다.



New models




gpt-4-0613 includes an updated and improved model with function calling.


gpt-4-0613에는 함수 호출로 업데이트되고 개선된 모델이 포함되어 있습니다.


gpt-4-32k-0613 includes the same improvements as gpt-4-0613, along with an extended context length for better comprehension of larger texts.


gpt-4-32k-0613에는 gpt-4-0613과 동일한 개선 사항이 포함되어 있으며 더 큰 텍스트를 더 잘 이해할 수 있도록 컨텍스트 길이가 확장되었습니다.


With these updates, we’ll be inviting many more people from the waitlist to try GPT-4 over the coming weeks, with the intent to remove the waitlist entirely with this model. Thank you to everyone who has been patiently waiting, we are excited to see what you build with GPT-4!


이 업데이트를 통해 우리는 이 모델로 대기자 명단을 완전히 제거하기 위해 앞으로 몇 주 동안 대기자 명단에서 더 많은 사람들을 초대하여 GPT-4를 시도할 것입니다. 끈기 있게 기다려주신 모든 분들께 감사드립니다. 여러분이 GPT-4로 빌드하는 것을 보게 되어 기쁩니다!


GPT-3.5 Turbo


gpt-3.5-turbo-0613 includes the same function calling as GPT-4 as well as more reliable steerability via the system message, two features that allow developers to guide the model's responses more effectively.


gpt-3.5-turbo-0613에는 GPT-4와 동일한 기능 호출과 시스템 메시지를 통한 보다 안정적인 조종성, 개발자가 모델의 응답을 보다 효과적으로 안내할 수 있는 두 가지 기능이 포함되어 있습니다.


gpt-3.5-turbo-16k offers 4 times the context length of gpt-3.5-turbo at twice the price: $0.003 per 1K input tokens and $0.004 per 1K output tokens. 16k context means the model can now support ~20 pages of text in a single request.


gpt-3.5-turbo-16k는 두 배의 가격으로 gpt-3.5-turbo 컨텍스트 길이의 4배를 제공합니다: 입력 토큰 1,000개당 $0.003 및 출력 토큰 1,000개당 $0.004. 16k 컨텍스트는 이제 모델이 단일 요청에서 최대 20페이지의 텍스트를 지원할 수 있음을 의미합니다.



Model deprecations

Today, we’ll begin the upgrade and deprecation process for the initial versions of gpt-4 and gpt-3.5-turbo that we announced in March. Applications using the stable model names (gpt-3.5-turbo, gpt-4, and gpt-4-32k) will automatically be upgraded to the new models listed above on June 27th. For comparing model performance between versions, our Evals library supports public and private evals to show how model changes will impact your use cases. 


오늘 우리는 3월에 발표한 gpt-4 및 gpt-3.5-turbo의 초기 버전에 대한 업그레이드 및 사용 중단 프로세스를 시작합니다. 안정적인 모델 이름(gpt-3.5-turbo, gpt-4 및 gpt-4-32k)을 사용하는 애플리케이션은 6월 27일에 위에 나열된 새 모델로 자동 업그레이드됩니다. 버전 간 모델 성능을 비교하기 위해 Evals 라이브러리는 공개 및 비공개 평가를 지원하여 모델 변경이 사용 사례에 어떤 영향을 미치는지 보여줍니다.



Developers who need more time to transition can continue using the older models by specifying gpt-3.5-turbo-0301, gpt-4-0314, or gpt-4-32k-0314 in the ‘model’ parameter of their API request. These older models will be accessible through September 13th, after which requests specifying those model names will fail. You can stay up to date on model deprecations via our model deprecation page. This is the first update to these models; so, we eagerly welcome developer feedback to help us ensure a smooth transition.


전환하는 데 시간이 더 필요한 개발자는 API 요청의 '모델' 매개변수에 gpt-3.5-turbo-0301, gpt-4-0314 또는 gpt-4-32k-0314를 지정하여 이전 모델을 계속 사용할 수 있습니다. 이러한 이전 모델은 9월 13일까지 액세스할 수 있으며 그 이후에는 해당 모델 이름을 지정하는 요청이 실패합니다. 모델 지원 중단 페이지를 통해 모델 지원 중단에 대한 최신 정보를 확인할 수 있습니다. 이것은 이러한 모델에 대한 첫 번째 업데이트입니다. 따라서 원활한 전환을 보장하는 데 도움이 되는 개발자 피드백을 기꺼이 환영합니다.



Lower pricing

We continue to make our systems more efficient and are passing those savings on to developers, effective today.

우리는 계속해서 시스템을 더 효율적으로 만들고 이러한 절감액을 개발자에게 전달하고 있습니다. 오늘부터 유효합니다.



text-embedding-ada-002 is our most popular embeddings model. Today we’re reducing the cost by 75% to $0.0001 per 1K tokens.

text-embedding-ada-002는 가장 인기 있는 임베딩 모델입니다. 오늘 우리는 비용을 75% 줄여 1,000개 토큰당 $0.0001입니다.


GPT-3.5 Turbo

gpt-3.5-turbo is our most popular chat model and powers ChatGPT for millions of users. Today we're reducing the cost of gpt-3.5-turbo’s input tokens by 25%. Developers can now use this model for just $0.0015 per 1K input tokens and $0.002 per 1K output tokens, which equates to roughly 700 pages per dollar.

gpt-3.5-turbo는 당사의 가장 인기 있는 채팅 모델이며 수백만 명의 사용자를 위한 ChatGPT를 지원합니다. 오늘 우리는 gpt-3.5-turbo의 입력 토큰 비용을 25%까지 줄입니다. 개발자는 이제 이 모델을 1K 입력 토큰당 $0.0015 및 1K 출력 토큰당 $0.002로 사용할 수 있습니다. 이는 달러당 약 700페이지에 해당합니다.


gpt-3.5-turbo-16k will be priced at $0.003 per 1K input tokens and $0.004 per 1K output tokens.


gpt-3.5-turbo-16k의 가격은 입력 토큰 1,000개당 $0.003, 출력 토큰 1,000개당 $0.004입니다.


Developer feedback is a cornerstone of our platform’s evolution and we will continue to make improvements based on the suggestions we hear. We’re excited to see how developers use these latest models and new features in their applications.


개발자 피드백은 우리 플랫폼 발전의 초석이며 우리는 우리가 듣는 제안을 기반으로 계속해서 개선할 것입니다. 개발자가 애플리케이션에서 이러한 최신 모델과 새로운 기능을 어떻게 사용하는지 보게 되어 기쁩니다.




Jun 1, 2023 - OpenAI cybersecurity grant program

2023. 6. 3. 05:04 | Posted by 솔웅




OpenAI cybersecurity grant program

Our goal is to facilitate the development of AI-powered cybersecurity capabilities for defenders through grants and other support.



OpenAI cybersecurity grant program

Our goal is to facilitate the development of AI-powered cybersecurity capabilities for defenders through grants and other support.

우리의 목표는 보조금 및 기타 지원을 통해 방어자를 위한 AI 기반 사이버 보안 기능 개발을 촉진하는 것입니다.




We are launching the Cybersecurity Grant Program—a $1M initiative to boost and quantify AI-powered cybersecurity capabilities and to foster high-level AI and cybersecurity discourse.


우리는 AI 기반 사이버 보안 기능을 강화 및 정량화하고 높은 수준의 AI 및 사이버 보안 담론을 촉진하기 위한 100만 달러 이니셔티브인 사이버 보안 보조금 프로그램을 시작합니다.


Our goal is to work with defenders across the globe to change the power dynamics of cybersecurity through the application of AI and the coordination of like-minded individuals working for our collective safety.


우리의 목표는 AI를 적용하고 집단 안전을 위해 일하는 같은 생각을 가진 개인의 조정을 통해 사이버 보안의 역학을 변화시키기 위해 전 세계 수비수와 협력하는 것입니다.


Our program seeks to:  우리 프로그램은 다음을 추구합니다.

  1. Empower defenders: We would like to ensure that cutting-edge AI capabilities benefit defenders first and most.
    수비수 역량 강화: 우리는 최첨단 AI 기능이 수비수에게 가장 먼저 그리고 가장 많은 혜택을 주길 원합니다.

  2. Measure capabilities: We are working to develop methods for quantifying the cybersecurity capabilities of AI models, in order to better understand and improve their effectiveness.
    역량 측정: 우리는 AI 모델의 사이버 보안 역량을 더 잘 이해하고 효율성을 개선하기 위해 수치화하는 방법을 개발하기 위해 노력하고 있습니다.

  3. Elevate discourse: We are dedicated to fostering rigorous discussions at the intersection of AI and cybersecurity, encouraging a comprehensive and nuanced understanding of the challenges and opportunities in this domain.
    담론 향상: 우리는 AI와 사이버 보안의 교차점에서 엄격한 토론을 촉진하고 이 영역의 도전과 기회에 대한 포괄적이고 미묘한 이해를 장려하는 데 전념하고 있습니다.

A traditional view in cybersecurity is that the landscape naturally advantages attackers over defenders. This is summed up in the well-worn axiom: “Defense must be correct 100% of the time, attackers only have to be right once.” While it may be true that attackers face fewer constraints and take advantage of their flexibility, defenders have something more valuable - coordination towards a common goal of keeping people safe.


사이버 보안에 대한 전통적인 관점은 환경이 자연스럽게 방어자보다 공격자에게 유리하다는 것입니다. 이것은 잘 알려진 격언으로 요약됩니다. "수비는 항상 100% 정확해야 하며 공격자는 한 번만 정확하면 됩니다." 공격자가 더 적은 제약에 직면하고 유연성을 활용하는 것이 사실일 수 있지만, 방어자는 사람들을 안전하게 보호한다는 공통 목표를 향한 조정이라는 더 가치 있는 것을 가지고 있습니다.


Below are some general project ideas that our team has put forward:


다음은 우리 팀이 제안한 몇 가지 일반적인 프로젝트 아이디어입니다.


  • Collect and label data from cyber defenders to train defensive cybersecurity agents
  • 사이버 방어자로부터 데이터를 수집하고 레이블을 지정하여 방어적인 사이버 보안 에이전트를 교육합니다.
  • Detect and mitigate social engineering tactics
  • 사회 공학 전술 탐지 및 완화
  • Automate incident triage 
  • 인시던트 분류 자동화
  • Identify security issues in source code
  • 소스 코드의 보안 문제 식별
  • Assist network or device forensics
  • 네트워크 또는 장치 포렌식 지원
  • Automatically patch vulnerabilities
  • 취약점 자동 패치
  • Optimize patch management processes to improve prioritization, scheduling, and deployment of security updates
  • 패치 관리 프로세스를 최적화하여 보안 업데이트의 우선 순위 지정, 예약 및 배포를 개선합니다.
  • Develop or improve confidential compute on GPUs
  • GPU에서 기밀 컴퓨팅 개발 또는 개선
  • Create honeypots and deception technology to misdirect or trap attackers
  • 공격자를 오도하거나 함정에 빠뜨리기 위한 허니팟 및 속임수 기술 생성
  • Assist reverse engineers in creating signatures and behavior based detections of malware
  • 리버스 엔지니어가 맬웨어의 서명 및 동작 기반 탐지를 생성하도록 지원
  • Analyze an organization’s security controls and compare to compliance regimes
  • 조직의 보안 제어를 분석하고 규정 준수 체계와 비교
  • Assist developers to create secure by design and secure by default software
  • 개발자가 안전하게 설계되고 기본적으로 안전한 소프트웨어를 만들 수 있도록 지원
  • Assist end users to adopt security best practices
  • 최종 사용자가 보안 모범 사례를 채택하도록 지원
  • Aid security engineers and developers to create robust threat models
  • 보안 엔지니어와 개발자가 강력한 위협 모델을 생성하도록 지원
  • Produce threat intelligence with salient and relevant information for defenders tailored to their organization
  • 조직에 맞는 방어자를 위한 중요하고 관련성 있는 정보로 위협 인텔리전스를 생성합니다.
  • Help developers port code to memory safe languages
  • 개발자가 코드를 메모리 안전 언어로 포팅하도록 지원


Apply now!

If you share our vision for a secure and innovative AI-driven future, we invite you to submit your proposals and join us in our aim towards enhancing defensive cybersecurity technologies.

안전하고 혁신적인 AI 기반 미래에 대한 우리의 비전을 공유한다면 제안서를 제출하고 방어적인 사이버 보안 기술 향상을 위한 우리의 목표에 동참하도록 초대합니다.


OpenAI will evaluate and accept applications for funding or other support on a rolling basis. Strong preference will be given to practical applications of AI in defensive cybersecurity (tools, methods, processes). We will grant in increments of $10,000 USD from a fund of $1M USD, in the form of API credits, direct funding and/or equivalents.


OpenAI는 자금 지원 또는 기타 지원 신청을 수시로 평가하고 수락합니다. 방어적인 사이버 보안(도구, 방법, 프로세스)에서 AI의 실제 적용에 강력한 선호도가 주어질 것입니다. API 크레딧, 직접 자금 지원 및/또는 이에 상응하는 형태로 미화 100만 달러의 기금에서 미화 10,000달러 단위로 보조금을 지급합니다.


Offensive-security projects will not be considered for funding at this time.


공격 보안 프로젝트는 현재 자금 지원 대상으로 고려되지 않습니다.


All projects should be intended to be licensed or distributed for maximal public benefit and sharing, and we will prioritize applications that have a clear plan for this. 


모든 프로젝트는 최대한의 공익과 공유를 위해 라이선스를 부여하거나 배포해야 하며 이에 대한 명확한 계획이 있는 애플리케이션을 우선적으로 처리할 것입니다.


Please submit your proposal here.


here에 제안서를 제출하십시오.












이런 결과가 나올 줄이야.

그저께 테슬라 Long Call 옵션 매수 했고 방금 전 294불 수익보고 Close 했습니다.


이틀전 Option Buy 할 때 테슬라 주가가 202불이었고 옵션은 Strike Price (행사가격) 197.5불에 만기일 (Expireation Date) 2023년 6월 9일 그리고 Premium은 10.44 불이었습니다.


사실 나는 주가 하락을 예상하고 있어서 테슬라 주식을 100주 매도 했고 혹시나 더 오를 경우 수익을 좀 보자는 의미에서 이 Long Call 을 매수 했기 때문에 여기서 수익을 볼 거라고는 전혀 생각 못했다.


어제 까지만 해도 테슬라 주식이 200 장중에 200 아래로 떨어져서 손해 보는게 확실하다고 생각했다.

그런데 어제 장 마금을 200선 위에서 해 주더니 오늘 208 까지 주가가 치솟았다.

위에 보면 Jun 09 에 있는 197.5 불 Strike price를 보면 ASK 가 13.45 이다. 내가 볼 때는 이게 13.50이었다.

그래서 이 옵션을 Close 하기로 작정하고 오더를 넣었다.


Sell to Close를 선택하고 1 Contract에 Order Type은 Limit 그리고 Limit Price는 13.40을 적어 냈다.

이 Order는 단 몇초만에 체결 됐다.


그래서 결과는.....


Commission 0.65불 그리고 Fee 0.05불 제외하고 1339.30달러가 입금이 됐다.


살때는 Commission이 0.68불이었고 Fee는 0.03불 이었다.

팔때는 Commission이 0.65불이고    Fee는 0.05불 이었다.


하여간 이 커미션과 fee 모두 제외하고 나온 수익은 294.62불이다.

이틀만에 1044.68 불로 294.62불을 벌었으니 28% 정도의 수익을 본 것이다.


그것보다 생이 첫 옵션 실전 거래를 통해서 배운것이 더 값지다. 


Exercise (권한행사) 하지 않고 이렇게 Close 하면서 수익을 직접 내 보는 경험도 아주 좋았고...


나는 하반기는 여전히 네거티브한 전망을 가지고 있다.

내 전망이 무색하게 빅테크들은 계속 오르고 특히 엔비디아, 테슬라는 크게 오르고 있다.

하지만 나는 여전히 물가 제자리, 소비 감소, 유동성 감소 등으로 인해 하반기는 시장 전망을 부정적으로 하고 있다.

그래서 당장 내일부터라도 지수가 크게 내리기 시작해도 아무 이상할 것이 없다고 생각한다.

그리고 Premium은 날짜가 지날 수록 그 가치가 점점 내려간다고 배웠다.


그래서 오늘 수익구간에 있을 때 급하게 Close 해 버렸다.


다음 실전 경험은 Protective Put 을 해 보고 싶다.

주식을 구매하고 혹시 하락할 경우를 대비해서 그 주식에 대해 Put 을 구매해서 하방 리스크는 제한하고 상승시 Put 에 대한 프리미엄 만큼 제외하고 수익을 챙기는 방법.


Protective Put : Profit and Loss Diagram

오늘 테슬라 종가는 207.52 달러입니다.

Strike Price 197.5 달러의 프리미엄 시장가는 대충 12.5 정도 되네요. 난 13.4 에 팔았으니까 좀 더 수익 본 것 같고 기분은 좋습니다.


제 첫 옵션 거래 결과는 이틀만에 294불 벌었다 입니다.


새로운 것을 배우니까 재밌네요. 다음 옵션 매매도 Go Go!!!



어제 테슬라 주식에 대한 Long Call option 1계약을 체결 했다.

나름대로 원래 테슬라 주식 100주 매도에 대한 헷지 수단으로 롱콜 옵션을 구매한다는 생각이었는데...

MikookOption 선배님들에게 조언을 받으면서 생각해 보니 이 Planning 자체가 좀 이상한 거였다.


과정을 정리하면...


현재 테슬라 주가는 200 내외이다.

나는 180 정도 부터 테슬라 주식을 정리하기 시작했다.

어닝시즌, 부채한도 협상을 거치면서 하반기는 소비 하락으로 인한 침체로 (연착륙이든 경착륙이든) 상반기 상승했던 나스닥이 조정 혹은 전 저점 까지 하락할 가능성이 높다고 생각했기 때문이다.


170대에서 일부 정리하니 올랐다. 당연히 그럴거라 생각했다.

180대에서 일부 정리하니 또 올랐다. 그럴 수 있을 거라 생각했다.

190대에서 일부 정리하니 또 올랐다. 그리고 NVIDIA 는 하루에 20% 넘게 폭등했다. 너무 오르는거 아냐? 라고 생각했다.

200대까지 갔다. 일부 정리해야할 타이밍이다.

그런데 포모가 약간 생겼다. 이대로 또 쭉 갈 수 있는건가?

200대에서 100주 매도 할 거다. 그리고 더 이상 매도할 생각이 없다. (남아있는 테슬라 주식은 장기보유할 계획이라서)


여기서 또 쭉 가면 이제 손 빨고 있어야 한다.

그래서 100주 매도 하면서 예상대로 되지 않을 것에 대비해서 테슬라 롱콜에 1계약 (100주)을 체결하기로 했다.


난생 처음 옵션을 구매하는 거라서 한참 걸렸다.


이 계약은 100주 매도 후 계속 상승할 경우 수익을 놓치지 않기 위해서이다.

그리고 예상대로 하락할 경우 최대 프리미엄 만큼만 제외한 나머지 수익을 취하기 위해서 이다.


그런데 여기서 좀 이상했다.


나는 예를 들어 200에 매도 후 150으로 하락하면 50이 수익이라고 생각해 버린게 조금 문제가 있었다.

그건 150으로 하락했을 때 매수 한 경우 50의 손실을 보지 않는 거였다.


일단 200에 매도한 것은 그것으로 익절 혹은 손절로 거래가 종료 되는 것이다.

(다행히 나는 익절이었지만...)


그 다음 하락했을 경우 매수 하던 말던 그건 그 다음 라운드인 것이다.


그렇기 때문에 내가 구매한 롱콜 옵션은 그냥 상승을 예상하고 롱콜을 매수한 꼴이 되어 버린 것이다.

실제로는 나는 하락을 예상하고 있는데......


하여간 나의 첫 long call option trading은 이렇게 디자인부터 약간 이상했다.


이렇게 된 이상. 이번 실전 거래를 통해서 공부나 좀 더 해 보자.


나는 Fidelity의 Active Trader Pro 라는 프로그램을 사용하고 있다.

Accounts menu 에서 Options by Strategy를 선택하니 아래 화면이 나왔다.


테슬라 Long Call 옵션 1거래이고 2023년 6월 9일이 만기 이고 행사가격은 197.5불. (당시 테슬라 주식은 202불이었다.)

여기에는 프리미엄이 얼마인지 나오지 않았다.

그래서 Accounts 메뉴에서 History를 선택했다.

여기에서는 프리미엄을 볼 수 있었다. 프리미엄은 10.44 달러로 100주니까 나는 1044.68 달러를 지불한 것이다.

그리고 나는 197.5달러에 테슬라 주식을 매수할 수 있는 권리를 샀다.

이 권리를 행사할 수 있는 기간은 2023년 6월 9일까지 이며 이 옵션은 미국식이라서 행사는 만기일 이전 언제라도 할 수 있다.

Commission은 0.65 달러이고 Fee는 0.03 달러이다.


올 초에 배운 옵션 관련 지식을 바탕으로 위 표를 보고 이런 내용을 유추할 수 있었다. ;) 


다시 Optins by Strategy를 보면 이렇다. (2023년 5월 31일 Pacific Time 9:48Am 현재 기준이다.)


이 때 197.5불이 행사가격인 테슬라 옵션의 프리미엄은 6.95불이다.

나는 10.45불의 프리미엄을 지불했으니까 한주당 3.5불 마이너스 100주니까 350불 손해인 상태다.

Open Int, Net Delta, IV Mid 는 배우긴 배웠는데 어떤건지 잘 모르겠다.


Fidelity Active Trader Pro에는 Profit/Loss Calculator 가 있다.


내 옵션의 손익 분기점은 207.95달러이다.

현재 가격은 196.53달러로 -353.52 달러이다.

이 옵션을 다시 팔면 -353.52 달러만 손해 본다는 얘기인것 같다.

이 옵션을 권리 행사 해 버리면 100주를 197.5달러에 매수를 하게 되고 프리미엄 1044.68 불도 날아가는 것인가?

그냥 행사 안하고 만기일인 6월 9일까지 가면 주가가 지금 주가대로 196.53달러일 경우 1044.68 달러만 날아가고 끝.


여기까지가 내가 배운 내용이다. (혹시 틀린 부분이 없기를......)


아래 Unpaired Position에 나온건 현재 내가 가지고 있는 테슬라 주식에 대한 정보다.


지금 이렇게 옵션을 분석해 보니 내가 매수한 이 Long Call 옵션은 만기일 까지 수익을 내기가 어려운 것 같다.

손익 분기점이 207.5불이고 현재 가격이 196불이고 최근 너무 상승해서 이제 조정 좀 받을 때 라고 생각하기 때문에 손익 분기점까지 가지 않을 것 같다.

그리고 지금 벌써 행사가격 이하로 내려갔고 앞으로도 더 내려갈 가능성이 더 많은 것 같다.

위 Profit/Loss 그래프를 보면 207.95 달러 이하로 내려갈 확률이 99.91% 라고 하는 것 같다.


저 기준선을 나의 행사가격인 197.5 달러로 옮겨보겠다.

이 경우에도 하락할 확률이 59.28%이다.

내 행사가격 이하로 내려갈 확률이 반이 훨씬 넘는다.



대충 현재 가격 정도인 196.8 달러 정도가 상승/하락 확률이 50 대 50인 것 같다.

뭐 이게 얼마나 정확한지는 모르지만 대체로 동의는 된다.


여기서 내가 취할 전략은 만기일 전에 이 옵션을 팔아버려서 손실을 최소화 하는 것 같다.


Trade 메뉴에는 아래와 같은 서브 메뉴들이 있다.


여기서 내가 이 옵션을 행사하지 않고 만기일 이전에 팔려면 Sell to Close 를 해야 할 것 같다.

그걸 선택하면 아래와 같이 나온다.

근데 여기서 프리미엄 가격을 내가 정할 수 없는 건가?

예전에 배울 때 Close 하는 방법도 여러가지가 있었던 것 같은데.. (Multi leg trade etc.)


잘 모르겠다. 옵션을 행사하지 않고 만기일 이전에 close 하는 방법을 더 공부해야 겠다.

