반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리

'translation'에 해당되는 글 1

  1. 2023.03.07 Audio - openai.Audio.transcribe(), openai.Audio.translate()


반응형

https://platform.openai.com/docs/api-reference/audio

 

OpenAI API

An API for accessing new AI models developed by OpenAI

platform.openai.com

Audio

Beta

POST https://api.openai.com/v1/audio/transcriptions

Transcribes audio into the input language.

음성 메세지를 입력한 언어로 Transcribes (필사) 합니다.

 

import os
import openai
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
{
  "file": "audio.mp3",
  "model": "whisper-1"
}
{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}

 

Request body

file
string Required

The audio file to transcribe, in one of these formats: mp3, mp4, mpeg, mpga, m4a, wav, or webm.

문자로 변환 하게 될 오디오 파일 입니다. mp3, mp4, mpeg, mpga, m4a, wav 또는 webm 형식 중 하나 이어야 합니다.

 

model
string Required

ID of the model to use. Only whisper-1 is currently available.

사용할 모델의 ID입니다. 현재 whisper-1 모델만 사용할 수 있습니다.

 

prompt
string Optional

An optional text to guide the model's style or continue a previous audio segment. The prompt should match the audio language.

모델의 스타일을 안내하거나 이전 오디오 세그먼트를 계속하는 선택적 텍스트입니다. 프롬프트는 오디오 언어와 일치해야 합니다.

 

 

response_format
string Optional Defaults to json

The format of the transcript output, in one of these options: json, text, srt, verbose_json, or vtt.

필사한 값의 output format입니다. json, text, srt, verbose_json 또는 vtt  포맷 중 하나 입니다.

 

 
temperature
number Optional Defaults to 0

The sampling temperature, between 0 and 1. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic. If set to 0, the model will use log probability to automatically increase the temperature until certain thresholds are hit.

샘플링 온도는 0에서 1 사이입니다. 0.8과 같이 값이 높을수록 출력이 더 무작위적으로 생성되고 0.2와 같이 값이 낮을수록 더 집중되고 결정적입니다. 0으로 설정하면 모델은 로그 확률을 사용하여 특정 임계값에 도달할 때까지 자동으로 temperature 를 높입니다.

 

 

language
string Optional

The language of the input audio. Supplying the input language in ISO-639-1 format will improve accuracy and latency.

입력 오디오의 언어입니다. ISO-639-1 형식으로 입력 언어를 제공하면 정확도와 대기 시간이 향상됩니다.

 

Create translation

Beta

POST https://api.openai.com/v1/audio/translations

Translates audio into into English. 

음성데이터를 영어로 번역합니다.

 

import os
import openai
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("german.m4a", "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)
{
  "file": "german.m4a",
  "model": "whisper-1"
}
{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"
}

 

Request body

file
string Required

The audio file to translate, in one of these formats: mp3, mp4, mpeg, mpga, m4a, wav, or webm.

문자로 변환 하게 될 오디오 파일 입니다. mp3, mp4, mpeg, mpga, m4a, wav 또는 webm 형식 중 하나 이어야 합니다.

 

 

model
string Required

ID of the model to use. Only whisper-1 is currently available.

사용할 모델의 ID입니다. 현재 whisper-1 모델만 사용할 수 있습니다.

 

 

prompt
string Optional

An optional text to guide the model's style or continue a previous audio segment. The prompt should be in English.

모델의 스타일을 안내하거나 이전 오디오 세그먼트를 계속하는 선택적 텍스트입니다. 프롬프트는 오디오 언어와 일치해야 합니다.

 

 

response_format
string Optional Defaults to json

The format of the transcript output, in one of these options: json, text, srt, verbose_json, or vtt.

transcript output 의 포맷입니다. json, text, srt, verbose_json 또는 vtt  포맷 중 하나 입니다.

 

temperature
number Optional Defaults to 0

The sampling temperature, between 0 and 1. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic. If set to 0, the model will use log probability to automatically increase the temperature until certain thresholds are hit.

 

샘플링 온도는 0에서 1 사이입니다. 0.8과 같이 값이 높을수록 출력이 더 무작위적으로 생성되고 0.2와 같이 값이 낮을수록 더 집중되고 결정적입니다. 0으로 설정하면 모델은 로그 확률을 사용하여 특정 임계값에 도달할 때까지 자동으로 temperature 를 높입니다.

 

 

 

반응형
이전 1 다음