Audio - openai.Audio.transcribe(), openai.Audio.translate()
2023. 3. 7. 00:01 |
https://platform.openai.com/docs/api-reference/audio
Audio
Learn how to turn audio into text. 음성을 문자로 바꾸는 방법에 대해 알아 봅니다.
Related guide: Speech to text
이 페이지를 한글로 설명한 제 블로그 글 입니다.
https://coronasdk.tistory.com/1287
Create transcription
POST https://api.openai.com/v1/audio/transcriptions
Transcribes audio into the input language.
음성 메세지를 입력한 언어로 Transcribes (필사) 합니다.
import os
import openai
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
{
"file": "audio.mp3",
"model": "whisper-1"
}
{
"text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}
Request body
The audio file to transcribe, in one of these formats: mp3, mp4, mpeg, mpga, m4a, wav, or webm.
문자로 변환 하게 될 오디오 파일 입니다. mp3, mp4, mpeg, mpga, m4a, wav 또는 webm 형식 중 하나 이어야 합니다.
ID of the model to use. Only whisper-1 is currently available.
사용할 모델의 ID입니다. 현재 whisper-1 모델만 사용할 수 있습니다.
An optional text to guide the model's style or continue a previous audio segment. The prompt should match the audio language.
모델의 스타일을 안내하거나 이전 오디오 세그먼트를 계속하는 선택적 텍스트입니다. 프롬프트는 오디오 언어와 일치해야 합니다.
The format of the transcript output, in one of these options: json, text, srt, verbose_json, or vtt.
필사한 값의 output format입니다. json, text, srt, verbose_json 또는 vtt 포맷 중 하나 입니다.
The sampling temperature, between 0 and 1. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic. If set to 0, the model will use log probability to automatically increase the temperature until certain thresholds are hit.
샘플링 온도는 0에서 1 사이입니다. 0.8과 같이 값이 높을수록 출력이 더 무작위적으로 생성되고 0.2와 같이 값이 낮을수록 더 집중되고 결정적입니다. 0으로 설정하면 모델은 로그 확률을 사용하여 특정 임계값에 도달할 때까지 자동으로 temperature 를 높입니다.
The language of the input audio. Supplying the input language in ISO-639-1 format will improve accuracy and latency.
입력 오디오의 언어입니다. ISO-639-1 형식으로 입력 언어를 제공하면 정확도와 대기 시간이 향상됩니다.
Create translation
POST https://api.openai.com/v1/audio/translations
Translates audio into into English.
음성데이터를 영어로 번역합니다.
import os
import openai
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("german.m4a", "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)
{
"file": "german.m4a",
"model": "whisper-1"
}
{
"text": "Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"
}
Request body
The audio file to translate, in one of these formats: mp3, mp4, mpeg, mpga, m4a, wav, or webm.
문자로 변환 하게 될 오디오 파일 입니다. mp3, mp4, mpeg, mpga, m4a, wav 또는 webm 형식 중 하나 이어야 합니다.
ID of the model to use. Only whisper-1 is currently available.
사용할 모델의 ID입니다. 현재 whisper-1 모델만 사용할 수 있습니다.
An optional text to guide the model's style or continue a previous audio segment. The prompt should be in English.
모델의 스타일을 안내하거나 이전 오디오 세그먼트를 계속하는 선택적 텍스트입니다. 프롬프트는 오디오 언어와 일치해야 합니다.
The format of the transcript output, in one of these options: json, text, srt, verbose_json, or vtt.
transcript output 의 포맷입니다. json, text, srt, verbose_json 또는 vtt 포맷 중 하나 입니다.
The sampling temperature, between 0 and 1. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic. If set to 0, the model will use log probability to automatically increase the temperature until certain thresholds are hit.
샘플링 온도는 0에서 1 사이입니다. 0.8과 같이 값이 높을수록 출력이 더 무작위적으로 생성되고 0.2와 같이 값이 낮을수록 더 집중되고 결정적입니다. 0으로 설정하면 모델은 로그 확률을 사용하여 특정 임계값에 도달할 때까지 자동으로 temperature 를 높입니다.
'Open AI > API REFERENCE' 카테고리의 다른 글
Chat - Create chat completion (ChatGPT API usage) (0) | 2023.03.06 |
---|---|
Parameter details (0) | 2023.01.17 |
Engines - openai.Engine.list(), (0) | 2023.01.17 |
Moderations - openai.Moderation.create() (0) | 2023.01.17 |
Fine-tunes : openai.FineTune.create(), list(), retrieve(), cancel(), list_events(), delete() (0) | 2023.01.17 |
Files - openai.File.list(), create(), delete(), retrieve(), download() (0) | 2023.01.17 |
Embeddings - openai.Embedding.create() (0) | 2023.01.17 |
Images - openai.Image.create(), openai.Image.create_edit(), openai.Image.create_variation() (0) | 2023.01.17 |
Edits - openai.Edit.create() (0) | 2023.01.17 |
Completions - openai.Completion.create() (0) | 2023.01.17 |