ChatGPT가 오디오를 전사할 수 있나요? 녹음·파일·실시간 경로를 먼저 나누세요

AI Free API Team

•2026년 5월 16일•13 min read•ChatGPT

ChatGPT는 오디오 전사 작업에 쓸 수 있지만, 지금 녹음 중인지, 이미 MP3나 M4A 파일이 있는지, 실시간 음성인지, 이미 transcript가 있는지에 따라 입구가 달라집니다.

ChatGPT Record, Audio API, Realtime, 전사 후 정리를 구분하는 오디오 전사 경로 지도

ChatGPT는 오디오를 텍스트로 바꾸는 작업에 도움을 줄 수 있습니다. 다만 모든 MP3나 M4A를 일반 채팅창에 넣으면 자동으로 전사되는 하나의 버튼은 아닙니다. 지원되는 ChatGPT 데스크톱 환경에서 지금 녹음하는 경우에는 ChatGPT Record를 쓰고, 이미 저장된 MP3, M4A, WAV, 음성 메모가 있다면 OpenAI Audio API나 신뢰할 수 있는 전사 도구를 쓰는 편이 낫습니다. 사용자가 말하는 동안 바로 텍스트가 필요하다면 Realtime transcription을, 이미 transcript가 있다면 ChatGPT를 요약, 정리, 번역, 액션 아이템 추출에 쓰면 됩니다.

Record, 음성 입력, 기존 오디오 파일, API 작업, 실시간 음성, transcript 정리를 나누는 의사결정 보드.

지금 출발점	더 맞는 경로	이렇게 단정하지 마세요
ChatGPT 안에서 녹음 중	ChatGPT Record	모든 오래된 오디오 파일을 아무 채팅에나 넣을 수 있다
짧은 프롬프트를 말로 입력	음성 입력	회의록 수준의 전사나 화자 라벨이 생긴다
이미 MP3, M4A, WAV, 음성 메모가 있음	OpenAI Audio API 또는 전사 도구	유료 ChatGPT 플랜이면 파일 전사가 보장된다
반복 가능한 파일 전사 기능을 개발	`/v1/audio/transcriptions`	실시간 스트리밍과 같은 의미다
앱에서 말하는 동안 텍스트가 필요	Realtime transcription	오래된 녹음 파일 일괄 업로드에 가장 좋다
이미 transcript가 있음	ChatGPT로 정리, 요약, 번역, 액션 아이템화	오디오 전사 자체가 ChatGPT 안에서 일어났다

OpenAI는 ChatGPT Record, 개발자용 Audio API, Realtime API를 별도 문서로 설명합니다. 따라서 ChatGPT 구독, OpenAI API key, 제3자 전사 서비스는 같은 계약이 아닙니다. 2026년 5월 16일 기준 공개 문서를 확인한 뒤, 제품 경로와 API 경로를 나누어 설명합니다.

오디오는 일반 텍스트 프롬프트보다 민감할 수 있습니다. 회의, 고객 통화, 수업, 의료나 법률 관련 녹음, 주변 사람의 목소리가 들어간 파일은 “기술적으로 업로드가 되느냐”보다 먼저 녹음 동의, 업로드 권한, 보관 위치, 삭제 가능성, 검수 책임자를 확인해야 합니다.

먼저 오디오가 지금 어디에 있는지 보세요

“ChatGPT로 음성을 텍스트로 바꾸고 싶다”는 말 안에는 여러 요구가 섞입니다. 누군가는 ChatGPT에서 회의를 바로 녹음하고 싶고, 누군가는 이미 저장된 MP3나 음성 메모를 처리하고 싶고, 개발자는 Whisper나 OpenAI API를 찾고, 어떤 사람은 이미 나온 transcript를 요약하고 싶어 합니다.

그래서 단순한 “가능합니다”라는 답은 위험합니다. 지원되는 환경의 ChatGPT Record를 말하는 경우라면 맞을 수 있지만, 손에 들고 있는 오래된 MP3 파일을 일반 채팅 업로드로 처리하려는 사람에게는 충분하지 않습니다. OpenAI의 ChatGPT 지원 파일 형식 페이지는 2026년 5월 16일 기준 문서, 스프레드시트, 프레젠테이션, PDF, 텍스트 파일 등을 일반 업로드 대상으로 설명하며, 오디오 형식을 일반적인 전사 업로드 경로로 보장하지 않습니다.

반대로 “안 됩니다”라고만 말하는 것도 오래된 답입니다. OpenAI는 ChatGPT Record 도움말을 제공하고, 개발자 문서에는 speech-to-text guide와 Realtime transcription guide가 있습니다. 올바른 답은 ChatGPT라는 이름을 하나의 기능으로 묶지 않고, 오디오의 상태별로 경로를 고르는 것입니다.

현장에서 쓸 판단은 네 가지입니다. 지금 말하고 있고 지원되는 ChatGPT 데스크톱 워크스페이스라면 Record입니다. 파일이 이미 있다면 Audio API나 전사 도구입니다. 앱에서 실시간 자막, 통화 메모, 음성 에이전트가 필요하다면 Realtime입니다. 텍스트가 이미 있다면 ChatGPT는 편집자, 요약기, 번역기, 업무 정리 도구가 됩니다.

계정 경계도 분리해야 합니다. ChatGPT 플랜은 ChatGPT 제품의 기능을 결정합니다. OpenAI API key는 개발자 프로젝트가 호출할 수 있는 엔드포인트와 모델을 결정합니다. 제3자 도구는 업로드, 보관, 가격, 화자 분리, 삭제 정책을 자체 계약으로 결정합니다. 이 세 가지를 모두 “ChatGPT 전사”로 부르면 실패 원인을 찾을 수 없습니다.

ChatGPT Record가 맞는 경우

ChatGPT Record는 지원되는 ChatGPT 앱 안에서 녹음하고, 그 세션의 transcript, summary, notes가 필요한 경우에 쓰는 제품 경로입니다. 2026년 5월 16일 확인한 ChatGPT Record 도움말은 이 기능이 macOS 데스크톱 앱에서 Plus, Pro, Business, Enterprise, Edu 워크스페이스에 제공된다고 설명합니다.

이 경로는 회의, 브레인스토밍, 인터뷰, 음성 메모처럼 라이브 캡처가 중심인 작업에 적합합니다. 그렇다고 해서 이미 저장된 모든 오디오 파일을 아무 ChatGPT 채팅창에 끌어다 놓을 수 있다는 뜻은 아닙니다. Record에는 고유한 제품 화면, 마이크 권한, 워크스페이스 제어, 세션 제한, 보관 규칙이 있습니다.

도움말은 현재 한 세션 최대 4시간 제한도 언급합니다. 하지만 플랜 이름, 플랫폼, 제한, 가격은 바뀔 수 있는 정보입니다. 내부 안내서나 공개 문서에 쓰려면 게시 시점에 다시 확인해야 합니다.

Record는 여러 화자가 있는 상황을 다룰 수 있지만, 결과가 자동으로 사실 기록이 되는 것은 아닙니다. 이름, 숫자, 금액, 날짜, 고객 약속, 계약 문구, 전문 용어는 작은 전사 오류가 큰 비용이 되는 부분입니다. 고객 답변, 계약 메모, 의료나 법률 기록, 결제 판단에 쓸 transcript라면 반드시 사람이 검수해야 합니다.

보관 방식도 확인 대상입니다. OpenAI는 Record 오디오 녹음이 전사에 사용된 뒤 삭제되고, 생성된 canvas와 transcript는 일반 conversation 또는 canvas retention 설정을 따른다고 설명합니다. 이는 무료 전사 사이트에 업로드하는 것과도 다르고, 개발자 API로 직접 처리해 파일과 로그를 보관하는 것과도 다릅니다.

이미 MP3, M4A, WAV 또는 음성 메모가 있다면

기존 오디오 파일은 가장 혼란스러운 분기입니다. 사용자는 회의 녹음, 강의, 인터뷰, 팟캐스트, 음성 메모, 통화 파일을 가지고 있고, “ChatGPT가 전사할 수 있나”라고 묻습니다. 이때 유료 플랜만으로 판단하면 안 됩니다. 현재 제품 화면이 이 파일 유형과 길이, 크기, 워크스페이스 정책에서 오디오 전사를 명확히 지원하는지 확인해야 합니다.

일회성 개인 파일이라면 별도 전사 도구가 API보다 간단할 수 있습니다. 그러나 간단함은 신뢰를 대신하지 않습니다. 누가 서비스를 운영하는지, 파일을 보관하는지, 삭제할 수 있는지, 업로드 데이터를 학습에 쓰는지, 긴 파일을 어떻게 나누는지, 화자 라벨이 있는지, 무료 한도 이후 조건은 무엇인지 확인해야 합니다. 민감하지 않은 파일에는 충분해도 고객 통화나 내부 회의에는 위험할 수 있습니다.

반복 작업이라면 OpenAI Audio API가 더 명확합니다. 엔드포인트, 모델, 응답 형식, 재시도, 로그 경계, DB 연동을 설계할 수 있습니다. 원본 파일명, 길이, 모델, 응답 형식, 요청 시각, 재시도 횟수, transcript 버전, 검수 상태를 남기면 나중에 원인을 추적할 수 있습니다.

ChatGPT에서 파일이 실패할 때 같은 업로드를 계속 반복하지 마세요. 먼저 해당 제품 경로가 정말 오디오 파일 전사용인지 확인합니다. 그다음 형식, 길이, 크기, 워크스페이스 규칙, 현재 서비스 상태를 봅니다. 중요한 비즈니스 오디오라면 우연히 되는 채팅 경로를 찾기보다 통제 가능한 전사 경로로 옮겨야 합니다.

파일 상황	권장 경로	업로드 전 확인
개인용 저위험 음성 메모	전사 도구 또는 작은 API 스크립트	보관, 삭제, 길이, 무료 한도
고객 통화나 내부 회의	승인된 도구 또는 자체 API workflow	동의, 감사 기록, 저장 위치, 검수 책임자
강의, 팟캐스트, 긴 아카이브	Audio API 기반 큐와 분할 전략	크기 제한, 비용, 재시도, 버전 관리
필요한 것은 요약뿐	먼저 전사하고 텍스트를 ChatGPT에 전달	요약 단계와 전사 단계를 섞지 않기

완료된 파일에는 Audio API를 사용하세요

입력이 이미 완성된 오디오 파일이고, 출력이 앱, 데이터베이스, 자동화, 고객 시스템으로 들어가야 한다면 개발자 경로는 OpenAI Audio API가 자연스럽습니다. 2026년 5월 16일 확인한 speech-to-text guide는 /v1/audio/transcriptions를 전사용으로, /v1/audio/translations를 오디오를 영어로 번역하는 경로로 설명합니다.

완료된 오디오 파일 전사와 라이브 Realtime 전사를 분리하는 두 갈래 API 흐름.

파일 경로는 명확합니다. 지원되는 오디오 파일을 업로드하고, 전사 모델을 고르고, 텍스트나 JSON을 받은 뒤, 후속 단계로 전달합니다. 문서는 현재 mp3, mp4, mpeg, mpga, m4a, wav, webm을 표준 업로드 형식으로 들고, 일반 업로드 경계로 25 MB를 설명합니다. 형식, 크기, 모델명, 파라미터 지원은 바뀔 수 있으므로 고객 업로드를 받기 전에 다시 확인해야 합니다.

모델은 인기나 이름만 보고 고르지 말고 출력 요구에서 시작해야 합니다. 현재 guide에는 gpt-4o-transcribe, gpt-4o-mini-transcribe, gpt-4o-transcribe-diarize, whisper-1이 있습니다. 오디오가 깨끗하고 비용이나 속도가 중요하면 가벼운 경로부터, 정확도가 중요하면 더 강한 경로를, 화자 라벨이 중요하면 diarization 경로를 검토합니다. 타임스탬프, streaming, speaker labels가 모든 모델에서 같다고 가정하지 마세요.

최소 JavaScript 형태는 다음과 같습니다.

js
import OpenAI from "openai";
import fs from "node:fs";

const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const transcript = await client.audio.transcriptions.create({
  model: "gpt-4o-mini-transcribe",
  file: fs.createReadStream("meeting.m4a"),
  response_format: "json",
});

console.log(transcript.text);

운영 코드에는 이 호출보다 더 많은 정보가 필요합니다. 원본 파일명, 길이, 모델, 응답 형식, 요청 시각, 재시도 횟수, 실패 원인, transcript 버전, 검수 상태를 저장하세요. transcript가 고객에게 보이는 요약이나 액션 아이템으로 이어진다면 사람의 검수 상태도 별도로 남겨야 합니다.

API 경로에서도 OpenAI 직접 호출, 클라우드 플랫폼, 회사 프록시, 제3자 게이트웨이를 같은 것으로 취급하지 마세요. 게이트웨이는 접속 마찰을 줄일 수 있지만 과금, 제한, 모델 매핑, 로그, 지원 책임은 별도입니다. 어떤 게이트웨이에서 파일 전사가 되었다고 해서 일반 ChatGPT 채팅창이 같은 파일을 받아야 한다는 뜻은 아닙니다.

실시간 음성에는 Realtime transcription을 쓰세요

Realtime transcription은 이미 저장된 파일을 올리는 다른 이름이 아니라, 지금 흐르는 음성 스트림을 처리하는 경로입니다. 실시간 자막, 통화 메모, 음성 에이전트, 앱 내 speech-to-text, 회의 보조처럼 사용자가 말하는 동안 텍스트가 필요한 제품에 맞습니다. Realtime transcription guide는 transcription sessions, transcript delta events, 지연과 정확도 tradeoff, 저지연 gpt-realtime-whisper 경로를 설명합니다.

구현 모델도 다릅니다. 완료된 파일을 올리고 최종 결과를 기다리는 대신, session을 열고, 오디오를 stream하고, incremental transcript events를 받으며, partial, 수정, 무음, turn boundary, 연결 끊김을 처리합니다. 그래서 live UX에는 좋지만 reliability engineering은 더 복잡합니다.

Realtime은 지연 시간이 실제 문제일 때 사용하세요. 오래된 강의, 팟캐스트, 음성 메모, 회의 녹음을 일괄 전사하는 작업은 파일 엔드포인트가 더 디버깅하기 쉽고 비용도 예측하기 쉽습니다. 실시간 회의 보조, 라이브 자막, 음성 앱, 통화 중 상담 도구라면 Realtime이 자연스럽습니다.

OpenAI는 2026년 5월 7일 GPT-Realtime-Whisper를 발표했고, 이후 OpenAI Status에는 5월 7일부터 8일까지 ChatGPT와 Codex에 영향을 준 전사 실패 인시던트가 해결됨으로 기록되었습니다. 이것이 오늘의 장애 원인이라는 뜻은 아니지만, 여러 깨끗한 입력, 여러 계정, 여러 경로가 동시에 실패할 때는 workflow를 고치기 전에 상태 페이지를 봐야 한다는 운영상 교훈입니다.

전사 후에는 ChatGPT가 가장 유용할 수 있습니다

ChatGPT가 오디오를 직접 텍스트로 바꾸지 않는 경우에도, transcript가 생긴 뒤에는 매우 좋은 도구가 됩니다. 기존 오디오 파일의 가장 깔끔한 workflow는 종종 “통제된 경로로 먼저 전사하고, 그 텍스트를 ChatGPT에 맡기는 것”입니다.

전사 후 작업의 예시는 다음과 같습니다.

군더더기와 반복 표현을 줄이되 의미를 유지하기
짧은 요약, 상세 회의록, 임원용 브리프 만들기
결정 사항, 위험, 담당자, 마감일 추출하기
회의 내용을 고객 이메일이나 프로젝트 메모로 바꾸기
발화 의도를 유지하면서 번역하기
타임스탬프가 있는 transcript에서 인용과 근거 찾기
두 transcript 버전을 비교해 약속이나 표현 변화 찾기

이 단계에서는 ChatGPT 구독이 여전히 유용합니다. 일반 오디오 파일 업로드가 안정적인 전사 경로가 아니더라도, 내용이 텍스트가 된 뒤에는 ChatGPT가 추론, 재작성, 구조화, 후속 질문에 강하기 때문입니다. 다만 transcript를 요약했다는 사실을 “ChatGPT가 일반 채팅에서 원본 오디오를 전사했다”는 주장으로 바꾸지 마세요.

민감한 transcript는 붙여넣기 전에 줄이세요. 이름, 전화번호, 결제 정보, 의료나 법률 정보, 고객 고유 정보, 받는 사람이 필요로 하지 않는 세부 사항을 제거합니다. 고객, 고용주, 학교, 클라이언트 관계에 속한 녹음이라면 해당 관계의 정책을 우선해야 합니다.

업로드 전 안전성과 신뢰성을 확인하세요

오디오는 목소리, 배경 이름, 고객 정보, 건강 정보, 금융 정보, 어린이, 주변 사람, 녹음에 동의하지 않은 사람을 포함할 수 있습니다. 맞는 전사 경로란 작동하는 경로일 뿐 아니라 사용할 권한이 있는 경로입니다.

동의, 민감 정보, 경로 소유자, transcript 검수를 확인하는 오디오 전사 안전 체크리스트.

확인 항목	녹음 또는 업로드 전에 물어볼 질문
동의	이 대화를 녹음하고 전사 서비스로 보내도 되는가
민감도	규제, 개인, 고객, 법률, 금융, 의료, 직장 기밀 정보가 포함되어 있는가
경로 소유자	ChatGPT Record, OpenAI API, 제3자 앱, 내부 도구 중 무엇이고 보관과 삭제는 누가 통제하는가
검수	이름, 숫자, 화자 라벨, 인용, 액션 아이템을 누가 확인한 뒤 사용할 것인가

신뢰성도 나눠 봐야 합니다. 잡음, 겹쳐 말하기, 억양, 낮은 볼륨, 음악, 전문 용어, 여러 화자가 있으면 보기에는 매끄럽지만 틀린 결과가 나올 수 있습니다. 불확실한 단어를 표시하게 하고, 중요한 결정은 오디오와 대조하고, 화자 라벨은 확인하기 전까지 믿지 마세요.

전사가 갑자기 실패하면 한 번에 하나의 변수만 바꾸세요. 더 짧은 파일, 더 단순한 형식, 깨끗한 녹음, 새 세션, 다른 경로, 상태 페이지를 차례로 봅니다. 여러 깨끗한 테스트가 동시에 실패하면 서비스 상태 문제일 수 있습니다. 한 파일만 실패하면 파일 문제일 가능성이 큽니다. ChatGPT 제품 경로는 실패하지만 API는 성공한다면 문제는 제품 화면이지 OpenAI 전사 전체가 아닙니다.

자주 묻는 질문

ChatGPT가 MP3 파일을 직접 전사할 수 있나요?

일반 ChatGPT 파일 업로드를 안정적인 MP3 전사 경로로 보지 마세요. ChatGPT Record는 지원되는 제품 화면에서 녹음한 오디오를 처리하고, OpenAI Audio API는 개발자 경로로 업로드한 오디오 파일을 전사합니다. 이미 MP3가 있다면 현재 ChatGPT session이 명확한 오디오 파일 기능을 제공하지 않는 한 Audio API나 신뢰할 수 있는 전사 도구를 쓰는 편이 낫습니다.

ChatGPT Record는 무료인가요?

2026년 5월 16일 확인한 Record 도움말은 Plus, Pro, Business, Enterprise, Edu 워크스페이스와 macOS 데스크톱 앱을 언급합니다. 이는 현재 제품 자격 정보이지 영구 가격 약속이 아닙니다. 플랜, 플랫폼, 제한을 문서에 쓰기 전에는 최신 Help Center를 확인하세요.

음성 입력과 전사는 같은 기능인가요?

아닙니다. 음성 입력은 짧게 말한 내용을 채팅 입력창의 텍스트로 바꾸는 기능입니다. 회의 전사나 파일 전사는 녹음을 transcript로 만들며, 화자, 시간, 정리, 검수가 필요할 수 있습니다. 이 둘을 섞으면 “가능하다”는 답이 독자를 오해하게 만듭니다.

개발자는 어떤 OpenAI 전사 모델을 써야 하나요?

출력 요구에서 시작하세요. 새로운 speech-to-text 경로가 필요하면 현재 gpt-4o 전사 모델을 보고, 비용과 속도가 중요하면 mini를 고려하고, 화자 라벨이 중요하면 diarization 모델을 확인합니다. 오래된 번역이나 타임스탬프 동작에 의존한다면 whisper-1도 검토할 수 있습니다. 모델명과 파라미터 지원은 바뀔 수 있습니다.

OpenAI가 실시간 오디오도 전사할 수 있나요?

가능하지만 completed-file endpoint가 아니라 Realtime transcription을 사용해야 합니다. Realtime은 session으로 오디오를 stream하고 대화가 계속되는 동안 transcript events를 반환합니다. 자막, 실시간 assistant context, 앱 내 speech-to-text에 맞습니다.

ChatGPT가 오디오 transcript를 요약할 수 있나요?

네. 오디오가 텍스트로 바뀐 뒤에는 ChatGPT가 요약, 정리, 번역, 액션 아이템 추출, 이메일 초안, 버전 비교를 할 수 있습니다. 다만 transcript 요약은 원본 오디오 전사와 다른 단계입니다.

전사가 갑자기 실패하면 무엇을 확인해야 하나요?

먼저 경로를 확인하세요. ChatGPT Record라면 앱, 워크스페이스, 마이크 권한, OpenAI Status를 봅니다. 기존 파일이라면 형식, 길이, 크기, 해당 화면의 오디오 지원 여부를 봅니다. API라면 모델, 엔드포인트, 응답 형식, 요청 시각, 오류를 기록합니다. 여러 깨끗한 테스트가 동시에 실패하면 구조를 바꾸기 전에 상태 페이지를 확인하세요.

#ChatGPT #오디오 전사 #OpenAI Audio API #Realtime transcription #Whisper