본문 바로가기
설치 및 기술 자료/Linux

Whisper Open AI의 음성 인식 혁신

by 주식회사 서버몬 2025. 10. 26.

 

안녕하세요. 주식회사 서버몬 입니다.

이번 포스팅은 OpenAI 사의 Wihsper 에 대해서 알아보고 직접 활용 해보겠습니다.

 

Wihsher 란?

 Whisper는 OpenAI가 개발한 음성 인식(Automatic Speech Recognition, ASR) 모델로,
사람이 말한 음성을 텍스트로 변환해주는 인공지능입니다.

단순히 “음성을 텍스트로 바꾸는 도구”를 넘어, 다양한 언어와 억양, 잡음 환경에서도 높은 인식률을 자랑합니다.

Whisper는 딥러닝 기반 Transformer 아키텍처로 만들어졌으며,

2022년 9월 오픈 소스로 공개하였고, 기존 large 모델에서 더욱 개선된 large-v2 모델을, 

2023년 에는 large-v3 모델을 발표 했으며 2024년 에는 large-v3의 응답 속도를 최적화한 버전인 large-v3-turbo 모델이 출시 되었습니다. 학습에는 68만 시간의 다국어 음성 데이터를 활용했습니다.
이 덕분에 영어뿐만 아니라 한국어, 일본어, 스페인어 등 90개 이상의 언어를 자동 인식할 수 있습니다.

 

 

Whisper 의 모델 비교

모델 속도 정확도 메모리 사용량  용도
tiny 매우 빠름 중간 낮음 실시간 스트리밍용
base 빠름 양호 낮음 경량 서버 배포용
small 보통 좋음 중간 일반 음성 인식
medium 느림 매우 좋음 높음 방송, 회의 녹음 등
large 느림 최고 매우 높음 고정밀 전사 서비스
turbo 느림 최고 매우 높음 고정밀 전사 서비스

 

Whisper 설치방법

Whisper는 Python 기반으로 PIP 를 사용하여 비교적 쉽게 설치가 가능합니다.

모델 학습 및 테스트에는 Python 3.9.9와 PyTorch 1.10.1을 사용했지만  

Python 3.8-3.11 및 최신 PyTorch 버전과 호환 되고 있습니다.

 

1. Python 패키지 설치

pip install git+https://github.com/openai/whisper.git

 

 

2. Pytorch 설치

https://pytorch.org/get-started/locally/

를 참고하여 PC 환경에 맞는 버전으로 설치 합니다.

포스팅에서 사용한 설치 코드는 아래와 같습니다.

pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu126

 

3. 동영상 처리 라이브러리 (FFmpeg) 설치

https://ffmpeg.org/download.html#build-windows

 

Download FFmpeg

If you find FFmpeg useful, you are welcome to contribute by donating. More downloading options Git Repositories Since FFmpeg is developed with Git, multiple repositories from developers and groups of developers are available. Release Verification All FFmpe

ffmpeg.org

위 링크에서 Windows 의 "Windows build from gyan.dev" 를 선택하여 다운로드 합니다.

"ffmpeg-git-full.7z" 를 선택 하였습니다.

다운로드한 파일을 적절한 위치  (예: c:\program files\ffmpeg) 에 적재후

윈도우 환경변수에 Path를 수정하여 \bin 경로를 추가 합니다. (예: C:\Program Files\ffmpeg\bin)

명령 프롬포트상에서 ffmpeg 를 입력했을때 실행이 가능해야 합니다.

 

버전확인

ffmpeg.exe -version
ffmpeg version 2025-10-21-git-535d4047d3-full_build-http://www.gyan.dev Copyright (c) 2000-2025 the FFmpeg developers
built with gcc 15.2.0 (Rev8, Built by MSYS2 project)

 

 

Whisper 사용

이제 실전입니다. 음성 파일을 이용하여 자막을 생성해보도록 하겠습니다.

 

사용 방법은 기본적으로 다음과 같습니다.

whisper sample.mp3

 

사용할 모델을 특정하는 방법입니다.

처음 사용하는 모델은 다운로드 후 실행 됩니다.

whisper --model small sample.mp3

 

언어를 특정해 주는 기능입니다.

지정하지 않으면 초반 30초에서 언어를 자동으로 디텍팅합니다.

 

whisper --language ko sample.mp3

 

가속장치를 특정해 주는 기능입니다.

cuda가 사용 가능한 경우 cuda를 먼저 사용하려 하기 때문에 메모리 부족 상황에서 실행이 되지 않을 수 있습니다.

whisper --device cuda sample.mp3
whisper --device cpu sample.mp3

 

태스크를 받아쓰기 / 영어번역 중에 고르는 기능입니다.

whisper --task transcribe sample.mp3
whisper --task translate sample.mp3

 

 

사용된 음성 샘플은 유투브 링크를 MP3로 변환해주는 방법을 사용했습니다.

 

첫번째 샘플

엔비디아 GTC 2024 키노트 요약

https://youtu.be/3alQkNJ5ArY?si=7w5COw_6HwsDjsJM

large-v2 모델을 사용

whisper C:\GTC2024.mp3 --language Korean --model large-v2

정밀 모델을 사용한 만큼 정확한 데이터 추출이 가능했습니다.

 

 

두번째 샘플

테슬라 슈퍼차저

https://youtu.be/PU7_T4VBvdw?si=AW86CgpLRS-n6pwa

small.en 모델을 사용

whisper C:\telsa.mp3 --language English --model small.en

Small 모델로는 정확한 데이터 추출이 어렵다고 판단 됩니다.

앞, 뒤 영상의 일부가 인식되지 않았고 내용도 외곡 되었습니다.

 

어떻게 활용할 수 있을까?

Whisper 는 단순한 음성 인식 모델이 아니라,
다국어 자동 자막, 회의 자동 기록, 통화 분석, 자동 번역 등
다양한 AI 파이프라인의 핵심 엔진으로 활용할 수 있습니다.

오픈소스이기 때문에, GPU 서버만 있다면
비용 없이 기업 내부용 음성 인식 시스템을 구현할 수 있다는 점이 큰 장점입니다.

 

 

1U서버 / 2U서버 / AI서버 / alyac / APC / APC UPS / backup / carepack / centos / chakramax / cuda / DAS / DB / DB서버 / defog / DEFOG랙 / dell5820 / dell5820t / dell7920 / dellpoweredge / dellr240 / dellr340 / dellr350 / dellr450 / dellr540 / dellr630 / dellr640 / dellr740 / dellr750 / dellserver / dellt40 / dellt440 / dellt5820 / dell서버 / DELL서버CPU / DELL서버RAID컨트롤러 / DELL서버SAS하드디스크 / DELL서버가격비교 / DELL서버가격비교견적 / DELL서버견적 / DELL서버구매 / DELL서버디스크교체 / DELL서버메모리 / dell서버서버몬 / DELL서버펌웨어 / DELL서버하드디스크구매 / dell옵션 / dell워크스테이션 / dl20 / dl20gen10 / dl20gen11 / dl360 / dl360gen10 / dl360gen11 / dl380 / dl380g10 / dl380gen10 / dl380gen11 / ECC메모리 / EDFOG랙가격 / embedded / est security / ESTSOFT / FIRMWARE / GPU / gpu서버 / gpu타워형서버 / greenlake / HA솔루션 / HP GPU / hp hdd / hpdl20 / HPDL20Gen10 / hpdl360 / hpdl360gen10 / hpdl380 / hpdl380g10 / HPDL380Gen10 / HPE / HPE GPU / hpe hdd / hpe rok / HPE Service Pack for Proliant / HPE SPP / hpe ssa / hpedl20 / hpedl20gen10 / hpedl360gen10 / hpe서버 / HPE서버CPU / HPE서버RAID컨트롤러 / HPE서버SAS하드디스크 / HPE서버가격비교 / HPE서버가격비교견적 / HPE서버견적 / HPE서버구매 / HPE서버드라이버설치 / HPE서버디스크교체 / HPE서버메모리 / HPE서버비용 / hpe서버소음 / HPE서버펌웨어 / HPE서버하드디스크구매 / hpe옵션 / hpe정품 / hpgen10 / hpml30 / hpserver / hpz2 / hpz4 / hpz4g4 / hpz6g4 / hpz8g4 / hp마이크로서버 / hp서버 / hp서버cto / hp서버pc / HP서버메모리 / hp서버소음 / hp서버컴퓨터 / HP서버파워 / HP서버펌웨어 / HP서버하드디스크 / hp옵션 / hp워크스테이션 / hp정품 / hp프로라이언트 / HYPER BACKUP / ibm서버 / ilo / Intelligent Provisioning / internetdisk / KVM / KVM 기술지원비(비용) / KVM 설치비 / L2스위치 / L3스위치 / LENONO서버SAS하드디스크 / lenovop620 / lenovor650 / LENOVO서버 / LENOVO서버CPU / LENOVO서버RAID컨트롤러 / LENOVO서버가격비교 / LENOVO서버가격비교견적 / LENOVO서버견적 / LENOVO서버구매 / LENOVO서버디스크교체 / LENOVO서버메모리 / LENOVO서버하드디스크구매 / LENOVO펌웨어업데이트 / Linux / ML30 / ml30gen10 / ml30gen11 / ML350GEN10 / ml350gen11 / ML360 / MS CSP / MSSQL / MSSQL 기술지원비(비용) / MSSQL 설치비 / MYSQL / MySQL 기술지원비(비용) / MySQL 설치비 / NAS / NVIDIA / Office 365 / oneview / orange / OS설치 / PA-410 / PA-440 / paloalto / poweredger740 / poweredger750 / precision5820 / QUADRO / r240 / r250 / r340 / r360 / r440 / r550 / r650 / r660 / r740 / r750xs / r760 / r760xs / RAID / redhat / RHEL설치 / RMS랙 / rocky / s100i / securedisk / server / serverpc / smart storage administrator / SPP / sql server / sr250 / sr650 / SYNOLOGY / SYNOLOGY나스 / t150 / t360 / UPS / UPS기술지원 / UPS납품 / UPS설치 / V3 / veeam / vroc / windows server / Windows서버설치 / XEON서버 / z8g4 / 가상서버 / 가성비서버 / 기술지원비(비용) / 나스기술지원 / 나스설치지원 / 네트워크스위치 / 네트워크장비 / 더블테이크 / 데이터베이스 / 델5820 / 델서버 / 델서버비용 / 델서버펌웨어업데이트 / 델옵션 / 델워크스테이션 / 델컴퓨터워크스테이션 / 디포그 / 디포그랙 / 디포그랙가격 / 딥러닝 / 딥러닝pc / 딥러닝서버 / 랙 / 랙(RACK) 기술지원비(비용) / 랙(RACK) 설치비 / 랙납품설치 / 랙설치 / 레노버p620 / 레노버서버 / 레노버워크스테이션 / 레노보서버 / 레노보서버펌웨어 / 레드헷설치 / 레이드 / 레이드구성 / 록키리눅스 / 리눅스 / 리눅스 기술지원비(비용) / 리눅스 설치비 / 리눅스서버 / 리눅스서버설치 / 리눅스서버트러블슈팅 / 리눅스트러블슈팅 / 문서보안 / 문서중앙화 / 미니서버 / 미니서버랙 / 미니서버렉 / 미디어서버 / 방화벽 / 방화벽 기술지원비(비용) / 방화벽 설치비 / 방화벽엔지니어 / 백업 / 백업 기술지원비(비용) / 백업 서버 / 백업서비스 / 백업솔루션 / 보안솔루션 / 보안솔루션구매 / 보안솔루션설치 / 보안툴 / 빔백업 / 샤크라맥스 / 서버 / 서버 기술지원비(비용) / 서 버 랙마운트비용 / 서버 설치비 / 서버 장애조치비용 / 서버CPU / 서버MEMORY / 서버OS설치 / 서버pc / 서버가격 / 서버가속기 / 서버견적 / 서버교체 / 서버구매 / 서버구입 / 서버구축 / 서버기술지원 / 서버납품 / 서버디스크장애처리 / 서버랙 / 서버렉 / 서버렉마운트 / 서버메모리 / 서버 몬 / 서버몬기술지원 / 서버백업 / 서버보안 / 서버부품 / 서버엔지니어 / 서버옵션 / 서버용GPU / 서버용PC / 서버용그래픽카드 / 서버용메모리 / 서버 / 컴퓨터 / 서버용하드디스크 / 서버재고 / 서버컴 / 서버컴퓨터 / 서버트러블슈팅 / 서버판매 / 서버하드 / 서버호스팅 / 스위치 / 스위치 기술지원비(비용) / 스위치 설치비 / 스토리지 / 스토리지 기술지원비(비용) / 스토리지 랙마운트비용 / 스토리지 설치비 / 스토리지 장애조치비용 / 스토리지납품설치 / 스토리지서버 / 시놀로지DS918 / 시놀로지HyperBackup / 시놀로지나스 / 시놀로지나스백업 / 시놀로지하이퍼백업 / 시큐어디스크 / 안랩 / 알약 / 앱서버 / 오피스 365 / 우분투설치 / 워크스테이션 / 워크스테이션pc / 워크스테이션컴퓨터 / 윈도우서버 / 윈도우서버2016 / 윈도우서버2019 / 윈도우서버2022 / 윈도우서버설치 / 윈도우서버컴퓨터 / 윈도우서버트러블슈팅 / 윈도우즈 기술지원비(비용) / 윈도우즈 설치비 / 이스트소프트 / 이스트 시큐리티 / 이중화솔루션 / 이중화솔루션구매 / 이중화솔루션설치 / 인터넷디스크 / 임베디드 / 저가서버 / 저렴한서버 / 정품서버 / 정품서버옵션 / 제온서버 / 젠서버 / 중고서버 / 중고워크스테이션 / 카보나이트 / 카스퍼스키 / 컴퓨터서버 / 케어팩 / 타워서버 / 타워형서버 / 팔로알토 / 페도라설치 / 프로라이언트

댓글