まえから気になってたが、
Shotcut 音声の字幕化 にて紹介されてた。
これは、便利??とおもって、あれこれ調べる。
whisper.cpp というエンジンを使うらしい
Fedora40 で使うには、どうしたもんか....
となったので、あれこれ格闘したメモ。
まず、
sudo dnf groupinstall 'Development Tools'
sudo dnf -y install gcc-c++
ユーザディレクトリ内に bin フォルダなどを適当につくって
cd
mkdir bin (あればスキップ)
cd bin
git clone https://github.com/ggerganov/whisper.cpp.git
.... "whisper.cpp" というフォルダができる
./models/download-ggml-model.sh multilingual-large
.... multilingual で Invalid と言われるので
以下の3つを実行
./models/download-ggml-model.sh medium
./models/download-ggml-model.sh large
./models/download-ggml-model.sh large-v2
ようやく whisper.cpp の make 処理
make
shotcut を立ち上げて、こないだ作った ずんだもんが歌ってる動画 を使ってみる。
aiko カブトムシ ずんだもん カバー(アカペラ 混声バージョン)
別ダイアログがでてくるので、以下の項目を追加。
[Maximum Line Length] を少し小さめに (20 とか)
[Whisper.cpp executable] main
/home/hoge/bin/whisper.cpp/main
[GGML Model] ggml-large-v2.bin
/home/hoge/bin/whisper.cpp/models/ggml-large-v2.bin
[Track with Speech] で、必要なトラックのみチェック
[OK] で処理開始
3.[Generate text on timeline]
タイムライン全体の[フィルタ]-[サイズ・位置・回転]で字幕の場所移動
....トラック全体で、字幕のフォントとか変えるのがめんどうだなぁ。。。
通常のタイムラインのなかに 字幕をいれたから、 [出力] のトラックは消しても大丈夫そう。。
(mp4 変換時に、多少 コーンバート時間早くなるか?)