■ HOME

AI字幕生成の「Whisper」導入が本当に簡単になった「Shotcut」2026

  Whisper のアプリもFFmpeg も諸々のDLLも「Shotcut」に同梱されており
  モデルをダウンロードするだけなので非常に簡単に導入できる。

  面倒なコマンドは一切ない。GUIだけ

詳しくもない動画
AI字幕生成の「Whisper」導入「Shotcut」2026

--------------------------------------------------------------------

■Shotcut(フリー&オープンソース)

ダウンロード DL

  https://www.shotcut.org/
  https://www.shotcut.org/download/

  Current Version: 26.2.26 [2026-04-07]での最新

  Show downloads for GNU/Linux | macOS | Microsoft Windows | All

(例)

  Windows 10/11 on Intel or AMD CPU
    Windows installer  Windows portable zip

  適宜OS、CPUに合わせてDLする。

  exeインストールか、ZIP展開して起動。

■「Shotcut」初期の頃と比べて本当に進化した。

  各ウィンドウの配置や大きさも自由に変えられる。
  右上のボタンでBlenderのように作業別にレイアウトが一発で変更できる。
  機能は多すぎて紹介しきれない。
  入力は可変レートであれば自動で変換&勝手に保存。
  出力はプリセットがあり、そのまま出力してもいいが、更に細かい設定もできる。

  簡単な編集作業ならこれだけで十分だと思う。

■字幕とテキスト

  普通にリッチテキスト作成可能。出力はできないが
  ソフト字幕は作成可能でインポート(.srt .vtt .ass .ssa)&エクスポート(.srt)可能。

<Whisper による字幕生成>

■ 動画を入れて「音声から字幕」

1. 動画または音声をタイムラインに入れておく(D&DでもプレイリストからでもOK)

2.「Subtitles」のタブをクリック(デフォルト位置で左中央)
  (表示されてなければメニュー >表示 >Subtitles)

  「Subtitles」ウィンドウの下方にボタンアイコンがある(英語名だが)
  「=(ポップアップメニュー)」「インポート」「+」「-」...「A」「音声から字幕」「字幕から音声」「検索」
  (字幕から音声も凄いな。。。やってないけど)

3.「音声から字幕」をクリック(フキダシに波形の入ったアイコン)
  >「Speech to Text」ウィンドウ

■「Speech to Text」ウィンドウ

(例)

1. 動画の「言語」を選択「English」

2. 字幕にするトラックにチェックを入れる(他は外す)「V2」

3.「Configuration」ボタン
  ダウンロードできるモデルの一覧から
  「Base English Quantized 5_1」をクリックすると「DLするか?」のダイアログがでるので
  「OK」でDLされチェックマークが付く(モデル ggml-base.en-q5_1.bin)。

4. そのまま選択した状態(モデル選択)で「OK」ボタン
  字幕生成が始まり右にタスクの状態が表示される。
  (マルチタスクなので他の作業をしていてもOK)

■ 字幕をタイムラインに出力(焼き付け)

1. 完了すると「Subtitles」ウィンドウに新しいトラックが追加されているので
  上のポップアップから字幕を選択し
  「A」のボタンでタイムラインに出力する(焼き付け用)。

2.「フィルタ」タブの出力設定で
  (複数あって同じ名前「Subtitle Burn In」だが、選択すると下の字幕トラック名は変わる)
  一番下にチェックが入っているか確認(新しい)。
  選択すると画面上で位置を移動できる。フォント、輪郭、色など各種設定もある程度できる。
  チェックをなくすと消える(焼き付けなし)。

モデルをDLしたデフォルトのディレクトリ
C:\Users\username\AppData\Local\Meltytech\Shotcut\extensions\whispermodel
(「AppData」フォルダは隠しフォルダになってるのでフォルダオプションで表示)

日本語の場合「言語」を選択「Japanese」
モデルを「Multilingual」のバージョンにする。


英語は軽量モデルでも精度は高いが他は怪しいので
最低 Medium か Large あたりでないと精度は望めないかもしれない(試してない)

q の付くQuantized バージョン
精度が若干落ちるが高速で負荷の少ないモデル。
PCスペックのある人は精度の高いモデルの方がいいに決まってる。

--------------------------------------------------------------------

モデルの最新のものはここからDLする
https://huggingface.co/ggerganov/whisper.cpp/tree/main

前述のggml-base.en-q5_1.bin は2年前
ggml-base.en-q8_0.bin は1年前でやってみたところ精度がよい。
なのでDLして、デフォルトのディレクトリ先に移動させる(任意でもOK)。

「Speech to Text」ウィンドウの「GGML Model」の右アイコンから
ファイル参照「ggml-base.en-q8_0.bin」を開く。
リストには入ってこないので、選択されてない状態で「OK」ボタン。
後は同じ。。。

字幕に「♪♪」が入ってる場合がある(ま。確かにBGMありますけど。。。)
SRT字幕で保存してメモ帳で「♪♪」を「空白」にして「全て置換」で消す
SubtitleWorkshop 6.0e-8 に入れて保存すれば綺麗に消える。


crayonzen [2026-04-07]

--------------------------------------------------------------------