【2026年5月最新】Gemini(Google AI Studio)で文字起こしする方法|精度・料金・Claude Codeとの業務活用比較
この記事の内容
「会議の録音を文字起こししたいけど、専用ツールに月額払うのはちょっと……」——そう考えて、Googleの生成AIGeminiにたどり着いた方は多いはずです。
結論から言えば、Geminiは無料で音声・動画の文字起こしが可能です。GeminiアプリまたはGoogle AI Studioにファイルをアップロードし、「文字起こしして」と指示するだけ。話者の識別、タイムスタンプ付与、さらには要約や翻訳まで一発で処理できるのが他の文字起こし専用ツールとの違いです。
ただし、万能ではありません。無料版のファイルサイズ制限、長時間音声での精度劣化、そして文字起こし「だけ」では業務改善にならないという構造的な問題があります。この記事では、Geminiでの文字起こし手順を丁寧に解説したうえで、弊社(株式会社GENAI)がClaude Codeで議事録から業務自動化まで一気通貫で回している実例と比較しながら、「文字起こしのその先」まで踏み込みます。
この記事を最後まで読むと、次のことが明確になります。
01 OVERVIEW Geminiの文字起こし機能とは何か Google AIが提供する音声テキスト化の基本を押さえる
Gemini(ジェミニ)は、Googleが開発した生成AIモデルで、テキスト・画像・音声・動画を横断的に処理できるマルチモーダルAIです。文字起こし専用ツールではありませんが、音声ファイルや動画ファイルをアップロードして「文字起こしして」と指示すれば、テキスト化してくれます。
📚 用語解説
マルチモーダルAI:テキストだけでなく、画像・音声・動画など複数の種類のデータを同時に理解・処理できるAIのこと。従来の文字起こしツールは音声→テキストの一方通行でしたが、マルチモーダルAIは「音声を聞いて内容を理解し、要約や翻訳まで一気に行う」ことが可能です。
Geminiの文字起こしには、大きく分けて2つのルートがあります。
| ルート | 対象ユーザー | 料金 | 対応ファイル | 特徴 |
|---|---|---|---|---|
| Geminiアプリ (gemini.google.com) | 一般ユーザー | 無料(Gemini Advanced: 月2,900円) | 音声・動画ファイル | チャット形式で手軽、話者分離もプロンプトで指示可 |
| Google AI Studio (aistudio.google.com) | 開発者・上級者 | 無料枠あり(APIは従量課金) | 音声・動画・大容量対応 | より長い音声に対応、APIトークン制御が可能 |
どちらもGoogleアカウントさえあれば無料で使い始められるのが最大のポイントです。ただし、無料版にはファイルサイズやリクエスト回数の制限があるため、業務でヘビーに使う場合はGemini Advanced(月2,900円)またはAPI従量課金への移行を検討する必要があります。
📚 用語解説
Google AI Studio:Googleが提供するAI開発者向けのWebツール。Geminiモデルを直接操作でき、プロンプトのテスト・音声/動画のアップロード・APIキーの発行ができます。プログラミング不要で使えますが、UIは開発者寄りの設計です。
でログイン
AI Studioを開く
アップロード
文字起こし指示
コピー・活用
1-1. Geminiが対応している音声・動画フォーマット
Geminiが受け付ける主なファイル形式は以下の通りです。一般的なビジネスシーン(Web会議録画、スマホ録音、YouTube動画)で発生するフォーマットはほぼカバーしています。
1時間超の会議録音(WAVだと500MB〜1GB超)はそのままアップロードできない場合があります。事前にMP3に変換するか、会議を30分ごとに分割してアップロードするのが実用的です。無料のオンライン変換ツール(CloudConvert等)で十分対応できます。
02 BENEFITS Geminiで文字起こしする3つのメリット 専用ツールにない強みを理解する
文字起こし専用ツール(Otter.ai、Notta、CLOVA Note等)がある中で、わざわざGeminiを使う理由は何か。結論は「文字起こし+αが一発でできる」点に集約されます。
2-1. 話者識別・感情検出・要約まで一括処理できる
Geminiの最大の強みは、文字起こしと同時に話者の識別(Speaker A / Speaker B の振り分け)、感情やトーンの検出(「この発言は不満を含んでいる」等の注記)、さらには要約の生成まで、1回のプロンプトで完結できることです。
従来の文字起こし専用ツールでは「テキスト化」と「要約」は別機能、あるいは別料金であることが一般的でした。Geminiなら「以下の音声を文字起こしして、話者を分けて、最後に要約を300字でつけて」と1回指示するだけで全て揃います。
2-2. 議事録・記事作成の工数を大幅に削減できる
文字起こしの最も多い用途は会議の議事録作成です。1時間の会議を手動で文字起こし→議事録整形すると、慣れた人でも2〜3時間はかかります。Geminiを使えば、この工程が5〜15分に短縮されます。
さらに、文字起こしの結果をそのまま「この内容をもとに、上司へのメール報告文を作成して」「ブログ記事の下書きにして」と指示すれば、議事録→アウトプットの変換まで一気に進められます。文字起こしを「中間成果物」として次の業務に直結させられるのは、汎用AIならではの強みです。
📚 用語解説
議事録:会議で話し合った内容・決定事項・次のアクションをまとめた記録文書。文字起こし(=発言をそのままテキスト化)とは異なり、不要な部分を削除し、構造化・要約された状態のもの。多くの場合、文字起こしだけでは議事録にならず、整形作業が必要です。
アップロード
+話者分離
抽出も同時に
即活用
2-3. 多言語対応で海外との会議にも使える
Geminiは100以上の言語に対応しており、英語の会議録音を日本語に翻訳しながら文字起こしする、といった使い方も可能です。「英語の音声を日本語に翻訳して文字起こしして」と指示するだけで、翻訳済みのテキストが出力されます。
海外拠点との会議、英語のウェビナー参加時のメモ、外国語インタビューの記事化など、多言語が絡む業務では特に威力を発揮します。専用の翻訳文字起こしツールを別途契約する必要がなくなるため、ツール数の削減にもつながります。
日本語↔英語の翻訳精度は高いですが、専門用語が多い技術系の会議では固有名詞の誤変換が起きやすい傾向があります。「以下の専門用語はそのまま残して」とプロンプトに追記するだけで精度が改善するので、業界固有の略語リストを添えるのがおすすめです。
03 HOW TO Geminiで文字起こしする具体的な手順(PC・スマホ) GeminiアプリとGoogle AI Studioの両方を図解
ここからは、実際にGeminiで文字起こしを行う手順を4パターンに分けて解説します。お使いの環境に合わせて該当する手順をご確認ください。
3-1. Geminiアプリで文字起こしする手順(PC)
最も手軽な方法です。ブラウザでgemini.google.comにアクセスし、チャット画面からファイルをアップロードするだけで完了します。
Gemini無料版では、アップロードできるファイルサイズに制限があります(時期やリージョンにより変動しますが、概ね数十MB程度が目安)。30分超の会議録音はMP3に変換して容量を下げるか、複数ファイルに分割してアップロードしてください。
3-2. Geminiアプリで文字起こしする手順(スマホ)
スマホ版Geminiアプリ(iOS / Android)でも文字起こしが可能です。手順はPC版とほぼ同じですが、ファイルの選択方法が異なります。
スマホの録音アプリで会議を録音し、終了直後にGeminiアプリにアップロードすれば、会議室を出る前に文字起こしが完了します。移動中に結果を確認し、議事録の下書きとしてSlackに投げておく——という使い方が最も実用的です。
3-3. Google AI Studioで文字起こしする手順(PC)
Google AI Studioは、Geminiモデルを直接操作できる開発者向けWebツールです。GeminiアプリよりもUIは硬いですが、より長い音声ファイルに対応でき、出力トークン数の制御やプロンプト履歴の管理が可能です。
📚 用語解説
トークン:AIが文章を処理する最小単位。日本語では概ね1文字=1〜1.5トークン程度。「Max output tokens」を増やすと、より長い文字起こし結果を一度に出力できますが、処理時間とAPI料金(従量課金の場合)も増加します。
3-4. Google AI Studioで文字起こしする手順(スマホ)
AI Studioはスマホブラウザでもアクセス可能ですが、UIがPC向けに設計されているため操作性はやや劣ります。スマホで簡単に済ませたい場合はGeminiアプリの利用を推奨します。
スマホでAI Studioを使う場合も手順はPC版と同じです。ブラウザのデスクトップモード表示に切り替えるとボタンが押しやすくなります。
04 PROMPT EXAMPLES 文字起こし精度を上げるプロンプト実例集 コピペで使える3パターン+カスタマイズのコツ
Geminiの文字起こし精度は、プロンプトの書き方で大きく変わります。「文字起こしして」の一言でも動きますが、業務品質の議事録を得るには、出力形式・話者分離・要約の有無を明示的に指示するのがコツです。以下に、すぐにコピペで使える3パターンを紹介します。
4-1. 基本的な文字起こしプロンプト
まずは最もシンプルなパターンです。録音内容をそのままテキスト化したいときに使います。
この音声ファイルを日本語で文字起こししてください。
・発言ごとに改行してください
・「えー」「あの」などのフィラーは除去してください
・固有名詞や略語はそのまま残してください
ポイントはフィラー除去の指示です。これを入れないと「えーっと、あの、それでですね」のような不要な言い回しがそのまま残り、後処理の手間が増えます。
4-2. 話者分離・タイムスタンプ付きプロンプト
複数人の会議で「誰が何を言ったか」を明確にしたい場合のプロンプトです。
この音声ファイルを文字起こししてください。以下の形式で出力してください:
【出力形式】
[MM:SS] 話者A: 発言内容
[MM:SS] 話者B: 発言内容
・話者が変わるたびに改行してください
・タイムスタンプは概算で構いません
・フィラー(えー、あの等)は除去してください
・話者が特定できる場合は「話者A」を実名に置き換えてください
話者分離の精度は音源の品質に大きく依存します。参加者の声質が近い場合(同性の2人など)は、分離精度が落ちる傾向があります。そのような場合は、会議冒頭で自己紹介してもらい、「最初に名乗っている声を基準に話者を識別して」と追加指示すると改善します。
4-3. 要約・翻訳同時依頼プロンプト
文字起こしと要約を同時に欲しいときのプロンプトです。会議後に「議事録+サマリ+アクション」をまとめて上司に送る、といったシーンで重宝します。
この音声ファイルの内容を以下の形式で出力してください:
【1. 全文文字起こし】
話者を分けて、発言ごとに改行
【2. 要約(300字以内)】
会議の目的・主な議論・結論を簡潔に
【3. 決定事項】
箇条書きで列挙
【4. 次回アクション】
担当者・期限付きで箇条書き
※フィラーは除去、固有名詞はそのまま残してください
このプロンプトの強みは、文字起こし・要約・決定事項・アクションアイテムを1回のリクエストで全て取得できることです。手動で議事録を整形する工程がほぼゼロになります。
4種の出力を同時指示
+要約+決定事項
+アクション
毎回同じ形式で議事録を作る場合、上記のプロンプトをGoogle KeepやNotionにテンプレートとして保存しておくと便利です。会議のたびにコピペ→音声ファイル添付→送信の3ステップで議事録が完成します。
📚 用語解説
フィラー:「えー」「あの」「まあ」など、発言の間を埋めるための無意味な言葉。文字起こしの可読性を下げるため、通常は除去して出力します。Geminiではプロンプトで「フィラーを除去して」と指示するだけで自動的に除去されます。
05 LIMITATIONS Geminiの文字起こしの限界と注意点 無料版の壁と業務利用で直面する3つの課題
Geminiの文字起こしは無料で手軽に使える反面、業務で本格的に運用しようとすると壁にぶつかる場面があります。事前に把握しておくことで、「使ってみたけどダメだった」という手戻りを防げます。
5-1. 長時間音声での精度劣化
30分以内の音声であれば、Geminiの文字起こし精度は十分に実用的です。しかし、1時間を超える長尺の音声になると、後半部分で以下の問題が発生しやすくなります。
対策としては、30分単位でファイルを分割してからアップロードするのが最も確実です。少し手間はかかりますが、後から手動で修正する時間を考えると、分割した方が総合的な工数は少なくなります。
5-2. 専門用語・固有名詞の誤認
AIの文字起こしに共通する弱点ですが、業界特有の専門用語や社内独自の略語は誤変換されやすい傾向があります。例えば「ROAS(ロアス)」が「ロース」になったり、「KPI」が「ケーピーアイ」とカタカナで出力されたりします。
プロンプトに「以下の専門用語を正しく認識してください:ROAS、CPA、LTV、MQL」と用語リストを添えることで精度が改善しますが、完全な解決にはなりません。特に社内独自の略語やプロジェクト名は、出力後に手動チェックが必須です。
Geminiの無料版やGemini Advancedでは、アップロードしたファイルがGoogleのサービス改善に利用される可能性があります。機密性の高い会議(人事評価、M&A関連、法務案件等)の録音をアップロードする際は、Googleのデータポリシーを確認し、必要に応じてGemini for Google Workspace(Enterprise版)やオンプレミスの文字起こしツールを検討してください。
5-3. 「文字起こし止まり」の構造的問題
これがGeminiで文字起こしする際の最も根本的な課題です。Geminiは文字起こしを高い精度で実行してくれますが、その結果を他の業務システムに接続する機能は持っていません。
つまり、文字起こし→議事録整形→Slack共有→タスク登録→カレンダー設定……という一連の業務フローのうち、Geminiがカバーできるのは最初の「文字起こし→議事録整形」の部分だけです。残りの手順は、結局手作業になります。
📚 用語解説
業務フロー:1つの業務を完了するまでの一連の手順。文字起こしの場合は「録音→テキスト化→整形→共有→タスク化→フォローアップ」が典型的なフロー。個々のステップを効率化するより、フロー全体を自動化する方がインパクトが大きい場合が多いです。
上図の6ステップのうち、Geminiが担当できるのは1〜3の前半部分のみ。4〜6は手動コピペが必要です。この「後工程の手作業」を解消するには、ファイル操作やAPI連携を含むエージェント型AIが必要になります。これが次章で紹介するClaude Codeとの比較ポイントです。
06 VS CLAUDE CODE 【独自データ】Claude Codeとの文字起こし・業務活用比較 GENAI社の実運用で検証した結果
ここからは、弊社(株式会社GENAI)がClaude Max 20xプラン(月額約30,000円)を全社契約して運用している実データをもとに、Geminiの文字起こしとClaude Codeの業務自動化を比較します。
📚 用語解説
Claude Code:Anthropicが提供するエージェント型AIツール。ターミナル上で動作し、テキスト生成だけでなくファイル操作・コマンド実行・API連携まで自律的に行える。デスクトップ版もあり、非エンジニアでもチャットUIから操作可能。月額$20(Pro)〜$200(Max 20x)で利用できます。
6-1. 「文字起こし」単体の比較
| 比較項目 | Gemini(無料版) | Gemini Advanced | Claude Code(Max 20x) |
|---|---|---|---|
| 文字起こし精度 | ○ 十分に実用的 | ◎ 長尺音声にも安定 | ○ Whisper等と連携で同等精度 |
| 話者分離 | ○ プロンプト指示で対応 | ◎ 精度向上 | ○ 外部ツール連携で対応 |
| 料金 | 無料 | 月2,900円 | 月$200(約30,000円) |
| 対応ファイル | 音声・動画 | 音声・動画(大容量) | 音声・動画・テキスト・コード |
| 後工程の自動化 | × 手動 | × 手動 | ◎ Slack共有・タスク登録まで全自動 |
| 業務フロー統合 | × チャット内完結 | × チャット内完結 | ◎ ファイル操作・API連携・スクリプト実行 |
文字起こし「だけ」を比較するなら、Geminiの方がコスパが良いです。無料で使え、音声のマルチモーダル処理に最適化されたGeminiの方が、単体の文字起こし精度では優位な場面もあります。
しかし、業務全体を見た場合の話は変わります。弊社では以下のフローをClaude Codeが全自動で処理しています。
6-2. GENAI社の議事録フロー(Claude Code全自動)
議事録整形
自動投稿
自動抽出
期限登録
弊社では週に10件以上の商談・社内会議が発生しますが、議事録に関する手作業はゼロです。録音ファイルを所定のフォルダに保存するだけで、5分以内に議事録がSlackに投稿され、アクションアイテムが担当者にメンションされ、期限がカレンダーに登録されます。
この一気通貫フローを実現できるのは、Claude Codeがファイル操作・API連携・スクリプト実行を自律的に行えるエージェント型AIだからです。Geminiはあくまで「チャットの中で完結する」ツールなので、Slack投稿やカレンダー登録まで自動化するには別の仕組みが必要になります。
6-3. コスパ判定:どちらを選ぶべきか
判断基準は明確です。
| あなたの状況 | 推奨ツール | 理由 |
|---|---|---|
| 月の文字起こし回数が5回以下 | Gemini(無料版) | 無料で十分。後工程の手動コストも許容範囲 |
| 月の文字起こし回数が10回以上だが後工程は手動でOK | Gemini Advanced | 月2,900円で精度安定。長尺対応も強い |
| 文字起こし後の議事録共有・タスク管理まで自動化したい | Claude Code(Max 20x) | 月30,000円で前後の工程含めて全自動化。総工数で判断するとペイする |
| 複数業務(営業・経理・広告等)でAIを横断的に使いたい | Claude Code(Max 20x) | 文字起こしは業務のひとつ。全社的にAIを回すならClaude Codeが最適 |
07 BEYOND TRANSCRIPTION 【独自】議事録から業務自動化まで——文字起こしの「その先」 GENAI社が実践する文字起こし起点の業務改善事例
ここまで、Geminiの文字起こし機能とClaude Codeとの比較を解説してきました。最後に、弊社GENAIが実際に行っている「文字起こしを起点にした業務自動化」の具体事例を紹介します。
これは「文字起こしの方法」を超えた話ですが、多くの方が文字起こしを調べている真の目的は「会議後の業務を楽にしたい」であるはずです。文字起こしはあくまで手段。最終ゴールは業務全体の効率化です。
7-1. 商談録音→フォローメール自動生成
弊社では商談の録音ファイルをClaude Codeに渡すと、文字起こし→要約→フォローメールの下書き生成までが自動で完了します。「先日の商談でお話しした○○について……」という定型のフォローメールを商談終了後15分以内に下書きとして用意し、営業担当は内容を確認して送信するだけです。
以前は商談メモを見ながら1通あたり20〜30分かけて書いていたフォローメールが、確認・送信で3分に短縮されました。週10件の商談で計算すると、営業チーム全体で週4時間以上の削減になります。
7-2. 社内会議→Slackチャンネル自動投稿+リマインダー
社内の定例会議(週次MTG、プロジェクト進捗会議等)では、録音ファイルから議事録を自動生成した後、該当Slackチャンネルに自動投稿するところまでClaude Codeが担当します。さらに、議事録からアクションアイテムを抽出し、担当者へのリマインダーを自動設定します。
7-3. 文字起こしデータの蓄積→ナレッジベース化
文字起こしデータは、単発で使い捨てにするのではなく蓄積してナレッジベース化するのが最も投資効率の良い使い方です。弊社では過去の商談・会議の文字起こしデータを構造化して保存し、「過去にこの顧客とどんな話をしたか」「同様の案件で過去にどんな判断をしたか」を即座に検索できるようにしています。
この仕組みにより、新規メンバーが過去の商談経緯を短時間で把握できるほか、同業種・同課題の商談時に過去の成功パターンを参照して提案品質を向上させることが可能になっています。
📚 用語解説
ナレッジベース:組織内の知識・経験・ノウハウを体系的に整理・蓄積したデータベース。会議の議事録、商談記録、社内Q&Aなどを構造化して保存することで、過去の知見を素早く検索・活用できるようになります。
08 CONCLUSION まとめ ── 文字起こしをゴールにせず業務改善の入口にする
この記事では、Gemini(Google AI Studio)での文字起こし手順から、業務活用の限界、Claude Codeとの比較、そして文字起こしを起点にした業務自動化の実例までを解説しました。最後にポイントを振り返ります。
最も重要なメッセージは、「文字起こしをゴールにしない」ことです。文字起こしは業務改善の入口であり、本当に効果が出るのは「その後の工程」まで自動化できたときです。
まずはGeminiの無料版で文字起こしを試してみてください。そして、「文字起こし後の手作業が多い」「毎週同じ作業の繰り返しだ」と感じたら、それがClaude Codeへの移行を検討するタイミングです。
文字起こしの「その先」を、AI鬼管理が一緒に設計します
会議の録音→議事録→共有→タスク管理まで、業務フロー全体を自動化しませんか。
弊社の実運用ノウハウをベースに、あなたの業務に合わせた自動化設計を無料でご相談いただけます。
NEXT STEP
この記事の内容を、あなたのビジネスで
実践してみませんか?
AI活用を自社で回せるようになりたい方へ
AI鬼管理
Claude Code・Cowork導入支援から業務設計・社内浸透まで実践ベースで伴走。「自社で回せる組織」を90日で作る経営者向けトレーニング。
よくある質問
Q. Geminiの文字起こしは完全に無料ですか?
A. Geminiアプリの無料版では、ファイルサイズやリクエスト回数に制限がありますが、基本的な文字起こしは無料で利用できます。制限を超えた利用にはGemini Advanced(月2,900円)への加入が必要です。Google AI Studioも無料枠がありますが、大量利用はAPI従量課金になります。
Q. Geminiで1時間以上の録音を文字起こしできますか?
A. 技術的には可能ですが、1時間を超えると精度劣化や出力の途切れが発生しやすくなります。30分単位でファイルを分割してアップロードするのが推奨です。Google AI Studioの方がGeminiアプリより長尺ファイルの処理に向いています。
Q. Geminiの文字起こし精度はOtter.aiやNottaより高いですか?
A. 用途によります。単純な文字起こし精度では専用ツール(Otter.ai、Notta等)が安定していますが、Geminiは文字起こしと同時に要約・翻訳・話者分離を1回のプロンプトで処理できる柔軟性が強みです。後処理の手間を含めた総合効率ではGeminiが優位な場面も多いです。
Q. Geminiにアップロードした音声ファイルはGoogleに保存されますか?
A. Googleのプライバシーポリシーに基づき、無料版やGemini Advancedではアップロードデータがサービス改善に利用される可能性があります。機密性の高い会議録音には、Gemini for Google Workspace(Enterprise版)やオンプレミスツールの利用を検討してください。
Q. Claude Codeでも文字起こしはできますか?
A. Claude Code単体には音声認識機能はありませんが、Whisper等の音声認識ツールと連携させることで文字起こしが可能です。Claude Codeの強みは文字起こし単体ではなく、文字起こし後の議事録整形→共有→タスク管理まで含めた業務フロー全体を自動化できる点にあります。
Q. 非エンジニアでもClaude Codeは使えますか?
A. 使えます。Claude Codeのデスクトップ版は、ChatGPTと同様のチャットUIで操作でき、ターミナルやプログラミングの知識は不要です。「この録音ファイルから議事録を作って、Slackの#general に投稿して」のような日本語の指示だけで動作します。
Q. Geminiの文字起こしが途中で止まった場合の対処法は?
A. 出力トークン数の上限に達している可能性があります。Google AI Studioの場合は「Max output tokens」を増やして再実行してください。Geminiアプリの場合は「続きを出力して」と追加入力するか、ファイルを分割して再アップロードします。
Claude Codeで業務自動化を90日で叩き込む
経営者向けの伴走型パーソナルトレーニング
Claude Code を業務に落とし込む
専門研修コース一覧
受講者本人の業務を題材に、「使いこなせる」状態になるまで伴走する研修プログラム。1対1特化型・ハンズオン・法人講座の3コースを展開中。業務特化・実装まで踏み込むタイプのClaude Code研修です。
研修コース一覧を見る →AI鬼管理へのお問い合わせ
この記事を読んで気になった方へ。
AI鬼管理の専門スタッフが、御社に最適な
業務自動化プランを無料でご提案します。




