この記事にはアフィリエイトリンクが含まれる場合があります。
【実践】Gemini APIをPythonで使う方法:google-generativeai SDKチュートリアル

GoogleのGeminiは、テキスト・画像・音声・動画を統合的に処理できるマルチモーダルAIモデルです。Gemini APIをPythonから利用することで、高度なAI機能をアプリケーションに組み込めます。本記事では、google-generativeai SDKを使ったGemini APIの基本的な使い方からマルチモーダル入力まで、実践的に解説します。筆者はUdemyでAI関連13コースを運営しており、その経験をもとにお伝えします。
Gemini APIとは
Gemini APIは、Google AI Studioを通じて提供されるAPIサービスです。テキスト生成はもちろん、画像の理解、音声の文字起こし、動画の分析など、幅広いタスクに対応しています。無料枠が比較的充実しているため、個人開発者や学習目的での利用にも適しています。
2026年現在、Gemini 2.5シリーズが最新モデルとして利用可能です。Proモデルは高い推論能力を持ち、Flashモデルは高速かつ低コストで日常的なタスクに最適です。用途に応じてモデルを選択することで、コストとパフォーマンスのバランスを取れます。
APIキーの取得方法
Gemini APIを利用するには、まずGoogle AI StudioでAPIキーを取得します。Google AI Studioのウェブサイトにアクセスし、Googleアカウントでログインした後、「Get API key」からAPIキーを生成します。取得したAPIキーは環境変数として安全に管理してください。ソースコードに直接記述することは、セキュリティ上の重大なリスクとなるため避けましょう。
Pythonの開発環境にはgoogle-generativeaiパッケージが必要です。パッケージマネージャを使ってインストールしてください。バージョンは最新のものを使用することをお勧めします。
基本的な使い方
google-generativeaiライブラリの基本的な使い方はシンプルです。まず、ライブラリをインポートし、APIキーを設定します。次に、使用するモデルを指定してインスタンスを作成します。そして、generate_contentメソッドにプロンプトを渡すだけでテキスト生成が行えます。
チャット形式の対話を行いたい場合は、start_chatメソッドでチャットセッションを開始します。セッション内では会話履歴が自動的に保持されるため、文脈を踏まえた応答が得られます。システムプロンプトを設定してAIの振る舞いをカスタマイズすることも可能です。
また、generation_configパラメータでtemperatureやmax_output_tokensなどを調整することで、出力の創造性や長さを制御できます。temperatureを低くすると決定的な出力に、高くすると多様な出力になります。
マルチモーダル入力
Geminiの最大の特長は、マルチモーダル対応です。テキストと画像を同時に入力して、画像の内容について質問したり、説明を生成したりできます。画像ファイルを読み込み、テキストプロンプトと一緒にgenerate_contentメソッドに渡すだけです。
画像以外にも、PDFドキュメントの読み取り、音声ファイルの分析、動画の内容理解など、多様なメディア形式に対応しています。例えば、会議の録音ファイルを渡して議事録を自動生成したり、製品画像から説明文を作成したりといった活用が可能です。大容量のファイルを扱う場合は、File APIを使ってファイルをアップロードしてから処理する方法が推奨されます。
まとめ
Gemini APIは、google-generativeai SDKを通じて手軽にPythonから利用できます。テキスト生成からマルチモーダル処理まで、幅広いAIタスクをカバーする強力なツールです。まずは無料枠の範囲で基本的なテキスト生成から試し、徐々にマルチモーダル機能を活用していくことをお勧めします。
筆者はUdemyにてGoogle AI Studio完全マスターやPython×AI自動化を含む、AI関連13コースを公開しています。Gemini APIの実践的な活用法を体系的に学びたい方は、ぜひご受講ください。
📚 この記事の内容をさらに深く学ぶ
Claude Code 完全マスター【2026年最新】
全97講義|Claude Codeを使ったAIエージェント開発・実務自動化を体系的に学べる全97講義のコース。



