Gemini 2.5リリース
2025年3月26日
Googleは最新のAIモデル「Gemini 2.5」を発表しました。このモデルは高度な「思考能力」を備え、回答前に推論プロセスを経ることで精度と性能が向上しています。初めてのリリースとなる「Gemini 2.5 Pro Experimental」は、複数のベンチマークで最先端の成績を収め、特に数学、科学、コーディング分野で優れた能力を発揮しています。また、100万トークン(近く200万トークンに拡張予定)という長い文脈窓を持ち、テキスト、音声、画像、動画、コードなど多様な情報源を理解できるマルチモーダル機能を備えています。Gemini 2.5 ProはGeminiやGoogle AI Studioから利用できます。
新機能「Canvas」「Audio Overview」
2025年3月19日
Googleは、AIアシスタント「Gemini」に新たな共同作業・創作機能として「Canvas」と「Audio Overview」を追加したことを発表しました。「Canvas」はGemini内の新しいインタラクティブスペースで、ドキュメントやコードをリアルタイムで共同編集でき、HTMLやReactなどのウェブアプリケーションのプロトタイプを視覚的にプレビューする機能も備えています。また「Audio Overview」は、ドキュメントやスライド、Deep Researchレポートをポッドキャスト形式の会話に変換し、2人のAIホストによる生き生きとした議論として聴くことができる機能です。両機能はGeminiとGemini Advancedのユーザーに向けて提供開始されています。
https://blog.google/products/gemini/gemini-collaboration-features/
新機能「Deep Research」
2025年3月14日
GoogleはGeminiに「Deep Research」や「Gems」などの機能を強化し、世界中のユーザーに提供開始したことを発表しました。Deep Researchは2.0 Flash Thinking Experimentalモデルを採用し、検索から分析、レポート作成までの研究プロセスを強化、リアルタイムで思考過程を表示する機能も追加されています。さらに他の新機能として、Googleアプリと連携したパーソナライズ機能、カレンダーやメモなどの連携アプリの強化、AIをカスタマイズできる「Gems」機能の一般提供も開始されました。
https://blog.google/products/gemini/new-gemini-app-features-march-2025/
Gemini 2.0 Flash Experimentalでテキスト指示での画像生成・編集が可能に
2025年3月13日
Gemini 2.0 Flashで、テキストから画像を生成する実験が始まりました。ストーリーに合わせたイラスト作成や、会話形式での画像編集が可能です。APIを通して、すぐに利用できます。
https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
iPhoneアプリリリース
2024年11月8日
Gemini Live が日本語に対応
2024年10月23日
GoogleのパーソナルAIアシスタント「Gemini」の会話機能「Gemini Live」が日本語に対応し、Androidスマートフォンで利用可能になります。これにより、ユーザーはより自然で直感的な方法でGeminiと対話できるようになります。
Gemini Liveは40以上の言語に対応しており、日本語を含む最大2つの言語を同時に設定して会話できます。過去の会話内容を記憶しているため、好きなタイミングで会話を中断・再開したり、特定の話題を深掘りしたりすることが可能です。また、10種類の音声から好みのトーンを選べます。
この機能を使えば、まるで友人と話すようにアイデアを出し合ったり、イベントの計画を立てたり、新しい知識を学んだり、プレゼンテーションの練習相手になってもらったりできます。スキルに合った仕事探しのアドバイスや、地域の情報収集など、様々な場面で役立ちます。Googleは、今後もGeminiの機能を拡充し、AIをより多くの人々にとって身近なものにしていくことを目指しています。
https://blog.google/intl/ja-jp/company-news/technology/gemini-live/
新機能「画像生成」「カスタムGems」
2024年10月16日
「Gemini」に、日本語対応の「画像生成」機能と、カスタマイズ可能なAI「Gems」という新機能が追加されました。
画像生成機能は、最新モデル「Imagen 3」を搭載し、Gemini(通常版、Advanced、Business、Enterprise)で利用できます。簡単な指示だけで、写実的な風景から抽象画まで、多様なスタイルの画像を高品質に生成可能です。安全対策としてデジタル透かし「SynthID」が組み込まれており、生成した画像の修正も指示できます。
一方、「Gems」はGemini Advanced、Business、Enterpriseユーザー向けの機能です。特定のトピックや目的に特化した専門家AI(Gem)をユーザー自身が作成できます。Gemに名前と指示を与えるだけで、いつでもその分野に詳しい専用のAIアシスタントとして対話でき、複雑なタスクの分析、アイデア出し、文章校正、コーディング支援など、様々な場面で活用して繰り返し作業を効率化します。家庭教師やキャリアアドバイザーなど、事前設定されたGemも用意されています。
https://blog.google/intl/ja-jp/company-news/technology/gemini-imagen-3-gem/
Gemini 1.5リリース
2024年2月15日
Googleは、パフォーマンスを大幅に向上させた次世代AIモデル「Gemini 1.5」を発表しました。特に「Gemini 1.5 Pro」は、少ない計算リソースで従来の最上位モデル1.0 Ultraと同等の高性能を発揮します。
このモデルの最大の特長は、最大100万トークンという画期的な長文コンテキスト処理能力です(標準は12.8万トークン)。これは従来モデルを大幅に上回り、1時間の動画、11時間の音声、3万行以上のコード、70万語以上のテキストといった膨大な情報を一度に処理できます。これにより、大量のデータから特定の情報を見つけ出したり、内容を深く理解して複雑な分析や要約を行ったりすることが可能になります。
https://blog.google/intl/ja-jp/company-news/technology/gemini-model-february-2024-jp/
トピック
ユースケース
マルチモーダル能力を活かし、テキスト・画像・音声などを組み合わせた高度な活用が可能です。例えば、商品情報から広告コピーやSNS投稿を自動生成したり、会議音声から要点をまとめた議事録を作成したりできます。市場調査レポートの下書き、顧客データ分析支援、プログラムコード生成による開発効率化、多言語翻訳も得意です。特に「Deep Research」は無料かつ性能も非常に高いので調査やレポート業務には大活躍します。
概要
GeminiはGoogle開発の最新AIで、ビジネスを支援する賢いアシスタントです。最大の特徴は「マルチモーダル」で、テキストだけでなく画像、音声、動画なども同時に理解・生成できます。高性能なUltra、バランス型のPro、軽量なNanoの3サイズがあり、用途に応じた使い分けが可能。ビジネスにおいては、文章作成や要約による業務効率化、新企画のアイデア出し、データ分析支援、顧客対応の改善など、多岐にわたる活用が期待されます。