2024.12.02
文章や画像、動画などさまざまな新しいコンテンツを作る「生成AI」は、ビジネスシーンでも活用されはじめています。本記事では、生成AIの意味や基本的な操作方法、従来型のAIとの違い、注目される背景と歴史、生成AIの種類と主なサービス、ビジネスで利用するメリット・注意点などを、わかりやすく解説します。
生成AIとは、学習したデータと入力データから新しいコンテンツを作り出す技術の総称のことです。英語では「Generative AI(ジェネレーティブAI)」と呼ばれています。
生成AIは、機械学習の一種であるディープラーニングという技術を用いて、学習した大量のデータから法則やパターンを見つけ、新しいコンテンツを生成する仕組みです。具体的には、文章や画像、音楽、映像、プログラムのコードなど、高度な技術や専門知識がなくても、さまざまなコンテンツを作り出すことができます。
生成AIでは、プロンプトを入力してコンテンツを生成します。プロンプトとは、AIに実行してほしい内容を伝えるための具体的な指示や質問のことです。AIが入力されたプロンプトを解析し、オリジナルのコンテンツや適切な回答を出力する仕組みです。
プロンプトには、テキストだけでなく画像を入力することもできます。画像をAIに読み込ませて、テキストで指示を入れると、その画像とプロンプトをもとに新たな画像を生成します。
従来型のAIでは、学習データからAIが予測・判断して適切な結果を出力していました。事前に設定された行為を自動化することが得意で、生成AIのように新たなコンテンツを生成するわけではありません。
従来型のAIの例として、Siri(Apple社)やGoogle アシスタント(Google社)、Alexa(Amazon社)などのAIアシスタントが挙げられます。AIアシスタントに話しかけると、内容に応じてタスクを自動で実行しますが、オリジナルのコンテンツは提供しません。
生成AIと従来型AIを正確に使い分けるために、以下の表で違いを確認してみましょう。
生成AI | 従来型のAI | |
---|---|---|
意味 | 文章、画像、音楽など新たなコンテンツを生成するAI | 設定された行為を自動で行うAI |
主な使い方 | コンテンツ生成 | データ予測、判断 |
サービス例 | Microsoft Copilot(Microsoft社)、Stable Diffusion(Stability AI社)など | Siri、Google アシスタント、Alexaなど |
2022年、OpenAI社の「ChatGPT」やStability AI社の「Stable Diffusion」の公表をきっかけに、生成AIが注目されるようになりました。特にChatGPTのアクティブユーザー数が急増し、次々と新たな生成AIサービスが登場しています。
個人はもちろん、企業や自治体でも積極的に導入を検討しはじめ、翌年の2023年は「生成AI元年」と呼ばれ、AIの民主化が進みました。
このように、生成AIは社会に急速に普及していきましたが、AI自体は長年にわたり研究されています。AIの歴史を振り返ると、1950年に数学者の著書でAIの概念が登場した時代まで遡ります。その後、1956年のダートマス会議でAIという用語が公式の場で初めて用いられ、AIの研究分野が誕生しました。1990年以降、人間の脳の神経回路を模倣したモデルが生まれ、2010年代には機械学習の一種であるディープラーニングが登場し、生成AIにつながるモデルが開発された背景があります。
2022年以降に登場した生成AIがこれまでよりも注目を浴びた理由として、その精度の高さが挙げられます。例えば、ChatGPTで出力される文章には自然な日本語が使われ、さらに出力のスピードも速い点が評価されました。チャット形式のユーザーインターフェースもわかりやすく、入力画面にプロンプトを入れると、すぐに回答が得られます。誰でも簡単に使える点も、生成AIが浸透する一因になったと考えられます。
AIの処理プロセスは学習と推論の2つのフェーズがあり、実行する場所によって「クラウドAI」と「エッジAI」に分けられます。
クラウドAIとは、学習と推論の両方をクラウド環境に配置されたサーバーで行うAIのことです。ローカル環境では処理が難しい膨大で複雑なデータ処理にも対応でき、自社の端末に負担がかかりにくい点がメリットとして挙げられます。しかし、インターネット経由でデータを送信し、クラウド上に保存するため、通信コストの増大やセキュリティリスクが懸念されます。
一方のエッジAIとは、使用する端末上で学習や推論を行うAI技術のことです。端末内で処理を行うので、リアルタイムでのアウトプットが可能です。インターネットへの常時接続なしでデータ処理ができ、セキュリティ強化につながります。学習に用いる一部のデータをクラウドに送信することもありますが、基本的にはデータを端末内で処理するため、通信コストの削減やセキュリティ担保が期待できます。
続いて、生成AIの種類と主なサービスを見ていきましょう。
テキスト生成AIとは、入力したプロンプトに基づき、自然な言葉でコンテンツを自動生成するクラウドAIのことです。膨大なデータとディープラーニング技術によって構築された、大規模言語モデル(LLM)が利用されていて、プロンプトに応じて、以下のようなタスクを高精度で実行します。
テキスト生成AIのサービス例として、Microsoft Copilotの特長を以下で見てみましょう。
関連リンク
画像生成AIとは、プロンプトを入力すると、イメージに合ったオリジナル画像を生成するAIのことです。AIへの指示に、テキストだけでなく、参考にしたい画像を使うことも可能です。
例えば、人の線画のイメージ画像を入力して、テキストを使って指示を出すことで、線画をベースに同じポーズの画像を具体化できます。テキストだけでは正確に指示するのが難しい場合、画像も使うと理想のイメージ画像が効率的に生成されやすい点がメリットです。
画像生成AIのサービス例として、Stable Diffusion の特長を以下で見てみましょう。
動画生成AIとは、テキストや画像のプロンプトを入力して、新しい動画を生成するAIのことです。字幕や音声の追加、翻訳なども自動化でき、動画編集の手間を大幅に削減できます。プロモーションや、SNSなどで発信する動画コンテンツを作成するときに役立つでしょう。
動画生成AIのサービス例として、Runway社が提供するRunway Gen-2が挙げられます。特長を以下で見てみましょう。
音声生成AIとは、テキストや画像はもちろん、音声や音楽などのデータを学習させ、新しい音声を作り出せるAIのことです。アプリケーション用の声や、音声対応のチャットボット、コールセンターの自動音声対応、音声通訳などに活用できます。人材や音声録音スタジオ、機材などを用意する必要がなく、コスト削減につながる点がメリットです。
音声生成AIのサービス例として、株式会社 エーアイが提供するAITalkの特長を以下で見てみましょう。