このシリーズではChatGPTを中心とした最新の大規模言語モデル(LLM)に関する情報をまとめています。最新AI技術を使用した「ChatGPT」をはじめとした、自然言語処理技術の概要や活用方法について紹介しておりますので、ぜひ最後までご覧ください。

※大規模言語モデルは技術の進歩がとても速い分野となりますので、最新の情報もこちらからご確認ください。

今回の記事では、GPT-4の概要を紹介します。
(更新日:2023年5月12日)

今回の内容

・GPT-4とは

・そもそもGPTとは

・GPT-4の特徴

・GPT-4とChatGPTの違い

・GPT-4の使用方法

・GPT-4の情報機密性

・GPT-4を使用することで情報は漏れないのか?

・生成された文章の著作権はどうなる?

GPT-4とは

GPT-4の概要

GPT-4は、2023年3月14日にOpenAIが発表した最新の人工知能モデルです。画像やテキストを入力として受け取り、テキストを出力することができます。例えば、画像から物語を生成したり、テキストから質問に答えたりすることが可能です。GPT-4は自然言語処理やコンピュータビジョンのさまざまなタスクで人間レベルの性能を発揮することができます。トランスフォーマーというニューラルネットワークのアーキテクチャを採用しており、インターネット上の大量のデータから事前学習されています。OpenAIのウェブサイトやMicrosoft BingやChatGPTなどのサービスで利用できます。

GPT-4の公式情報

詳細情報は公式サイトからご確認いただけます。
また、開発者向けのデモ動画も配信されています。

GPT4の概要:GPT-4 (openai.com)
GPT4の詳細情報:GPT-4 (openai.com)

そもそもGPTとは

ここでは簡単にGPTの概要を紹介します。

GPTの概要

GPTは、ジェネレイティブ・プリトレーニング・トランスフォーマー(Generative Pre-trained Transformer)の略で、AI(人工知能)の一種です。簡単に言うと、GPTは大量の文章データから学習して、人間のように自然な文章を生成したり、理解したりすることができるコンピュータプログラムです。

インターネット上の様々なテキスト情報を学習し、その知識をもとに質問に答えたり、文章を書いたりすることができます。例えば、英語の文法や単語の意味、世界の歴史や科学的な知識など、たくさんの情報が学習されています。

GPTはトランスフォーマーという技術を利用しており、文章の中の単語やフレーズ同士の関係を理解することができます。これにより、より自然で正確な文章を生成することが可能になっています。

GPTの歴史

これまでに登場したGPTモデルの主な違いは、学習データの量やモデルのサイズ(パラメータ数)です。以下に、それぞれのモデルとその概要を定量的な表現も含めて紹介します。

  1. GPT (GPT-1):
    • パラメータ数: 約1億 初代のGPTは2018年に登場しました。このモデルは、文章を生成する際に、より自然で連続性のある文章を作成できるように設計されていました。しかし、性能や知識の範囲は限定的でした。
  2. GPT-2:
    • パラメータ数: 約15億 2019年に登場したGPT-2は、初代のGPTに比べて大幅に改良されたモデルです。学習データの量が増え、モデルのサイズも大きくなりました。この結果、文章の生成能力が向上し、さまざまなタスクで優れた結果を示すことができました。しかし、GPT-2は時々不適切な内容を生成することがあり、そのため一部の機能が制限されていました。
  3. GPT-3:
    • パラメータ数: 約1750億 2020年に登場したGPT-3は、さらに大幅に改良されたモデルで、非常に強力な生成能力を持っています。GPT-3は、前のバージョンと比べて圧倒的な規模のデータを学習し、モデルのサイズも非常に大きくなりました。このおかげで、GPT-3はさまざまなタスクで人間のような文章生成や理解が可能となり、翻訳、要約、質問応答など幅広い分野で利用されています。ただし、GPT-3もまだ完璧ではなく、時に誤った情報や不適切な内容を生成することがあります。

GPT-4の特徴

GPTの特徴

GPT-4の特徴をまとめると以下のようになります。

  • 大規模なマルチモーダルモデルとして発表されており、画像やテキストを入力として受け取り、テキストを出力することができます。(ただし、画像入力はまだ研究段階のプレビューであり、一般には公開されていないようです。)
  • さまざまなベンチマークで人間レベルの性能を発揮し、例えば、司法試験の模擬試験では、受験者の上位10%程度のスコアで合格を達成しています。
  • 多言語対応が強化されました。日本語の対応能力も大幅に改善されており、GPT-4では日本語のプロンプトでも適切な結果を得ることができます。
  • 不許可コンテンツのリクエストに対応する確率が82%低下、事実に基づいた回答を出す確率が40%向上など安全性や事実整合性の面でも向上しています

GPT-4とChatGPTの違い

ChatGPTは、2022年11月末にOpenAI社が提供を開始した人工知能モデルです。公開わずか1週間で100万人、23年1月に1億人のアクティブユーザー数を記録しました。ChatGPTはテキスト生成用に訓練されたGPT-3.5と呼ばれる系列の言語モデルを対話に適したモデルへとファインチューンしたもので、人間のフィードバックを利用した強化学習を行っています。

GPT-4ではChatGPT(GPT-3.5)と比較して、以下のような点が改良されています。

  • 多言語対応が強化されました。これにより、様々な言語や文化に対応したAIソリューションが提供できます。
  • より人間らしい対話ができるようになりました。これにより、自然で魅力的な会話を楽しめます。
  • 推理能力と表現能力が向上しました。これにより、複雑な指示や問題を扱えます。

GPT-4の使用方法

GPT-4の利用方法はいくつかあります。

Chat GPTでGPT-4モデルを選択して使用する

Chat GPTの公式サイトからGPT-4モデルを選択して使用することができます。
月20$の「ChatGPT Plus」に登録します。
詳細は以下のリンクからご確認ください。

OpenAIのAPIを使用する

OpenAIのAPIキーを発行して、APIから利用することもできます。
(現時点ではwaitlistに登録した後に使用できる承認制となっています。)
詳細は以下のリンクからご確認ください。

GPT-4を使用することで情報は漏れないのか?

GPT-4やChat GPTを利用する上で注意するべきことに情報の機密性があります。Chat GPTを使用する際に渡す指示(プロンプト)に企業秘密や個人情報を入力するとどうなるのでしょうか。

OpenAIのAPI データ使用ポリシー(抜粋)

2023年3月1日から、データ利用および保持ポリシーについて以下の2点の変更を行います。

  1. OpenAIは、お客様がAPIを通じて提出したデータを、その目的でデータを共有することを明示的に選択しない限り、モデルの訓練や改善に使用しません。データ共有にオプトインすることができます。
  2. APIを通じて送信されたデータは、最長30日間、不正利用および悪用の監視目的で保持された後、削除されます(法律で別途要求される場合を除く)。

OpenAI APIは、ユーザーが入力するプロンプトや生成されたコンテンツ、およびFilesエンドポイントを介して提出されたモデルのファインチューニング用のトレーニングデータを処理します。これらのデータをAPIデータと呼びます。

デフォルトでは、OpenAIはAPIを通じてお客様が提出したデータを、OpenAIモデルの訓練やサービスの改善には使用しません。ユーザーが提出したファインチューニング用のデータは、顧客のモデルをファインチューニングするためにのみ使用されます。ただし、OpenAIはユーザーに、モデルのパフォーマンス向上のためにデータを共有するオプトインを提供します。データを共有することで、モデルの将来のバージョンがあなたのユースケースに対して改善されることが保証されます。2023年3月1日(この変更の施行日)以前にAPIに提出されたデータは、お客様がデータ共有をオプトアウトしていない場合、改善に使用されていた可能性があります。

OpenAIは、不正利用や悪用を監視する目的で、APIデータを30日間保持します。権限を持つ限られた数のOpenAI従業員や、機密保持およびセキュリティ義務を負う専門の第三者業者が、疑わしい不正利用を調査および確認する目的でのみ、このデータにアクセスすることができます。悪用の可能性が低いユースケースを展開するエンタープライズ顧客は、安全監視および予防を含むすべてのAPIデータが保存されないようリクエストすることができます。ただし、OpenAIはデータがプラットフォームの不正利用を含むと疑われる場合に、コンテンツ分類器がフラグを立てることがあります。たとえば、ユーザーがFilesエンドポイントを通じて提出したデータ(モデルをファインチューニングするためなど)は、ユーザーがファイルを削除するまで保持されます。

情報の機密を守るには

上記の通り、「チャットの履歴はChatGPTのシステム改善のために利用される」とされています注意:追記。つまりChatGPTのトレーニングに利用され、ChatGPTが出力するテキストに機密情報が紛れ込む可能性があるということです。

一方で、OpenAIのAPI利用ではモデルの訓練に利用されないとされています。このため、企業や個人の情報を入力する場合は、ChatGPTではなくOpenAIのAPIを利用することをお勧めします。ただし、データ自体はOpenAIに送信されますので、個人情報等の利用は極力避けるべきでしょう

(4/8追記)ChatGPTからでも履歴を使用できないようにするオプトアウト申請ができるようになりました。詳細はこちら 

(5/1追記)チャット履歴をOFFにすることで、入力データがモデルのトレーニングに利用されないように設定することができるようになりました。詳細はこちら

生成された文章の著作権はどうなる?

公式ページに「共有と公開に関するポリシー」の記載がありますので、その内容を確認していきます。

OpenAIの共有と公開に関するポリシー(抜粋)

自分で作成したプロンプトや完成した作品をソーシャルメディアに投稿したり、ライブストリーミングで使用したり、製品を人々に紹介するデモンストレーションを行うことは、一般的に許可されています。ただし、以下の点に注意してください。

  1. 共有する前やストリーミング中に、生成されたコンテンツを手動で確認してください。
  2. コンテンツの著作者として、自分の名前や会社名を明記してください。
  3. コンテンツがAIによって生成されたものであることを、誤解のないように明示してください。
  4. 当社のコンテンツポリシーに違反する、または他人に不快感を与える可能性のあるコンテンツは共有しないでください。
  5. 視聴者からプロンプトのリクエストを受け取る場合は、適切な判断を行い、コンテンツポリシーに違反する可能性のあるプロンプトを入力しないでください。
  6. OpenAIチームに特定の完成作品を知らせたい場合は、メールで連絡するか、Playground内の報告ツールを使用してください。

OpenAI APIを一部使用して作成された自社の書面コンテンツ(例:本、短編小説の集)を公開したいクリエイターは、以下の条件の下で許可されます。

  1. 公開されるコンテンツに、あなたの名前または会社名を明記してください。
  2. AIがコンテンツの作成にどのように関与したかを、誰もが見逃すことのないように明確に開示し、一般的な読者が十分に理解しやすい方法で説明してください。
  3. コンテンツのトピックがOpenAIのコンテンツポリシーや利用規約に違反しないこと。例えば、政治キャンペーン、アダルトコンテンツ、スパム、憎悪に満ちたコンテンツ、暴力を煽るコンテンツ、または他の社会的な害を引き起こす可能性のある使用が関与していないこと。
  4. 他人に不快感を与える可能性のある出力を共有しないでください。

たとえば、序文やはじめに(または類似した場所)で、下書きや編集などの相対的な役割を詳細に説明する必要があります。APIで生成されたコンテンツを、完全に人間が生成したものや完全にAIが生成したものとして表現することは避け、最終的に人間が公開されるコンテンツに責任を負うべきです。

生成された文章の扱い

上記通り、権利が生成者に帰属し、商用利用可能も特に問題ないようです。一方で「AIによって生成されたことは記載する必要がある」ので注意するようにしましょう。
詳細は以下のリンクからご確認ください。

まとめ

最後までご覧いただきありがとうございました。