Hello GPT-4o：新しいGPT-4oの発表を機械翻訳

OpenAIから、新しいGPT-4oの発表があった。

https://openai.com/index/hello-gpt-4o/

ITmediaにもそれを報ずる記事が。

www.itmedia.co.jp

動画を見る限り、かなり自然な会話が成立しているのが分かる。

長い英文を読むのはしんどいので、OpenAIの発表のGPT-4による翻訳をしてみたのだが、日本語として少し変なところがあるような気がしたので、DeepLで翻訳し直した。

www.deepl.com

こんにちは GPT-4o

GPT-4oは、音声、視覚、テキストをリアルタイムで推論できる新しいフラッグシップモデルです。

動画：Guessing May 13th’s announcement.

OpenAI GPT-4o guessing May 13th's announcement on Vimeo

GPT-4o（「o 」は「omni 」の意）は、より自然な人間とコンピュータの対話への一歩であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成します。音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。GPT-4oは、英語とコードのテキストでGPT-4ターボの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50％安価です。GPT-4oは、既存のモデルと比較して、視覚と音声の理解において特に優れています。

モデル性能

動画。それにしても、実に自然な口調で会話してる。歌まで歌ってる。

Two OpenAI GPT-4os interacting and singing on Vimeo

GPT-4o以前は、ボイス・モードを使ってChatGPTと話すことができましたが、その待ち時間は平均2.8秒（GPT-3.5）、5.4秒（GPT-4）でした。これを実現するために、Voice Modeは3つの独立したモデルのパイプラインになっています。1つのシンプルなモデルが音声をテキストに書き起こし、GPT-3.5またはGPT-4がテキストを取り込んでテキストを出力し、3つ目のシンプルなモデルがそのテキストを音声に戻します。このプロセスは、知能の主な源であるGPT-4が多くの情報を失うことを意味する。つまり、トーン、複数の話者、背景ノイズを直接観察することができず、笑い、歌、感情を表現することを出力できないのだ。

口調が「です」「ます」から「だ」「のだ」になってるけど、そのままDeepLの翻訳を貼る。

GPT-4oでは、テキスト、視覚、音声にまたがる単一の新しいモデルをエンドツーエンドでトレーニングしました。GPT-4oは、これらすべてのモダリティを組み合わせた初めてのモデルであるため、私たちはまだ、このモデルで何ができるのか、またその限界について、表面だけを探っているに過ぎません。

能力の探求

インプットとアウトプットのサンプル例示。様々なサンプルが選べる。Photo to caricatureでは、写真をもとにしてイラストを作成している。

モデル評価

従来のベンチマークで測定した結果、GPT-4oは、テキスト、推論、コーディング知能においてGPT-4 Turboレベルの性能を達成し、多言語、音声、視覚能力において新たな高水準を設定しました。

他のAIとの比較グラフ。

推理力の向上 - GPT-4oは、0ショットのCOT MMLU（一般常識問題）で88.7%という新たなハイスコアを記録しました。これらのテストはすべて、新しい簡易テストライブラリ(新しいウィンドウで開きます)を使用しています。また、従来の5ショットCoTなしMMLUでは、GPT-4oが87.2%のハイスコアを記録しました。(注：Llama3 400b(新しいウィンドウで開きます)はまだトレーニング中です。）

言語のトークン化

以下の20言語が、異なる言語ファミリーにまたがる新しいトークナイザーの圧縮の代表として選ばれました。

各言語のトークン。もちろん、日本語も含まれている。

モデルの安全性と制限

GPT-4oは、訓練データのフィルタリングや、事後訓練によるモデルの動作の洗練などの技術により、モダリティを超えた安全性を設計により内蔵しています。また、音声出力に対するガードレールを提供するために、新たな安全システムを構築しました。

我々はGPT-4oを、我々の準備フレームワークと自主的なコミットメントに沿って評価した。サイバーセキュリティ、CBRN、説得力、モデルの自律性についての評価では、GPT-4oはどのカテゴリーにおいても「中」以上のリスクはない。この評価では、モデルの訓練プロセスを通じて、一連の自動評価と人間による評価を実施しました。モデルの能力をよりよく引き出すために、カスタム微調整とプロンプトを使用して、安全性軽減前と軽減後の両方のバージョンをテストした。

GPT-4oはまた、新たに追加されたモダリティによってもたらされる、あるいは増幅されるリスクを特定するために、社会心理学、バイアスと公正さ、誤報などの領域における70人以上の外部専門家との広範なレッドチームによる調査を受けました。私たちは、GPT-4oとの対話の安全性を向上させるために、これらの学習を用いて安全介入策を構築しました。今後も、新たなリスクが発見されれば、それを軽減していく予定である。

GPT-4oの音声モダリティには、様々な新しいリスクがあることを認識しています。今日、私たちはテキストと画像の入力とテキスト出力を公開します。今後数週間から数ヶ月かけて、他のモダリティをリリースするために必要な技術的インフラ、ポストトレーニングによるユーザビリティ、安全性に取り組んでいきます。例えば、発売当初は、音声出力はプリセットされた音声に限定され、既存の安全ポリシーに従います。GPT-4oのすべてのモダリティに対応する詳細については、近日公開予定のシステム・カードでお伝えする予定です。

このモデルのテストと反復を通じて、私たちはモデルのすべてのモダリティに存在するいくつかの限界を観察した。

制限に関する動画。

OpenAI GPT-4o bloopers on Vimeo

GPT-4ターボがGPT-4oより優れているタスクを特定するためのフィードバックをお待ちしています。

モデルの可用性

GPT-4oは、ディープラーニングの限界を押し広げるための私たちの最新のステップであり、今回は実用的なユーザビリティの方向に向かっている。私たちは過去2年間、スタックの各レイヤーにおける効率改善に多くの労力を費やしました。この研究の最初の成果として、GPT-4レベルのモデルをより広く利用できるようになりました。GPT-4oの機能は、反復的に展開される予定です（今日からレッドチームへのアクセス権が拡大されます）。

GPT-4oのテキストと画像機能が本日よりChatGPTで利用可能になりました。私たちはGPT-4oを無料ティアと、最大5倍のメッセージ制限を持つプラスユーザーで利用できるようにしています。今後数週間でChatGPT Plusのアルファ版でGPT-4oを使ったボイスモードの新バージョンをロールアウトする予定です。

開発者はまた、テキストとビジョンモデルとしてAPIでGPT-4oにアクセスできるようになりました。GPT-4oはGPT-4 Turboと比較して2倍速く、価格は半分で、レート制限は5倍高くなっています。GPT-4oの新しいオーディオとビデオ機能のサポートは、今後数週間のうちにAPIで信頼できるパートナーの少人数グループに開始する予定です。

実際に課金してGPT-4を使ってみて、GPT-3.5とは全然その能力が違うというか、正直これは課金しないと使えないよ、という印象だった。それが、メッセージ制限があるとはいえ無料ユーザーでもGPT-4が使えるようになる、というのは良いなぁ。

ずっと昔、テレビから映像や音声が出てくるのが不思議で「きっと中に人がいるんだ」と思っていた子どもの頃を少し思い出す。子どもが小さかったら、「このスマホの中に、小さな人がいるから大事に扱ってね」と言っていただろう。

スマホアプリでも使えるようになっていた。

nevertheless’s diary

考えていることをChatGPTに聞いてみる

Hello GPT-4o：新しいGPT-4oの発表を機械翻訳