現在のAIのテキスト読み取り能力の検証(ぼやけた中国語のテキスト)

リトルビッグプラネット2のコスモという背景の中国語のネオンサインが並ぶ場所のスクリーンショット 生成AI
リトルビッグプラネット2のコスモという背景の中国語のネオンサインが並ぶ場所のスクリーンショット

現在のAIのテキスト読み取り能力の検証

 AIのベンチマークには様々なものがありますが、僕が実際に以下の画像を用いて、いろんなAIを使ってどのくらいのテキストが正確に読めるのかを検証してみました。結論から言うと、AIによっての性能の差が歴然とし、AIの性能があぶり出されるベンチマークとなりました。また、現時点で無料で使える最も高性能に感じるAIは結論から言うと、AI Studioから使うGemini 2.5 Proです。

画像について

リトルビッグプラネット2のコスモという背景の中国語のネオンサインが並ぶ場所のスクリーンショット
リトルビッグプラネット2のコスモという背景の中国語のネオンサインが並ぶ場所のスクリーンショット

↑このような画像をマルチモーダルAIに読み取ってもらいます。このテキストは私でも読むのが難しいです。中国語には詳しくありません。まさにAIのちからが試されます。

この画像についての説明

 この画像はPS3用ゲーム、リトルビッグプラネット2のコスモという背景の右上部分で撮影したスクリーンショットになります。

 文字は中国語でぼやけていて、しかも、フォントも独特となっていて、活字ではありません。

結論

 結論から言うと、現時点のいくつかのAIは完璧に読み取れたものがありました。

使用したAI(検証についてはいずれも1-shotで行っております)

使用したプロンプト

これなんて書いてあるかわかりますか?原文と日本語訳で。すべて読み取って

添付ファイル

リトルビッグプラネット2のコスモという背景の中国語のネオンサインが並ぶ場所のスクリーンショット
リトルビッグプラネット2のコスモという背景の中国語のネオンサインが並ぶ場所のスクリーンショット

AIごとの結果(概要)

AI正答数・正答率点数(100点満点)備考参考Arena ELO
/Vision ELO
Gemini 2.5 Pro (AI Studio)5/5 (100%)100全てにおいて完璧です!位置関係も文字も読み取り間違いや読み取り漏れが一切ありません!1460
/1252
Gemini 2.5 Flash (AI Studio)
Thinkingオン
5/5 (100%)100Gemini 2.5 Proと同様、完璧な回答!1410
/1206
Gemini 2.5 Flash (AI Studio)
Thinkingオフ
5/5 (100%)※95Thinkingオンのように完璧に近い回答!
しかし、左下のGAMEは読んでいない
不明
Gemini 2.5 Flash Lite (AI Studio)
Thinkingオン
4.5/5(90%)90看板はすべて読んでいるが、精品玩城となっているのが惜しい!(正解は精品电玩城不明
Gemini 2.5 Flash Lite (AI Studio)
Thinkingオフ
2.5/5(50%)40・まずどこの看板なのかの説明がない
・街头篮球ではなく、街頭籃球となっている
・読み間違え多数で分析しないほうが良いくらいひどい結果となった
不明
Gemini 2.0 Flash (AI Studio)3/5 (60%)65シンプルに文字だけを読もうとしている。漢字は正しいが、GAMEと新天地が読めていない。まあまあな結果。1366
/1160
gemma-3-27b-it (AI Studio)4/5 (80%)80小さいモデルのわりには良い結果となっている。
新天地が読めていない
1362
/1146
Gemini 2.5 Pro (Geminiアプリまたはサイト)5/5 (100%)100全てにおいて完璧です!位置関係も文字も読み取り間違いや読み取り漏れが一切ありません!1460
/1252
Gemini 2.5 Flash (Geminiアプリまたはサイト)5/5 (100%)95位置情報はないが、読み取り間違いがなく、ほぼ完璧に近い結果となりました!1410
/1206
Microsoft Copilot3/5 (60%)55位置情報はないわ、精品电玩城は読めていないわ、新天地は読めていないわでシンプルすぎる性能。ハルシネーションがないのは好評価か。1332
/1113
Microsoft Copilot ThinkDeeper3/5 (60%)55↑と全く同じ結果となりました。1332
/1113
Felo AIの画像入力5/5 (100%)95位置情報はないが、読み取り間違いがなく、ほぼ完璧に近い結果となりました!不明
Gensparkの画像添付2.5/5 (50%)40・まずどこの看板なのかの説明がない
・街头篮球ではなく、街球範となっている
・ほとんど読んでいないし、それでいて間違いがあるひどい結果となった
不明
chatgpt-4o-latest-20250326 (現在のChatGPTから使う4oという標準モデル)5/5 (100%)95位置情報はないが、読み取り間違いがなく、ほぼ完璧に近い結果となりました!1443
/1238
o4-mini (ChatGPTから推論を選択するとこれになる、推論モデル)5/5 (100%)100重複した看板には位置情報があり、完璧な回答です!Gemini 2.5 Proと同じくらいに並び、推論中に画像の加工があったのも気になる動きでした!1398
/1193
Grok 3 (Xから)1.5/5 (30%)25ひどすぎます。英語以外はすべて間違っています。ハルシネーションがひどすぎます。1410
/(不明)
Grok 3 (grok.com)1/5(20%)10中国語が全く読めません。なんということでしょう…画像を読む気があるんでしょうかと言いたいくらいひどい結果です。1410
/(不明)
リートン4/5 (80%)80新天地は読んでいないがそれ以外は間違いがなく、良い結果です。不明
Claude Sonnet 4 (Claude.ai)1.5/5 (30%)30かなりひどいです。中国語が間違っています。GamesとGAMEだけが正解です。1388
/1182

AIごとの結果(詳細に)

クリックすると開きます。凡例:正しい部分的に間違っている

Gemini 2.5 Pro (AI Studio)

はい、この画像に書かれている文字をすべて読み取りました。
以下にそれぞれの看板の原文と日本語訳をまとめます。


読み取った文字一覧

画像にはいくつかのネオンサインがあり、それぞれ次のように書かれています。

1. 「街头篮球 Games」 (左上と右下にある看板)

  • 原文(中国語): 街头篮球 (jiētóu lánqiú)
  • 原文(英語): Games
  • 日本語訳ストリートバスケットボール ゲーム

2. 「精品电玩城」 (左側の中央にある水色の看板)

  • 原文(中国語): 精品电玩城 (jīngpǐn diànwánchéng)
  • 日本語訳精品電玩城(高品質なゲームセンター)
    • 「精品」は「選りすぐりの品」、「电玩城」は「ゲームセンター」を意味します。

3. 「游戏天地」 (左側の中央下にある看板)

  • 原文(中国語): 游戏天地 (yóuxì tiāndì)
  • 日本語訳遊戯天地(ゲーム天国 / ゲームワールド)
    • 「游戏」は「ゲーム」、「天地」は「世界」を意味します。

4. 「新天地」 (右上にある白く光る看板)

  • 原文(中国語): 新天地 (xīn tiān dì)
  • 日本語訳新天地(新しい世界)

5. 「GAME」 (右中央と左下にある縦書きの看板)

日本語訳ゲーム

原文(英語): GAME

AI Studioで試した画像
AI Studioの実際の画面

完璧です!100点満点の回答です。特に水色の背景の本当に読みづらいところが読めたのは人間超えていそうです!

Gemini 2.5 Flash (AI Studio、Thinkingオン)

画像にあるネオンサインの文字を読み取って、原文(中国語または英語)と日本語訳で説明します。


  1. 左上の看板 (Top Left Sign)
    • 原文: 街头篮球 Games
    • 意味: ストリートバスケットボール(バスケの絵文字あり)ゲーム
    • 日本語訳: 街頭バスケットボール ゲームズ / ストリートバスケ ゲームズ
  2. 左中央の青い枠の看板 (Middle Left Blue Frame Sign)
    • 原文: 精品电玩城
    • 意味: 精品(高級な品、ブティック)+ 電玩(ビデオゲーム、アーケードゲーム)+ 城(センター、街)
    • 日本語訳: 高級ゲームセンター / ブティックゲームシティ
  3. 右中央の白い縦書きの看板 (Middle Right White Vertical Sign)
    • 原文: 新天地
    • 意味: 新しい世界、新しい場所。中国では「新天地」という名前のエンターテイメント複合施設や商業地区がよくあります。
    • 日本語訳: 新天地(しんてんち)
  4. 下中央の青い渦巻きとオレンジの背景の看板 (Lower Middle Blue Swirl Orange Background Sign)
    • 原文: 游戏天地
    • 意味: ゲームの世界、ゲームの天国
    • 日本語訳: ゲーム天地 / ゲームワールド
  5. 右下の赤い縦書きの看板 (Lower Right Red Vertical Sign)
    • 原文: GAME
    • 日本語訳: ゲーム
  6. 左下の看板 (Bottom Left Sign)
    • 原文: GAME
    • 日本語訳: ゲーム
      (※これは右下のGAME看板の一部が写っているか、同じ内容の別の看板のようです)
  7. 一番下の右寄りにある看板 (Bottom Most Right Sign)
    • 原文: 街头篮球 Games
    • 意味: ストリートバスケットボール(バスケの絵文字あり)ゲーム
    • 日本語訳: 街頭バスケットボール ゲームズ / ストリートバスケ ゲームズ
      (※これは左上の看板と同じ内容です)

まとめ:
これらの看板は、主にゲームセンターやエンターテイメント施設に関するもので、「ストリートバスケ」や「ゲームワールド」といったテーマのようです。

Thinkingがオンだと、Gemini 2.5 Proと並ぶ結果となりました。これも100点の回答です。しっかりぼやけた青い背景の看板も読み取れています。

Gemini 2.5 Flash (AI Studio、Thinkingオフ)

はい、画像に写っているネオンサインの文字を原文(中国語)と日本語訳で読み取ります。

読み取り結果

1. 左上の看板 (Street Basketball Games)

  • 原文: 街头篮球 Games
  • 日本語訳: ストリートバスケットボール ゲームズ

2. 左中央の青い看板 (Boutique Arcade)

  • 原文: 精品电玩城
  • 日本語訳: ブティックアーケード / 高品質ゲームセンター

3. 左下の大きな看板 (Game World)

  • 原文: 游戏天地
  • 日本語訳: ゲーム天地 / ゲームの世界

4. 右上の縦長の看板 (New World / New Games)

  • 原文: 新天地 (または 新游戏、ですが、このフォントでは判別しにくいです。一般的なネオンサインの文脈から「新天地」の可能性が高いです。)
  • 日本語訳: 新天地 (新しい場所/世界) / 新しいゲーム (もし新游戏なら)

5. 右中央の赤い看板 (Game)

  • 原文: GAME (縦書き)
  • 日本語訳: ゲーム

6. 右下の看板 (Street Basketball Games)

  • 原文: 街头篮球 Games
  • 日本語訳: ストリートバスケットボール ゲームズ

まとめ

この画像は、ゲームセンターやアミューズメント施設が立ち並ぶ夜の街並みを表しているようです。多くの看板が「ゲーム」に関連する内容を示しています。

(画像は省略)

ほぼ完璧に近いが、左下のGAMEが抜けています。だが、高速なFlashモデルで無料で使えるのにこの性能は称賛いたします。

Gemini 2.5 Flash Lite (AI Studio、Thinkingオン)

はい、画像に写っている文字をすべて読み取り、日本語訳とともに記載します。

  • 左上・右下:
    • 原文: 街頭籃球 Games
    • 日本語訳: ストリートバスケットボール ゲーム
    • (バスケットボールのアイコンがあります)
  • 中央左:
    • 原文: 精品玩城
    • 日本語訳: 精品ゲームセンター (または 高品質な遊び場)
  • 中央左下(一番大きな青いネオン):
    • 原文: 遊戲天地
    • 日本語訳: ゲームの世界 (または ゲーム天国)
  • 右上:
    • 原文: 新天地
    • 日本語訳: 新天地 (または 新世界)
  • 中央右・左下:
    • 原文: GAME
    • 日本語訳: ゲーム

(画像は省略)

いい回答だが、中央左の回答が惜しいです。精品电玩城ですよ。90点の回答です。

Gemini 2.5 Flash Lite (AI Studio、Thinkingオフ)

はい、画像に写っているネオンサインに書かれている文字を読み取ります。


原文:

  1. 街頭籃球
  2. Games
  3. 精品网吧 (※この部分の画像は鮮明ではありませんが、推測されます。)
  4. 游戏天地
  5. GAME
  6. 街頭籃球
  7. Games

日本語訳:

  1. ストリートバスケットボール
  2. ゲーム
  3. 高品質インターネットカフェ (※推測)
  4. ゲーム天国 (または、ゲームの世界)
  5. ゲーム
  6. ストリートバスケットボール
  7. ゲーム

補足:

「GAME」はそのまま「ゲーム」を意味します。

「精品网吧」の部分は、画像がぼやけているため、断定が難しいですが、「精品」は「高品質」や「精品」、「网吧」は「インターネットカフェ」を意味することが多いです。

「街頭籃球」と「游戏天地」は、ゲームセンターやアミューズメント施設に関連する看板の可能性が高いです。

(画像は省略)

 これは良くない結果となっています。ハルシネーションがひどく、街头篮球が街頭籃球と表記が異なっています。特に、精品电玩城が全く読めておらず、大幅に間違って(精品网吧)います。これは安かろう悪かろうの結果になっています。大変申し訳無いのですが、これは悪いと言わざるを得ません。

40点の結果です。

Gemini 2.0 Flash (AI Studio)

はい、画像内のネオンサインに書かれている文字を読み取ります。

  • 街头篮球 (jiē tóu lán qiú): ストリートバスケットボール
  • Games (げーむず): ゲーム
  • 精品电玩城 (jīng pǐn diàn wán chéng): 高級ゲームセンター
  • 游戏天地 (yóu xì tiān dì): ゲームランド
  • 新品热饱 (xīn pǐn rè bǎo): 新製品販売

(画像は省略)

まあまあな結果となっています。精品电玩城が読めたのはすごいが、逆に新天地が読めていないのが奇妙です。逆に存在しないものが現れているため、これはハルシネーションとなっています。また、GAMEも読んでいないんです。読めているところと読めていないところが玉石混交となっていて、65点の結果です。これは一昔前のモデルで推論機能がない割には、最新モデルの超軽量版(Gemini Flash LiteのThinkingなし)を上回っている結果となっているのは興味深いです。

gemma-3-27b-it (AI Studio)

はい、画像に書かれている文字を読み取ります。

原文と日本語訳:

  • 街头蓝球 (Jiē tóu lán qiú) – 街角バスケットボール / ストリートバスケ
  • Games – ゲーム
  • 精品电玩城 (Jīng pǐn diàn wán chéng) – 精品アーケード / 上質なゲームセンター
  • 游戏天地 (Yóu xì tiān dì) – ゲームの楽園 / ゲーム天国
  • 新派电玩 (Xīn pài diàn wán) – 新派アーケード / 新しいスタイルのゲームセンター
  • GAME – ゲーム

画像は、ゲームセンターやアーケードが立ち並ぶ賑やかな街の様子を表しているようです。

(画像は省略)

場所についての情報はないが、新天地以外が読めているのは27Bモデルではすごいです。割と良い結果です。80点です。27Bでありながら、精品电玩城が読めているのは評価に値します。

Gemini 2.5 Pro (Geminiアプリまたはサイト)

はい、画像に書かれている文字を読み取りました。 以下に、それぞれの看板に書かれている原文と日本語訳をまとめます。

看板の文字と日本語訳

画像には複数のネオンサインがあり、主に中国語と英語で書かれています。全体的にゲームセンターやアミューズメント施設に関連する言葉です。


1. 左上と右下の赤い看板

  • 原文: 街头篮球 Games (jiētóu lánqiú)
  • 日本語訳: ストリートバスケットボール ゲーム

2. 左側の水色の長方形の看板

  • 原文: 精品电玩城 (jīngpǐn diànwánchéng)
  • 日本語訳: 高級ゲームセンター / セレクトゲームセンター
    • (「精品」は高品質なもの、「电玩城」はゲームセンターを意味します)

3. 中央の大きな水色の看板

  • 原文: 游戏天地 (yóuxì tiāndì)
  • 日本語訳: ゲーム天国 / ゲームワールド
    • (「游戏」はゲーム、「天地」は世界や楽園のような場所を指します)

4. 右上の白く光る看板

  • 原文: 新天地 (xīn tiāndì)
  • 日本語訳: 新天地
    • (光で一部が見えにくいですが、文脈からこのように推測されます)

5. その他の看板

日本語訳: ゲーム

原文: GAME

モデルはGemini 2.5 Proなのでさすがの結果です。AI Studio版に並ぶ結果となっています。位置情報も書かれており、完璧な回答となっています。100点の結果です。

Gemini 2.5 Flash (Geminiアプリまたはサイト)

提供された画像に写っている看板の文字を、原文と日本語訳で以下に示します。

街头篮球 (jiē tóu lán qiú)

  • 日本語訳:ストリートバスケットボール

Games

  • 日本語訳:ゲーム

精品电玩城 (jīng pǐn diàn wán chéng)

  • 日本語訳:厳選されたゲームセンター

游戏天地 (yóu xì tiān dì)

  • 日本語訳:ゲームの楽園、ゲームワールド

新天地 (xīn tiān dì)

  • 日本語訳:新天地、新しい世界

GAME

  • 日本語訳:ゲーム

位置情報は書かれていませんが、文字は全てあっています。ほぼ完璧に近い結果です。95点の結果です。これは無料で使えるんですよ。Googleアカウントさえあれば無料でこのくらいの性能のAIが使えますのでおすすめです。

Microsoft Copilot

もちろんです、悠斗さん!画像の中の文字をすべて読み取り、それぞれ原文(中国語)と日本語訳をお伝えしますね。

🧾 画像内の看板や案内に書かれていた文字:

中国語の原文日本語訳
街头篮球ストリートバスケットボール
游戏天地ゲームの世界/ゲームランド
GAMEゲーム
Gamesゲーム

👀 全体的に、ゲームセンターやアーケード施設の看板に見えます。「街头篮球」は具体的なゲームのタイトルで、人気のバスケゲームです。その他は施設名やカテゴリ表記だと思われます。

もっと詳しく内容を調べたり、その場所に関連することも知りたいですか?それとも他の画像もありますか?📷

間違いはないんだけど、精品电玩城と新天地が無視されています。ハルシネーションがないだけ、好評価ですね。55点の結果です。位置情報もないのでシンプルですね。まあまあな結果となりました。

Microsoft Copilot ThinkDeeper

画像の文字起こしと訳

1. 街头篮球

原文: 街头篮球 日本語訳: 街頭バスケットボール

2. Games

原文: Games 日本語訳: ゲーム

3. 游戏天地

原文: 游戏天地 日本語訳: ゲーム天地(ゲームワールド)

4. GAME

原文: GAME 日本語訳: ゲーム

極めてシンプルな回答となりました。結果はThinkDeeperがあっても、なくても画像に関しては変わらないという結果になりました。55点の結果です。

Felo AIの画像入力

はい、承知いたしました。
ご提示いただいたドキュメントに記載されている、画像の文字とその日本語訳をご案内します。

ドキュメントによると、画像には以下の文字が書かれているようです。

  • 原文: 街头篮球 (Jiē tóu lánqiú)
    • 日本語訳: ストリートバスケットボール
  • 原文: Games
    • 日本語訳: ゲーム
  • 原文: 精品电玩城 (Jīngpǐn diànwán chéng)
    • 日本語訳: 高級ゲームセンター
  • 原文: 游戲天地 (Yóuxì tiāndì)
    • 日本語訳: ゲームの楽園
  • 原文: Game
    • 日本語訳: ゲーム
  • 原文: 新天地 (Xīntiāndì)
    • 日本語訳: 新しい世界

ご提示のドキュメントには「判読できる文字は以上です」と記載されており、読み取れたすべての内容は上記の通りです。

位置情報はありませんが、テキストは正確に読み取れています。ほぼ完璧に近い結果となりました。95点の結果です。

Gensparkの画像添付

画像を分析して看板の文字を読み取ります。画像が少しぼやけていますが、できる限り読み取りたいと思います。

ツールを使用する

画像を理解

エージェントを表示

画像にはいくつかのネオンサインや看板が映っており、いくつかの文字が確認できます。画像が少しぼやけているため完全に読み取るのは難しいですが、以下の情報を読み取ることができました:

  1. 左上の看板:「街球範 Games」(ストリートボール ゲームズ)
    • 赤と黒の縦縞の背景に書かれています
    • 「街球」は「ストリートボール」を意味します
  2. 中央の青い背景に書かれた看板:「游戏天地」(ゆうぎてんち)
    • 日本語訳:「ゲームワールド」または「ゲームの天地」
    • オレンジと白の文字で書かれています
  3. 右側の看板:「GAME」
    • 赤い英語の文字で書かれています

これらの看板から、この場所はゲームセンターやアーケードゲーム施設、またはエンターテイメント街の一角であると考えられます。画像の解像度の関係で、完全に判読できない文字もありますが、主に「街球(ストリートボール)」と「游戏天地(ゲームワールド)」という文字が確認できます。

全体的に、この場所はアジア(おそらく中国または香港)の都市部にあるゲーム関連の施設のようです。

読めている箇所が少ないし、それでいて間違いがあります。これはひどい結果です。Gensparkスーパーエージェントは画像の理解には適さないことがわかりました。改善をお祈り申し上げます。位置情報はありますが、読めていない看板が多く、40点の結果です。

chatgpt-4o-latest-20250326 (現在のChatGPTから使う4oという標準モデル)

以下、画像から読み取れる中国語および英語の文字と、それぞれの日本語訳です。


■読み取れたテキストと日本語訳

  1. 街头篮球 (jiētóu lánqiú)
     ┗ 日本語訳:ストリートバスケットボール
  2. Games
     ┗ 日本語訳:ゲームズ(複数形のゲーム)
  3. 精品电玩城 (jīngpǐn diànwán chéng)
     ┗ 日本語訳:高品質ゲームセンター
  4. 游戏天地 (yóuxì tiāndì)
     ┗ 日本語訳:ゲームワールド
  5. 新天地 (xīn tiāndì)
     ┗ 日本語訳:新天地(新しい世界、または「ニュー・ワールド」)
  6. GAME(縦書き)
     ┗ 日本語訳:ゲーム
  7. GAME(下部、赤色横書き)
     ┗ 日本語訳:ゲーム

■備考

  • 画面中央に小さなキャラクターがいて、全体的にゲーム内の背景っぽい演出がされています。
  • 看板やネオンは、中国圏(特に香港や上海など)によく見られる都市風のデザインです。

必要であれば、各看板の位置ごとに詳細な位置情報付きで再解説も可能です。

位置情報は部分的だが、それ以外は完璧に読み取れています。GAMEに関しては二箇所読み取っていますが、街头篮球に関しては1箇所しか読み取っていないことを除けば、読み取り間違いはなく、ほぼ完璧に読み取れています。95点の結果です。体感、Gemini 2.5 FlashのThinkingなしと同じくらいの性能でしょうか。

o4-mini (ChatGPTから推論を選択するとこれになる、推論モデル)

■結論
看板に書かれているテキストと日本語訳は以下の通りです。

■質問ポイント
・看板に書かれている全てのテキストの原文と日本語訳を知りたい

■回答

  1. 街头篮球
    • 日本語訳:ストリートバスケットボール
    • (画像上部と下部、計2箇所に同じデザインで表示)
  2. Games
    • 日本語訳:ゲームズ/ゲーム
    • (「街头篮球」の下/下段の「街头篮球」の下に表示)
  3. 精品电玩城
    • 日本語訳:高級ゲームセンター(=ハイクオリティゲームセンター)
  4. 游戏天地
    • 日本語訳:ゲーム天地(ゲームワールド)
  5. 新天地
    • 日本語訳:新天地
  6. GAME
    • 日本語訳:ゲーム
    • (縦書きの赤文字で1箇所、横書きの赤文字で1箇所、合計2箇所)

以上が、画像内の全ての看板テキストとその日本語訳になります。

これは完璧な回答です。重複する看板にはきちんとそれが書かれているし、文字も全てあっています。100点の回答です。興味深い思考過程がありましたので以下に示します。

ChatGPTの新しいバージョンへのフィードバックでこれがあったのです。思考過程中に画像が扱えるAIはこれが無料で使える中では初かもしれません。Gemini 2.5 Proでも思考過程の途中で画像が登場することはなく、すべてトークンのテキストとなっています。Gemini の思考過程は最近は詳細には表示されなくなり、サマリーが表示されるようになっています。

Grok 3 (Xから)

画像の看板に書かれている文字を読み取ると、以下のようになります。原文(画像内の文字)と日本語訳をすべて記載します。原文と日本語訳

  1. 原文: 街籃球 (街頭篮球)
    • 日本語訳: ストリートバスケットボール
  2. 原文: Games
    • 日本語訳: ゲーム
  3. 原文: 世界电玩
    • 日本語訳: 世界ビデオゲーム
  4. 原文: 新天性
    • 日本語訳: 新しい才能(または新天性、具体的な文脈が不明)
  5. 原文: 游龙天魔
    • 日本語訳: 遊龍天魔(「遊龍」は龍が遊ぶ様子、「天魔」は特定の名前やコンセプトを指す可能性)
  6. 原文: GAME
    • 日本語訳: ゲーム
  7. 原文: 街球篮球
    • 日本語訳: ストリートバスケットボール

補足

必要に応じて画像の編集やさらに詳細な分析を依頼することも可能です。

一部の文字は看板のデザインや照明の影響でぼやけており、完全な解釈が難しい場合があります。

「新天性」や「游龙天魔」は特定のゲームやブランド名である可能性があり、一般的でない表現のため文脈次第で意味が異なる可能性があります。

中国語がほとんど読めていません。ハルシネーションがひどいため、厄介です。ひどすぎる結果となっており、25点の結果です。

Grokでの画像のファクトチェックは意味がないことがわかります。ファクトチェックするなら、AI StudioのGemini 2.5 Proに頼みましょう。何度も言いますが、Xを使っている人たちは、AI StudioのGemini 2.5 Proでファクトチェックするといかがでしょうか?「@grok ファクトチェック」をするようなときに、ツイートの全体のスレッドをAI StudioのGemini 2.5 Proに貼り付けてから「ファクトチェックして」って頼んでみると質の良いファクトチェックができると思います。そのときにGroundingをオンにすれば完璧ですよ。

Grok 3 (grok.com)

画像の看板に書かれている文字をすべて読み取ると、以下のようになります。原文と日本語訳をそれぞれ示します。

原文

  1. 街籃球 (Street Basketball)
  2. 新宿 (Shinjuku)
  3. 品川 (Shinagawa)
  4. 湾城系列 (Wan Cheng Series)
  5. ゲーム (Game)

日本語訳

  1. ストリートバスケットボール
  2. 新宿
  3. 品川
  4. 湾城シリーズ
  5. ゲーム

これが画像に含まれるすべてのテキストです。

XでのGrok同様、ひどすぎます。画像を読んでいるのか疑わしくなるほどです。Gameしか合っていません。10点の結果です…

リートン

画像に書かれている内容は以下の通りです:

  1. 街头篮球(原文)
    ストリートバスケットボール(日本語訳)
  2. Games(原文)
    ゲーム(日本語訳)
  3. 精品电玩城(原文)
    プレミアムゲームタウン(日本語訳)
  4. 游戏天地(原文)
    ゲームの天地(日本語訳)
  5. GAME(原文)
    ゲーム(日本語訳)

全体的に、ゲームやバスケットボールに関連したテーマの看板が表示されています。

結構良い結果です。新天地は読めていませんが、それ以外は間違いがなく、信頼性が高い結果となりました。ハルシネーションがないのは好評価となっています。余計な検索が右の方で走っているのが玉に瑕か。80点の結果です。

Claude Sonnet 4 (Claude.ai)

この画像に写っている文字を読み取ってみますね。

読み取れる文字:

上部の看板:

  • 「街頭遊戯」(がいとうゆうぎ) – ストリートゲーム
  • 「Games」

中央の青い看板:

  • 「KLAVIER」- クラヴィーア(ピアノの意味)

中央下の看板:

  • 「游戯天堂」(ゆうぎてんどう) – ゲーム天国/ゲームパラダイス

下部の看板:

  • 「GAME」
  • 「街頭遊戯」(がいとうゆうぎ) – ストリートゲーム
  • 「Games」

右側には赤い人型の看板も見えますが、文字は判読しにくい状態です。

これは香港や台湾などの中華圏の繁華街にあるゲームセンターやアミューズメント施設の看板のようですね。「街頭遊戯」「游戯天堂」といった中国語の看板と英語の「Games」が混在している典型的な街並みです。

かなりひどい結果です。30点の結果となりました。中国語が読めていません。Claudeは未だに画像が苦手のようです。

AI Tier表(このテストに入っていないものも含みます)

Sランク

  • Gemini 2.5 Pro (AI Studio、Gemini両方)
  • Grok 4(-heavy)
  • OpenAI o3(-pro)

Aランク

  • Gemini 2.5 Flash
  • Grok 3
  • chatgpt-4o-latest-20250326
  • OpenAI o4-mini
  • GPT-4.1
  • GPT-4.5
  • Claude Opus 4
  • Claude Sonnet 4

Bランク

  • Gemini 2.5 Flash Lite Thinkingあり
  • GPT-4.1-mini
  • OpenAI o3-mini(-high)
  • Gemini 2.0 Flash
  • Grok 2
  • Gemini 1.5-pro-002
  • GPT-4o-1120以前
  • Claude 3.5 Sonnet
  • Claude 3.7 Sonnet

このテストにおけるランキング

1位:Gemini 2.5 Pro (AI Studio)

完璧です!100点満点の回答です。特に水色の背景の本当に読みづらいところが読めたのは人間超えていそうです!
正答数・正答率:5/5 (100%) 点数:100点

1位:Gemini 2.5 Pro (Geminiアプリまたはサイト)

全てにおいて完璧です!位置関係も文字も読み取り間違いや読み取り漏れが一切ありません!
正答数・正答率:5/5 (100%) 点数:100点

1位:o4-mini (ChatGPTから推論を選択するとこれになる、推論モデル)

重複した看板には位置情報があり、完璧な回答です!Gemini 2.5 Proと同じくらいに並び、推論中に画像の加工があったのも気になる動きでした!
正答数・正答率:5/5 (100%) 点数:100点

1位:Gemini 2.5 Flash (AI Studio) Thinkingオン

Gemini 2.5 Proと同様、完璧な回答!
正答数・正答率:5/5 (100%) 点数:100点

5位:chatgpt-4o-latest-20250326 (現在のChatGPTから使う4oという標準モデル)

位置情報はないが、読み取り間違いがなく、ほぼ完璧に近い結果となりました!
正答数・正答率:5/5 (100%) 点数:95点

5位:Felo AIの画像入力

位置情報はないが、読み取り間違いがなく、ほぼ完璧に近い結果となりました!
正答数・正答率:5/5 (100%) 点数:95点

5位:Gemini 2.5 Flash (Geminiアプリまたはサイト)

位置情報はないが、読み取り間違いがなく、ほぼ完璧に近い結果となりました!
正答数・正答率:5/5 (100%) 点数:95点

8位:Gemini 2.5 Flash (AI Studio) Thinkingオフ

Thinkingオンのように完璧に近い回答!しかし、左下のGAMEは読んでいない
正答数・正答率:5/5 (100%)※ 点数:95点

9位:Gemini 2.5 Flash Lite (AI Studio) Thinkingオン

看板はすべて読んでいるが、精品玩城となっているのが惜しい!(正解は精品电玩城)
正答数・正答率:4.5/5 (90%) 点数:90点

10位:gemma-3-27b-it (AI Studio)

小さいモデルのわりには良い結果となっている。新天地が読めていない
正答数・正答率:4/5 (80%) 点数:80点

10位:リートン

新天地は読んでいないがそれ以外は間違いがなく、良い結果です。
正答数・正答率:4/5 (80%) 点数:80点

12位:Gemini 2.0 Flash (AI Studio)

シンプルに文字だけを読もうとしている。漢字は正しいが、GAMEと新天地が読めていない。まあまあな結果。
正答数・正答率:3/5 (60%) 点数:65点

13位:Microsoft Copilot

位置情報はないわ、精品电玩城は読めていないわ、新天地は読めていないわでシンプルすぎる性能。ハルシネーションがないのは好評価か。
正答数・正答率:3/5 (60%) 点数:55点

13位:Microsoft Copilot ThinkDeeper

位置情報はないわ、精品电玩城は読めていないわ、新天地は読めていないわでシンプルすぎる性能。ハルシネーションがないのは好評価か。
正答数・正答率:3/5 (60%) 点数:55点

15位:Gemini 2.5 Flash Lite (AI Studio) Thinkingオフ

・まずどこの看板なのかの説明がない
・街头篮球ではなく、街頭籃球となっている
・読み間違え多数で分析しないほうが良いくらいひどい結果となった
正答数・正答率:2.5/5 (50%) 点数:40点

15位:Gensparkの画像添付

・まずどこの看板なのかの説明がない
・街头篮球ではなく、街球範となっている
・ほとんど読んでいないし、それでいて間違いがあるひどい結果となった
正答数・正答率:2.5/5 (50%) 点数:40点

17位:Claude Sonnet 4 (Claude.ai)

かなりひどいです。中国語が間違っています。GamesとGAMEだけが正解です。
正答数・正答率:1.5/5 (30%) 点数:30点

18位:Grok 3 (Xから)

ひどすぎます。英語以外はすべて間違っています。ハルシネーションがひどすぎます。
正答数・正答率:1.5/5 (30%) 点数:25点

19位:Grok 3 (grok.com)

中国語が全く読めません。なんということでしょう...画像を読む気があるんでしょうかと言いたいくらいひどい結果です。
正答数・正答率:1/5 (20%) 点数:10点

総評

・このテストを実施し、興味深かったのは画像の理解に関してもThinking(推論)のオンオフがかなり読み取り精度に影響したことがわかった

・テキストのアリーナの性能が高くても画像理解はボロボロのモデルが有ること

・Gemini 2.5 Flashに関して、推論なしでも完璧に読み取れたのはすごかった

・Grokが画像の推論に弱いことがわかった

コメント

タイトルとURLをコピーしました