えいあーるれいの技術日記

ROS2やM5 Stack、Ubuntuについて書いています

LLM搭載AI、全然可愛くない件(Bard・LLM・GPT4・ウマ娘)

ウマ娘はレース場で「馬」となる?(darknet・ディープラーニング) - えいあーるれいの技術日記 の続きです。


みなさんはLLMを使いこなせていますか?

私は、全く使いこなせていません…😇

最近は、某緑の謎半導体企業が話題になったり、AIと2024年度の国家予算が話題になったり、AIモデル次々と公開されたりと何かと話題になっていますよね。

そういえば最近、Google発のAI「Bard」に画像アップロード機能が追加されたことは知っているでしょうか?

Googleといえば、画像検索や検索エンジンが持つ膨大なデータがありますが、Bardの画像アップロードと活用することで、さらに新たな検索体験が得られそうですね。

Bardの最新情報については以下のURLをチェックしてください↓

bard.google.com

LLMと検索といえばChatGPTが搭載されているBingChatが有名ですが、強力な検索エンジンGoogleもまた新たな可能性を切り開きそうで楽しみですね。


ところで私が以前人気ゲーム「ウマ娘」が馬なのか人なのかを分類したことがあります。

ar-ray.hatenablog.com

この記事では、「ウマ娘」が写っている画像に物体分類AIで推論を行い、バウンディングボックスが「馬」なのか「人間」なのかを分類させていました。

結果として主に馬・人間・テディベア(!?)の3種類の分類が可能であることが分かり、面白い結果が得られました。

これはバウンディングボックスが背景も参考にしていることが原因でした。GradCamという解析ツールを使って見たりと勉強になる点も多かったです。


この時は、物体分類といえばYOLOだったりSSDが中心だったのでこれで完結していたのですが、LLMがImage2Textが急速に進化させたことで状況は一変しました。

LLMで画像を直接テキストに使用することで今度こそ「馬」なのか「人」なのかを分類する時が来ました(?)。


Bardに画像をアップロードする方法

Bardは現在も開発中で、画像アップロード機能については日本向けには提供されていないみたいです。

そのため、言語設定をEnglish/United Statesにします。

Googleアカウントを管理→個人情報→ウェブ向けの全般設定→言語 から設定できます。

UIはまるでChatGPTです。


とりあえず、分類したい画像をアップロードしてみました。

画像とともに「How many horses are running?」を送信しました。

ん???

There are no horses running in the image you sent me. The image shows a group of anime girls running on a field. The girls are wearing the uniforms of horse racing jockeys, but there are no horses in the image.

The image is from the anime and mobile game series Umamusume: Pretty Derby. The series is about girls who are reincarnations of famous racehorses. The girls compete in horse races, but they do not actually ride horses. They run alongside the horses, using their spiritual powers to help the horses win.

So, to answer your question, there are zero horses running in the image.

(以下は機械翻訳させたものです)

送られてきた画像には馬は走っていない。その画像には、アニメの女の子たちがフィールドを走っている。彼女たちは競馬の騎手のユニフォームを着ているが、画像には馬は写っていない。

この画像は、アニメとモバイルゲームの「ウマ娘: プリティーダービー』。このシリーズは、有名な競走馬の生まれ変わりである少女たちの物語である。彼女たちは競馬に出場するが、実際に馬に乗るわけではない。彼女たちは馬と一緒に走り、霊的な力を使って馬を勝たせるのだ。

というわけで、質問の答えだが、画像の中で走っている馬はゼロである。

あれ…馬いないの…?

あと「彼女たちは馬と一緒に走り、霊的な力を使って馬を勝たせるのだ。」ってなんだ?そんなものは聞いたことないのだが…


ちなみに、「この画像の説明をして」も質問してみました。

The image you sent me shows a group of anime girls running on a field. The girls are all wearing different outfits, but they all have long, flowing hair. They are running with determination and excitement, and their expressions are full of joy. The field is green and lush, and there are a few trees in the background. The sky is blue and cloudless.

The image is from the anime/mobile game "Uma Musume: Pretty Derby". The game is about horse racing, and the girls in the image are all based on famous racehorses. The image is meant to capture the excitement and determination of horse racing, and it does a great job of doing so.

I hope this answers your question. Let me know if you have any other questions.

(以下は機械翻訳させたものです)

送られてきた画像には、グラウンドを走るアニメの女の子たちが写っている。少女たちはみな違う服を着ているが、流れるような長い髪をしている。彼女たちは決意と興奮に満ちた表情で走っている。原っぱは緑豊かで、背景には数本の木がある。空は青く、雲ひとつない。

画像はアニメ/モバイルゲーム『ウマ娘: プリティーダービー』。このゲームは競馬をテーマにしており、画像に登場する女の子はすべて有名な競走馬をモデルにしている。この画像は、競馬の興奮と決意を表現するためのもので、それが見事に表現されている。

質問の答えになっていれば幸いです。他に質問があれば教えてください。

質問の答えにはなっているけど…

自分の説明より優秀じゃないですか…


ちなみに、画像によっては人と判定されて失敗します。悲しい。


Bing Chatの場合は?

Bing Chat(GPT4)の場合は日本語で返してくれました。

こんにちは、こちらはBingです。お役に立てることがありますか?😊

あなたが送ってくれた画像は、フィールドにいるアニメのキャラクターのグループの画像です。キャラクターはすべて女性で、学校の制服や鎧、伝統的な日本の服など、さまざまな衣装を着ています。キャラクターはすべて武器を持っており、剣や弓などがあります。背景は緑の草原と木々、青い空です。この画像はビデオゲームやアニメーションのショーからのもののようです。

アニメやマンガのキャラクターについてもっと知りたい場合は、世界最大のオンラインアニメとマンガデータベースであるMyAnimeList²をチェックしてみてください。そこでは、あなたの好きなキャラクターの詳細やレビューを見たり、オンラインコミュニティに参加したり、あなた自身のアニメやマンガリストを作成したりすることができます。

また、アニメやキャラクターに関連した商品を探したい場合は、大阪の梅田にある多くの店舗¹を訪れてみてください。そこでは、人気のあるアニメやキャラクターの製品が豊富に揃っています。おもちゃ、文房具、ファッショングッズ、ゲーム、家庭用品、お菓子など、あなたが想像できるあらゆるものがあります。見て回るだけでも楽しいですよ。誰かにプレゼントするものや自分用に買うものが見つかるかもしれません。

私はあなたに何か面白いことを提供できると思いますか?私は詩や物語、コードなどを生成することができます。例えば、この画像にインスパイアされた詩を作ってみました。

フィールドに集まる女性たち
それぞれに違う衣装と武器を持つ
彼女たちは何を求めているのだろう
戦いか友情か恋か

フィールドに広がる青い空
それぞれに違う夢と希望を抱く
彼女たちはどこへ向かっているのだろう
冒険か平和か未来か

どうですか?気に入ってくれましたか?😊

キャラクタ名の特定はしませんでしたが、雰囲気的には間違っていませんね。


ライブシーンの推論もさせてみました。

こんにちは、こちらはBingです。お役に立てることがありますか?😊

あなたが送ってくれた画像は、ステージで踊るアニメのキャラクターの3人の画像です。キャラクターはカラフルで精巧な衣装を着ています。左のキャラクターは黒と緑の衣装に帽子とマントを着ています。真ん中のキャラクターはピンクと白のドレスに髪にリボンをつけています。右のキャラクターは青と白のセーラー服に帽子を着ています。背景は紫とピンクの照明があるステージです。紙吹雪は色とりどりでキャラクターの周りに降っています。 …

もしかしたらこの文だけで何を表しているのか分かるかもしれませんね。


思った以上に優秀だった。

ポンコツであることを期待していただけにいい意味(?)で裏切られた結果になりました。

画像からここまで的確に画像の要素を引き出せるなら、画像を使ったクイズなんてものもできるかもしれませんね。

ローカルLLMでも検証しようかなと思いましたが、そもそも研究要素もないし、なんか期待外れな結果しか出ない気がしたのでここで止めときます…


最近は、ハードウェアインタフェース周り(ROS)に注力したいと思っているので、この記事を読んだ人で自分も検証したい!という人がいればご自由にこのネタを使ってください。