日本語対応生成AIで注目のスタートアップ企業【SAKANA AI】3000万ドル資金調達

数多くあるAIスタートアップ企業の中でも、最近特に注目を集めているのが【SAKANA AI】です。なぜSAKANA AIがこれほどまでに注目を浴びているのでしょうか?他のAIサービスとは何が違うのでしょうか。この記事では、SAKANA AIが提供するサービスの特徴などをご紹介します!

目次

SAKANA AI会社概要

SAKANA AIは、グーグル出身の著名研究者2人デビッド・ハ氏とライオン・ジョーンズ氏によって2023年に東京で共同創業されたスタートアップ企業です。創業から1年で、シリーズAで約3000万ドル(約45億円)の資金調達し、企業評価額は約300億円と推定され、急成長を遂げています。海外大手のLux Capitalが主導し、 Khosla Venturesの強力な支援を受けていますが、NTTグループ、KDDI CVC、ソニーグループなど日本の企業からも支援も受けています。

画像生成AIモデル「EvoSDXL-JP」

Sakana AIが開発した画像生成AIモデル「EvoSDXL-JP」の最大の特徴は、驚異的な生成スピードです。従来の日本語AIモデルでは40ステップの推論が必要でしたが、EvoSDXL-JPはそれを4ステップに圧縮し、10倍以上の速さで画像生成を実現しているのです。具体的には、EvoSDXL-JPは2.3秒で画像を生成できるとされています。この驚異的な生成スピードは、Sakana AIの画像生成AIの最大の魅力であり、他のAIモデルとの大きな差別化ポイントとなっています。

日本語プロンプト対応

従来の生成AIは英語中心でしたが、「EvoSDXL-JP」は日本語のプロンプトに対応しています。これにより、英語ではなく日本語の文章を入力すると、その内容に応じた画像を生成できます。この日本語対応は、SAKANA AIの独自手法によるもので、【日本語のプロンプトに対応し、日本特化の画像生成モデル】と【英語のプロンプトに対応した基盤画像生成モデル】を組み合わせることで実現されています。さらに、高速画像生成モデルも統合することで、日本語対応かつ高速な画像生成が可能となりました。

大規模言語モデル[EvoVLM-JP]

EvoVLM-JPは、Sakana AIが開発した画像の質問応答が可能な日本語の大規模言語モデル(VLM: Visual Language Model)です。画像認識モデルと日本語言語モデルを「進化的モデルマージ」により組み合わせて構築されており、日本文化に特化した知識が取り込まれています。そのため、日本の風景や文化的要素を含む画像についての質問に適切に答えられます。

小規模モデルの組み合わせによる高性能化

Sakana AIは、複数の小規模なAIモデルを組み合わせることで高性能化を実現する独自の手法を採用しています。 従来の大規模モデルに比べ、計算リソースを大幅に削減できます。このように、Sakana AIの画像生成AIは高速性、日本語対応、日本スタイル画像生成、小規模モデル組み合わせによる高性能化が大きな特徴となっています。

SAKANA AIの[EvoVLM-JP]デモを試してみました

①で画像をアップロードします

②でアップロードした画像について質問します

おみくじの画像をアップロードして、[この紙はなんですか。どんなことが書かれていますか]と質問してみました。

[この紙は「おみくじ」です。おみくじは、神社やお寺で引いて、その結果によって吉凶を占うものです。
おみくじには、大吉、中吉、小吉、吉、半吉、末吉、凶、大凶などの吉凶が書かれています。また、それぞれの吉凶には、具体的なアドバイスや]という返答が15秒程でありました。デモのため出力テキストが40単語ほどに制限されていて回答が途中までになってしまいましたが、完成後は最後まで読み込むことができるかもしれませんね。リリースが待ち遠しいです!

waaqにも他にはない日程調整の機能が多数あります。是非、お気軽にお問い合わせください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

目次