商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開

はじめにこんにちは、AI Picasso社の開発チームです。主にクリエイターの皆様に重要なお知らせがあります。安全で透明性の高い日本語画像生成AI、CommonArt β を商用利用可能で無償公開します。CommonArt β は学習に対する透明性が高く、著作権やライセンスに配慮して画像を学習していることが後の説明からもわかります。CommonArt βは以下のURLにて無料で利用することができます。https://huggingface.co/spaces/aipicasso/commonart-latestCommonArt βは以下のURLから無料でダウンロードできます。https://huggingface.co/aipicasso/commonart-beta公開の背景AI Picasso社では、クリエイターの皆様との積極的な対話を通じて、相互理解と協力のもとにAI技術を開発しています。私たちはクリエイターの皆様が直面する課題を解決し、共に成長することを目指しています。その課題の中で、画像生成を使ってみたいが使えないクリエイターやファンの方がいる課題があると考えています。これは画像に対する学習許可を得ていないためでしょう。そこで、今回は我が社ではこの問題に対処した画像生成AI、CommonArt βを開発しました。まだ、β版であるため性能は限られています。ただし、完成版と技術的な面はおなじになる予定です。CommonArt βの特徴学習に対して許諾が得られている画像を原則使用ここでは機械学習する際に著作物の改変が発生しうると仮定します [注釈1] 。著作権者にとって勝手に改変されるのはあまりうれしいと思わないでしょう。また、勝手に改変されたものを販売されることもあまりうれしくないでしょう。そこで、本モデルでは、次の条件を満たす画像のみを機械学習に用いました。画像は改変が許されるライセンスである画像は改変しても商用利用可能である画像はライセンスを変更しても良いこの３つの条件を満たすライセンスの画像は、主にCC-BY-4.0、CC-0になります。したがって、学習用画像は原則これらのライセンスに画像に従う画像を用いました。具体的には次の学習用データセットに含まれる画像のみを使用しました。https://huggingface.co/datasets/common-canvas/commoncatalog-cc-byhttps://huggingface.co/datasets/madebyollin/megalith-10mhttps://huggingface.co/datasets/madebyollin/soa-fullhttps://huggingface.co/datasets/alfredplpl/artbench-pd-256x256これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。https://huggingface.co/stabilityai/stable-audio-open-1.0日本語と英語の文章がそのまま通じる画像生成を使ってみたいが使えないクリエイターの中には、プロンプトが英語であるから、使い勝手がわるいと思っている方も少なくないと思います。実際、画像生成AIに慣れている人も時には翻訳ソフトを使って入力している方もいるようです。しかし、翻訳ソフトを間に挟むことでニュアンスが変わるという問題も従来指摘されています。そこで、本画像生成は日本語を日本人の話す感覚と近いかたちで処理し、画像を生成できるようにしました。具体的には入力テキストを処理する技術を通常の言語モデルから大規模言語モデル (LLM) であるCALM2-7Bに変更しました。これにより、例えば、「夕日が沈む海岸。海岸には波が打ち寄せている。海岸はオレンジ色でほのかに明るい。海岸は芝生でできている。」様子を生成したいと考えましょう。従来のJSDXLで使っているような言語モデルだと「夕日、海岸、オレンジ色、芝生」みたいな言葉に変換しないといけません。しかし、CommonArt βではそのまま入力できます。実際にそのまま入力した画像が次のとおりです。なお、日本語だけではなく、英語も通じます。むしろ、英語のほうが通じるので、時には英語も使ってあげてください。ルー大柴氏が喋るような英語交じりの日本語も通じます。モデルのライセンスは定番のApache-2.0画像生成を使ってみたいが使えないクリエイターの中には、ライセンスがややこしくて困るからという人が結構いると思います。例えば、Stable DiffusionのCreativeML Open RAIL++-M Licenseは素人にはぱっとわかりません。そこで本モデルではシンプルさを大切にするために、オープンソースソフトウェア界隈でよく使われるApache-2.0 Licenseを採用しました。Apache-2.0 Licenseはとてもわかりやすい有名なライセンスです。以下の図のようにまとめられます。たとえ、わからないことがあっても、ChatGPTなら親切丁寧に教えてくれるはずなので、ChatGPTへ気軽に質問ください。また、それでも心配があれば、末尾にある連絡先へご相談ください。ところでApache-2.0は表現に関する条項は一切ありません。我々のチームでは表現の自由を最大に尊重します。一方で、ディープフェイクや誤情報に使うことは犯罪につながるため、我々は一切推奨しません。法律にしたがって使ってください。学習した画像がそのまま出て著作権侵害を起こすことがまずない画像生成AIでは学習した画像がそっくりそのまま出てきてしまう現象が報告されています。しかし、CommonArt βでは学習方法に工夫してなるべく元の画像が出ないようにしています。試しに、学習画像の一つであるミュシャの代表的な作品『黄道十二宮』を生成できるか試してみます。『黄道十二宮』に紐づけられた学習用テキストは次のとおりです。「The image shows a painting of a woman with long hair and a crown on her head, surrounded by leaves and other objects. The painting is by Alphonse Mucha,（後略）」実際にこのプロンプトで生成してみましょう。全く同じものが出ないことがわかります。安心ですね。これは『黄道十二宮』に複数の学習用テキストを付けたり、長い学習用テキストをつけたりすることでリスク低減をはかっているためです。最先端の技術を利用し、品質や効率の高さを実現CommonArt βでは、Pixart-Σという学習効率の良い最先端アルゴリズムである拡散トランスフォーマーを使用しています。拡散トランスフォーマーは動画生成AI、Soraなどで利用されています。拡散トランスフォーマーの良いところは規模によってはご家庭のGPUでも動くことです。CommonArt βでは最小8GBのVRAMを持つGPUで動くはずです。CommonArt βの弱点計算量不足による表現能力が低いCommonArt βでは拡散モデルという生成原理を用いています。この原理はただのノイズから繰り返しノイズを除去することで画像を生成するというものなのですが、この除去パターンを覚えるのに気が遠くなるほど、パターンを覚えなければなりません。実際、CommonArt βに近い性能を持つStable Diffusion 2.1では20万時間も高級なGPUを動かしたそうです。CommonArt βでは残念ながら廉価なGPUを2万時間ぐらいしか動かしていないため、学習が十分に終わっていません。したがって、本来持つ拡散モデルの力を発揮できていません。正式版の公開までには学習が間に合うように努力します。日本の知識が少ないCommonArt βは日本の視覚的知識が少ないです。この理由としては、日本の視覚的知識を持った視覚言語モデルが少ないこと、学習画像があるプラットフォームが海外にあることが原因としてあげられます。特に前者の方は深刻です。日本の画像を見ても日本語で説明できるモデルがあまりないというのはいかがでしょうか。我が社も開発に取り組んでいます。国家安全保障の観点からも他社も積極的に開発して公開してほしいと願っています。後者の方は国立国会図書館にあるNDLイメージバンクなどを探して画像を見つけていきたいと思います。また、その過程で公開できるものは公開していきたいと考えています。使い勝手が悪い現状、CommonArt βはデモやdiffusersでしか動かすことができません。ローカルと言われているComfyUIやWebUIなどにはまだ対応していません。また、Pixart-Σのリポジトリを使えば、LoRAなどで改造することができますが、Kohya氏のsd-scriptsなどの手軽なもので改造することができません。我々チームではこのモデルをベースにさらにみなさまに発展して利用していただきたいと考えているため、これらへの対応を順次開始していきたいと思っております。画像生成で人気がある美女とアニメがでないCommonArt βでは美女とアニメを生成することは現状できません。美女の方は学習が進めば生成できると考えています。アニメに関しては「ずんだホライずん」などの学習が許諾されているアニメを使えば、生成できると見込んでいます。今後の活躍にご期待ください。まとめCommonArtは、クリエイターとAIの共存を考えた、商用利用できる透明性の高い日本語画像生成AIです。今後も皆様からのフィードバックを活かしながら、より良いサービス提供を目指します。質問や懸念があれば、どうぞ以下連絡先にお知らせください。support@aipicasso.appAI Picasso株式会社では、画像生成AIをはじめとするAI開発に関するご相談を承っております。どうぞお気軽にお問い合わせください。