Stable Diffusionを調べ始めると、いきなり知らない言葉が大量に出てきます。
モデル、LoRA、VAE、WebUI、checkpoint、プロンプト、ネガティブプロンプト、サンプラー、シード値……。
最初はこの時点でかなりしんどい。
画像生成をしたいだけなのに、なぜかパソコン用語とAI用語の森に放り込まれたような感覚になる人も多いはず。
ただ、最初から全部を完璧に覚える必要はありません。
Stable Diffusion初心者がまず理解すべきなのは、細かい理屈よりも「その用語が何の役割をしているのか」。
この記事では、Stable Diffusionを使い始めたばかりの人向けに、最初につまずきやすい基本用語をかなりかみくだいて整理します。
難しい仕組みの説明は最小限。
まずは「これを変えると画像のどこが変わるのか」が分かる状態を目指します。
Stable Diffusionとは何か

Stable Diffusionは、文章から画像を作れる画像生成AIの一種です。
たとえば、
「黒髪の女の子、夕方の街、アニメ風、やわらかい光」
のように言葉で指示すると、その内容に近い画像を生成してくれます。
この指示文のことをプロンプトと呼びます。
ChatGPTに文章をお願いする感覚に近いですが、Stable Diffusionの場合は文章ではなく画像が出てくる。ここが大きな違い。
ただし、Stable DiffusionはChatGPTやCanvaのように、最初から全部が分かりやすく整っているサービスとは少し違います。
自分でモデルを選んだり、LoRAを追加したり(LoRAについては後述)、設定を変えたりできる分、自由度が高い。その代わり、最初に覚える言葉も多め。
初心者がまず押さえたい感覚はこれです。
Stable Diffusionは「画像生成の本体」
WebUIは「それを操作する画面」
モデルは「絵柄や得意分野の土台」
LoRAは「キャラや服装や雰囲気を足す追加パーツ」
VAEは「色や仕上がりを整える補助役」
最初はこのくらいの理解で十分。
細かい理屈より、まずは役割で覚えた方が迷いにくくなります。
モデルとは画像の土台になるもの

Stable Diffusionで一番大事なのがモデルです。
モデルは、画像の絵柄や雰囲気を決める土台のようなもの。
料理でいえば、カレーを作るのか、ラーメンを作るのか、パスタを作るのかを決めるベースに近い存在です。
同じプロンプトを入れても、使うモデルが違うと出てくる画像はかなり変わります。
アニメ系モデルを使えば、アニメイラストっぽい画像になりやすい。
実写系モデルを使えば、写真っぽい画像になりやすい。
美少女イラストに強いモデル、背景に強いモデル、リアルな人物に強いモデルなど、それぞれ得意分野があります。
初心者がよく混乱するのは、「プロンプトを頑張れば何でも作れる」と思ってしまうところ。
もちろんプロンプトも大事です。
ただ、土台になるモデルが合っていないと、どれだけ言葉を工夫しても狙った雰囲気になりにくい。
アニメ風の女の子を作りたいのに、実写寄りのモデルを使っている。
リアルな商品写真を作りたいのに、アニメ特化モデルを使っている。
こうなると、プロンプト以前に土台がズレています。
初心者はまず、作りたい画像に合ったモデルを選ぶことが大事。
モデル選びの目安は以下。
- アニメイラストを作りたい
アニメ系モデル - リアルな人物を作りたい
実写系モデル - 背景や風景を作りたい
風景や背景に強いモデル - かわいいキャラ絵を作りたい
美少女イラスト系モデル - 商品写真っぽい画像を作りたい
写真表現に強いモデル
モデルは、Stable Diffusionの画風を決める一番大きな要素。
最初に覚えるなら、まずここからで大丈夫です。
checkpointとは何か
Stable Diffusionを調べていると、checkpointという言葉も出てきます。
これは、ざっくり言えばモデルファイルのこと。
初心者のうちは「checkpoint=モデル本体」と考えて問題ありません。
ファイル形式では、safetensorsやckptという名前を見ることがあります。
最近はsafetensors形式を見かけることが多め。
ここで大事なのは、拡張子よりも中身です。
どんな絵柄に強いモデルなのか、どのバージョン向けなのか、商用利用はできるのか。初心者はこの3つを確認すると失敗しにくい。
特に商用利用については注意が必要です。
ブログのアイキャッチ、YouTubeサムネイル、販売用素材などに使う場合、モデルごとの利用規約を確認するクセをつけておきたいところ。
LoRAとは追加で効かせる小さな調整パーツ

LoRAは、モデルに追加で効かせる小さな調整パーツのようなものです。
モデルが「画像全体の土台」だとしたら、LoRAは「特定の特徴を足す部品」に近い存在。
たとえば、以下のような用途で使われます。
- 特定のキャラクターに近づける
- 特定の服装を出しやすくする
- 特定のポーズを出しやすくする
- 特定の絵柄や塗りに寄せる
- 表情や質感の傾向を足す
モデルを丸ごと変えるほどではないけれど、少しだけ特徴を追加したい。
そんな時に使うのがLoRAです。
たとえば、普通のアニメ系モデルに「セーラー服のLoRA」を足すと、セーラー服が出やすくなる。
「特定の髪型のLoRA」を足すと、その髪型に寄りやすくなる。
ただし、LoRAは魔法のスイッチではありません。
強く効かせすぎると絵が崩れたり、顔が不自然になったり、別の要素まで引っ張られることがあります。
初心者が覚えておきたいのは、LoRAには強さがあるという点。
よく見る形はこんな指定です。
最後の0.8の部分が強さの目安。
数字が大きいほどLoRAの影響が強くなります。
初心者なら、最初は0.6〜0.8あたりから試すのが無難。
うまく出ない時は少し上げる。崩れる時は下げる。これだけでもかなり調整しやすくなります。
LoRAとモデルの違い
モデルとLoRAは混同しやすいですが、役割は違います。
モデルは土台。
LoRAは追加パーツ。
スマホで例えるなら、モデルは本体そのもの。
LoRAはアプリやフィルターのようなもの。
本体がないと動かない。
でも、アプリを入れるとできることが増える。
Stable Diffusionでも同じです。
まずモデルがあり、その上にLoRAを足して細かい特徴を出していく流れになります。
VAEとは色や仕上がりを整える補助役

VAEは、画像の色味や仕上がりに関わる補助的な要素です。
初心者向けにかなり簡単に言うなら、VAEは「最後の見た目を整えるフィルター」のようなもの。
VAEが合っていないと、画像が少しくすんで見えたり、色が薄くなったり、ぼんやりした印象になることがあります。
逆に、合うVAEを使うと、発色が自然になったり、肌や髪の色がきれいに見えたりする場合があります。
ただ、初心者が最初からVAEを深く理解する必要はありません。
まずはこう覚えておけば十分。
VAEは画像の仕上げ担当。
モデルほど大きく絵柄を変えるものではない。
でも、色や明るさの印象に影響することがある。
最近のモデルでは、VAEが最初から組み込まれているものもあります。
その場合は、別でVAEを選ばなくても普通に使えることが多いです。
初心者がVAEで迷った時は、まずモデルの配布ページを確認するのが一番安全。
「推奨VAE」が書かれていれば、それを使う。特に指定がなければ、自動設定や内蔵VAEのままで試して問題ありません。
VAEでよくある初心者のつまずき
VAEまわりでありがちな失敗は、「画像がなんか変だけど原因が分からない」という状態です。
たとえば、
- 色が薄い
- 全体がぼんやりする
- 肌の色が不自然
- 画像が少し眠い印象になる
- モデルのサンプル画像と発色が違う
こういう時、VAEが原因になっている場合があります。
もちろん、プロンプトやモデル、設定が原因のこともあります。
ただ、「同じモデルを使っているのにサンプルと色味が違う」と感じたら、VAEも確認してみる価値あり。
初心者の段階では、VAEをいじりすぎるより、まず推奨設定に合わせる方が安心です。
WebUIとはStable Diffusionを操作する画面

WebUIは、Stable Diffusionをブラウザ上で操作するための画面です。
Stable Diffusion本体だけを見ると、初心者には扱いにくい部分があります。
そこで、プロンプトを入力したり、モデルを選んだり、生成ボタンを押したりできる操作画面が必要になります。
その代表例としてよく知られているのが、AUTOMATIC1111版のStable Diffusion WebUIです。
WebUIを使うと、以下のような操作が画面上でできます。
- プロンプトを入力する
- ネガティブプロンプトを入力する
- モデルを切り替える
- 画像サイズを指定する
- 生成枚数を決める
- LoRAを使う
- サンプラーを変える
- シード値を固定する
- 生成した画像を保存する
つまりWebUIは、Stable Diffusionを使いやすくするための操作パネル。
車で例えるなら、Stable Diffusion本体はエンジン。
WebUIはハンドルやアクセル、メーターが並んだ運転席のようなものです。
エンジンだけあっても運転しにくい。
運転席があるから、初心者でも操作しやすくなる。そんな関係です。
WebUIと画像生成サービスの違い
CanvaやChatGPTの画像生成は、基本的にサービス側がかなり分かりやすく整えてくれています。
ユーザーは文章を入れて、出てきた画像を選ぶだけでも使いやすい。
一方、Stable DiffusionのWebUIは自分で触れる項目が多いです。
自由度が高いぶん、最初は難しく見える。
でも、慣れると細かい調整がしやすい。
たとえば、
- いつも同じキャラに寄せたい
- 画像の雰囲気を細かく管理したい
- モデルやLoRAを使い分けたい
- ローカル環境で生成したい
- 大量の画像を試しながら調整したい
こういう人には、Stable DiffusionのWebUIが向いています。
ただし、初心者がいきなり全部を使いこなす必要はありません。
最初は、プロンプトを入れる場所、モデルを選ぶ場所、生成ボタン、この3つが分かれば一歩目として十分です。
プロンプトとはAIへの指示文
プロンプトは、作りたい画像をAIに伝えるための指示文です。
Stable Diffusionでは、プロンプトの書き方によって画像の内容が変わります。
たとえば、
1girl, black hair, school uniform, city street, anime style
のように、英語の単語をカンマで区切って並べる書き方をよく見かけます。
初心者はここで「英語で長く書かないとダメなのか」と不安になりがち。
たしかにStable Diffusionでは、英語プロンプトの方が安定しやすい場面があります。
ただ、最初から長文にする必要はありません。
まずは、画像に入れたい要素を短く並べるところからで大丈夫。
プロンプトで指定しやすい項目は以下。
- 人物
1girl、young woman、boy、man - 髪型
long hair、short hair、black hair - 服装
school uniform、white shirt、dress - 場所
city street、room、cafe、beach - 画風
anime style、realistic、illustration - 光
soft lighting、sunset、night - 構図
portrait、upper body、full body
プロンプトは、AIへのお願い文というより、画像に入れる材料リストに近い感覚。
最初は文章としてきれいに書くより、必要な要素を整理して並べる方が扱いやすくなります。
ネガティブプロンプトとは避けたい要素を書く場所
ネガティブプロンプトは、画像に入ってほしくない要素を書く場所です。
通常のプロンプトが「こうしてほしい」なら、ネガティブプロンプトは「これは避けてほしい」。
たとえば、以下のような言葉を入れることがあります。
- low quality
- blurry
- bad hands
- extra fingers
- text
- watermark
- logo
日本語で言うと、
- 低品質
- ぼやけ
- 崩れた手
- 余分な指
- 文字
- 透かし
- ロゴ
こういったものを避けるための指定です。
特に初心者がよく困るのは、手や指の崩れ、余計な文字、謎のロゴのようなもの。
ネガティブプロンプトに入れても完全に防げるわけではありませんが、入れないより安定することがあります。
ただし、ネガティブプロンプトを詰め込みすぎるのもよくありません。
避けたいものを増やしすぎると、画像全体が硬くなったり、思ったように出なくなったりすることがあります。
最初は短めで十分。
初心者向けの例は以下。
low quality, blurry, bad hands, extra fingers, text, watermark, logo
まずはこのくらいから試し、必要に応じて足していくのが扱いやすいです。
サンプラーとは画像の作り方の違い
サンプラーは、画像を作る時の進め方の種類です。
かなりざっくり言うと、「AIが画像を完成させるまでの描き進め方」の違い。
同じプロンプト、同じモデルでも、サンプラーを変えると少し違う画像になることがあります。
初心者にとっては、名前が難しく見えるところ。
Euler
Euler a
DPM++ 2M
DPM++ SDE
UniPC
このあたりの名前を見て、何が何だか分からなくなる人も多いはず。
でも、最初から全部を覚えなくて大丈夫。
まずは、よく使われているものをひとつ選んで固定し、他の設定に慣れる方が分かりやすいです。
初心者は、最初にサンプラーを変えすぎると原因が分からなくなります。
画像が変わった時に、プロンプトのせいなのか、モデルのせいなのか、サンプラーのせいなのか判断しにくい。
だから最初は固定。慣れてから比較。
これが安全です。
Stepsとは画像を作る回数の目安
Stepsは、画像を作る時にどれくらい処理を重ねるかの数値です。
数字を上げると、AIが画像を仕上げる工程が増える。
ただし、上げれば上げるほど必ず良くなるわけではありません。
初心者は「Stepsを高くすれば高品質になる」と思いがちですが、実際はそう単純ではないです。
低すぎると粗くなることがある。
高すぎると時間がかかるだけで、あまり変わらないこともある。
最初は20〜30前後を目安にすると扱いやすいです。
もちろんモデルやサンプラーによって合う数値は変わりますが、初心者が試すにはこのくらいで十分。
まずは固定して、画像の変化を見ながら少しずつ調整する。
これが一番分かりやすい覚え方です。
CFG Scaleとはプロンプトをどれくらい強く守るか
CFG Scaleは、プロンプトの指示をどれくらい強く反映させるかの数値です。
数字が低いと、AIが少し自由に描きやすくなります。
数字が高いと、プロンプトに強く寄せようとします。
ただし、これも高ければ高いほど良いわけではありません。
高すぎると、画像が不自然になったり、色がきつくなったり、破綻しやすくなることがあります。
低すぎると、プロンプトの内容から離れやすくなる。
初心者は7前後をひとつの目安にすると分かりやすいです。
そこから、指示が弱いと感じたら少し上げる。画像が硬い、崩れる、濃すぎると感じたら下げる。
CFG Scaleは、AIへの指示の圧力。
強く言いすぎても、弱すぎても、ちょうどよくならない。そんな設定です。
シード値とは同じ画像を再現するための番号
シード値は、画像生成の出発点になる番号です。
Stable Diffusionは、同じプロンプトでも毎回違う画像を作ることがあります。
その違いを生む要素のひとつがシード値。
シード値を固定すると、同じ条件で近い画像を再現しやすくなります。
初心者向けに言うなら、シード値は「画像のくじ番号」のようなもの。
同じくじ番号を使えば、同じ条件の画像をもう一度出しやすい。
たとえば、気に入った画像が出た時。
シード値をメモしておけば、あとからプロンプトを少し変えて調整しやすくなります。
逆に、毎回違う画像を見たい時はランダムでOK。
最初のうちはランダムで色々試し、良い画像が出たらシード値を保存する。この流れが使いやすいです。
img2imgとは画像をもとに別画像を作る機能
img2imgは、画像をもとにして新しい画像を作る機能です。
txt2imgが「文章から画像を作る」機能なら、img2imgは「画像と文章をもとに画像を作る」機能。
たとえば、ラフ絵を読み込ませて清書風にする。
写真をもとにイラスト風にする。
構図だけ残して、雰囲気を変える。
こういう使い方ができます。
初心者が覚えるべきポイントは、denoising strengthという設定です。
これは元画像をどれくらい変えるかに関わる数値。
低いと元画像に近い。
高いと大きく変わりやすい。
最初は低めから試す方が安心です。
いきなり高くすると、元画像の構図が大きく崩れることがあります。
img2imgは、完全にゼロから作るよりも方向性を決めやすい機能。
ラフや参考画像をもとにしたい人にはかなり便利です。
inpaintとは画像の一部だけを直す機能
inpaintは、画像の一部だけを修正する機能です。
たとえば、
- 手だけ直したい
- 顔だけ少し変えたい
- 背景の一部を消したい
- 服の一部を変えたい
- 余計なものを消したい
こういう時に使います。
Stable Diffusionでは、全体を作り直すと気に入っていた部分まで変わってしまうことがあります。
でもinpaintなら、直したい部分だけを指定して再生成しやすい。
初心者にとっては、かなり大事な機能です。
画像生成では、1回で完璧な画像を出すより、良い部分を残しながら少しずつ直す方が現実的。
特に手、指、目、口、服の崩れは、一部修正で整えた方が早いことも多いです。
最初から完璧を狙うより、生成して、気になる部分を直して、また調整する。
Stable Diffusionはこの作業に向いています。
初心者はどの順番で覚えればいいか
用語を一気に覚えようとすると、かなり大変です。
なので、最初は優先順位を決めた方が楽になります。
おすすめの順番はこれ。
- WebUI
どこに何を入力するかを覚える - モデル
画像の絵柄を決める土台を理解する - プロンプト
作りたい画像の要素を書く - ネガティブプロンプト
避けたい崩れや不要物を書く - LoRA
キャラ、服装、絵柄などを追加する - VAE
色味や仕上がりに関係する補助役として覚える - Steps、CFG Scale、サンプラー
画像の出方を微調整する設定として覚える - シード値
気に入った画像を再現するために使う - img2img、inpaint
画像をもとに直したり、作り替えたりする機能として使う
最初から全部を深く理解しなくて大丈夫。
まずは「どこを触ると、画像の何が変わるのか」を覚える方が早いです。
Stable Diffusionは、用語を暗記するツールではありません。
実際に画像を出しながら、「この設定はこう効くのか」と体で覚える方が向いています。
よくある初心者の勘違い
Stable Diffusionを始めたばかりの頃は、誰でも似たところでつまずきます。
特に多い勘違いは以下。
- プロンプトだけで何でも解決できると思う
- モデル選びを軽く見てしまう
- LoRAを強くすれば良くなると思う
- ネガティブプロンプトを詰め込みすぎる
- Stepsを上げれば必ず高品質になると思う
- 画像が崩れた原因を一つに決めつける
- いきなり設定を全部変えてしまう
Stable Diffusionは、いろいろな要素が組み合わさって画像が出ます。
モデル
プロンプト
LoRA
VAE
サンプラー
Steps
CFG Scale
シード値
このあたりが少しずつ影響して、最終的な画像になります。
だから、うまくいかない時に全部を一気に変えると、何が原因だったのか分からなくなります。
初心者におすすめなのは、ひとつずつ変えること。
まずモデルは固定。
次にプロンプトだけ変える。
その次にLoRAを足す。
さらに必要なら設定を少し変える。
この順番で試すと、原因を見つけやすくなります。
最初に覚える用語まとめ

最後に、この記事で出てきた用語を短くまとめます。
- Stable Diffusion
文章から画像を作る画像生成AI - WebUI
Stable Diffusionをブラウザで操作する画面 - モデル
絵柄や得意分野を決める土台 - checkpoint
モデル本体のファイル - LoRA
キャラ、服装、絵柄などを追加する小さな調整パーツ - VAE
色味や仕上がりを整える補助役 - プロンプト
作りたい画像を伝える指示文 - ネガティブプロンプト
入ってほしくない要素を書く場所 - サンプラー
画像を作る時の進め方 - Steps
画像を仕上げる処理回数の目安 - CFG Scale
プロンプトをどれくらい強く守るかの数値 - シード値
同じ画像を再現しやすくするための番号 - txt2img
文章から画像を作る機能 - img2img
画像をもとに別の画像を作る機能 - inpaint
画像の一部だけを修正する機能
こうして並べると多く見えますが、最初から全部を使いこなす必要はありません。
まずは、モデル、プロンプト、ネガティブプロンプト、LoRA。
この4つを触れるようになるだけでも、Stable Diffusionの楽しさはかなり分かってきます。
まとめ
Stable Diffusionは、初心者にとって最初のハードルが少し高めです。
画像生成そのものは楽しいのに、画面を開いた瞬間に知らない用語が並び、そこで一度止まってしまう人も多いはず。
でも、基本用語の多くは、役割で見るとそこまで難しくありません。
モデルは土台。
LoRAは追加パーツ。
VAEは仕上げ。
WebUIは操作画面。
プロンプトは作りたい画像の指示。
ネガティブプロンプトは避けたい要素の指定。
このように分けて考えると、Stable Diffusionの画面も少し見え方が変わってきます。
最初に目指すべきなのは、専門家のように仕組みを説明できることではありません。
自分が作りたい画像に対して、「今どこを触れば変わりそうか」が分かること。ここが大事。
うまくいかない時は、いきなり全部の設定を変えず、ひとつずつ試す。
モデルを固定して、プロンプトを変える。LoRAの強さを少し下げる。VAEを推奨設定に合わせる。シード値を固定して比較する。
この小さな積み重ねで、Stable Diffusionは一気に扱いやすくなります。
最初は分からない言葉だらけでも大丈夫。
まずは画像を1枚出して、少し変えて、また出してみる。
その繰り返しの中で、用語の意味は自然とつながっていきます。












































コメント