SERVICE 01 – 08

AI
CREATIVE

ORIGIN OF AI

AIの起源

Alan Turing

1950

イギリスの数学者。1950年に発表した論文「計算機械と知能」の中で、「機械は思考できるか？」という問いを本格的に論じ、機械が知性を持っているかを判定するテスト（チューリング・テスト）を提案した。コンピュータ科学と人工知能の理論的基盤を築き、「AIの父」「計算機科学の父」と呼ばれている。

John McCarthy

1956

アメリカの計算機科学者。1956年に開催した「ダートマス会議」において、「人工知能（Artificial Intelligence）」という言葉を公式に初めて使用し、AI研究を学術分野として確立させた。この会議がAI研究の正式なスタート地点とされており、彼もまた「AIの父」と称される。

The Explosion of AI Tools

2020 - 2025

出典: Future Tools (futuretools.io)

4000超のツールから
最適解を選定

2022年11月のChatGPTリリースを起点に、AIツールは爆発的に増加しました。わずか1年で4,000を超えるツールが登場し、クリエイティブワークの可能性が大きく広がりました。しかし数が多すぎて何を選べばいいかわからない。目的を明確にし、最適なツールを見極める力がAI CREATIVEの第一歩です。

ツール選定の5つの視点

目的: 何を作りたいか、どんな成果物が必要か
品質: 商用利用可能か、クオリティは十分か
コスト: 無料プランで足りるか、投資対効果は
学習: 習得にどれくらい時間がかかるか
連携: 他のツールやワークフローと繋がるか

主要なAI

対話: ChatGPT / Claude / Gemini / Grok / Perplexity / DeepSeek / Meta AI / NotebookLM / Copilot / Pi
画像: Midjourney / DALL-E / Stable Diffusion / Firefly / Ideogram / Flux / Imagen / Leonardo / Recraft / Canva AI
動画: Sora / Runway / Pika / Kling / Veo / Luma / HeyGen / Synthesia / Pixverse / Haiper / Minimax
音声: ElevenLabs / Suno / Udio / VOICEVOX / Murf / Speechify / WellSaid / Descript
コード: GitHub Copilot / Cursor / Codeium / Windsurf / Antigravity / Replit AI / Tabnine / Amazon Q
デザイン: Figma AI / Framer AI / Galileo AI / Uizard / Looka / Brandmark
文章: Jasper / Copy.ai / Writesonic / Notion AI / Grammarly / QuillBot

破綻しない
画像・動画生成ワークフロー

「AIで画像や動画を作ってみたけど、手足が溶ける、顔が崩れる、意図通りにならない」——そんな経験はありませんか？

実は、単体のツールで完璧な画像・動画は作れません。複数のAIを組み合わせ、生成→修正→合成のワークフローを構築することで、初めて"使える"ビジュアルになります。各ツールの得意・不得意を把握し、入力素材の品質にも気を配ることが重要です。

プロンプト設計の9階層

1. Subject: 被写体は何か

2. Action: 何をしているか

3. Setting: 環境・背景

4. Medium: 写真、油絵、3Dなど

5. Style: 印象派、ゴシック等

6. Framing: 構図・アングル・カメラワーク

7. Lighting: 照明・時間帯

8. Camera: レンズ・被写界深度

9. Mood: 色調・雰囲気

※画像を使って動画を生成すると指示をスキップできるようになります。

商品写真と
架空モデルの
試着合成

モデル撮影のコストは1回で数十万円。全商品×全カラーの撮影は現実的ではありません。

AIを活用すれば、架空のモデルを生成し、既存の商品写真と合成することが可能です。人種・体型・年齢のバリエーションも自在に作れます。

ただし「自然に見せる」には、ライティングの方向、影の処理、解像度の統一など、気をつけるポイントがいくつかあります。アングルや露光時間の指定などで、多重ポートレートや躍動感のあるアートな写真の生成も可能です。これらを理解した上で取り組むと、仕上がりのクオリティが大きく変わってきます。

04-05

リップシンク（発話・歌唱対応）
オリジナルアバター生成

自分だけのアバターを作り、自在に喋らせる——これがAI時代の新しい「顔」の作り方です。

ワークフローは大きく2段階。まず静止画でアバターを生成し、次にそれを動かします。用途に応じて「長時間安定して喋らせる」か「短尺で自由に動かす」かを選択します。

企業の広報動画、eラーニング教材、SNSコンテンツなど活用シーンは多岐にわたります。撮影・出演のコストを大幅に削減しながら、多言語展開やバリエーション制作も容易になります。

STEP 1: 静止画アバターを作る

Midjourney、Flux、Stable Diffusionなどで生成。実写風・イラスト風どちらも可能。一貫性を保つにはシード固定やLoRAを活用。

STEP 2: 動かす（2つのアプローチ）

A. 長尺トーキング: HeyGen、OmniHumanなど。バストアップで長時間安定。ビジネス用途向き。

B. 短尺生成: Kling、Veo、Sora、Runway、Pika、Hailuoなど。数秒ずつ生成して繋ぐ。動きの自由度が高い。

※自分の写真を使ったり、すでに誰かが話している映像を録画して顔だけ変えるという手法が一番安定感があります。（Face Swap）

パターンA: 長尺トーキング

HeyGen: 最も手軽。アバター選択→テキスト入力で即生成。多言語対応、リップシンク精度高。OmniHuman: 全身対応で動きがリアル。自前の静止画を使える自由度。

パターンB: 短尺生成

Kling / Veo / Sora / Runway / Pika / Hailuo: 画像から数秒の動画を生成。表情・動作の自由度が高くアート表現向き。いずれもリップシンク対応。繋ぎ目の処理が必要だが、SNSやMVに最適。

TTS

Text To Speech

TTSとは

テキストから音声を生成する技術。近年の深層学習の進歩により、人間と区別のつかないレベルの自然な音声合成が実現されつつある。コールセンター、音声アシスタント、教育コンテンツ、ナレーション制作など活用領域は幅広く、特にコールセンター市場では人件費削減と24時間対応を背景に導入が急加速。グローバル市場規模は2030年に向けて年率20%超の成長が見込まれており、AIが最も早く実社会へ浸透した分野のひとつとなっている。

テキストからプロ品質の
音声生成

テキストを入力するだけで、プロ品質の音声や楽曲が生成できる時代。ナレーション、ポッドキャスト、BGM、歌唱——用途に応じたツールを使い分けることで、音声制作のコストと時間を大幅に削減できます。

MUSIC GENERATION

SUNO

テキストから楽曲を一括生成。歌詞・メロディ・歌声・伴奏まで全自動。ジャンル指定やムード指定も可能。CMソングやBGM制作に最適。無料プランあり。

UDIO

高品質な音楽生成。SUNOより音質重視でプロレベルのミックスとマスタリング。細かいスタイル指定が可能。商用利用には有料プラン推奨。

TEXT TO SPEECH

ELEVEN
LABS

最もリアルな音声生成。感情表現が豊かで、声のクローンも可能。28言語対応、商用利用可。ナレーション、オーディオブック、吹替に最適。

GEMINI
2.5 TTS

NotebookLMと同技術。マルチスピーカー対応で2人の掛け合いによるポッドキャスト風の対話生成が可能。Google AI Studioで無料利用可。

VOICE
VOX

日本語特化の無料TTS。ずんだもん等のキャラクターボイスが豊富で、YouTube動画やVTuber界隈で人気。商用利用可、オープンソース。

TIPS

音楽生成は「参考曲のURL」や「BPM指定」で精度が上がる。TTSは「句読点の位置」と「改行」で間（ま）をコントロール。複数ツールを組み合わせて、音楽＋ナレーションの動画制作も可能。

ビジュアルモックの
即時作成

NANO BANANA PRO

Gemini 3 Pro Image

2025年8月、Googleが匿名で評価サイトLMArenaに投稿。担当者が深夜2時に適当につけた仮名が、テキスト描画精度の高さで世界中でバイラル。正式発表時にこの愛称がブランド名として採用された。Gemini 3 Proの推論能力を活用した、プロフェッショナル向け画像生成・編集モデル。

正確なテキスト描写

ロゴ、ポスター、図解など、画像内の文字を多言語で高精度にレンダリング。文字化けなしでモックアップ作成が可能。

Thinkingモード

Gemini 3の推論機能を活用。複雑な指示、論理的整合性、空間的関係性を理解した上で画像を生成。

Google検索連携

現実世界の知識を反映。地図、図表、インフォグラフィックスを正確に作成可能。

インペインティング

画像内の特定箇所を指定して部分修正。「この鞄をリュックに」「眼鏡をかけさせて」といった変更が自然に行える。

撮影パラメータ調整

生成後にライティングを夕暮れ時に変更、ピントを背景に合わせるなど、撮影現場のような調整が可能。

最大4K解像度

1K、2K、4Kの高解像度出力に対応。印刷物やデジタルサイネージにも対応可能。

マルチ画像合成

最大14枚の参照画像を組み合わせ、キャラクターやブランドの一貫性を保った画像を生成。

ART STYLE TRANSFER

Before

After

PRODUCT MOCK VISUAL

Before

After

ファッション・ビューティー

商品写真からモデルの体型、人種、背景、ポーズを自在に変更。バーチャル試着やヘアスタイル・メイクのシミュレーションも可能。カタログ用画像を効率的に量産できる。

インテリア・空間デザイン

部屋の写真から家具の入れ替え、床材・壁紙の変更、照明シミュレーションまで。3Dデータなしでリアルな配置換えプレビューを生成。

建築・不動産

古い建物の写真からリノベーション後の外観を予測生成。建築予定地に設計中の建物を合成。時間帯や天候を変えた複数パターンのパースも一括作成。

プロダクト・図解・その他

ロゴ入りパッケージ、広告バリエーション、EC用背景差し替え。手順図やインフォグラフィックも正確に生成。ゲームのキャラクター一貫性維持にも活用。

OTHER EDITING TOOLS

Nano Banana Pro以外にも、用途に応じた画像編集ツールが存在する。無料で使えるものからプロ向けまで、それぞれの特徴を把握しておくことで選択肢が広がる。

FREE

WINDOWS
PHOTOS

Windows 10/11標準搭載。Generative Erase機能でウォーターマークや不要オブジェクトをAI消去。背景ぼかし・置換も可能。完全無料で手軽に使える。

PRO / SUBSCRIPTION

ADOBE
FIREFLY

Photoshop統合のGenerative Fill。インペインティング、アウトペインティング、背景生成。商用利用の安心感と既存ワークフローとの親和性が強み。

MID
JOURNEY

高品質なアート生成。広告ビジュアル、コンセプトアート、プロダクトモックアップに最適。Discord経由で操作。独自の美学を持つ。

RECRAFT

ベクター生成に強み。ロゴ、アイコン、SVG出力対応。ブランドの一貫性を保つスタイルコントロール。無料枠あり。

PHOTO
ROOM

EC・商品写真特化。ワンクリック背景除去、バッチ処理、AIシーン生成。商品カタログの量産に最適。

TIPS

単体で完璧なツールは存在しない。生成と編集、ベクターとラスター、速度と品質——併用次第であらゆる編集スタイルに適応可能。目的に応じた組み合わせが、クオリティの鍵となる。

SNS動画の量産
ワークフロー

これまで紹介した各ツールを組み合わせ、工場のライン生産のように自動化・分業化することで、SNS動画の量産が現実になる。台本からアバター、音声、BGM、編集まで——各工程にAIを配置することで、1本あたりの制作コストと時間を劇的に圧縮できる。

STEP 01

企画・台本生成

Claude / ChatGPT / Gemini

STEP 02

キャラクター画像生成

Midjourney / Flux / Stable Diffusion

STEP 03

ナレーション音声生成

ElevenLabs / VOICEVOX / Gemini TTS

STEP 04

リップシンク動画化

HeyGen / OmniHuman / Kling

STEP 05

BGM・効果音追加

SUNO / UDIO / Epidemic Sound

STEP 06

編集・テロップ・書き出し

CapCut / Runway / Premiere

工場ライン化のポイント：各ステップを分業・テンプレート化することで、企画から完成まで最短数時間。一度ラインを構築すれば、同フォーマットの動画を低コストで量産できる。キャラクター・トーン・BGMスタイルを固定することでブランドの一貫性も保たれる。SNSアルゴリズムが求める「投稿頻度」と「品質」を両立できるのが、AIワークフロー最大の強みだ。

AICREATIVE

AIの起源

AI
CREATIVE