Grok Voice Think Fast 1.0で電話CS自動化｜$0.05/分・自動解決率70%でOpenAI Realtime・ElevenLabs比較

Q: Think Fast 1.0 vs OpenAI Realtime vs ElevenLabsの比較

3者を電話業務導入者目線で並べます。まず分単価のレンジ比較から。

Q: 文字起こし／音声合成の単体APIとの関係を整理する

ここは混乱が多い部分です。xAIはThink Fast 1.0の5日前、2026年4月18日にGrok STT API（文字起こし専用）とGrok TTS API（音声合成専用）を別途GAしています。3製品の棲み分けはこう。

Q: 既存のRealtime実装からThink Fast 1.0へ乗り換える手順

OpenAI Realtime API互換仕様の使い方を、実装例で見ていきます。DataCampのチュートリアル（DataCamp Grok Voice Agent API）とdocs.x.ai／LiveKit公式プラグインドキュメントから再構成した導入フローです。

Q: Grok Voice Think Fast 1.0に関するよくある質問 Grok Voice Think Fast 1.0とGrok Voice Modeは同じものですか？

別物です。Think Fast 1.0はWebSocket APIで提供される事業者・開発者向けの音声エージェント（電話CS・営業用途）。Grok Voice Modeはアプリ内の個人向け音声UI（Companion等）。設計用途も料金体系も完全に別で、Think Fast 1.0は個人ユーザーが直接利用することはできません。

Q: OpenAI Realtimeから乗り換える場合の工数はどのくらいですか？

docs.x.aiが「OpenAI Realtime API互換」と明記しており、接続先変更＋イベント名の差分修正（response.output_text.delta→response.text.delta）＋未サポートイベント（conversation.item.retrieve等）の条件分岐がメイン作業です。完全な差し替えではないものの、改修は数日〜1週間規模に収まる事例が多く、xAI公式ドキュメントの移行ガイドにも沿った段取りで進められます。

Q: 日本語の電話対応は実用レベルですか？

docs.x.aiの言語対応リストに日本語が含まれる記述があります。ただし公式アナウンスの「25+言語」で日本語を個別明示した文書は現時点で未確認。Hacker Newsには「Lithuanianがサポートされていて驚いた」という反応もあり多言語対応の広さはうかがえますが、日本語の訛り・方言・高齢者の発話での精度は本番投入前に実音声でベンチを取る前提で進めるのが安全です。

Q: 月いくらから始められますか？

セルフサーブの公開料金は$0.05/分（$3.00/時間）。1日200件×平均5分×30日で月$1,500（約23万円）が目安です。これにツール呼び出し別課金（Webサーチ$5/1,000回、ファイルサーチ$2.50/1,000回）が乗ります。試作段階なら数十ドルから触れる明朗会計で、これは他社（OpenAI Realtime実測$0.16〜$1.63/分）と比べた時の大きな参入障壁低下要因。

2026年5月19日

公開日: 2026年4月25日／最終更新: 2026年5月19日

この記事の結論

Grok Voice Think Fast 1.0はxAIが2026年4月23日にGA（一般提供開始）した電話業務向け音声エージェントAPIで、料金は$0.05/分（約$3.00/時間）です。

Starlinkのカスタマーサポート電話で自動解決率70%・契約成立率20%・連携ツール28種の実績をxAIが公表しており、本番投入が進んでいます。

OpenAI Realtime API互換仕様のため既存実装から最小改修で乗り換えられ、中小CS（カスタマーサポート）の人件費23万円〜80万円規模を月$1,500（約23万円）のAPI料金に置き換える現実的な候補になります。

この記事は電話CSのAI自動化を検討している中小事業者・開発者向け（API・料金プランの基本が分かれば読めます）。

そもそもGrok Voice Think Fast 1.0って何のこと？

xAIが2026年4月23日にGAした、電話業務・問い合わせ対応に特化したリアルタイム音声エージェントAPIです。

モデル名はgrok-voice-think-fast-1.0で、接続先はwss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0のWebSocketエンドポイント（双方向に常時データを流せる通信方式）。

前世代のgrok-voice-fast-1.0は非推奨化されました。

xAI公式アナウンスはこう書いています。

excels at complex, ambiguous, multi-step workflows across customer support, sales, and enterprise applications. It is especially well-suited for high-stakes scenarios that demand precise data entry and high-volume tool calling.
出典: xAI News — Grok Voice Think Fast 1.0

狙いがハッキリしています。

曖昧な複数ステップの問い合わせを、カスタマーサポートと営業の両軸で、ツール連打して処理する前提です。

個人向けのGrok Voice Mode（Companion／恋愛モード）とは完全に別製品で、「Grok Voice」の名前だけで混ぜると意思決定を誤ります。

私はこの区別を最初に置きたい。

私の見立てでは$0.05/分は破壊的な水準です。

電話CSの置き換え文脈で注目されている理由

Think Fast 1.0が刺さる理由は、xAI自社の売り文句より先にStarlinkでの本番実績が出ている点にあります。

The Tech Outlookが4月23日付でまとめた内容はこう。

Starlink customer support line (+1 888 GO STARLINK) uses Grok Voice to handle hardware troubleshooting, replacement issuance, service credit approvals, new customer onboarding, and plan guidance — with a 70% automated resolution rate and 20% purchase conversion rate across dozens of distinct tools spanning hundreds of support and sales workflows.
出典: The Tech Outlook

整理するとこうなります。

自動解決率70%：電話10件のうち7件が人間オペレーター不介入で完了
契約成立率20%：5件に1件は電話のその場で購入・契約まで到達
連携ツール28種類（xAIは「dozens of distinct tools」と記載）
タスク種別：ハードウェア診断、交換品発行、サービスクレジット承認、新規オンボーディング、プラン案内

ここで効いてくるのが「28」という数字です。

ハードウェア診断から決済まで回すのに必要な業務ツールの本数が、だいたいこのレンジ。

つまりCSの全工程をAIが一人で回せるラインに届いたという読み方ができます。

5〜10ツール止まりだと人間に引き継ぐ設計が前提ですが、28種連携でStarlink規模が回り始めた時点で、中小CSの1〜2回線くらいは理論上ほぼ自走します。

私なら週20件の電話業務から実証を始めます。

TeslaNorthは「Customers complete orders in under two minutes.」（2分未満で注文完了）と追加報道しています（TeslaNorth）。

2分で成約まで行く電話応対、人間のオペレーターでは非現実的な速度です。

Think Fast 1.0 vs OpenAI Realtime vs ElevenLabsの比較

3者を電話業務導入者目線で並べます。まず分単価のレンジ比較から。

プロバイダー	料金/分	料金構造
Grok Voice Think Fast 1.0	$0.05	分単位定額（ツール呼び出し別課金）
Deepgram Voice Agent	$0.08	分単位
ElevenLabs Conversational AI	$0.088〜$0.15	プラン・モデル依存
Bland AI	$0.14	分単位
OpenAI Realtime（gpt-realtime実測）	$0.16〜$1.63	音声token×入出力×テキスト二重課金

OpenAI Realtimeの上振れ（$1.63/分）は、eesel.aiが1,000語のシステム指示込みで実測した数字（eesel.ai）。

本番環境ではシステム指示が数千トークンになりやすく、Think Fast 1.0はOpenAI Realtime実効の1/3〜1/30。

これ業務インパクトが大きい。

続いて機能比較マトリクス。

軸	Grok Voice Think Fast 1.0	OpenAI Realtime (gpt-realtime)	ElevenLabs Conversational AI
料金	$0.05/分定額	$0.16〜$1.63/分（実測）	$0.08〜$0.15/分
言語数（公式アナウンス）	25+言語（日本語含む）	多言語（数値未明確）	70+言語（文字起こし・音声合成全体）
OpenAI Realtime API互換	あり（docs.x.ai明記、部分的差異あり）	ネイティブ	なし（独自API）
τ-voice Bench順位	1位（xAIアナウンス時点）	Sierra比較対象	未参加
Big Bench Audio精度	92.3%（1位）	82.8%（最新）	未測定
電話音声エンティティ認識エラー率	5.0%	非公開	12.0%
ツール連携	Web/X/File/カスタム、MCP対応	非同期function calling対応	あり（設定は複雑との評）
同時セッション（セルフサーブ）	100/チーム	制限撤廃済	プラン依存
本番投入事例	Starlink、Tesla	多数（汎用アプリ）	主に声優・ナレーション
コンプライアンス	SOC 2 Type II／HIPAA／GDPR	あり	あり

読み解きのポイントは3つです。

1つめ、OpenAI Realtime API互換がxAI公式ドキュメントに明記されています（docs.x.ai Voice Agent）。

docs.x.aiの本文では「OpenAI's Realtime API」と互換性を持つこと、ただし一部イベント（conversation.item.retrieve等）が未対応であることが明記されています。

完全互換ではない。

ただし「接続先を向け替えて、イベント名の差分と未対応イベントだけ直せば動く」という移行コストの低さは、既存OpenAI Realtime実装を持つ事業者にとって決定打です。

2つめ、電話音声エンティティ認識エラー率の差。

xAI自社ベンチでGrok 5.0%、ElevenLabs 12.0%、Deepgram 13.5%、AssemblyAI 21.3%（xAI STT/TTS発表）。

自社ベンチである前提は差し引くとして、電話回線の圧縮・ノイズ環境下でメールアドレスや電話番号・アカウント番号を取り違えないことは、CS業務では致命的な評価軸。

ElevenLabsはこの文脈ではそもそも戦場が違います。

3つめ、ElevenLabsの強みは別軸。

表現力（声質・ナレーション品質）のゴールドスタンダードという立ち位置は変わりません。

電話業務で人間的な応対が最優先、かつコストより品質を取りたい局面では依然として有力。

ただし電話CSの置き換えという角度では、Think Fast 1.0に分があります。

月$1,500の試算：人件費との比較

導入検討者が一番気にする数字です。既存の試算ベースを置いておきます。

私の感覚では月23万円は人件費1人分です。

項目	数値
1日の電話件数	200件
1件の平均通話時間	5分
1分あたりのAPI料金	$0.05
稼働日数	30日/月
月額APIコスト	$1,500（約23万円）

これ、人件費と並べるとインパクトが見えてきます。

体制	月額コスト	対応可能件数/日
Think Fast 1.0（100同時セッション上限）	$1,500（約23万円）	200件〜数千件
オペレーター1名（時給1,500円・8時間・22日）	約26万円＋管理費・保険	30〜50件
オペレーター3名体制（24時間）	約80万円〜	90〜150件

注意点が2つあります。

ひとつ、上記$1,500にはツール呼び出しコストが含まれないこと。

Webサーチ$5/1,000回、ファイルサーチ$2.50/1,000回が別課金です。

Starlink級にツール連打するなら数百〜数千ドル上乗せを覚悟。

ふたつ、セルフサーブの100同時セッション上限。

200件/日を5分で回すなら同時性はほぼ問題ないですが、ピーク帯に集中する業種（通販・金融）だと100同時枠に当たる可能性があります。

エンタープライズ契約でカスタム上限設定が可能（xAI Voice API）。

文字起こし／音声合成の単体APIとの関係を整理する

ここは混乱が多い部分です。

xAIはThink Fast 1.0の5日前、2026年4月18日にGrok STT API（文字起こし専用）とGrok TTS API（音声合成専用）を別途GAしています。

3製品の棲み分けはこう。

プロダクト	用途	料金
Grok STT API	音声→文字起こし専用	$0.10/時間（バッチ）／$0.20/時間（ストリーミング）
Grok TTS API	文字→音声合成専用（`[laugh][sigh]`等の表現タグ対応）	$4.20/100万文字
Grok Voice Think Fast 1.0	双方向対話エージェント（聞き取り＋推論＋音声合成＋ツール連携を1本で）	$0.05/分

xAIのSTT/TTS API発表ページは、STT/TTSとThink Fast 1.0が同じ基盤を共有していて、Teslaの車載音声やStarlinkのカスタマーサポート裏側も同じスタックで動いていると説明しています（xAI STT/TTS APIs）。

STT/TTSは部品、Think Fast 1.0は完成品。

電話CS自動化を1本で仕上げたいならThink Fast 1.0、既存の対話ロジック資産があってSTT/TTSだけ差し替えたいなら単体API、という切り分けになります。

既存のRealtime実装からThink Fast 1.0へ乗り換える手順

OpenAI Realtime API互換仕様の使い方を、実装例で見ていきます。

DataCampのチュートリアル（DataCamp Grok Voice Agent API）とdocs.x.ai／LiveKit公式プラグインドキュメントから再構成した導入フローです。

STEP1. APIキー取得と接続先の設定

操作：console.x.aiでアカウント作成、APIキーを発行する
期待結果：xAIダッシュボードでAPIキーが表示され、コピー可能になる
詰まりどころ：既存のOpenAI Realtime実装側で、接続先をwss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0に向け替え、認証ヘッダーをxAI APIキーのBearerに差し替える。クライアントサイドはエフェメラル（短期有効）トークン推奨

STEP2. イベント名の差分修正

操作：response.output_text.deltaをresponse.text.deltaに置換する（差分はここが最大）
期待結果：テキスト出力イベントが正しく拾えるようになり、画面表示やログ出力が動く
詰まりどころ：未サポートイベントconversation.item.retrieveconversation.item.truncateへの依存コードは削除または条件分岐。レート制限更新通知に依存する処理は別経路（HTTPポーリング等）に切り替える

STEP3. LiveKit経由で接続するパターン

操作：Pythonはpip install 'livekit-agents[xai]~=1.4'、Node.jsは@livekit/agents-plugin-xai@1.xを導入する
期待結果：LiveKit Agent設定でRealtimeModelをxAIプラグインに指定でき、接続が確立する
詰まりどころ：xAI固有のプロバイダーツール（XSearch／WebSearch／FileSearch）を使う場合はPython SDKのみ対応（LiveKit xAIプラグインdocs）

STEP4. 音声フォーマットと無音検出の設定

操作：デフォルトは24 kHz PCM。電話系統と繋ぐならinput_audio_format: "g711_ulaw"で8kHz µ-lawに切り替える
期待結果：電話交換機（PSTN）経由の音声が劣化せずに正しく解釈される
詰まりどころ：サーバーサイドの無音検出（VAD）デフォルト値は閾値0.5／prefix_padding_ms=300／silence_duration_ms=200。日本語や高齢者応対では「自動無音検出が早すぎて発話が途切れる」報告がHacker Newsで上がっており（Hacker News）、silence_durationを長めに調整推奨。ツール連携はJSON Schemaで関数定義を渡すだけ（OpenAI Realtime互換仕様）

STEP5. 本番前の検証チェックリスト

操作：既存Realtime実装の全イベントハンドラを通してログ比較、差分を潰す
期待結果：xAI側で受信できるイベントの種類と、OpenAI側で受け取っていたイベントの差分が一覧化される
詰まりどころ：同時セッション100上限を超える見込みならsales@x.aiにエンタープライズ契約を打診。30分/セッション上限を超えるユースケース（長時間コンサル電話等）はセッション分割ロジックを組む

ここで引っかかりやすいのは2番目のイベント名差分です。

テキスト出力を拾うリスナーがサイレント失敗しやすく、テストでログを見ないとクライアント側のUI表示だけ死にます。

※APIキー －プログラムからAPIを呼び出すときに「どの契約アカウントからの呼び出しか」を識別させるための文字列

※イベント名 － WebSocket通信で送られてくるメッセージの種類を識別する名前。

OpenAIとxAIで一部の名前が異なる

※SDK －ソフトウェア開発キットの略。

あるサービスを使うために、こちらのプログラムから呼び出す部品をまとめたもの

※VAD（無音検出） － Voice Activity Detectionの略で、相手が喋っているか黙っているかを判定する仕組み

※PSTN － Public Switched Telephone Networkの略で、いわゆる従来の電話回線網。

スマホやIP電話も最終的にここに繋がる

※JSON Schema －プログラム同士でやりとりするデータの形（フィールド名・型）をJSON形式で定義した規格

τ-voice BenchとBig Bench Audioの順位はどう読むか

ベンチマークの引用可能性を整理しておきます。

τ-voice BenchはSierra Researchが運営する、フルデュプレックス（同時双方向）音声エージェント評価です（Sierra tau3-bench発表）。

評価条件はノイズ環境、訛り、会話中の割り込み、ターンの受け渡し、本人確認フロー精度など。

Sierra側の記述はこう。

Voice agents struggle with multi-step request tracking and rarely recover from repeated failures. Authentication emerged as the critical failure point. Top agents reach ~54% task completion in clean conditions, dropping to 26–38% in realistic noise.
出典: Sierra Research

xAIはThink Fast 1.0発表時点でτ-voice Bench 1位と宣言しています（xAI公式）。

2位以下の具体的スコアは現時点で公開ソースに引用可能な数字がありません。

Sierra側の3者比較（OpenAI Realtime／Google Gemini Live／xAI Grok Voice）は「closely matched」との表現に留まっています。

Big Bench AudioはArtificial Analysis社の1,000問音声推論ベンチマーク。

xAI公式アナウンスによればGrok Voice Agent 92.3%（1位）、続いてGemini 2.5 Flash Native Audio、GPT Realtimeという順位（xAI News）。

タイムトゥファーストオーディオ（音が返り始めるまでの時間）は平均0.78秒と公表されています。

一方、digit.inは懐疑的です。

Self-reported benchmark numbers are, at the end of the day, self-reported.
出典: digit.in

私はこの懐疑を支持します。

ただし、Starlinkで実戦投入されているという事実は自社ベンチとは別軸の信頼度の裏付けで、MarkTechPostも「proven scale from millions of Tesla and Starlink transactions provides real-world validation」と評価しています（MarkTechPost）。

自社ベンチより実運用数字の方が重い。

中小CS運営者が選ぶなら、どれが本命か

3社の使い分けを、導入者の立場から言い切ります。

こういう状況	本命	理由
電話CSを自動化したい（1日100〜数千件）	Think Fast 1.0	分単価$0.05、Starlink実戦、電話ノイズ環境で他より強い
既存OpenAI Realtime実装を持っていてコスト削減したい	Think Fast 1.0	Realtime API互換、最小改修で乗り換え可能
70+言語のグローバル対応が必須	ElevenLabs	言語カバレッジで現状優位（Think Fast 1.0は25+言語）
声質・感情表現が商材価値になる（教育・ナレーション）	ElevenLabs	表現力の蓄積がゴールドスタンダード
Microsoft／OpenAI連携の既存エコシステムに深く依存	OpenAI Realtime	ネイティブ統合の安心感（ただしコスト注意）
試作からスタート、最小コストで触りたい	Think Fast 1.0	$0.05/分の明朗会計、ツール別課金も透明

私は電話業務置き換えという角度では、2026年4月時点でThink Fast 1.0が最有力と判断します。

根拠はベンチ順位より、Starlinkが本番で自動解決率70%を出している実績です。

ベンチ数字は自社発表、実運用数字はサードパーティの取材報告。

重みが違います。

ただし懸念も明記しておきます。

xAIの大規模障害：2026年1月・3月・4月初旬に発生。Voice APIへの直接影響は確認できていませんが、ピーク帯にCSが止まるリスクを評価せずに全寄せは危険（IBTimes）
日本語対応：docs.x.aiの言語リストには日本語が含まれていますが、公式アナウンスの「25+言語」一覧で日本語を明示する文書は現時点で確認できていません。本番投入前に実音声で精度検証が必須
ツール呼び出し別課金：$1,500試算には含まれない。実費はもっと乗ります

私は2026年後半、xAI vs OpenAI vs ElevenLabsの三つ巴で値下げ競争が加速する流れになると判断しています。

Think Fast 1.0の$0.05/分はその口火。

今から評価環境だけ組んでおけば、半年後に選択肢が増えても比較基盤を流用できます。

Grok Voice Think Fast 1.0に関するよくある質問

Grok Voice Think Fast 1.0とGrok Voice Modeは同じものですか？

別物です。

Think Fast 1.0はWebSocket APIで提供される事業者・開発者向けの音声エージェント（電話CS・営業用途）。

Grok Voice Modeはアプリ内の個人向け音声UI（Companion等）。

設計用途も料金体系も完全に別で、Think Fast 1.0は個人ユーザーが直接利用することはできません。

OpenAI Realtimeから乗り換える場合の工数はどのくらいですか？

docs.x.aiが「OpenAI Realtime API互換」と明記しており、接続先変更＋イベント名の差分修正（response.output_text.delta→response.text.delta）＋未サポートイベント（conversation.item.retrieve等）の条件分岐がメイン作業です。

完全な差し替えではないものの、改修は数日〜1週間規模に収まる事例が多く、xAI公式ドキュメントの移行ガイドにも沿った段取りで進められます。

日本語の電話対応は実用レベルですか？

docs.x.aiの言語対応リストに日本語が含まれる記述があります。

ただし公式アナウンスの「25+言語」で日本語を個別明示した文書は現時点で未確認。

Hacker Newsには「Lithuanianがサポートされていて驚いた」という反応もあり多言語対応の広さはうかがえますが、日本語の訛り・方言・高齢者の発話での精度は本番投入前に実音声でベンチを取る前提で進めるのが安全です。

月いくらから始められますか？

セルフサーブの公開料金は$0.05/分（$3.00/時間）。

1日200件×平均5分×30日で月$1,500（約23万円）が目安です。

これにツール呼び出し別課金（Webサーチ$5/1,000回、ファイルサーチ$2.50/1,000回）が乗ります。

試作段階なら数十ドルから触れる明朗会計で、これは他社（OpenAI Realtime実測$0.16〜$1.63/分）と比べた時の大きな参入障壁低下要因。

Starlink以外の本番導入事例はありますか？

公式アナウンス時点で明示されている大規模事例はStarlinkとTesla（MarkTechPost記事「millions of Tesla and Starlink transactions」）です。

中小事業者の導入事例は現時点で公式・メディアとも詳細公開なし。

GAが2026年4月23日のため、日本国内の導入事例は今後数ヶ月で出てくる段階です。

同時セッション100の上限で足りますか？

セルフサーブのデフォルト上限は100セッション/チーム、1セッション30分。

1日200〜500件程度の中小CS規模なら、通話時間5分平均で同時性の問題はほぼ発生しません。

ピーク帯集中の業種（通販セール期・金融の決算期）や大規模運用はエンタープライズ契約（sales@x.ai）でカスタム上限設定が前提です。

このページに出てきた言葉

GA（一般提供開始）: 誰でも本番利用できる状態でリリースされること。ベータ版や限定公開の次の段階
音声エージェントAPI: 電話の音声を聞き取り、AIが答えを考え、AI音声で返すまでを1本で提供する仕組み
WebSocket: クライアントとサーバーが繋がりっぱなしで、リアルタイムにデータを双方向に流せる通信方式
カスタマーサポート（CS）: 顧客からの問い合わせ・クレーム・購入相談を受ける窓口業務
STT: Speech to Textの略。音声を文字に変換する技術
TTS: Text to Speechの略。文字を音声として読み上げる技術
OpenAI Realtime API: OpenAIが提供する、音声をリアルタイムに聞いて答えるための双方向通信API
MCP: Model Context Protocolの略。AIエージェントが外部ツール・データと安全に繋がる共通仕様
function calling: AIが回答中に外部の関数を呼び出して、その結果を会話に組み込む機能
PSTN: Public Switched Telephone Networkの略。従来の電話回線網のこと
VAD: Voice Activity Detectionの略。相手が喋っているか黙っているかを判定する仕組み
セルフサーブ: Webサイト上で操作するだけでアカウントを作って即座に利用開始できる契約方式
エンタープライズ契約: 大企業向けに、料金・上限・サポートを個別交渉して結ぶ契約
同時セッション: 同じ瞬間に並行して走らせられる通話の数
スタック: サービスを動かしている裏側のソフト・基盤の組み合わせ

参考リンク

この記事を書いた人

aisola

Aisola Lab 運営者

AIツールを使ったコンテンツ制作・リサーチ・WordPress運用を日常的にやっています。自分で動かせるものは実際に触って書き、触っていないものは公式ドキュメントと一次情報をもとに書き分けています。

運営者情報 X（@ai_sola27）note

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-AI選び, 音声・音楽

AI活用全般

2026/7/24

Claude Voiceモードが日本語・Opus対応｜通勤中のメール要約と家事中の予定変更を声で頼む手順

Claude Voiceモードが2026年7月23日に大型更新されました。 Haiku固定だった音声会話が、Opusまで選べて日本語にも対応。 Gmailやカレンダーともつながり、画面を触れない時間に予定変更やメール要約を声で頼めます。この記事はClaudeを文字では使うが音声モードは初めての社会人向け（スマホの設定画面を触れれば読めます）。今回のアップデートの中身を、Anthropicの公式ブログと公式ヘルプの記述をもとに整理しました。軸にするのは「通勤・家事・移動という、画面を触れない時間の使い ...

AI活用全般

2026/7/24

AIっぽい文章はClaude Code無料スキルno-ai-slopでどこまで消せる？｜日本語で効くのは構造のクセ、英単語リストは素通り

「AIっぽさを消す」系スキルは前からあるのに、no-ai-slopは公開2日でGitHubスター約2,000まで伸びました。中身はコード0行、全部が指示書。無料でMITライセンスです。日本語では文の構造グセに効き、英単語の禁止リストは素通りします。この記事はAIに下書きを任せていて、公開前のAIっぽさが気になるライター・ブロガー向け（Claude Codeを触り始めた非エンジニアでも読めます）。 no-ai-slopって何をするスキル？ no-ai-slopは、文章から「AIっぽいクセ」、いわゆるA ...

AI活用全般

2026/7/24

ChatGPT Voiceデスクトップ版で複数のAI作業を声で指揮する｜"ながら質問"から始める4ステップ

ChatGPT Voiceのデスクトップ版が2026年7月23日に配信開始しました。無料プランは対象外で、Plus以上の有料プランが条件です。目玉は声でPCを操作するより、複数のAI作業を声で監督する働き方です。私が注目しているのは、この一点です。 Plusを持っているなら、まずはPC操作より"ながら質問"から始めるのが現実的だと思います。この記事はChatGPTの有料プラン（Plus以上）を仕事のPCで使っている人向け（声の操作を触ったことがなくても読めます）。そもそもデスクトップ版のChatGP ...

AI活用全般

2026/7/15

ChatGPT Sitesで家計簿・進捗ボードを作ってURLで配る手順｜サーバー契約もコードも不要

課金中のChatGPTに、プロンプトからWebサイトを作ってURLで配れる「ChatGPT Sites」が入り始めました。サーバー契約もコードも要らず、家計簿・進捗ボード・イベント案内級の小さいサイトを作って共有できるのが売りです。ただしパブリックベータで、容量やデータの保存地域など公式が数字を出していない部分もあります。この記事は課金中のChatGPTで小さなWebサイトを作って誰かに配りたい非エンジニア向け（HTMLを触ったことがなくても読めます）。 ChatGPT Sitesとは？プロンプトか ...

AI活用全般

2026/7/15

ChatGPTに絵コンテを頼むと文字の表しか出ない時｜GPT Image 2で12コマ・秒数つきの撮影設計図を画像1枚で出すプロンプト全文

ChatGPTに「絵コンテを作って」と頼むと、返ってくるのは文字だけの表がほとんどです。でも海外で拡散したあるプロンプトを貼ると、12コマ・秒数つきの撮影設計図が画像1枚で出てきます。 GPT Image 2なら無料プランでも試せて、書き換えるのは商品名の1箇所だけ。この記事は短尺動画を1人で撮っている非エンジニア向け（英語のプロンプトはコピペで大丈夫です）。そもそもこの「12コマ絵コンテ」プロンプトって何？ TikTokやInstagramの短尺動画を撮るとき、多くの人は段取りを頭の中だけで組みま ...

Claudeに指示が通らない原因はプロンプトの骨格｜Anthropic公式10要素を6分類で読み解く設計図

Microsoft Copilot Agent Mode 2026-04-22 GA｜Word/Excel/PowerPointデフォルトON、会議直前を守る3ステップ