Generative+AI の変更点

追加された行はこの色です。
削除された行はこの色です。
Generative+AI へ行く。
Generative+AI の差分を削除
2025-12-22 現在

*概要 [#wf972aa4]
-生成 AI は明らかに質的に異なるパラダイム。きちんと追う必要がある。
-このイノベーションによって英語母国語話者はより有利になった。コーディングが得意なアジア人の価値は下がった。
-高度なLLMを使って課題をやる学生と無料のLLMを使って課題をやる学生との間で評点格差が生まれる
-システムに組み込む場合は構造化出力をONにする。

*利用目的例 [#cae58e2a]
https://gemini.google.com/prompt?utm_source=chrome_omnibox&utm_medium=owned&utm_campaign=gemini_shortcut
ここ1週間での使い方

-ローカルでAPIの実装とデプロイをしてもらう（Gemini CLI, Vertex AI with Cloud Run）
--APIのモックに生成AIがウルトラ便利。副作用ないやつなら何でもかんでもモックできる
-APIの実装を先にして、実装コードからそのAPIの仕様ドキュメントを作ってもらう（Gemini Pro 2.5）
-新規売上獲得のための顧客提案のためのプレゼンテーションの文言を考えてもらう（Gemini Pro 2.5, Gemini DeepResearch）
-プレゼンテーションに含めるモックアップデモを作成してもらう（Gemini Cambus）
-数千個のリソースに対して一括処理するためのシェルスクリプトを書いてもらう (Gemini Pro 2.5 with Gem)
-数百ページの資料に特定の情報が記載されているかを判定して、記載されていたら引用付きで抜き出してもらう (Gemini Pro 2.5, Vertex AI Grounding)
-伝えたいことを口語で雑に列挙して書いてビジネスメールに変換してもらう (Gemini Pro 2.5 with Gem)
-数万行のソースコードの情報の流れを知るためにUMLなどをMermaidで要約してもらう (Gemini CLI)
-HARファイルから内部で利用されているAPIを特定して、想定通りに動いていないケースを特定して不具合報告を上げる (Gemini Pro 2.5)
-HARファイルからドキュメント化されていない内部で利用されているAPIを特定して叩く (Gemini Pro 2.5)
-言語学習のためのAnki2の単語帳を生成する (Gemini Pro 2.5, Vertex AI Text-to-speech)
-利用ログデータやデータ分析のための PostgreSQL, BigQuery クエリを書いてもらう (Gemini Pro 2.5 with Gem)
-オープンソースの挙動についての不具合や非直感的な挙動を調べる (Gemini CLI)

僕が↑に上げているようなことを生成AIなしでやったら20倍くらいは時間がかかります。ので、生産性の向上それだけで業務改善したと言えると思います。

2025-07-24 時点の課題としては、

-根拠を見つけてくる機能がまだ成熟していない（グラウンディングと呼ばれる機能）
--人間が「ハルシネーションを人間が確認する時間が馬鹿らしい」とまでは確信できない
--Vertex AI だとグラウンディングと構造化出力（出力形式に制約をつける機能）が併用できない
-生成AIの出力が多すぎて人間のチェックがボトルネックになる
--グラウンディングがもう少し成熟すれば、ハルシネーションを気にしなくてもよくなるかも
-コード生成エージェントが微妙に頭が悪くて、かなり細かく指示しないと変な方向に突き進んで戻ってこれなくなる
--今後製品がちょっと改善すれば解決しそう
-高い(ここ一週間での課金が20000円くらいになってる)
-遅い
--まともな出力を出すには思考時間を30秒~10分くらい与える必要がある
-業務のドメイン知識や前提情報が分散されている場合、それを一箇所にまとめるタスクがそもそもある＆大変（Gem など）

生成AIの使い方として概ね以下の 2 つがあると思っていて

-1. 人間の副操縦士として利用する（僕の使い方）
-2. 生成AI自体を自動化された形で製品に組み込む
--2. の方は例えばコールセンターとか英会話とか面接とかの自動化には使えるかもですが、利用用途は限定されそうですよね。

-ライブラリやツールの作者は、これからは「LLMからどう読まれるか」「エージェントからどう使われるか」を意識して設計を行っていくことになる

*ハルシネーション [#c975bc52]
-分からなくても何か答えるその姿勢、見習いたいのだ（？）
-正解に+1, 不正解に-1として学習させたら当然ハルシネーションは発生する
--マークダウンで何も埋めないくらいだったら何でもいいからアで埋めたほうがいい
--正解に+1, わからないで+0, 不正解に-3などなら、わからないというモチベーションも発生する。
-とはいえ、何か絞り出すことはクリエイティブの観点では重要なのでハルシネーションが悪いともいえない（人間も間違えたときにあまりに罰せられると円滑な議論ができなくなる）
--情報が足りなかったり、人類がまだ遭遇していない難しい問題だったりすると、ハルシネーションが起きる。逆に、ハルシネーションの頻度から情報収集しないとなあとフラットに考える能力が必要

*ドメイン知識の注入は課題 [#c05a673c]
-ファインチューニングすると推論能力を失う
--Transformer 系、フィジカル AI も含めて全部そういう傾向がある（推論能力に特化して最適化しているところに変なことをするのだからそりゃそう）

*哲学 [#dacbd1fd]
**学習 [#efca0485]
-インターネットが普及したとき、教育が変わると思ったのね。なんでもネットにあるんだから、興味ある人がどんどん勝手に調べて知識を増やして、加速度的に成長する世界になるだろうと。現実はそうならなくて、成長できる人は一握り。ネットの情報汚染はわりと深刻だった。プログラミングだって、ネットに必要な情報はそろってるけど、検索すると「いかがでしたか」系にひっかかり、多くの人はそれで「つまみ食い」を繰り返し、よくわからないまま。数千円払って本を一冊読んだ方が全然早い。
-おそらく、AIもそうなる気がする。いまでも、例えばChatGPTを「壁打ち」に使って自分の書く文書の質を上げようとする人はわずかで、多くの人は「目の前の課題」をとりあえずクリアするために使ってる気がする。AIが加速度的に知を向上させるのは間違いないが、その恩恵を受ける人は、インターネットで正しく独学できる層で、それはわずかであろう。おそらく、無料のAI学習プログラムが溢れ、きちんと課金しないとまともに学べなくなるだろう。
-まともな学習に必要な課金、せいぜい数千円/月とかなんだろうけど、多くの人は払わないだろう。「学習に課金する」という行動がそもそも文化であり、おそらく親から引き継ぐ性質だから。なんか、学習用コンテンツが充実するほど、教育格差が広がるように見えるのは皮肉というか何というか


*生成AIと環境 [#j7f7a27e]
-出力する「ありがとうございます」という文章のせいで、電気代が一日あたり何億ドルと消えている。サム・アルトマン
--https://youtube.com/shorts/uIaQNxf1C3Q?si=3VoKAywqxtIkPE2p

*TODO [#q82c9d6c]
-プログラムの自動補完

*サービス [#y597b3ee]
**OpenAI [#jf8b81d6]
-ChatGPT Pro
--生成速度が遅い、音声入力がない、コード実行ができない、画像生成雑、音声読み上げがない、Colab 連携がない、検索による verification がない、「画像で説明してください。」で検索結果から画像を引っ張ってこれない、などの問題があり、Gemini がおすすめ
-OpenAI API
--プリペイドで叩けるのは非常に便利というか安心感がある

**Google [#l0747632]
***ツール [#a450b30d]
-Vertex AI Studio
--ぱぱっとやりたい AI っぽいことはだいたいここにいくとできる
-Vertex AI
--API ツール群、システムを作りたい時は何でも揃っていて便利
-Gemini Advanced
--チャットツール。現在これが良さそう。今後の Drive などとの連携などで将来性がある
--個人的には、Gemini をファインチューンするみたいなことができるようになるととても将来性がありそうなものだけど…
--画像説明、画像生成、検索による画像リンクもできる
--プロンプト
---「画像で説明して下さい」と書くと、生成するのではなく、Web 上から画像を引っ張ってきてくれる。

***モデル [#f1f6d20a]
-Gemma
--言語のみのオープンモデル（not オープンソースモデル）、商用可能。出力の責任とオーナシップはユーザが持つ
--Gemma 2B, 7B がある。7B は 8.5B パラメータなのに 7B と名前がつけられている。
-Gemini
--言語のみのモデルだった PaLM, PaLM 2 の後継で、マルチモーダル
--Gemini 1.0 Pro
---AlphaCode 2 に Gemini Pro が使われているらしいが、Gemini Pro で AlphaCode 2 を利用できるようにするという話はまだ見当たらない
最大 100 万のトークンを継続的に処理することが可能
---Vertex AI でも使える
--Gemini 1.0 Ultra
---Gemini Advanced で現在使えるモデル
---コンテクストウィンドウのトークン数 32k
--Gemini 1.5
---コンテクストウィンドウのトークン数 デフォルトでは 128k, 潜在的には最大 1m のトークン。長いコンテキスト ウィンドウを扱えるようになった。これは質的に異なっていて、ファインチューンせずともインコンテクストで学習するみたいなことができる。世界中で話者が 200 人未満であるカラマン言語の文法マニュアルを与えると、モデルは同じ内容を学習している人と同様のレベルで英語をカラマン語に翻訳することを学習できる
---Gemini 1.5 Pro をまず公開予定、1.0 Ultra と同程度の性能
---1 時間の動画、11 時間の音声、30000 行のコード、402 ページの文書を入力できる
---今後、標準で 128,000 トークンのコンテキスト ウィンドウを備えた 1.5 Pro も導入する予定。また、標準 128,000 のコンテキスト ウィンドウから 100 万トークンまでのスケールアップに対応した価格帯を導入する予定


*現在できることとおすすめ [#ce62ef39]
-「このモデルはこのサービス…」と探すコストが面倒すぎるので、Vertex AI にまとめるのが良い気がしている
-高度なものは Vertex AI に概ねある（若干スタートアップより遅くリリースされがち）

|機能|サービス|備考|h
|コード生成|Gemini|Gemini にはコード実行、Copilot, Repit 連携がある。Vertex AI のコード生成モデルを使っている？のかは謎|
|ビデオ→テキスト|Vertex AI||
|テキスト→ビデオ|Sora, Vertex AI||
|画像修正|Vertex AI||
|テキスト→それを人が喋っているビデオ||できるしめちゃくちゃクオリティが高いベンチャーのものが合ったはず。日本語で話すと英語でそれっぽい人がそれっぽいことを話すやつ。|
|日常用音声入力|Gemini|Ubuntu では音声入力アプリを使うのが非常に面倒。Gemini のボックスの右の音声入力がマジで便利。|
|音声→テキスト|Vertex AI Studio|議事録を起こすみたいなことができる|
|テキスト→音声|Vertex AI Studio||

*チャットアプリ [#eaef4bcd]
-2024-02-24 現在、Gemini を使うのがよさそう。
--音声入力は
-用途
--検索の代わり（プログラミングの調べものとか）
--まとまったプログラムを書いてもらう
--言語学習（この言語圏でどちらが自然な言い回しか）
--シェルスクリプトやワンライナーとかを作ってもらう。正規表現など
--学習の初めに大枠を掴む目的
--簡単 OCR
--図表を Marmeid にする
--音声入力から取引先で渡せる文章にする。


-雑に司令ができる分、タイピング速度がボトルネックになりがち。

-プライバシー
--概ね history を切れば学習から免れることができる

*システム構築 [#a95cccd1]
-自動構築の場合、Vertex AI でやることもできるが、現在のところ GPT 系がお手軽ではある
-langchain などフレームワークが安定しつつある
-Fine tune
--モデルを望ましい形にチューニングすることができる。API で叩くだけ、必要なショット数も 10 ~ 500 くらいでいける。
--Vertex AI の code-gecho, code-bison, codechat-bison モデルなども[[ファインチューンできる>https://cloud.google.com/vertex-ai/docs/generative-ai/models/tune-code-models]]っぽい。
-RAG などの開発をしている人がいるようだが、正直賞味期限が短そうすぎて何がしたいのかわからない。


*用語 [#ec38b467]
-Embedding
--Embedding Model: 不定形なテキスト・画像・動画を入力して、ベクトル$\mathbb{R}^n$を出力する関数
--Embedding: 入力されたテキスト・画像・動画を、意味的に特徴づけたベクトル$\mathbb{R}^n$へのハッシュ。意味的に似た意味の 2 つの文章から生成された Embedding 同士のコサイン類似度が大きくなる。
---ベクトルの意味は説明不能
---n は変更できて、[[Vertex AI Multimodal Embedding>https://cloud.google.com/vertex-ai/docs/generative-ai/model-reference/multimodal-embeddings]]では 128, 256, 512 or 1408 [default]から選べる。
--質問回答: 「正しい文章」を複数事前に用意しておく。それぞれの「正しい文章」に、その Embedding を計算して付与してデータベースに保存しておく。質問の Embedding に最もコサイン類似度が高い「正しい文章」を出力する。そうすると、質問回答のようなことができる。
---Gemini の対話型のものだと、あることないこと喋られちゃうしファインチューニングがめんどいので、自分でコントロールしやすいという意味でうれしい。
--文章検索: ↑と対して変わらないが、探したいドキュメントの文章を書いて、そのドキュメントの Embedding にもっとも近いドキュメントを探し出してくることができる。
--ベクターなので、分類・クラスタリングなども当然できる。ラベル付けとかできる。
-Safety Setting
--API 経由だと、Gemini ではコアなもの以外（ハラスメント、ヘイトスピーチ、露骨な性表現、危険）の安全性設定を下げることができる。Google AI Studio ではオフにすることができないが、API 経由だとオフにもできる。

*Gemini CLI [#tebdf33e]

 gemini -a -y # read all files recursively, accept all actions
 echo "hello" | gemini
 echo "hello" | gemini -p "日本語で"

-Gemini CLI 内部のコマンド

 /chat save <タグ名>: 現在の会話に名前（タグ）を付けて保存します。
 /chat resume <タグ名>: 保存した会話を呼び出します。
 /chat list: 保存した会話のタグリストを表示します。
 /auth: 認証方法が 3 種類あってそれを選ぶ。対話型でこれを選択しておかないと非対話側でも同様の認証方法が選ばれてしまう（環境変数から自動で認証方法が選ばれるみたいなことはない）Vertex AI にしておくのがとりあえずよい。

-トラブルシューティング
--開いた直後に max token が云々→ -a で起動するのをやめて。recursive でコンテクストを読み込ませるのに無理があったという意味

-prompt の渡し方
--cat prompt in.txt | gemini > "in.txt.md"

-遅いので parallel 化

 find . -maxdepth 1 -name "*.txt" | parallel -j 4 '
     echo {};
     cat prompt {} | gemini > "{}.md"
     [ -f "{}.md" ] || cat prompt {} | gemini > "{}.md" # 一回やったものはやらない
 '

-parallel の関数化方法

 ls *.txt > list_todo

 #!/bin/bash
 
 # --- Function Definition ---
 # Processes a single markdown file path
 process_filepath() {
   local filepath=$1
   local json_filepath="$filepath.json"
   echo
   echo "-------------"
   echo $filepath
   ls -la $filepath
 }
 # --- Function Definition End ---
 
 # Export the function and the API_URL variable so `parallel` can access them
 export -f process_filepath
 export API_URL
 
 # Read file paths from `a` and run `process_filepath` in 8 parallel jobs
 echo "--- Starting parallel processing (8 jobs)... ---"
 cat list_todo | parallel -j 8 --joblog parallel-test.log --eta process_filepath {}
 
 echo "--- All processes finished. ---"

-Gemini CLI の並列化
--「一ファイルずつ読むのではなく、複数ファイルずつ読んで」と明示的に言うとよい
--そもそも大きすぎるファイルを与えるならば、Python で自分で組んで parallel を使ったほうがいいかもしれない

 split -l 100 questions.csv　split_file

 FILE_PREFIX=d
 
 1. split_filea${FILEPREFIX} の一行目を読む。$id
 2. tct questions resolve $idを実行してファイルパスを取得する。$file
 3. $fileの中身に日本語が含まれていたら、それを英語に直す。$fileを直接編集する。最小限の修正にする。
 
 これを最後まで実行して。



*アドバーサリアルリトライ [#o4870069]
-生成AIの出力結果を生成AIに検証させて、問題がありそうならリトライをする処理はできそう
--指示が悪い、生成者が悪い、生成者は問題ないの3パターン

*OpenAI API [#k4caf045]

-インストール

 pip3 install --upgrade openai

-https://platform.openai.com/api-keys でキーを作成
-.bashrc に以下を追加

 export OPENAI_API_KEY='sk-KEY'

-openai.py

 from openai import OpenAI
 client = OpenAI()
 
 completion = client.chat.completions.create(
   model="gpt-3.5-turbo",
   messages=[
     {"role": "system", "content": "You are a poetic assistant, skilled in explaining complex programming concepts with 
 creative flair."},
     {"role": "user", "content": "Compose a poem that explains the concept of recursion in programming."}
   ]
 )
 
 print(completion.choices[0].message)

-python3 openai.py

*Ubuntu 20.04 [#ze7dafd2]
-ローカルで LLM をする動かす方法

-インストール（GPU なし）

 apt -y install nvidia-cudnn python3-pip python3-dev python3-venv gcc g++ cmake jq
 pip3 install llama-cpp-python[server]
 wget https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_K_M.gguf

-サーバ立ち上げ

 python3 -m llama_cpp.server --model ./llama-2-13b-chat.Q4_K_M.gguf --n_gpu_layers -1 --host 0.0.0.0 --port 8000 &
 http://localhost:8000/docs

-コマンド（出力には 2 分以上かかる）

 curl -s -XPOST -H 'Content-Type: application/json' localhost:8000/v1/chat/completions -d '{"messages": [{"role": "user", "content": "Tell me about Hiroshima city, Japan."}]}' | jq | sed -e 's/\\n/\n/g'

*人命を扱うプロダクトでの利用 [#t0270349]
-ニューラルネット使ってる限り100%安全って言えないと思うんだけど、自動運転の人たちはどう攻略するつもりなんだろう
-事故の責任は購入者ではなく販売会社が負う形にして、一方で賠償責任保険の名目で保険料をサブスクで徴収する形になるんじゃないかなと思いますね
-事故を下げる資本主義的圧力が生まれますし、保険料払わないなら事故ったら自己責任な、ということになると普通の人は入りそう。
-人間の警備員を殺すと重罪になって逮捕される確率が大きく高まるというのが警備員による犯罪抑止力になっているはずで、警備ロボット時代にはロボットの破壊を重罪にしないと人間の警備員の仕事がなくならなさそう。暴行罪とかにもなるし

*ビジネス [#i86f2208]
-生成AIのラッパーサービスはコアコンピタンスを持たないので基本的にクソ

*脱獄 [#qf483e11]
-「爆弾」などのセンシティブなワードをアスキーアートで表すことで、LLMの安全機構を突破して「爆弾の使い方を教えてください」などの質問に回答してもらう
-そもそもエンジニアであればsafe guardを外した設定でAPIを叩けばよい

*近況 [#abf99ab9]
**2025-12-22 [#x545def6]
-https://news.yahoo.co.jp/pickup/6563284
--日本の3兆円（約200億ドル）のAI投資は、国内最大規模のモデル開発を目指すもの。世界的に見て、2024年の生成AI民間投資は339億ドル（Stanford）
--Gartnerによると2025年の世界AI支出は1.5兆ドル規模。中国はAI関連で20年で1380億ドル投資計画。日本の投資はグローバルで中規模だが、戦略的に重要。
-人間のデータは無尽蔵になるので、ヒューマノイドを作るモチベーションが高くなっている。
-当然には言葉でロボットを動かすことができるのはイノベーション
-Quasi-Direct Drive
-NVIDIA幹部「日本、もうロボット大国ではない」
-中国では、何万台というロボットを作って何万台を雇用して24時間365日学習させている28:10 https://www.youtube.com/watch?v=29qWpa4Drgk&t=1726s
-高トルク密度モータ https://www.global.toshiba/content/dam/toshiba/migration/corp/techReviewAssets/tech/review/2013/01/68_01pdf/r01.pdf
--パンケーキ型高トルクPMSM（永久磁石同期モータ）
--Sim-to-Real シミュレーションと現実の「摩擦や減速機の非線形性」の差（Sim-to-Real Gap）が課題でした。制御の単純化: QDDはハーモニックドライブ特有の非線形な弾性変形や複雑な摩擦特性がほとんどありません。アルゴリズムの適合: 物理特性が極めてシンプルであるため、シミュレーションで学習したニューラルネットワークの制御指令が、現実の機体でも高精度に再現されます。これが、中国勢の歩行アルゴリズムの進化速度を支える要因です。
--（UnitreeやFourierなど）
-Unitree R1が5,900ドル（約90万円）、G1が16,000ドルという価格を実現したことは、コンポーネント（モータ、減速機、コントローラ）の自社開発による中間コストの排除によるもの
--Unitree: 20-26-DOF for adaptation to complex scenarios; its 2-DOF head enhances environmental perception. Lightweight structure, easy maintenance ≤123cm agile form, ultra-lightweight at about 29kg

-データ収集プラットフォームとしての競技会: 競技会は単なる展示の場ではなく、エッジケース（予期せぬ失敗データ）を大量に収集するためのテストベッドとして機能しています。収集されたデータは次世代モデルの学習に即座にフィードバックされ、数ヶ月単位での技術反復（イテレーション）を可能
-シミュレーション環境（NVIDIA Isaac Gym等）で数万時間分に相当する歩行・走行データを学習させ、それを実機に転送するSim-to-Real技術が高度化
--プラットフォーム化（2020年〜）：OmniverseとIsaac
現在のNVIDIAは、ハードウェアを売るだけでなく、**「AIを訓練するための仮想空間（デジタルツイン）」**を提供するソフトウェア・プラットフォーム企業へと進化しました。
--Omniverse: 複数の3Dツールを統合し、物理法則に則った仮想世界を構築するプラットフォーム。
--Isaac Gym / Isaac Sim: ロボットの強化学習に特化したシミュレータ。数千体のロボットを仮想空間で同時に学習させ、その成果を実機に転送（Sim-to-Real）するために使用されます。

-ハードウェア
--バク転をはじめとして、人間を超える信じられないくらい何でもできている（ダイナミックな動きはできている）
--防水とかそういう問題はある
-四脚、2足歩行などは研究（20~30 kg, 5時間山を登る）
-自立性はまだ、人g年みたいに物事を理解して進むというものは厳しい
-マニュピュレーション、人の手とかはまだ全然だめ
--いろんな動きがあまりに多様に絡まっていて、難しい
--これだけやればいい、というものが無限にある

-NVIDIA が買収したシミュレーションをはじめとして、10年前は全然で

-一つ一つのタスクについてはできるかもしれないが、デモならできるかもしれないが、汎用的にできているかと言われるとかなり怪しい。相当チューニングとかゴールデンデータ感は拭えない。
-ALOHA 低コストで両手遠隔操作をするオープンソースんおロボットシステム。AIの研究開発に用いられ、低コストで高度な模倣学習によるタスク実行が可能
--CoLA で2025年でみても、単純タスクで相当遅いしかなり失敗する部分で、足りていない部分が多い

-推論の話を考えると、ドメイン知識の統合はかなり基礎研究的には課題。もちろん Fine tuning とか RAG とかあるが、推論の各種ベンチマークは下がってしまう。  https://www.youtube.com/watch?v=Vlj0K7r1qkY&t=2716s
-"delve into"という用語を多用するなど、生成AIの出力する語彙には偏りがあり、人間側の言語に輸入されるなど人間の利用する語彙が影響されている。

*2026-01-08 [#acb97c74]
-Gemini Robotics-ER = VLM (Action はない！)
--物理世界の推論: 物体の位置、3次元的な関係性、時間の経過などを理解することに長けています。
--ロボット操作データは未学習: 直接ロボットのアームを動かすためのデータ（モーター信号など）は学習していませんが、代わりにロボットを動かすための「コード」や「計画」を出力します。
--高度な空間認識 (3D Understanding): 画像から物体の3Dバウンディングボックスを検出したり、複数のカメラ視点間の対応関係（こっちのカメラで見えているアレは、あっちのカメラのコレ）を理解できます。
--タスクの計画 (Planning): 「朝食の準備をして」という抽象的な指示を、「シリアルを見つける」「ボウルを取る」「牛乳を注ぐ」といった具体的なサブタスクに分解します。
--コーディングによる制御: 状況を判断して、ロボットアームを制御するためのPythonコードを生成し、既存のロボットコントローラーに命令を出せます。
--ポインティング: 「掴むべき場所」や「置くべき場所」を画像上の座標（点）として正確に指定できます。

-Gemini Robotics = VLA (Action がある)
--The Gemini Robotics SDK will further accelerate innovation by allowing developers to adapt the model to their specific needs. Sign up for model and SDK access via our trusted tester program. https://deepmind.google/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

-Gemini Robotics On-Device https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/viewform?ts=67cef986&edit_requested=true
--Gemini Robotics (Model that outputs actions)
--Gemini Robotics-ER (Model that outputs understanding of the world in text/structured text)
--Gemini Robotics On-Device (Model that outputs actions - runs locally)

-Octo
-π0
-SayCan
-ALOHA (A Low-cost Open-source Hardware System for Bimanual Teleoperation)
-DROID Dataset
-RT-1
-RT-2
-RT-X
-OpenVLA
-OXE
-RDT-1B
-AIRoA
--一般社団法人AIロボット協会
-Bridge Dataset
-リーダー・フォロワー型
-GELLO
-Optimus (Tesla)
-Figure AI (BMW)
-Ego4D Dataset
-Code as Policies, ProgPrompt
-画像生成による学習データの水増し
-Depth Anything V1/V2
--画像からの深度推定: 単眼カメラからLiDARに近いレベルの相対的な深度情報が取得できる（AがBより近い、はわかるが絶対距離は弱い）
-Marigold
--CVPR 2024 Best Paper Award Candidate
--画像からの深度推定 (Monocular Depth Estimation): 「普通の写真（RGB画像）1枚から、高精細な深度マップ（奥行き情報）を生成」します。特徴: Stable Diffusion（画像生成AI）の知識を流用しているため、従来の深度推定モデルよりも解像度が高く、物体の境界線や細かい形状を鮮明に捉える
--法線推定や画像の固有成分分解などもついでにできる。

-VLTA
--2026-01-06 CraftNet (VTLA = Vision Tactile Language Action) https://www.youtube.com/watch?v=Biojxg5KFXo
---論文も何もないし高速倍率が記載されていない動画一本だけなので怪しいが、こういうシステムができるといいね。
---CESharpa が Consumer Electronics Show (CES 2026, ラスベガス) で発表予定のもの
---stop speeding up robot videos. It is very annoying. At very least include the speed up rate
---“Tactileless is the new blindness.” “90% of the effort is in the last millimeter when interacting with objects.” -
--2025-05-014 https://arxiv.org/abs/2505.09577
---画像系の触覚センサを入力とした生成モデル。出力は相変わらず準静的かつ制御ループは極めて遅く入力の参考になる程度
--2025-07-02 TactileAloha (東北大学) TactileAloha: Learning Bimanual Manipulation with Tactile Sensing https://www.tohoku.ac.jp/en/press/physical_ai_uses_both_sight_and_touch_to_manipulate_objects_like_a_human.html
---GelSight sensor というこちらも画像出力する接触センサを使っている

-https://bostondynamics.com/blog/boston-dynamics-unveils-new-atlas-robot-to-revolutionize-industry/
--新しい世代のアトラスは，ロボットの固有のパーツを減らし，自動車のサプライチェーンとコンパチになるようコンポーネントを設計した．これによってヒュンダイがもたらす会社スケールの信頼性と経済性が担保される。モータを含む話なんだろう，それはすごい
--“This generation of Atlas significantly reduces the amount of unique parts in the robot, and every component has been designed for compatibility with automotive supply chains. With Hyundai Motor Group’s backing, we will achieve the best reliability and economies of scale in the industry.”

-Boston Dynamicsの人間の関節上実現不可能なヒューマノイドのデモ https://bostondynamics.com/blog/boston-dynamics-unveils-new-atlas-robot-to-revolutionize-industry/
--2026 CESにおいて、新型ロボット「Atlas® 」の製品版を発表しました。
--ガッツリ制御で動くところと、いわゆる人工知能的手法をスムーズに切り替えている（あるいはハイブリッド）。これまでの王道からブレない

-リセッタビリティが結構大事。試行回数を労力なく稼ぐために

-人間のビデオを汎用的な報酬学習にどのように活用できるかは未解決の問題

-MimicLong-Horizon Imitation Learning by Watching Human Play by C Wang · 2023 · Cited by 280
--特定のタスク（料理、組み立てなど）を高精度にこなさせたい場合: MIMICPlay のような階層型アプローチ

-VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training by YJ Ma · 2022 · Cited by 414
--人間のビデオを汎用的な報酬学習にどのように活用できるかは未解決の問題

-DexMV: Imitation Learning for Dexterous Manipulation from Human Videos (Qin et al., 2022 / ECCV)
--人間の手の3Dメッシュを映像から推定します。その動きを、ロボットハンドの関節角度に数学的に変換（リターゲティング）します。変換されたデータを「教師データ」として学習させます。性能: これにより、単なる把持だけでなく、物体を回すなどの複雑な動作の模倣が多少できるように
-シミュレーション強化学習
--汎用的、シミュレーションが効く歩行のような制御性の良い操作については結構できる
--シミュレーション強化学習 + 映像による報酬: GRAFT / Vid2Robot3D

-RT-X（RT-1-X および RT-2-X）の学習データには、Ego4Dのような「人間のみの動画（Ego4Dなど）」は、動作を真似るための教師データとしては直接使われていない。RT-Xの学習に使われているのは、あくまで「ロボット自身が動いたデータ（ロボットのカメラ映像と、その時のモーター指令のペア）」が中心
--人間の手とロボットのアームは構造が違いすぎるため、Ego4Dの映像に対して「正解のモーター指令（Action Label）」を付けにくい（教師データにならない）。

-Robotizeはちょっと面白い（人間の動画をそれっぽいロボットに変換する、シミュレーション可能にする）
--X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
--UniSim: A Neural Closed-Loop Sensor-Motor Simulator (2023 / ICLR) Google DeepMind, UC Berkeley, MIT
---動画の入力: 人間が部屋を歩き回ったり、物を動かしたりしている動画データを読み込ませます。
---世界の構築: 静的な背景だけでなく、「この箱を押したらどう動くか」という因果関係も含めて、ニューラルネットワーク内に世界モデルを構築します。
---ロボットの投入: 生成された仮想世界の中でロボットのエージェントを動かし、強化学習を行います。


-大規模マルチタスク学習（Large-Scale Multi-Task Learning）の研究、ビデオ入力: Vid2Robot: End-to-end Video-conditioned Robot Manipulation (2024 / CVPR) Google DeepMind, Google Research https://vid2robot.github.io https://arxiv.org/pdf/2403.12943 Prompt Videos show (1) Knock Pepsi Can and (2) Place Coke Can upright.とか、Close Middle drawer.とかそれくらい。総合成功率: 約 53% （比較対象の従来手法 BC-Z は約 30%）。缶を立てる動作で20%とか。展望にはさらに精度を上げるには、ここから数回の「試行錯誤（強化学習）」を許可して微調整させるアプローチ（Sim-to-Realなど）を組み合わせるのが、次の研究ステップと書いてある。手なこと（成功率 12%〜25%）:倒れている缶を立てる（Place upright）、物を倒す（Knock over）理由: 指先の微妙な力の加減や、物体の重心バランスなど、視覚情報（ビデオ）だけでは伝わりにくい物理的なコツが必要なため。
---既存のロボット（RT-1など）は、「コーラ缶を拾って」という**テキスト（言語）**を入力しないと動きません。 しかし、Vid2Robotが目指しているのは、言葉で表現しにくい微妙な動作（例：「このくらいの勢いで」「あの角度で」）を、動画を見せるだけで伝達すること
---結局、ロボット to ロボットの教師データを渡している
---元データ数:ロボットの軌跡データ: 約 120,000 件人間の軌跡データ: 約 5,000 件Co-located（共存環境）データ: 約 5,000 件
---学習用ペアの生成:1つのロボット軌跡データに対し、3つの異なるプロンプト動画をランダムにサンプリングしてペアを作成。総ペア数: 約 380,000 ペアRobot-Robot: 約 360,000 ペアHindsight Human-Robot: 約 15,000 ペア Co-located Human-Robot: 約 5,000 ペア
---もし言語（テキスト）だけで指示するなら、Vid2Robot特有の『人間の動画とロボットの動画を合わせる学習』は不要。その場合は、Vid2Robotではなく、RT-2やOpenVLAといった「言語入力型」のモデルを使えば済む。
---数百種類のタスク合計で12万個の(動画, ロボット関節角軌道)の学習した汎用モデルを使うと、

-MimicPlay: Long-Horizon Imitation Learning by Watching Human Play CoRL 2023 (ORAL) https://mimic-play.github.io/ トースターにボウルを入れて閉めるくらい。階層型アプローチ。Succsess rate 55%で喜んでる。成功率40demoで70%で喜んでる。


-単一タスク
--Diffusion Policy: Diffusion Policy: Visuomotor Policy Learning via Action Diffusion (Chi et al., 2023 / RSS) マルチモーダル分布: Diffusion Policyは「右に行く確率40%、左に行く確率60%」という分布そのものを学習するため、人間のデータの「揺らぎ」をそのまま「柔軟性」として取り込み、非常に高い成功率を実現します。
--ACT Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (Zhao et al., 2023 / RSS) 「Mobile ALOHA」という有名な家事ロボットに使われている技術
--DexCap: Scalable Dexterous Robot Learning using Human Hand Pose Collection (Wang et al., 2024 / RSS) 人間がデータグローブをつけて作業したログ（計測データ）を、**「リターゲティング（ロボットの指への変換）」**技術を通してロボット用データに変換、その後 Diffusion Policy で学習

-Diffusion Policy https://www.youtube.com/watch?v=CmZ8aepZO1g&t=1116s
--学習: 観測情報、正解行動系列、各3ステップ、ガウシアンノイズを入力として、予測されたノイズを出力する学習を行う。
--制御: 観測情報と初期ノイズを入力として、ノイズを予測して除去して「きれいな」ノイズを生成、その後行動系列を生成する。
--モデル予測制御を行う感じ。推論速度（Hz）が課題になりがちです（10 Hz）。これを解決するために、DDIMなどの高速化サンプラーや、Consistency Distillation（蒸留）技術が併用される
--Push-T でほぼ100%, 追従速度もほぼカンペキ
--カップを立てるタスクで90%
--モーキャプをロボットの学習データにするためには、IKの賢い版のリターゲティングを行う必要がある。ハンド（指）の変換ここはIKでは解けません（構造が違いすぎるため）。通常はヒューリスティックなマッピングを使います。2本指グリッパーの場合:人間の「親指」と「人差し指」の距離を測り、それをグリッパーの開閉幅（0〜1）に変換する。

-ACT
--「結束バンドを通す」「ワイングラスの包装を剥く」「エビをひっくり返す」といった、ミリ単位の精度が必要なタスクを、人間の操作データ（50回程度）から学習し、成功率80%〜95%以上で再現

-DexCap https://www.youtube.com/watch?v=-PmjRjgXKuo
--Action Retargeting (人間の動きとロボットの動きの一致)、Vision Retargeting (点群を介して学習時データと一致させる)→Point cloud encoderを介して、Diffusion Plicy πを使ってアクションを生成する
--1時間くらいの人間のデータ（テレオペ不要）で実行可能。ものを箱に突っ込むくらいはできる
--Long horizenやFine gradedは厳しい。瓶を開けてスプーンを拾ってお茶を出す→30%, テレオペ 30 corrections 後に70%。ハサミで紙をきる→15%, 30 corrections後に45%

-微分可能シミュレータ (DiffTactile)
--シミュレーションの計算過程がすべて微分可能なので、失敗した時に「数式を逆算（逆伝播）して、どう動けば正解だったか」を直接計算できます。 これにより、何万回も試行錯誤することなく、非常に効率的に「ケーブル操作」や「箱開け」などの難しいスキルを習得できます。https://difftactile.github.io/
--物体の表面を撫でる、箱を押して上げるくらいしかできてない

-Reactive Diffusion Policy (RDP) https://reactive-diffusion-policy.github.io/ に動画がある
--論文: Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation (Xue et al., 2025 / arXiv)
--Slow (Vision): Diffusion Policyが「大まかな動き（次はあっちへ行く）」を生成（低頻度）。
--Fast (Tactile): 別の高速なネットワークが、手先の力覚/触覚センサーの値を見て、「今ぶつかったから少し引く」「抵抗があるから強く押す」といった微修正を（高頻度で）行う。
--人間は「力覚提示装置（ハプティックグローブ等）」を持ったわけではなく、「力の可視化（AR）」を見ながらVRコントローラーで操作しました。
--データ収集システム：TactAR (Tactile Augmented Reality)
--操作方法: 人間はVRコントローラーを使用し、ロボットを遠隔操作（Teleoperation）します。
--フィードバック: 手に力が返ってくるわけではありません。その代わり、AR（拡張現実）を使って、ロボットの手先に「現在の接触力や変形」を3Dの矢印やヒートマップとして可視化して表示します。
--効果: これにより、操縦者（人間）は「あ、今強く押しすぎているな」と目で見て判断でき、適切な力加減で高品質なデモンストレーションデータを作成できます。
--Fast Policyの学習データ構造
--このTactARを使って収集された**「人間のデモンストレーションデータ（数十分〜数時間分）」**がそのまま学習に使われます。特別な「Fast学習専用データ」があるわけではなく、1つのデータセットを2段階で使います。
--入力: ロボットの触覚センサー値（GelSight画像や力覚値）
--正解ラベル: その時の人間（エキスパート）の操作コマンド
--学習の仕組み: 「この触覚パターンの時、人間はどう動いたか？」をFast Policy（Tokenizer）に学習させます。


-データのとり方
--モーキャプ・グローブ・いろんな位置からカメラ（ポイントクラウドを使うので dexcap などは point cloud encoder を使うために） https://github.com/j96w/DexCap

-ダイナミックな全身運動は、制御性がよくタスクに特化しているのだとすると、
--(パルクール、サッカー、歩行)
--PPO (Proximal Policy Optimization) + Sim 大規模強化学習 
--OpenAI: Rubik's Cube 13000年分 5指ハンドで片手でルーリックキューブを解く。成功率60%, しかも結構早い https://openai.com/ja-JP/index/solving-rubiks-cube/ 2019年10月15日
--ETH Zurich ANYmal: 数百~数千年分
--Izaac上で動作させるなどするから。

-PPOに人間のデータを入れる方法
--1. ウォームスタート（Pre-training / Warm Start）
--2. DAPG (Demo Augmented Policy Gradient) の考え方をPPOに適用したもの。「最初は人間の真似を重視し、徐々に独り立ちして試行錯誤（PPO）を重視する」という滑らかな移行が可能になります。OpenAIのルービックキューブ（Dactyl）もこのアプローチを使っています。
--3. 状態リセット（Reference State Initialization / Reset to Demo）エピソードの開始地点を、**「人間が成功させたデモデータの途中（例えばゴール手前）」**に設定します。まず「ゴールの直前（あと1歩で成功）」からスタートさせる → ロボットはすぐ報酬をもらえる。徐々にスタート地点を後ろにずらしていき、最終的に「最初から」スタートさせる。効果: 「逆上がり」の練習で、先生に腰を支えてもらって「回る感覚」を覚えてから、徐々に補助を減らすのと同じです。これで成功体験を効率よく学習できます。


-マニピュレーションの場合のPPO
--適当に腕を振り回しても、偶然「複雑な形状の物体を、正しい角度で、正しい力加減で掴んで、持ち上げる」ことなんて絶対に起きません。「報酬への架け橋」がかからないため、いつまで経っても学習がスタートしません（これをSparse Reward問題と呼びます）。
--シミュレーションと現実の「摩擦」が違う（Sim-to-Real Gap）

-人間の計測のみでできそうなこと、成功率の直感（テレオペなし） with 現時点での最高の AI
--100% 人差し指で地面でTを⊥に回転させる https://www.youtube.com/watch?v=CmZ8aepZO1g&t=1116s
--90% 倒れたコップをもとに戻す https://www.youtube.com/watch?v=CmZ8aepZO1g&t=1116s
--85% 片手でスポンジを拾う https://arxiv.org/abs/2403.07788
--60% 片手でボールを拾う https://arxiv.org/abs/2403.07788
--70% 両手で皿を拭く https://arxiv.org/abs/2403.07788
--80% ピザにピザソースを塗る https://www.youtube.com/watch?v=CmZ8aepZO1g&t=1116s
--30% 茶筒の蓋を開ける https://www.youtube.com/watch?v=-PmjRjgXKuo
--(65% 茶筒の蓋を開ける https://www.youtube.com/watch?v=-PmjRjgXKuo テレオペ30回) https://www.youtube.com/watch?v=-PmjRjgXKuo
--15% ハサミと紙に手をかけた状態で、それらを持ち上げて紙をハサミで切る　https://www.youtube.com/watch?v=-PmjRjgXKuo
--0% 茶筒の蓋を開けてスプーンでお茶をかきだす https://www.youtube.com/watch?v=-PmjRjgXKuo
--(25% 茶筒の蓋を開けてスプーンでお茶をかきだす https://www.youtube.com/watch?v=-PmjRjgXKuo テレオペ30回)

-限界
--画像->点群は、絶対距離(Metric Depth)はあまりうまくいってない。
--動画→テレオペだが、動画だけは本当に厳しい。
---Diffusion Policy で Push-T 100%, コップを直すの90%。
---DexCap で瓶を開けてスプーンを拾ってお茶を出す→30%, テレオペ 30 corrections 後に70%。ハサミで紙をきる→15%, 30 corrections後に45%
--接触・深度・IMUはあまりうまく行っていない
---画像（RGB）から深度を推定するモデルは成功していますが、LiDARの点群データやToFセンサのRawデータそのものを直接入力として扱う「3D点群の基盤モデル（Uni3Dなど）」は、テキストや画像のLLMに比べると、まだデファクトスタンダードと呼べるほど圧倒的なモデルが確立されていない
--VQAではロボットがものと掴んでいるかどうかという基本的なことを理解していないことが多い（人がものを掴んでいることを把持していると判断しがち）
--遅い (Prompt2Walkによるシミュレーションで高速にVLAが応答したらどうなるかを想定する実験はある)
--成功率が低い (デモではできているように見えるが、実際に見ると全然できてない)
--身体性 (特異点など)
--手探り
Generative+AI の変更点

検索

メモ

僕の経験

生活

常識

金銭

旅行

健康

美術

学業

国

言語

エンジニアリング

統合システム

ハード

ソフト

管理

制御

趣味

嗜好品

鑑賞

習得

情報発信

デザイン

情報発信

文章

ビジネス

事業

会計

商談

投資

遂行

情報・知的財産

研究

研究基本

研究課題発見

研究方法

研究表現

研究発表参加

研究哲学

研究室運営

最新の70件