Generative+AI

2024-02-24 現在

概要 †

生成 AI は明らかに質的に異なるパラダイム。きちんと追う必要がある。
このイノベーションによって英語母国語話者はより有利になった。

↑

TODO †

プログラムの自動補完

↑

サービス †

↑

OpenAI †

ChatGPT Pro
- 生成速度が遅い、音声入力がない、コード実行ができない、画像生成雑、音声読み上げがない、Colab 連携がない、検索による verification がない、「画像で説明してください。」で検索結果から画像を引っ張ってこれない、などの問題があり、Gemini がおすすめ
OpenAI API
- プリペイドで叩けるのは非常に便利というか安心感がある

↑

Google †

↑

ツール †

Vertex AI Studio
- ぱぱっとやりたい AI っぽいことはだいたいここにいくとできる
Vertex AI
- API ツール群、システムを作りたい時は何でも揃っていて便利
Gemini Advanced
- チャットツール。現在これが良さそう。今後の Drive などとの連携などで将来性がある
- 個人的には、Gemini をファインチューンするみたいなことができるようになるととても将来性がありそうなものだけど…
- 画像説明、画像生成、検索による画像リンクもできる
- プロンプト
  - 「画像で説明して下さい」と書くと、生成するのではなく、Web 上から画像を引っ張ってきてくれる。

↑

モデル †

Gemma
- 言語のみのオープンモデル（not オープンソースモデル）、商用可能。出力の責任とオーナシップはユーザが持つ
- Gemma 2B, 7B がある。7B は 8.5B パラメータなのに 7B と名前がつけられている。
Gemini
- 言語のみのモデルだった PaLM, PaLM 2 の後継で、マルチモーダル
- Gemini 1.0 Pro
  - AlphaCode? 2 に Gemini Pro が使われているらしいが、Gemini Pro で AlphaCode? 2 を利用できるようにするという話はまだ見当たらない最大 100 万のトークンを継続的に処理することが可能
  - Vertex AI でも使える
- Gemini 1.0 Ultra
  - Gemini Advanced で現在使えるモデル
  - コンテクストウィンドウのトークン数 32k
- Gemini 1.5
  - コンテクストウィンドウのトークン数デフォルトでは 128k, 潜在的には最大 1m のトークン。長いコンテキストウィンドウを扱えるようになった。これは質的に異なっていて、ファインチューンせずともインコンテクストで学習するみたいなことができる。世界中で話者が 200 人未満であるカラマン言語の文法マニュアルを与えると、モデルは同じ内容を学習している人と同様のレベルで英語をカラマン語に翻訳することを学習できる
  - Gemini 1.5 Pro をまず公開予定、1.0 Ultra と同程度の性能
  - 1 時間の動画、11 時間の音声、30000 行のコード、402 ページの文書を入力できる
  - 今後、標準で 128,000 トークンのコンテキストウィンドウを備えた 1.5 Pro も導入する予定。また、標準 128,000 のコンテキストウィンドウから 100 万トークンまでのスケールアップに対応した価格帯を導入する予定

↑

現在できることとおすすめ †

「このモデルはこのサービス…」と探すコストが面倒すぎるので、Vertex AI にまとめるのが良い気がしている
高度なものは Vertex AI に概ねある（若干スタートアップより遅くリリースされがち）

機能	サービス	備考
コード生成	Gemini	Gemini にはコード実行、Copilot, Repit 連携がある。Vertex AI のコード生成モデルを使っている？のかは謎
ビデオ→テキスト	Vertex AI
テキスト→ビデオ	Sora, Vertex AI
画像修正	Vertex AI
テキスト→それを人が喋っているビデオ		できるしめちゃくちゃクオリティが高いベンチャーのものが合ったはず。日本語で話すと英語でそれっぽい人がそれっぽいことを話すやつ。
日常用音声入力	Gemini	Ubuntu では音声入力アプリを使うのが非常に面倒。Gemini のボックスの右の音声入力がマジで便利。
音声→テキスト	Vertex AI Studio	議事録を起こすみたいなことができる
テキスト→音声	Vertex AI Studio

↑

チャットアプリ †

2024-02-24 現在、Gemini を使うのがよさそう。
- 音声入力は
用途
- 検索の代わり（プログラミングの調べものとか）
- まとまったプログラムを書いてもらう
- 言語学習（この言語圏でどちらが自然な言い回しか）
- シェルスクリプトやワンライナーとかを作ってもらう。正規表現など
- 学習の初めに大枠を掴む目的
- 簡単 OCR
- 図表を Marmeid にする
- 音声入力から取引先で渡せる文章にする。

雑に司令ができる分、タイピング速度がボトルネックになりがち。

プライバシー
- 概ね history を切れば学習から免れることができる

↑

システム構築 †

自動構築の場合、Vertex AI でやることもできるが、現在のところ GPT 系がお手軽ではある
langchain などフレームワークが安定しつつある
Fine tune
- モデルを望ましい形にチューニングすることができる。API で叩くだけ、必要なショット数も 10 ~ 500 くらいでいける。
- Vertex AI の code-gecho, code-bison, codechat-bison モデルなどもファインチューンできるっぽい。
RAG などの開発をしている人がいるようだが、正直賞味期限が短そうすぎて何がしたいのかわからない。

↑

用語 †

Embedding
- Embedding Model: 不定形なテキスト・画像・動画を入力して、ベクトル\( \mathbb{R}^n \)を出力する関数
- Embedding: 入力されたテキスト・画像・動画を、意味的に特徴づけたベクトル\( \mathbb{R}^n \)へのハッシュ。意味的に似た意味の 2 つの文章から生成された Embedding 同士のコサイン類似度が大きくなる。
  - ベクトルの意味は説明不能
  - n は変更できて、Vertex AI Multimodal Embeddingでは 128, 256, 512 or 1408 [default]から選べる。
- 質問回答: 「正しい文章」を複数事前に用意しておく。それぞれの「正しい文章」に、その Embedding を計算して付与してデータベースに保存しておく。質問の Embedding に最もコサイン類似度が高い「正しい文章」を出力する。そうすると、質問回答のようなことができる。
  - Gemini の対話型のものだと、あることないこと喋られちゃうしファインチューニングがめんどいので、自分でコントロールしやすいという意味でうれしい。
- 文章検索: ↑と対して変わらないが、探したいドキュメントの文章を書いて、そのドキュメントの Embedding にもっとも近いドキュメントを探し出してくることができる。
- ベクターなので、分類・クラスタリングなども当然できる。ラベル付けとかできる。
Safety Setting
- API 経由だと、Gemini ではコアなもの以外（ハラスメント、ヘイトスピーチ、露骨な性表現、危険）の安全性設定を下げることができる。Google AI Studio ではオフにすることができないが、API 経由だとオフにもできる。

検索

メモ

僕の経験

生活

常識

金銭

旅行

健康

美術

学業

国

言語

エンジニアリング

統合システム

ハード

ソフト

管理

制御

趣味

嗜好品

鑑賞

習得

情報発信

デザイン

情報発信

文章

ビジネス

事業

会計

商談

投資

遂行

情報・知的財産

研究

研究基本

研究課題発見

研究方法

研究表現

研究発表参加

研究哲学

研究室運営

最新の70件

概要 †

TODO †

サービス †

OpenAI †

Google †

ツール †

モデル †

現在できることとおすすめ †

チャットアプリ †

システム構築 †

用語 †