2024-02-24 現在
概要 †
- 生成 AI は明らかに質的に異なるパラダイム。きちんと追う必要がある。
- このイノベーションによって英語母国語話者はより有利になった。
TODO †
サービス †
OpenAI †
- ChatGPT Pro
- 生成速度が遅い、音声入力がない、コード実行ができない、画像生成雑、音声読み上げがない、Colab 連携がない、検索による verification がないなどの問題があり、Gemini がおすすめ
- OpenAI API
- プリペイドで叩けるのは非常に便利というか安心感がある
Google †
ツール †
- Vertex AI Studio
- Vertex AI
- API ツール群、システムを作りたい時は何でも揃っていて便利
- Gemini Advanced
- チャットツール。現在これが良さそう。今後の Drive などとの連携などで将来性がある
- 個人的には、Gemini をファインチューンするみたいなことができるようになるととても将来性がありそうなものだけど…
- 画像説明、画像生成もできる
モデル †
- Gemma
- Gemini Pro / Gemini Ultra
- 言語のみのモデル PaLM, PaLM 2 の後継で、マルチモーダル
- AlphaCode? 2 に Gemini Pro が使われているらしいが、Gemini Pro で AlphaCode? 2 を利用できるようにするという話はまだ見当たらない
現在できることとおすすめ †
- 「このモデルはこのサービス…」と探すコストが面倒すぎるので、Vertex AI にまとめるのが良い気がしている
- 高度なものは Vertex AI に概ねある(若干スタートアップより遅くリリースされがち)
機能 | サービス | 備考 | コード生成 | Gemini | Gemini にはコード実行、Copilot, Repit 連携がある。Vertex AI のコード生成モデルを使っている?のかは謎 | ビデオ→テキスト | Vertex AI | | テキスト→ビデオ | Sora, Vertex AI | | 画像修正 | Vertex AI | | テキスト→それを人が喋っているビデオ | | できるしめちゃくちゃクオリティが高いベンチャーのものが合ったはず。日本語で話すと英語でそれっぽい人がそれっぽいことを話すやつ。 | 日常用音声入力 | Gemini | Ubuntu では音声入力アプリを使うのが非常に面倒。Gemini のボックスの右の音声入力がマジで便利。 | 音声→テキスト | Vertex AI Studio | 議事録を起こすみたいなことができる | テキスト→音声 | Vertex AI Studio | |
チャットアプリ †
- 2024-02-24 現在、Gemini を使うのがよさそう。
- 用途
- 検索の代わり(プログラミングの調べものとか)
- まとまったプログラムを書いてもらう
- 言語学習(この言語圏でどちらが自然な言い回しか)
- シェルスクリプトやワンライナーとかを作ってもらう。正規表現など
- 学習の初めに大枠を掴む目的
- 雑に司令ができる分、タイピング速度がボトルネックになりがち。
- プライバシー
- 概ね history を切れば学習から免れることができる
システム構築 †
- 自動構築の場合、Vertex AI でやることもできるが、現在のところ GPT 系がお手軽ではある
- langchain などフレームワークが安定しつつある
- Fine tune
- モデルを望ましい形にチューニングすることができる。API で叩くだけ、必要なショット数も 10 ~ 500 くらいでいける。
- Vertex AI の code-gecho, code-bison, codechat-bison モデルなどもファインチューンできるっぽい。
- RAG などの開発をしている人がいるようだが、正直賞味期限が短そうすぎて何がしたいのかわからない。
|