人工知能 (AI) 業界は急速に変化し、進化しています。私たちは、可能だと思っていたことの限界を押し広げる、驚くべき進歩と革新的な製品を目撃しています。
今週、当社はさまざまな分野に革命をもたらし、個人の生産性を向上させる、印象的で最先端の製品をいくつかお届けしました。
OpenAI は ChatGPT Web 検索を正式に開始しました。
OpenAIは正式に ChatGPTウェブ検索 この機能により、関連する Web リンクを含む検索結果を迅速かつリアルタイムで取得できます。この機能を実現するために、他の Web 拡張機能やアプリを使用する必要はなくなりました。
すべての検索回答にはソースの引用も含まれます。ChatGPT は、検索クエリにコンテキストを組み込むことで、より詳細な回答も提供します。
さらに、Chrome ブラウザ拡張機能をダウンロードすると、ChatGPT をデフォルトの検索エンジンとして設定できます。こうすることで、ChatGPT をすばやく直接使用できるようになります。
使い方 ChatGPTウェブ検索 ChatGPT Plusの加入者でない場合は、
OpenAI は、ChatGPT Search は ChatGPT Plus および Team ユーザーのみがアクセス可能であり、すぐに使用できることを発表しました。有料ユーザーはしばらく待つ必要はありません。
しかし、OpenAIは今後数か月以内に無料ユーザーへのアクセスを展開する予定だ。
ロールアウトを待つ: 有料加入者でない場合は、OpenAI がこの機能を無料でユーザーに拡張するまで待つ必要があります。これは今後数か月以内に予定されています。
順番待ちリストに参加する: 可能な場合は、ChatGPT 検索などの機能への早期アクセスのために OpenAI が提供する待機リストに参加することを検討してください。
定期的にチェックする: 検索機能が無料ユーザーにいつ利用可能になるかについては、OpenAI からの発表に注意してください。
ChatGPT はどのようにして Web 検索結果の正確性を確保していますか?
ChatGPT は、いくつかの方法で検索結果の正確性を保証します。
リアルタイムデータ取得: 検索エンジンを通じて最新の情報にアクセスし、信頼できるソースからコンテンツを収集して引用します。
選考基準ChatGPT は、ユーザーのクエリに一致する関連性が高く、信頼性が高く、最新のソースを優先します。
検索の絞り込み: 最初の結果が不足している場合は、関連性を高めるためにクエリを絞り込みます。
ユーザーフィードバック: ユーザーの修正に基づいて適応し、時間の経過とともに応答を改善します。
HeyGenがデジタルヒューマンを作成する新機能を発表
HeyGen は、撮影せずに写真のみを使用してデジタルヒューマンを作成できる新機能を開始しました。
自分の写真をアップロードするか、テキストプロンプトを入力して仮想キャラクター画像を生成し、それを使用して独自の AI ビデオデジタルアバターをトレーニングできます。
キャラクターの参照画像を多くアップロードするほど、生成される画像の顔の特徴の一貫性が高まります。
これらのデジタルヒューマンは、自然な体の動き、カスタマイズ可能な衣服、ポーズ、交換可能な背景を備えており、性別、年齢、民族を選択できます。
スクリプトを編集し、さまざまな声や感情表現を選択し、短時間でビデオをすばやく生成できます。
SunoがPersonasを立ち上げました
スノ ペルソナと呼ばれる新機能を開始しました。
これにより、ユーザーはボーカル、スタイル、雰囲気などの曲の核となる特徴を保存し、新しい作品に再利用できるようになります。
この機能は、独自の音楽スタイルを維持できるように設計されています。
ペルソナの作成方法: 好きな曲を選択し、「作成」をクリックしてペルソナを作成します。歌詞とスタイルの追加: ユーザーは、通常の作成と同じように歌詞とスタイルを追加できます。
公開および非公開設定: ペルソナを公開または非公開に設定できます。公開ペルソナには独自のページがあり、他のユーザーが使用でき、ライブラリと個人プロフィールに表示されます。
GitHub は GitHub Copilot にさらに多くの AI モデルを導入しました
GitHub は、開発者のオプションとカスタマイズ機能を強化するために、GitHub Copilot にさらに多くの AI モデルを導入すると発表しました。
新しいモデルには以下が含まれます。
クロード 3.5 ソネット
ジェミニ 1.5 プロ
o1-preview と o1-mini
GitHub は、完全に自然言語でアプリケーションを構築するためのツールである GitHub Spark もリリースしました。
サーバーやデータベースの構成などの複雑な展開手法を知る必要はありません。
GitHub Spark は、すべてのクラウド セットアップとリソース割り当てをバックグラウンドで自動的に完了するため、初心者でも完全に自然言語で Web アプリケーションを作成できます。
言い換えれば、「何をしたいか」を伝えるだけで、機能的なアプリが提供され、プロセスは会話と同じくらい簡単になります。
Stability AI は Stable Diffusion 3.5 Medium モデルをリリースしました。
商用、非商用を問わず、無料でご利用いただけます。25 億のパラメータ モデルを備え、特にコンシューマ ハードウェア向けに設計されています。
このモデルに必要な VRAM は 9.9 GB のみです。コンシューマー ハードウェアのほとんどの標準グラフィック カードで実行できます。
複数の解像度で高品質の画像を生成でき、他の中型モデルよりも優れた結果を生み出します。
Stability AI の分析によると、Stable Diffusion 3.5 Large は即時遵守において市場をリードしており、画質においてははるかに大型のモデルに匹敵します。
Stable Diffusion 3.5 の使い方は?
ローカル使用のためのインストール手順
現在、Stable Diffusion 3.5 LargeおよびStable Diffusion 3.5 Large Turboモデルは以下からダウンロードできます。 抱きしめる顔 そして推論コードは ギットハブその後、コンピューターやその他のハードウェアで実行できます。
コンピューターで実行する前に、前提条件を設定し、必須のライブラリをインストールする必要があります。
必要な Python ライブラリをインストールしている間、Stable Diffusion をローカルで実行できます。
オンラインアクセス
ComfyUIの使用
ComfyUI は、Stable Diffusion 3.5 でワークフローを管理するためのユーザーフレンドリーなインターフェースを提供します。さまざまなファイルをインターフェースにドラッグして、画像生成タスクを簡単に実行できます。
顔が見える空間を使う
Hugging Face Spaces にアクセスすると、インストールを必要とせずにブラウザで直接 Stable Diffusion モデルを実行できます。
より多くのユーザーのために、多くのアプリやウェブサイトが画像生成用の最新の Stable Diffusion 3.5 モデルをすぐに統合する予定ですので、アップデートにご期待ください。
超軽量デジタルヒューマン: 携帯電話で実行できる超軽量デジタルヒューマンモデル
超軽量デジタルヒューマン: モバイルデバイス上でのリアルタイム操作をサポートする超軽量のデジタルヒューマンモデル。
モデルのアルゴリズムは、低電力デバイスでもスムーズに実行されるように最適化されています。
トレーニングを完了するには、3 ~ 5 分のビデオのみが必要です。
ビデオのすべてのフレームで人物の顔全体が映っており、音声がノイズなしでクリアであることを確認します。新しいフォルダに保存します。
さらに、最適化されたデータフローと推論プロセスにより、モデルは入力データ (ビデオやオーディオなど) をリアルタイムで処理し、デジタルヒューマンによる即時の応答を可能にします。
の AIビデオプラットフォームD-ID 新しいデジタルヒューマンツールをリリース
AIビデオプラットフォームD-IDは、2つの新しい デジタルヒューマンツール—Express と Premium+ はコンテンツ作成用に特別に設計されており、企業がマーケティング、販売、顧客サポートなどの分野でよりリアルな仮想人間を適用できるようにすることを目的としています。
Express 仮想人間を生成するには 1 分間のビデオ トレーニングのみが必要で、ユーザーの頭の動きと同期できます。
Premium+ 仮想人間にはより長いトレーニング ビデオが必要ですが、手や胴体の動きを実行できるため、よりリアルな人間同士のやり取りが可能になります。
これらのツールを使用すると、仮想人間のビデオを簡単に生成できるため、マーケティングにおけるビジネスコストが削減され、適用範囲が広がります。
Google Gemini APIが「検索アンカーリング」を導入
Google は、Gemini API と Google AI Studio で新しい機能「Google Search Anchoring」をリリースしました。非常に便利です。
この機能は、Google 検索からのリアルタイム データを活用して、より正確で最新の情報、サポート リンク、検索候補をユーザーに提供し、AI 応答の信頼性を高めます。
検索を通じて得られた最新のニュースデータを活用することで、誤情報が減ります。
リアルタイム検索では最新の情報を取得し、特定の検索結果でより適切な回答を得ることができます。
回答には情報源へのリンクが含まれており、ユーザーは情報の信頼性を確認しやすくなります。
デスクトップ用クロード
人類のAI Claude デスクトップ アプリを構築しました。これで、Mac と Windows で利用できるようになります。
あなたの AIアシスタントクロードは、より深い作業をより迅速かつ創造的に行うお手伝いをします。
あらゆるデバイスで Claude を使用できるようになりました。Claude と会話したり、質問の回答を見つけたり、画像の内容を分析したりするのに Claude の助けを借りることができます。
クロードは PDF 内のチャートとグラフを理解できるようになりました。
Anthropic は、Claude PDF を Anthropic API で送信する機能を展開していました。
新しい PDF サポート ベータ版を使用すると、API リクエストに PDF を直接含めることができます。研究論文の閲覧がさらに簡単になります。
新しい Claude 3.5 Sonnet モデルは PDF 入力をサポートし、ドキュメント内のテキストとビジュアル コンテンツの両方を理解するようになりました。
この機能は機能プレビューで体験できます。
PDF の内容について具体的な質問をすることができ、Claude は画像読み取り機能に基づいて質問に答えることができます。
PDF サポートはどのように機能しますか?
- システムは PDF の各ページを画像に変換します。
- システムはテキストと画像を分析することで PDF をより深く理解します。
- 他のClaude機能も同時に使用できます。
ClaudeのVisual PDF機能を使用するにはどうすればいいですか?
Claude でビジュアル PDF 機能を有効にするには、次の手順に従います。
- 設定にアクセスする:
Claude インターフェースを開き、フラスコのアイコンまたは設定メニューを探します。 - ビジュアルPDFを有効にする:
フラスコアイコンをクリックし、「ビジュアル PDF」オプションに移動してオンに切り替えます。これにより、Claude は PDF ドキュメント内の画像とビジュアル要素を処理および解釈できるようになります。 - PDFをアップロード:
この機能を有効にすると、PDF ドキュメントをチャット ウィンドウにドラッグするか、アップロード ボタンを使用してアップロードできます。非常に簡単で便利です。 - クロードと交流する:
PDF ファイルをアップロードした後、PDF に含まれるテキストと画像の両方について Claude に質問することができ、複雑なドキュメントとのやり取りが強化されます。これにより、ドキュメントをより便利に読み、効率を高めることができます。