株式会社ずんだもん技術室AI放送局

By: 株式会社ずんだもん技術室AI放送局
  • Summary

  • AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。
    Show More Show Less
activate_Holiday_promo_in_buybox_DT_T2
activate_samplebutton_t1
Episodes
  • 株式会社ずんだもん技術室AI放送局 podcast 20241004
    Oct 3 2024
    関連リンク Introducing vision to the fine-tuning API OpenAIは、GPT-4oのファインチューニングAPIに画像データの利用を導入しました。これにより、テキストデータに加えて画像データを用いたモデルのカスタマイズが可能になり、画像認識能力の向上を目指せます。 従来、テキストデータのみのファインチューニングでは限界があった多くのタスクにおいて、大幅な性能向上が期待できます。 具体的な手順は、テキストデータのファインチューニングと同様です。適切なフォーマットで画像データセットを用意し、OpenAIプラットフォームにアップロードするだけです。わずか100枚程度の画像でも効果が見られ、データ量を増やすことでさらに精度を高められます。データフォーマットはドキュメントを参照ください。 既に、Grab、Automat、Coframeといった企業が本機能を活用し、実用的な成果を上げています。Grabは道路標識認識や車線数の検出精度を向上させ、Automatは業務自動化における成功率を大幅に改善、Coframeはウェブサイトのデザイン生成における一貫性を高めました。これらの事例は、画像データを用いたファインチューニングが様々な分野で大きな可能性を秘めていることを示しています。 セキュリティとプライバシーについては、OpenAIは自動化された安全評価を実施し、利用状況を監視することで、利用規約の遵守を確保しています。また、企業プライバシーへのコミットメントに基づき、ファインチューニングされたモデルとビジネスデータはユーザーが完全に所有・管理します。OpenAIは、ユーザーの明示的な許可なく、このサービスで使用された入力や出力をモデルの学習に使用することはありません。 本機能は、有料プランの開発者全員が利用可能です。2024年10月31日までは1日あたり100万トレーニングトークンが無料で提供されますが、それ以降は料金が発生します(トレーニング:100万トークンあたり25ドル、推論:入力100万トークンあたり3.75ドル、出力100万トークンあたり15ドル)。画像入力はサイズに基づいてトークン化され、テキスト入力と同じトークンレートで課金されます。詳細な料金体系はAPI価格ページを参照ください。 GPT-4oの最新モデルスナップショット(gpt-4o-2024-08-06)で利用可能です。ファインチューニングダッシュボードから簡単に開始できます。 使い方の詳細については、OpenAIのドキュメントをご確認ください。 引用元: https://openai.com/index/introducing-vision-to-the-fine-tuning-api/ An AI companion for everyone - The Official Microsoft Blog マイクロソフトは、全ての人々のためのAIコンパニオン「Copilot」を発表しました。Copilotは単なるツールではなく、ユーザーの生活を支援し、人間らしさを豊かにするAIアシスタントを目指しています。技術的な詳細に囚われるのではなく、ユーザーの体験を重視し、より穏やかで役に立つ、そして支えとなるテクノロジーを目指しているとのことです。 Copilotの主な機能は以下の通りです。 パーソナルアシスタント機能: ユーザーの生活状況を理解し、プライバシーとセキュリティを保護しながら、様々なタスクを支援します。予定の計画、医者への同行、メモ取り、子どもの誕生日パーティーの準備など、多岐に渡る場面で役立ちます。ユーザーの行動パターンを学習し、時間と共に個々のニーズに合わせた機能を提供します。 Copilot Voice: 音声による自然なインタラクションを可能にします。アイデア出し、簡単な質問、日々のストレス発散など、様々な用途に使用できます。複数の音声オプションも用意されています。 Copilot Daily: 朝のニュースや天気予報を要約して提供します。情報過多を防ぎ、簡潔で分かりやすい情報を提供します。Reuters、Axel Springerなど信頼できる情報源からのみ情報を取得します。 Copilot Discover: Copilotの機能や会話の開始方法を案内し、使い始めるのを容易にします。ユーザーの許可を得て、Microsoftサービスとのやり取りに基づいてパーソナライズされます。 Copilot in Microsoft Edge: Microsoft Edgeブラウザに統合され、質問への回答、ページ内容の要約、テキスト翻訳、文章の書き換えなどを迅速に行えます。アドレスバーに「@...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241003
    Oct 2 2024
    関連リンク 妻がVtuberになった話 結婚2年目の専業主婦である妻が、突如としてVtuberになることを宣言しました。最初は戸惑った夫でしたが、妻の熱意と、現在では比較的簡単にVtuberデビューできる状況を理解し、応援することにしました。 妻は事前にアバター作成、マイク、配信ソフトの準備など、綿密な計画を立てており、夫は妻の本気度を改めて認識しました。初配信はゲーム実況で、予想をはるかに超える再生数を記録。特に、ある配信では1万再生を達成するなど、大きな成功を収めました。 配信中のコメントには「可愛い」「声が癒される」といった賞賛が多数寄せられ、夫は妻が既婚者であることを視聴者が知らないという状況に、一種の優越感と自己肯定感の高まりを感じました。さらに、スーパーチャット(投げ銭)も増加し、妻の活動が経済的にも成功していることを実感しました。 夫は、妻のVtuber活動の成功と、その秘密を知っている自分自身の特殊な立場を、心地よく感じているようです。 妻はVtuberとしての成功を、夫は妻の成功と秘密を知る立場をそれぞれ楽しんでいる、という内容です。 引用元: https://anond.hatelabo.jp/20241002024542 GitHub - slashml/amd_inference このGitHubリポジトリslashml/amd_inferenceは、AMD GPU上で大規模言語モデル(LLM)を実行するためのDockerベースの推論エンジンを提供しています。Hugging Faceから入手可能なモデル、特にLLaMAモデルファミリーとの連携を重視した設計です。 主な機能: AMD GPUを用いたLLM推論の実行を可能にします。Hugging Faceのモデルを容易に利用できます。Dockerコンテナ内で動作するため、環境構築が容易です。 前提条件: AMD ROCm対応GPUDockerホストシステムにROCmドライバー(バージョン5.4.2以上推奨)のインストール リポジトリ構成: ソースコード、Dockerfile、必要パッケージリスト(requirements.txt)、実行スクリプト等が含まれています。 ライセンス: Apache-2.0ライセンス 制約: このプロジェクトは、現在開発中である可能性があります(READMEに明記されていない場合でも、コミットログから判断できます)。 そのため、機能や安定性においては、本番環境での利用には十分な注意が必要です。 また、具体的な使用方法や高度なカスタマイズ方法は、GitHubリポジトリのREADME.md等を参照する必要があります。この要約では、詳細な使用方法やトラブルシューティングについては触れていません。 新人エンジニアの方へ: このプロジェクトは、AMD GPUを活用してLLMを高速に実行したい場合に役立ちます。Dockerを使用することで、環境構築の手間を省くことができます。ただし、開発中のプロジェクトである可能性があるため、利用にあたっては注意深くREADMEなどを確認し、必要に応じて修正や改良を行う必要があるかもしれません。 不明な点があれば、GitHubのIssue機能を利用して質問することをお勧めします。 引用元: https://github.com/slashml/amd_inference PyTorch Conference 2024 Recap: On Fire 🔥 2024年サンフランシスコで開催されたPyTorch Conferenceには、約1500人のAI研究者、開発者、愛好家が参加しました。2日間に渡り、人工知能(AI)と主要なオープンソース機械学習フレームワークであるPyTorchの進歩に焦点を当てた、活気のある議論、洞察に富んだ基調講演、実践的なセッションが行われました。参加者は、生成AI、大規模言語モデル(LLM)、そしてオープンソース技術がAIイノベーションを推進する上で果たす重要な役割について深く探求しました。 会議の主要テーマは3つありました。 生成AIとLLM: 多くのセッションでは、PyTorchが大規模言語モデルと生成AIアプリケーションの主要なフレームワークとしてどのように進化し続けているかに焦点を当てていました。これらのモデルのスケーリングから、様々なハードウェアプラットフォームでのパフォーマンスの最適化まで、LLMアーキテクチャにおける継続的な進歩と課題が示されました。 オープンソースを通じたAIの民主化: オープンソースツールとコミュニティがAIの未来を形作る上で重要であるというテーマが繰り返し取り上げられました。PyTorchは、あらゆるレベルの開発者にとっての包括性、使いやすさ、アクセシビリティに...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241002
    Oct 1 2024
    関連リンク Show HN: A real time AI video agent with under 1 second of latency Tavus社が開発した、1秒以下の低遅延を実現したリアルタイムAIビデオエージェントが発表されました。これは、人間と自然な会話ができるデジタルツイン(アバター)を生成する技術です。 概要 Tavus社は、AIビデオモデルを用いてデジタルツインを構築するAI研究開発企業です。今回の発表では、人間とリアルタイムで自然な会話ができるAIビデオエージェントを開発したことを示しています。このエージェントは、1秒以下の低遅延を実現しており、まるで人と話しているような感覚を得られます。 制約と課題 低遅延、スケーラビリティ、コストの3つのバランスを保つことが大きな課題でした。特に、初期のモデルでは、1つの会話にH100 GPUを1つ使用する必要があり、スケーラブルでコスト効率の良いシステムではありませんでした。 そこで、Phoenix-2モデルを開発し、以下の改善を行いました。 Gaussian Splattingを用いたフレーム生成による高速化GPUメモリとコア使用量の最適化による低スペックハードウェアでの動作ストリーミング処理や並列処理などの効率化 さらに、音声認識、LLM、音声合成、ビデオ生成などの各コンポーネントを高度に最適化することで、1秒以下の低遅延を実現しました。LLMについては、処理速度だけでなく、最初のトークン生成までの時間を短縮することが重要でした。また、音声の終わりを正確に検知する技術も開発し、会話の自然さを向上させています。 この技術は、顧客サポートや教育、エンターテイメントなど、様々な分野で活用が期待されています。 補足 この技術は、まだ開発段階であり、完璧な自然さや精度を実現しているわけではありません。GPUリソースの利用にはコストがかかります。この技術が社会に与える影響については、倫理的な観点からも議論が必要となります。 引用元: https://news.ycombinator.com/item?id=41710227 Ask HN: How to deal with AI generated sloppy code 近年、AIを用いたコード生成ツールが普及し始めていますが、生成されるコードが冗長で複雑になり、保守性が低下するという問題が指摘されています。 Hacker Newsの記事では、AI生成コードの品質に関する懸念が議論されています。投稿者は、AIによって生成されたコードが、多くの関数や型、間接的な呼び出しを含み、手書きのコードよりもはるかに長く、理解しにくいものになっていると述べています。また、このようなコードには、従来であれば容易に発見できたバグが潜んでおり、デバッグに非常に時間がかかることも問題視されています。 これは、かつてJava開発で起こった、IDEのオートコンプリート機能によってクラスやオブジェクトが乱用され、コードが複雑化してしまった問題と似ていると投稿者は指摘しています。 AI生成コードは、動作するコードを生成するものの、保守性の観点からは望ましくない書き方をしていることが多く、将来的に大きな問題となる可能性があります。 議論では、AI生成コードの問題に対処する方法として、以下のような意見が出ています。 AIにコード生成だけでなく、コードレビューやテストもさせるのではなく、どちらかに限定するAIに、より簡潔で表現力豊かな言語(Rubyなど)で疑似コードを生成させ、それをJavaなどに翻訳させるAIに、経験豊富なエンジニアのコードスタイルを模倣するように指示するAI生成コードの特性を理解した上で、適切なコードレビューやリファクタリングを行うAI生成コードの保守性を考慮し、料金を調整する AIによるコード生成は、開発の効率化に役立つ一方で、コードの品質や保守性を考慮することが重要です。エンジニアは、AIを活用しつつ、コードの可読性や保守性を維持するための対策を講じる必要があります。 引用元: https://news.ycombinator.com/item?id=41677207 LLMの日本語化はベクトル表現にも有効か?LLM2Vecにおける日本語ドメイン適応の効果 この記事では、大規模言語モデル(LLM)を用いたテキストベクトル化手法「LLM2Vec」とその日本語ドメインへの適応について解説しています。 LLM2Vecは、LLMのテキスト生成能力を活かして、テキスト全体を効果的に...
    Show More Show Less
    Less than 1 minute

What listeners say about 株式会社ずんだもん技術室AI放送局

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.