ホームZ - バナーホーム itaRedditデータDAOとGen AIモデルトレーニングについて知っておくべきこと

RedditデータDAOとGen AIモデルトレーニングについて知っておくべきこと

The CryptonomistはAnna Kazlauskas, CEO and Co-founder of Vana’s, which Reddit Data DAOについてインタビューしました。 最初の週に140kのユーザーが検証済みのRedditアカウントでサインアップしました。Annaは現在、LinkedInやChatGPTなどの他のプラットフォーム向けにData DAOを構築するために開発者と協力しています。

DAOsに加えて、彼らはユーザーがデータをデータセットにプールできる他の手段を持っており、それはGenAIモデルのトレーニングに使用できます。例えば、portraitsやavatarsを作成することができます。

Vanaが行っていることを超えて、Annaと一緒に、プラットフォームが人々が新しいアプリケーションのためにデータを使用し、収益化するのを助けるにつれて、分散型AIスペースの成長について話しました。 

Summary

Vanaとその分散型AI分野におけるミッションの概要を教えていただけますか?

Vanaはユーザー所有のデータによって動作するユーザー所有のAIプラットフォームです。私たちの使命は、ユーザーが自分のデータと、それがAIモデルを通じて生み出す価値を所有することです。AIモデルの性能を向上させるためには、より多くのトレーニングデータが必要とされています。最終的に、AIモデルはそのデータの質に依存するからです。

例えば、LLaMA 3は約15兆語で訓練されており、これは公共のインターネット上で利用可能なデータ量にほぼ相当します。企業は現在、より多くのデータを取得しようとしており、時にはそれに数億ドルを支払っています。主要なテックプラットフォームは貴重なユーザーデータを蓄積し、ユーザーの許可を考慮せずに新しい技術を構築しており、これがイノベーションを妨げています。

Vanaでは、データをユーザーの管理下に置くことで、これらの囲い込まれたガーデンから解放しています。ユーザーがAIモデルに直接貢献し、自分のデータの使用方法やAIの使用方法を選択できるようにします。最高のデータにアクセスできれば、GPT-6のようなモデルの性能を上回ることができると信じています。Vanaは、プライベートでユーザー所有のデータのためにゼロから設計されたレイヤー1ブロックチェーンとして構築されています。 

Reddit Data DAOは最初の週に140k人のユーザーがサインアップしました。この急速な採用を促進した要因は何だと思いますか?また、このローンチからどんな教訓を得ましたか?

Reddit Data DAOは、採用の観点から見て驚異的な成功を収め、最初の週に140k以上のユーザーが登録しました。このレベルの採用はDAOにとって異例であり、現在では史上最大のデータDAOとなっています。 

急速な採用を促進した要因の一つは、物語の多くがすでに設定されていたことです。ユーザーはデータ販売に関する報道を通じて、自分のデータの価値についてますます認識するようになっています。Redditがあなたのデータを2億ドルで販売していることや、Appleがデータを5千万ドルで買い上げていることに気づくと、その価値についてより一層認識するようになります。 

ユーザー所有の製品に対する強い欲求もあり、web3で構築された製品は、従来のDeFi製品を超えて、新しい所有権のフロンティアに移行しています。このトレンドは、Farcaster、DePINネットワーク、およびVana上に構築されたデータDAOsのようなプロジェクトで見られ、ユーザー所有の製品の新しい波を表しています。

重要な教訓の一つは、貢献要件の証明の必要性でした。100万人以上の人々がReddit Data DAOに参加しようとしましたが、多くの人々は一定期間存在し、最小限のデータを持つRedditアカウントを持っているという基準を満たしていませんでした。これは、質の高い貢献を確保するためのメカニズムを持つことの重要性を強調しています。

LinkedInやChat GPTのようなプラットフォーム向けにData DAOを作成する計画について言及されました。これらのプラットフォームに拡大する際に、どのようなユニークな課題と機会があるとお考えですか?

Vanaはユーザー所有のデータのためのピアツーピアネットワークであり、ビルダーはReddit Data DAO、LinkedIn Data DAO、ChatGPT Data DAOのようなさまざまなデータDAOを作成しました。 

これらの異なるデータソースは、AIモデルのトレーニングに非常に価値がありますが、現在は壁に囲まれたガーデンに閉じ込められています。これらのプラットフォームのそれぞれからデータを取り出すのは難しいことがありますが、データ規制のおかげで常に可能です。

Vanaはどのようにユーザーが自分のデータを収益化する力を与え、ユーザーがどのように利益を得たかの例は何ですか?

私たちの目標は、ユーザーがデータを同時に収益化し、保護するのを支援することです。例えば、Reddit Data DAOでは、彼らは現在、ユーザー所有のモデルをトレーニングしています(この段階では主にshitpostingに焦点を当てていますが、これは始まりに過ぎません)。モデルが使用されるたびにユーザーは報酬を受け取り、モデルの共同所有に対する経済的インセンティブが生まれます。 

そしてユーザーデータは完全にプライベートに保たれます – データを販売するのではなく、データは「レンタル」され、基礎となるデータは安全な環境を離れることはありません。

データプライバシーに対する懸念が高まる中、Vanaはどのようにしてユーザーデータを安全に保ち、Data DAOs内で倫理的に使用することを保証していますか?

データプライバシーは、単なるイデオロギーや好みの問題から経済的な問題へと変わりました。誰かがあなたのデータを持っている場合、経済的に価値のあるAIバージョンを作成し、収益を上げ、場合によってはあなたと競争する可能性があります。だからこそ、プライバシーは非常に重要であり、Vanaの核心となっています。 

私たちは「non-custodial data」という概念を発明しました。これは、non-custodial walletに似ていますが、あなたの個人データのためのものです。これは、あなたのデータを完全にコントロールし、あなたのプライベートキーによって許可されます。これにより、データはアプリケーション間でポータブルになり、ネイティブな金融レイヤーが追加され、データDAOsのようなものを構築することが可能になります。

VanaのData DAOを通じて作成されたデータセットは、生成AIモデルのトレーニングをどのように強化し、従来のデータセットに比べてどのような利点を提供しますか?

通常、AIモデルは公開インターネットからスクレイピングされたデータで訓練されます – どこにもログインせずに利用できるデータです。しかし、子供に世界について教えるという観点から考えると、ただランダムに公開インターネットをさまようのは望ましくありません。高品質な文章、思考過程、メッセージなど、公開されていない高品質な情報を提供したいと思うでしょう。AIは主に公開データで訓練されていますが、最前線を押し進めるためには本当にプライベートデータが必要です。これがデータDAOが可能にすることです:ユーザーが自分のプライベートデータを提供して、ユーザー所有のAIを作成することです。 

私たちは、AIはコミュニティによってオープンソースソフトウェアのように作成されるべきだと信じています。私たちの目標は、研究者に現在壁に囲まれた庭の中に閉じ込められている最高のデータセットへのアクセスを提供し、AIの性能の最前線を押し広げることです。

今後5〜10年で分散型AI分野においてどのようなトレンドが予想され、Vanaはこの進化する環境でどのようにリードすることを目指していますか?

分散型AIスペースは過去1年間で本当に加速しました。例えば、今年のEthCCでは、昨年は全くなかったのに対し、ほぼ毎日分散型AIイベントがありました。人々は、金融でうまく機能している主権技術をAIスペースに適用する方法を見つけ出しています。Vanaでは、これらすべての核心的な基盤はデータであると信じています。ユーザー所有のAIや主権AIを構築するには、ユーザー所有のデータが必要なので、私たちの焦点はそのデータ部分にあります。

次の5〜10年で、いくつかのマイルストーンに興奮しています。1) 1億人が共同所有するユーザー所有の基盤モデル。2) 自分で稼ぐことができるより自律的なAIエージェント、そしてそれらのエージェントがそれらを訓練するのに貢献したユーザーによって真に所有されていることを保証すること。 

AIがますます重要な経済的役割を果たすにつれて、技術的および社会的な観点から権力が広く分散されることを確保することが重要です。 

開発者との協力でData DAOsを構築することについてもっと教えていただけますか?現在進行中の革新的なプロジェクトにはどのようなものがありますか?

Vanaは許可不要のネットワークであり、誰でもデータDAOを構築できます。これは、プライベートでユーザー所有のデータのためにゼロから設計されたレイヤー1ブロックチェーンです。今日、Satoriテストネット上に100以上のデータDAOが展開されています。多くのビルダーは、cryptoとAIの交差点を深く理解しているBittensorエコシステムの初期参加者です。注目すべきプロジェクトには、Twitter Data DAO、LinkedIn Data DAO、GitHub Data DAOがあります。また、データDAOの作成と管理をさらに簡単にするために、ZKスペースおよびDAOツーリングスペースのプロジェクトとも提携しています。

分散型AIの開発において最も緊急な倫理的考慮事項は何であり、Vanaはこれらの問題にどのように対処していますか?

今日のAIにおける最大の疑問の一つは、誰がモデルを所有し、どのデータをそれに投入するかを決定するべきかということだと思います。私たちが情報のためにAIにますます依存するようになると、それらは私たちの真実の源となります。AIに何を投入するかを決定する者は、本質的に真実を決定しているのです。単一のエンティティがこれを制御するのは恐ろしいことです。Vanaでの私たちの見解は、これらの決定は単一の会社ではなく、コミュニティが行うべきだということです。

分散型AIで浮上するもう一つの質問は、AIが完全に分散化されている場合、AIが暴走してオフボタンがない場合はどうなるのかということです。Vanaでのアプローチ方法は、AIモデルは最終的にそれに貢献したユーザーによって所有されるため、常に完全なコントロールを維持するというものです。 

VanaとData DAOsの経験に基づいて、分散型AI分野に参入しようとしている志望の起業家にどのようなアドバイスをしますか?

分散型AI分野で構築を始めるのに絶好の時期です。DeFiでうまく機能しているいくつかの暗号経済のプリミティブを、新たに出現している分散型データとAIのカテゴリーに適用する多くの機会があります。また、暗号とは関係のないオープンソースAI分野に時間を費やし、人々が暗号の文脈外で取っているアプローチについて学ぶことをお勧めします。既存のプロジェクトに実際に手を出して、どのようなプリミティブが利用可能かを確認し、VanaでデータDAOを開始することを試みることも含めてみてください。 

RELATED ARTICLES

MOST POPULARS