万字长文展望Web3数据市场：如何解决数据使用中存在的难题？

PANews 机构得得号

Jan 25, 2022 • PANews致力于为区块链及金融科技创新者，提供有价值的资讯

摘要：局部性的数据市场一定会在公链上先发一步。

原文作者：Jonas1997

原文来源：Mirror

2022年伊始，我在推特写下：

2022个人更关注的领域：web3数据市场/infrastructure、web3社交/流媒体、非资金盘链游、钱包（web3入口，含DID）、亚文化/青年文化NFT消费、DeFi监管解决方案、技术突破性公链/跨链。

今天就从数据市场开始，梳理一下自己对这个领域的一些理解。

一、数据到底有多重要？

1、生产方式变革与组织形态迁徙

人类社会发展至今，生产力几经变革。生产力变革带来生产方式的变化，进而又会影响到生产的组织形态，因为生产组织毕竟是为了适应生产活动而产生的。纯粹的生产为了满足需求，需要以物易物，这通常是低效且繁琐的。为了适应效率提高的需求，货币得以出现，成为了商品间交换的一般等价物。流通市场开始逐步建立，以流通市场为基础的商业活动开始日益繁荣。

我认为人类至今共发生过三类生产方式变革：

第一，以器具的出现为标志，从原始社会进入农耕社会。通过对石器、青铜器、铁器等各类工具的使用，人类开始顺应自己的需求改造自然，开始种植水稻小麦，开始蓄养家禽，开始定居。这一时期以自给自足的生产活动（农业、家庭手工业）为主，并且随着文明发展逐渐出现了一些商业活动（“商人”一词就起源于商朝）。随着社会发展，产品日益复杂，自给自足的生产方式越来越难以满足个体需求，商业活动的占比也越来越高。就这么几千年延续下来，很多现代社会常见的商业机构已经在这一阶段初具雏形，比如银行、海关等。

第二，以蒸汽机的发明为标志，从手工工业进入机械工业。煤炭与钢铁分别解决了生产力变革的能源与材料问题，蒸汽机对付的则是劳动效率问题。人类的长处终究不在体力，重复性的低效生产终究会遇到上限与瓶颈。而机械（包括后来的电力革命）的出现，解放了人类的双手，提高了生产的效率。就此，生产方式开始向专业分工的方向演化，人类通过奴役机械，拥有了更多的时间去发展科技人文，文明得以向更复杂多样的道路前进。生产端的解放造就了流通端的兴盛，商业活动开始爆发，现代企业制度初具雏形。

第三，以互联网的出现为标志，从机器生产进入信息生产。互联网，顾名思义就是计算机间互相联接而成的网络。文明在发展中产生大量信息，以记账为例，人类最早是用结绳、刻契等方式来记录经济活动中的数量关系；数字出现后，它们被记录在龟甲、铜器、竹简直到造纸术发明后记录在纸上。随着文明演进，生产活动越来越复杂，对一套清晰易懂的记账规则的需求开始日益强烈。慢慢发展至今天我们熟悉的、会计里的复式记账法。

然而这些生产出来的信息并没有机会发挥更大的价值，在漫长的历史长河中，它们要么被记录、沉淀到无人册封的一角；要么被遗忘，消散在过往云烟中。直到计算机（广义，指计算芯片）代替纸笔成为承载信息的工具，人类才能以一种更为高效、容量更广阔的方式来记录与分享信息。在互联网的语境下，生产活动与商业活动重新发掘了信息的价值，使得信息不仅仅只是产品，也能够承担生产资料的角色。

在互联网产品出现之前，信息当然也能够作为生产资料，但这意味着高额的成本；而互联网的出现使得信息得以数字化，这赋予了其一条非常重要的特性：零边际成本。（边际成本简单理解就是每多生产一个数量的产品成本要增加多少）

事实上，信息生产相对于机器生产的另一大优势在于网络外部性（网络效应）。网络效应的意思是，网络中每一个节点的增加，都会对现存节点带来正效用。这本质上仍来自于信息零边际成本的特性——每一个新加入的节点都会向网络中的所有节点零成本共享一部分新的信息（这是正效用的由来）。

零边际成本与网络外部性赋予信息生产方式一些非常恐怖的特性，比如迅速扩张与天然垄断。理解了这两点，你会非常容易理解为什么互联网公司能够在短短几年内创造出超越传统制造业的价值，理解为什么互联网行业的创业公司总是喜欢烧钱大战，理解为什么最近中国互联网公司开始走下坡路。

而基于互联网的生产方式变革也影响到了对应的组织形态。按照制度经济学大师科斯的理论，企业之所以存在，是因为其交易成本小于市场。而基于互联网的市场，信息是具有零边际成本的，也就是说，企业的交易成本必须变得更低才能够适应，原先的纵向管理形态必须开始向横向协同进行转化。类似于OKR（目标与关键成果法）之类更注重内部协同的管理系统也开始代替原有的KPI（关键绩效指标）系统。

2、互联网对传统商业模式的重构

伴随着生产方式的不断变革，人类的经济活动重心也开始转移，相比于物质生产，信息生产以其更广阔的发展前景得到了更多的关注。除去互联网上原生的商业活动，应用互联网对传统行业进行改造将会是更势在必行的方式。

现存的改造方式有两个方向，其一从生产流程入手，目标是提升生产效率，比如很久之前（2013年，德国）就被喊烂了的工业4.0，通过“互联+智能”来改进现有生产系统、产业分工、物流管理等；另一个就是重构商业模式，比如共享经济、信息平台、网购、社交等。

传统的商业模式是线性的。假设你想买一个保温杯（为什么我最先想到的是保温杯），你最先想到的是去超市/商场等零售商；你不会说我先去找厂家拿货，厂家通常也不会给你；你更不会说我希望我的保温杯是用钛钢做的去找更上游的钢铁厂。从上游材料商到中游生产商（再到下游零售商）这样一个完整的链条，就是产业链。

厂家的生产也是相对盲目的。为什么这么说？因为厂家有自己的一本账，这本账一头是成本一头是利润。利润来自于下游的订单，通常谁的条件更适合就接谁的订单。消费者的需求无法直接传达给厂家。广泛来说，产业链上的每一个节点都无法低成本地去和非相邻节点直接进行信息与价值传输。

互联网对此的重构，就是将“链”变成“网”。

在网络里，任意节点之间都是可以建立起相互连接的（除非领导不让）。消费者可以绕过零售商直接找到厂家，去进行批发或者定制产品（前者意味着传统角色界限开始模糊，只要你想，消费者也可以变成零售商；后者意味着产业链的每一个节点都拥有更多选择，这对打破纵向垄断、提高效率有益）；看起来似乎是有意消弭了零售商这个角色，实则不然。互联网实际上强调了零售商信息中介的作用，因为消费者直接去找厂家是需要成本的，而如果零售商可以很好地整合及匹配信息，就能够赚取利润。

然而我们知道，分布式系统会带来大量冗余信息。如果互联网仅仅是将“链”变成“网”，那么随之而来的，就是信息阻隔与信息干扰，信息之间无法完成高效而准确的匹配。互联网对商业模式重构的第二个要点，就是平台的出现。

平台所做的事情，本质上来说就是信息匹配。线性的传统产业链被互联网重构为一个个节点后，需要有一个东西来实现原本由产业链实现的东西，那就是匹配供需信息。厂商去了B端（business），消费者去了C端（customer）。消费者对某一类产品的需求可以为生产商所捕捉，当整个平台上出现足够多相同的需求，生产商的生产就会变得有利可图（边际成本递减）。

我们前面说过，互联网进行生产的两大特性：零边际成本与网络外部性。当越来越多的节点通过平台获得连接，他们也会逐渐对平台产生路径依赖，这意味着平台在生产/商业活动中的话语权在越来越强。话语权意味着定价权，零边际成本带给平台的是几乎为零的成本，因此定价权几乎就意味着单个节点更高的利润空间；而网络外部性带给平台的是加速的节点进入。当利润的两个因子都在以恐怖的速度增加时，可想而知，一个成功的平台将会获得多大的利益。

让我们来就此解释以下之前提到的三个问题：

为什么互联网公司能够在短短几年内创造出超越传统制造业的价值？为什么互联网行业的创业公司总是喜欢烧钱大战？为什么最近中国互联网公司开始走下坡路？

问题一已解。问题二。因为处在竞争状态的平台所面临的，一是话语权的不稳定性，一是新节点的多选择，即使做到超大的规模、即使有很高的利润，但只要战场上还存在哪怕一个差不多的对手，结果就都是不确定的。（典型案例如共享单车大战）而不停地融资烧钱抢争用户，就是要在未来让用户别无选择，进而利用自己的话语权谋求利润。（案例如滴滴）

这是互联网平台商业模式的本质。“winner-take-all”

但其实平台能做的不只有这些。如果仅仅因为平台本身的特性而干扰到市场正常的发展，这种行为是短视且不可持续的。如果烧钱获得胜利，未来势必要向节点“征税”来弥补已经烧掉的钱。这个时候再出现实力不错的新平台，很容易通过更好的服务与更低廉的价格吸引流量，别人此时无债一身轻，而你呢？（案例如共享单车大战后的哈啰）

网络外部性并不意味着纯粹的护城河，而是“好的服务=无比坚固的护城河”与“坏的服务=大厦将倾”。这种不健康的商业模式长期是不成立的。

说回平台能做的。（其实已经偏题了但我既然说了还是说完叭）

前面说到互联网对产业链重构，是将“链”变为“网”，平台为了抢夺这些节点而大打出手。但他们忽视了网络外部性的前提是节点对平台的路径依赖，也忽视了节点之间的区别。以网约车为例，司机与乘客是两种不同性质的节点，乘客打车这一消费行为更多具有随机性，更注重“打到车去目的地”这一结果，至于优惠多少是哪个平台则摆在了后面，相信我，网约车大战时乘客每个APP都会下载，能白嫖的基本不会错过；而司机则不同，司机与平台之间更像是一种新型的、自由的雇佣关系，尽管会同时使用多个APP，但每个APP待他们怎么样他们是心知肚明的。

也就是说，司机更容易培养忠诚度，在打车这一行为中也扮演着更重要的角色（司机是服务提供者，司机碰到不好的乘客不会怪罪平台，乘客碰到不好的司机平台就难免难逃其咎了）。所以目标就是要用激励机制使司机与平台的利益尽可能一致，无论是补贴还是什么措施，都要尽可能偏向于司机一方。有人说，那乘客呢？别忘了，现在是在网络外部性的语境下，乘客的两个选择（出租车、网约车）中后者仍然是最优选择（不过是奖励稍微少了点而已）。

所以通过生命周期的利益平衡来倾倒更多资源对司机进行长期激励，让其与平台保持利益一致；乘客端则优先保证提供比出租车更便捷舒适的体验（由司机提供），经济激励放其次，才是更合理也更健康的打法。

另外一点，平台之间横向争夺倒不如纵向延伸。如果平台能够利用自己获得的网络外部性惠及上下游，何愁没有用户粘性呢？如果不能，并且存在有外部激励让用户打破路径依赖，现有平台的网络外部性就会受到威胁。

给提到的几种模式画了个示意图

以上所谈的全部为互联网，是存在于计算机（人）与计算机（人）之间的；而如果物联网也加入呢？计算机（物）与计算机（物）、计算机（物）与计算机（人）的连接会使网络成长幂次级别的倍数。想想我们平均一个人拥有多少个物，每一个新的节点加入会使网络复杂性增加多少就能够明白了。

互联网/物联网对传统商业模式的重构，还远远没有停止。而互联网的“信息生产”，本质上就是对网络中节点产生的数据的再利用。某种角度来说，数据之于互联网，犹如能源之于现代工业。

3、web2的数据孤岛

前面说了，互联网公司通过建立平台来完成信息采集与匹配，利用零边际成本与网络外部性的信息生产特性赚取了大量利润。随着物联网、大数据、云计算、人工智能等技术的日益发展，人类的生活将越来越“数字化”：利用数字化解决支付场景、解决工作流、解决社交联系、解决金融业务需求……在这场数字化迁徙中，人类的“在线”时长会继续增加，更多的人类活动将会被记录为数据存储在互联网。

想想今天，睡眠监测仪可以获得你的睡眠数据、智能家居获得你的生活数据、智能出行工具获得你的行动轨迹、无处不在的监控获得你所有的体态与行为数据……而在未来，物联网的加入只会让你的数据资料库更丰富，大数据与云计算会让算法通过数据描绘出你的数字形象、会通过搜索精确定位数据与个体的联系……

web2的数据生态显然已经难以满足越来越复杂的数据生产与需求活动了。

巨头互联网公司通过垄断用户数据来牟利，但本质上他们并不拥有这些数据的所有权——他们只是通过提供免费的服务来获得了这些数据；他们也没有完善的机制去保护这些数据（显然，也并没有激励去这么做），隐私泄露成为常态；数据存储于他们的中心服务器之上，他们也不会去刻意记录每一次拷贝的细节。最重要的是，不同机构拥有自己的数据库，来自于无效的重复性采集；数据的存储与管理不成系统，存在大量失真；机构间形成数据孤岛，缺乏互操作措施；非正当的数据交易频发，信任成本畸高。

当web3携手物联网到来后，数据将呈幂次级增长，如果上面这些问题仍然得不到解决，将会诞生多少低效率的市场交易？新技术的应用价值将大打折扣。

数据孤岛是行不通的。人类是社会性动物，数据也是。数据要想利用信息生产的两大特性，就必须开放互联。随着各类新技术的出现，对数据的应用出现了一些可能性。本篇第二部分，我将详细说一说数据的使用目前存在有哪些难题。

二、数据使用存在哪些难题？

现代商业活动建立在市场机制之上，按照交换对象的不同，市场通常被划分为：商品市场、服务市场、技术市场、金融市场、劳动力市场和信息市场。

其中，技术市场可分为技术商品与技术服务，砍掉；而服务本质上也可以打包为商品；因此从我的角度，一般这么划分：商品市场、劳动力市场、金融市场、信息市场。（劳动力之所以单独拎出来，是因为背后都是人，人的行为是复杂而不可预测的，不能简单定义为商品）

前三者是我们经常可以接触到的，信息市场这个概念却较为抽象。顾名思义，信息市场中的交换对象是信息，比如商业信息、经济信息、人才信息等。这些已知的信息市场所交换的信息，例如房产中介、猎头、知网、用户信息交易等，大多存在有专门的信息中介。使用者为获得这类信息必须付费，否则就需要付出大量成本去寻找。

正如前文所说，目前可供交易的信息只占互联网生产的数据的极小部分，并且基本处于灰色地带。数据要想如能源驱动现代工业一般驱动数字化经济，必须具备通行的行业标准、合规的市场、合适的交易规则等。而这困难重重。

1、隐私边界与隐私保护

最先需要被提到的问题，就是隐私保护。我在前文提到了很多会被记录的数据：

睡眠监测仪可以获得你的睡眠数据、智能家居获得你的生活数据、智能出行工具获得你的行动轨迹、无处不在的监控获得你所有的体态与行为数据……

这些数据对提供相应服务的公司都具有价值。例如智能空调检测到你冬天喜欢开空调，该条数据可能会被某”巴拉巴拉离子暖风机“厂商购买，然后向您推送他家产品的广告”比空调更健康、更省电“……厂商定向买1000条这样的数据花的钱可能远低于去某网首页做个广告。当然，理想情况下，这些钱是付给你的，毕竟你才是这条数据的所有者。

问题来了：如果你不想自己喜欢开空调这件事被人知道怎么办？

最粗放的方式当然是直接把智能空调卸了，换上普通空调；可如果普通空调的芯片也能收集数据怎么办？去二手市场淘一个老式电风扇可能比较靠谱。智能冰箱也是，最好换成地窖储冰；不能坐高铁，也不能过收费站，为了去外地只好徒步穿越无人村落……然而一通操作下来，你发现你的生活品质急剧下降，科技明明在进步，你却退化成了原始人。

——排斥新产品与排斥数据收集显然是不太现实的。重点在于个体要拥有自主选择的权利，可以选择什么样的数据被收集，什么样的数据不被。然而这真的现实吗？

学过经济学的朋友都清楚一个概念叫做“道德风险”，来源于事后的信息不对称。即：如果由用户选择什么样的数据被收集，用户完全可以选择不提供任何数据，或者为了用数据牟利提供虚假的数据，因为谁都不想有关自己生活的一些真实数据被人知道。

如果事情发展成这样，讨论数据是没有任何意义的，数字化经济也会不复存在。因为没有人会愿意千辛万苦最后得知你的名字叫“坎布尼特尔斯威齐巴克尼布维斯达我就不给你真名你自己慢慢猜吧但是我钱先拿走了撒油拉拉·张”。

所以数据收集一定需要是客观默认的，这就需要做到被用户自己也认可的足够程度的隐私保护。这一点现行的密码学技术已经有了一些方向。

但其实真正的问题往往是哲学性的：如何定义隐私的边界？隐私的边界该由个体选择还是群体选择？如何平衡监管与个体权利？如何处理隐私的外部性？

举个例子，如果默认数据收集，而收集的数据是否加密则由用户选择，这样一旦有危急事件政府可以选择启用被用户选择“加密”的数据，而平时涉足到商业的部分数据也是由用户亲手选择，并由用户获得收益，这看似是一个不错的解决方案。

但实际上，如果这个人是一个恐怖分子，他选择不公布的数据中藏有能够找到他的信息怎么办？有人说，那就让政府启用啊！问题来了，在启用前政府不知道恐怖分子是谁，为了知道是谁只能全面启用，这又会波及到其他无辜的用户（隐私泄露了）；同时，该恐怖分子作恶会对其他人产生负外部性。如何处理这些外部性？

隐私如同文学作品，不同人对其的理解可能是千人千面的。我觉得露脖子不算什么，可能有的人会非常反感。这导致如果推行一个通用型的标准，总会有部分人的“隐私”被侵犯。如此通用型标准只能够越宽泛越好，但如果过于宽泛，也不能称之为“标准”了。

2、数据外部性与产权确立

谈及数据的外部性，必先介绍两个概念：非竞争性与非排他性。这两个概念是用来规定公共品的，而外部性就是存在于公共品问题之中。

**非竞争性指，当一个人消费某种产品时，不会减少或限制其他人对该产品的消费。**通常来说，这意味着零/低边际成本（所以互联网产品通常具有非竞争性）。我们所见到的绝大部分数据，都是可以被重复使用的，不会因为用过一次而自焚或者改变内容。与之不同的是，大学入学名额，我挤进了分数线就一定有一个人被挤下去，所以高考就是“竞争性”的。

**非排他性指，当一个人在消费某种产品时，无法排除其他人也消费这一产品（或者排除的成本很高）。**什么意思呢？举个例子，你去鱼塘钓鱼，不能不让别人钓（除非这鱼塘是你家的）；或者你半夜去轧马路，看到另一个轧马路的，但你不能打他，除非给他很多钱请他离开，但如果他走了又有一个人过来轧马路，你还是不能打他，因为马路大家都有份。

满足非竞争性与非排他性的就是公共品。公共品问题中存在一个著名的博弈：“公地悲剧”，意思是每个人都想尽可能多地利用公共资源谋私利，最终导致公共资源难以承受而崩溃。这是因为每个人对公共资源的使用都会对其他人产生一个“负外部性”。我们知道，在互联网中，外部性是正的。这源于信息生产的零边际成本，而公共资源显然不具有这个优势。

无论外部性是正还是负，外部性的存在意味着产权不够明晰。而市场是无法为产权不够明晰的商品做出合理定价的。如何看待数据的外部性？

首先我们需要就非竞争性与非排他性的概念给数据进行分类。对于非竞争且非排他的数据而言，显然应该由政府/公共组织提供，收益归其所有。比如天气预报、宏观经济数据。这类公共数据有一个特点：他们都与个体毫无瓜葛。这是最为清晰明了的一种。

对于竞争性/排他性数据，由于在生产过程中无法明确分离权利主体，导致无法分离出数据中的公共内容与私人内容。例如某公司想通过X市一个普通人的生活数据来寻找X市的投资机会，X市总共有10万人愿意提供这类数据，但该公司只需要1万条。这类数据就具有外部性，因为它们的一部分内容是共享的，任意一条数据被采用都会使得其他数据受到“负外部性”影响而贬值。

又例如，我的听歌数据，除了我自己知道，记录该数据的软件也一定知道，因为我使用这个软件听歌。除去我的行为部分，其余的部分本质上来说由软件生产，难道这就意味着软件也拥有我的听歌数据的部分产权？

人做任何行为，最终一定是要与外部世界交互的；无论这种交互是物理性的，还是通过生活状态表现出来的。这使得交互对象通常存在于你的数据里，无论他是物体还是人。既然外部性似乎不可避免，我们又如何去为数据确立明晰的产权呢？

3、物联网与数据采集

前面两点都或多或少地涉及到了数据采集。比如数据采集应该是自发而是被选择受控制的？受个体控制的数据采集如何保证真实性？自发的数据采集如何保证不侵犯隐私？数据采集的范围、方式与量规？

现有的数据采集可能主要发生于“上网”这一行为。举例来说，通过支付与消费记录获得购物习惯、行动轨迹；通过网络言论推测个体想法与认知；通过浏览记录、应用下载记录等获得个人喜好等。然而智能家居、自动驾驶、监控等背后代表的可能会是另一种覆盖面更广的数据采集路劲——物联网。

物联网将在个体的生活中布满装有高速计算芯片的机器，这些机器的日常工作将会积累到大量的数据，通过计算与加工匹配入数据库。这些更丰富的细节将会使得大数据对个体的画像更加清晰，从简单的行为习惯深入到思维认知、精神特性等。这从一方面对数字化经济及社会治理具有极大意义，另一方面也引发了奥威尔式的个体隐私困境——不仅仅来源于被时刻监控的焦虑，更因为这些重要数据一旦泄露，基本上可以宣布一个数字时代公民的“死亡”。

因此，物联网在数据采集过程应该做到什么程度、遵守什么规则，设备的可信度、设备的身份核实、设备的记账系统等，是一定需要被提前约定并严格遵守的。

4、数据价值匹配

提到数据市场，不得不说的一个问题是数据的价值匹配。

什么意思？对比商品市场，每个商品能够做什么我们都是非常清楚的，正是据此我们结合自己的需求给出了期望价格。比如我是一名农夫，我一天可以砍十斤柴，一斤柴可以卖二十块，我想去市场买只斧子，斧子可以用三十天，于是我知道了：斧子总共能砍六千块的柴，我砍柴这么累应该赚三千，那么斧子的期望价格就在三千以下。

但数据市场不同。数据的价值讨论存在一个悖论：即如果我不知道一条数据的内容，我无法为其确定价值；但一旦我知道这条数据的内容，这条数据对我来说就不存在价值了。这种特性让数据市场自然完成价值匹配变得非常困难。

好在大数据技术让内容无法一目了然的数据完成了价值发现。数据需求者可以搜索或挖掘想要的数据，现在摆在他们面前的难题成了：如何确定这些数据内容的“正确性”？

即：如果低价值的数据伪装成高价值数据，无法提前查看内容的数据需求者如何快捷地进行筛选以便满足自己的需求？

密码学中存在有一种“在不向验证者提供任何有用的信息的情况下，使验证者相信某个论断正确”的技术，称为“零知识证明”。然而，零知识证明的提供者，如何保证他提供正确论断的动机不受高额利益的影响？设计事前激励机制是个好主意，然而如果无法知道数据的准确价值，如何调节激励的额度？

即使解决了数据内容与数据标题的匹配“正确性”，在海量的交易需求面前，需要的显然是一个高并发、高性能、可自动执行交易的系统。好在区块链已经走在了解决问题的路上。

5、数据估值

还有个容易被忽略的一点：数据估值。既然要做交易，就必须有通行被认可的估值体系，否则市场将乱象丛生。现行的数据估值方法包括：

成本法，将收集、存储和分析数据的成本作为数据估值基准。一个明显的问题是，大部分数据并非专门生产，而是其他活动中的附属物；大部分数据的收集、存储等也是同时进行；大部分数据的产权还难以进行界定。这导致它们的成本难以划分。

收入法，预测数据的未来现金流并进行折现。然而数据所产生的效用根本难以建模，以刚才说到的价值匹配为例，如果匹配出错，数据是有可能一文不值的，这部分概率是否要折入期望值？此外，同一个数据对不同使用者的效用是完全不同的，难以去制定一个通行的标准。

市场法，根据市场上类似数据的交易价格进行类比估值。这要求市场机制较为完善，有大量交易和数据累积。我个人认为市场法是最为合理的，但仍然存在很多问题。比如，由于价值匹配问题的存在，数据的交易是不具有稳定性的，好比开盲盒开到垃圾，这会反映到市场之中影响估值（数据可能由于匹配错误率高等非内容原因获得低估值）。又比如，数据是非标准化的，如何界定类似数据也会是一大问题，界定过细影响累积深度，界定过宽却又没什么用……

三、web3可能会从哪些途径解决这些问题？

1、什么是web3？

关于web3有很多形象的说法：

从网上搜罗了几个

这些说法分别指向了web3的几个突出特征（以及我自己总结的）：数据产权、社区共建共享、开源、数据透明、个体价值创造、价值层。

数据产权：个体拥有私人数据的所有权，可以利用自己的数据创造及获取价值；私人数据由隐私技术确定边界。与web2巨头垄断用户数据相对应。

社区共建共享：在以区块链为底层技术的web3背景下，共识成为价值发现的基石。社区/DAO建立于共识之上，共同建设、共同分享建设成果。与现代企业制度相对应（二者并非对立的）

开源：共识的前提是开源，共建共享的前提是开源。开源是未来基于算法的信任机制。

数据透明：数据在共识认可下被记录，可追溯、不可篡改。

个体价值创造：个体能够作为一个完整体，通过算法建立的合作机制与他人完成分工生产。各类治理问题开始变得清晰简明。

价值层：web3建立在货币等价值底层之上，这让数据确权与交换、社区共建共享、个体价值创造等拥有了激励引导。

web3的技术底层是区块链。区块链具有分布式记账，交易可追溯、不可篡改，公开透明，智能合约可编程性、“算法+激励机制”协同驱动等特点。我之前也写过一篇文章可进一步了解：说说我对区块链行业的一些看法（万字长文）

2、区块链对现存问题的可能解决途径

那么在解决前文所提的数据市场问题时，区块链到底具有什么优势呢？

来爬一下前面提过的问题，总结如下，并附上我的个人回答：

Q：巨头互联网公司通过垄断用户数据来牟利，但本质上他们并不拥有这些数据的所有权——他们只是通过提供免费的服务来获得了这些数据；

A：用户在区块链上进行的每一笔交易都由多个矿工进行维护，交易记录是公开透明可查询的；目前任何需要这些数据的项目会通过分发token的方式完成冷启动，这同时给用户带来了奖励。随着隐私、零知识证明等技术的进步，未来用户将拥有自己的私人数据以及其产权，将可以自主决定这些数据的用处。

Q：他们也没有完善的机制去保护这些数据（显然也没有激励去这么做），隐私泄露成为常态；

A：公链的共识机制决定了其安全性不受单个或多个中心的影响，因为区块链的设计已经将共识机制与激励机制相结合，所以，除去挖矿奖励也无需专门的激励。（考虑到环境影响与资源浪费，ETH目前正由POW转向POS，然而POS也并非完美机制，共识机制仍旧处于不断进化的状态）对于恶行，共识机制也会根据算法实施惩罚。共识机制的安全破绽来自于遵循机制规则的恶意攻击，随着越来越多节点的加入，这样的机会将会越来越少。

Q：数据存储于巨头的中心服务器之上，他们也不会去刻意记录每一次拷贝的细节；

A：区块链将数据存储于分布式账本之中，由去中心化的矿工们进行维护。目前似乎无法记录数据的查阅记录，但这并没有必要，因为可供查阅的记录一直是公开透明的，未来如果是涉及到隐私的私人数据，将会由对应的算法进行保护。任何查阅都将需要支付成本并拥有交易记录的。

Q：不同机构拥有自己的数据库，来自于无效的重复性采集；

A：由于底层的数据共享，区块链的使用者无需进行重复采集，他们只需要使用模块化前端或者自己去爬取即可，他也完全可以和他人共享这些成果。无所谓共享，本就是公开透明的。

Q：数据的存储与管理不成系统，存在大量失真；

A：但凡被记载在链上的都是经过共识机制下矿工群体的确认，由于账本是分布式的，因此不存在丢失的问题；对于严重的分歧，会在社区投票后进行分叉。历史仍然可以被真实记载。

Q：机构间形成数据孤岛，缺乏互操作措施；

A：数据共享。模块化产品将更有利于互操作。

Q：非正当的数据交易频发，信任成本畸高；

A：所有公开数据无需非正当交易。非公开数据的交易是完全自由并且会被记载，无需单独的信任程序，因为算法实现了这一点。

Q：如何定义隐私的边界？隐私的边界该由个体选择还是群体选择？

A：关于隐私边界存在有一个概念叫“合理隐私期待”，在1967年凯茨诉联邦案中为解决隐私权的边界问题提出，由于凯茨使用的公共电话亭被联邦官员窃听，凯茨将其告上法庭。美国最高法院认定“保护人民而不是保护场所”，意思是只要个人的行为意愿并非想要公之于众并刻意避免引起注意，即使发生在公开场合也是可以被保护的。然而这个概念存在有一个致命问题，那就是没人知道“个人的行为意愿”到底是善意还是恶意。正如我前面所举的例子，恐怖分子并非想要公之于众并刻意避免引起注意，这样的隐私该受到保护吗？

我个人的观点是，如果隐私不具有外部性，这种隐私就该受到保护。一旦个人隐私对外界产生不良影响（负外部性），就需要有人来为此负责，产生负外部性的个体应该支付成本使得社会恢复原样，就如同污水治理问题规定污水排放权一样。

然而前面又说了，不确定负外部性来自于谁，只能查看全部个体的隐私来进行搜寻，这种行为反而又造成了另一种负外部性。是否存在有这样的一种技术，对信息查询者的任意问题由机器进行零知识证明验证，从而解决上述难题呢？

对于后一个问题，我认为应由群体选择基本边界，外部性原则确定客观边界，二者并集即为法定隐私边界。而个体可以根据个人选择，在法定边界的基础上自由选择维持隐私还是通过使用私人数据获利。

Q：如何平衡监管与个体权利？

A：恕我愚昧。

Q：如何处理隐私的外部性？

A：区块链技术由“算法+激励机制”驱动，当交易发生在链上时，可以将多个交易方进行划分，同时一组交易中的多个子交易也可根据公共/私人等不同性质进行划分，如果能够明确任意交易中不同节点的归属，就可以由此进行产权划分，解决数据外部性问题。（以上为我胡诌）隐私同样属于数据，但隐私外部性还存在问题，即如何事前预防作恶。

Q：数据的外部性似乎不可避免，我们又如何去为数据确立明晰的产权呢？

A：以上。

Q：数据采集应该是自发而是被选择受控制的？受个体控制的数据采集如何保证真实性？自发的数据采集如何保证不侵犯隐私？

A：我认为在安全且完备的隐私算法的技术支持下，数据采集应该是自发的。原因我之前也说过，如果由个体控制，数据市场会被大量虚假数据污染，也就不复存在的必要了。受个体控制的数据采集如果要保证真实性，必定要保证拥有足额的惩罚机制，例如一旦生产虚假数据被发现，将会从数据市场中除名（这意味着数据收益权变为鸡肋）。然而，在技术无法保证数据采集的隐私安全性时，我认为应该保留个体参与数据采集的选择权利（放弃数据采集也意味着几乎放弃数据使用权，因为缺乏机器辅助，人力几乎无法做到对数据的有效利用）。

Q：如何确定数据内容与数据标题的匹配“正确性”？即：如果低价值的数据伪装成高价值数据，无法提前查看内容的数据需求者如何快捷地进行筛选以便满足自己的需求？

A：同隐私外部性部分，寄希望于新技术——你永远可以相信“算法+激励机制”。如果你不信的话，那改成我一直相信“算法+激励机制”好了。

Q：零知识证明的提供者，如何保证他提供正确论断的动机不受高额利益的影响？设计事前激励机制是个好主意，然而如果无法知道数据的准确价值，如何调节激励的额度？

A：同隐私外部性部分，我对此的终极期待是，验证者的角色由人工智能担任。现有的解决办法可能会是，一旦验证者作恶，会被永远踢出节点队伍；但受限于区块链的匿名性，我们仍然无法对地址的善恶做出经验性判断。正是由于惩罚的失效，验证者有动机在面临高额利益诱惑时做出不诚实的证明。从某些角度来说，如果零知识证明验证者由现实世界受信任的主体担任（即中心化）会带来一个更好的结果。

Q：在利用市场法为数据进行估值的过程中，如何界定非标准化数据的“类似数据”？

A：“类似数据”并非一定要从现状界定，或许可以从生产过程入手，即按照数据不同维度的分类对数据生产时的相关交易记录进行匹配，每个分类统计特征满足要求的数据可以列入该分类下的“类似数据”，对于结合了所有给定分类的标的数据，或许可以用统计学手段对每个“类似数据”的市场价格进行回归来寻找拟合值。无论如何，数据的估值存在有诸多问题，估值方法的目的不是尽可能准确，而是尽可能维持市场秩序，促进市场来完成价值匹配。

3、web3数据市场展望

总结一下本文到现在的内容。

首先，从人类生产方式与对应的组织形态的变迁过程中，我指出了信息生产两个特征：零边际成本与网络外部性。互联网借助这些特征正在逐步完成对传统产业、商业模式的重构，也使得人类逐渐向数字化迁徙。在这样一个趋势中，数据的重要性开始凸显，然而web2对数据的使用存在有各种问题。具体到数据市场交易，又存在隐私边界与保护、数据外部性、数据采集困境、数据价值匹配、数据估值等各种问题。基于区块链技术的web3是对传统互联网的革新，希望能通过“算法+激励机制”结合的思路去解决众多难题，为数据市场的实现提供一个可能。

那么，我对数据市场的期待是什么样的呢？

首先，关于数据市场的基础设施。关于隐私、数据外部性、零知识证明等，现有的技术需要突破。高并发、高性能的新公链也会是一个刚需（并且还需要足够的安全性，这太困难了）。从我个人的角度，由于数据市场中很多地方涉及到监管、通行规则确定、个体产权等，想在公链上构建是不太现实的，全球性的数据市场很可能是在公链实现技术突破后（一般技术突破是在公链，嗯），由现存政治格局对应的受信任国家间构建稳定联盟链，并在底层协议规则得到协商公认后再行发展的。

然而，局部性的数据市场一定会在公链上先发一步。涉及到哪些数据呢？所有dapp的使用记录、用户在公链上的创作内容这类公开数据并不具用户间交易价值，但对B端是有价值的，预计仍然会通过空投token的方式（使用数据圈定了目标用户）。而未来由隐私算法所记录的私人数据将会将会开始进行原始的点对点市场，最先兴起的市场预计是用来做配套服务的，比如抵押担保交易。

隐私算法成熟后，机构或者鲸鱼会隐藏自己的一部分交易，因为在传统金融里，信息即价值。链上token市场将会变得更加复杂，同时由于缺乏监管，普通用户将承担更多的风险。类似知识付费的商业形态可能会兴起，因为算法可以自动完成相关交易，这对个人创作者将更为友好。

数据交易广义来看，还包括链上文化精神消费。举个例子，视频网站、网络小说平台的会员制，本质上就是一种非竞争、排他的数据产品；如果这类文化产品不免费对外开放，就需要隐私算法支持，或者一些其他的技术手段（比如opensea购买NFT后解锁隐藏内容）。在精神消费领域中，有一个方向一直是各位绅士们的心头所好，更是完美契合隐私匿名的特性，具体是啥我就不说了。

尽管说了这么多，但数据市场的未来仍旧是任重而道远。说是2022年展望，等到那一天真的来到，或许是2032年了。或许……也有可能……不会到来？

链得得仅提供相关信息展示，不构成任何投资建议

万字长文展望Web3数据市场：如何解决数据使用中存在的难题？

目录