等概率抽样——水塘抽样
点击阅读更多查看文章内容
等概率抽样——水塘抽样
给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次,且不能使用额外的空间,请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。
从头开始遍历数据,当遍历到第n个数据时,从0到n-1中随机选取一个数字,如果选到数字0,则将答案置为该数据的值,否则答案不变继续向下抽样,遍历完所有数据后,抽到每个数据的概率都是$\frac {1}{n}$
证明:
P(第i个数据为最终答案)
=P(第i个数据抽到随机数0)×P(第i+1个数据没有抽到随机数0)×P(第i+2个数据没有抽到随机数0)×···×P(第n个数据没有抽到随机数0)
=$\frac {1}{i}$×(1-$\frac {1}{i+1}$)×(1-$\frac {1}{i+2}$)×···×(1-$\frac {1}{n}$)
=$\frac {1}{i}$×$\frac {i}{i+1}$×$\frac {i+1}{i+2}$×···×$\frac {n-1}{n}$
=$\frac {1}{n}$
例题
给你一个单链表,随机选择链表的一个节点,并返回相应的节点值。每个节点 被选中的概率一样 。
实现 Solution 类:
Solution(ListNode head) 使用整数数组初始化对象。
int getRandom() 从链表中随机选择一个节点并返回该节点的值。链表中所有节点被选中的概率相等。
1 | class Solution |