需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
不想编码的话,就用压缩工具. 比如指定霍夫曼编码,导出码表,或者制定LWZ,再统计词条
如果重复率很低,估计数组就爆了~
回复 好多种情况呢。。还可以把数组序列化放到硬盘啊啥的。。这考题我记得是C写的。。哎。。
其实是想考你的是把数据分片读到内存,然后清理 ,用一个数组统计他的频率 。。。
装个Mysql,把数据放入到数握表里caoPHP:name,counted,
name唯一索引,counted索引
边插边统计(通常词已知词不会超过30万的),累计相同的数量保存在counted.
select * from caoPHP order by couned desc limit 10;
这种问题一般用能控制内存的语言会好点.他是想问C.
以块的方式读取就好了,然后在空格分割.计算完了再读下一个块.
100G哦。能给个种子下载吗
面试官要求
@布洛克斯 要是面试官强制这样问的话,我对这样的公司我就放弃了~~
...这和语言无关啊,就是想知道面试的PHPER是否会算法啊
这种事儿为嘛要用PHP做???
既然是笔试题,这种情况当然不存在
如果有个“词”本身就大于1G,咋办?
哈哈,奥观海说的可是冒泡排序啊
想问分治算法就直说,一旦捅出奥巴马的俏皮话怎么解释。
每行一个词
100G数据是指什么鬼?
这个人比较懒,什么都没有填写!
发布评论
需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。