Count_Min Sketch算法
本文介绍计算大规模数据流中的元素出现频次的方法 CMS,以及其简单改进Count-Mean-Min-Sketch
Intro & Scene
在大数据场景下,比如网页的 TopK 问题,爬虫的是否访问过的问题,都是一种出现频次相关的问题,那么在系统设计的时候,如何选择策略和数据结构去存储相关的数据是最高效合适的呢?
本文介绍计算大规模数据流中的元素出现频次的方法 CMS,以及其简单改进Count-Mean-Min-Sketch
在大数据场景下,比如网页的 TopK 问题,爬虫的是否访问过的问题,都是一种出现频次相关的问题,那么在系统设计的时候,如何选择策略和数据结构去存储相关的数据是最高效合适的呢?
@Aikenhong 的旧笔记翻新完善 1.0
Python 的灵活和广泛应用场景来自于众多的第三方库,由于强大的可拓展性和众多的库,使得 Python 的使用简单灵活,且应用面极广。
但是不同库之间的相互依赖关系,对版本的不同要求等等因素,使得”环境配置”成为了开发者闻之变色的一词,对一个新的库和项目环境的配置尝尝会花去大量的时间,这可能也是 Docker、Venv(虚拟环境)必须存在的原因之一。
这里不对 Docker 及其相关技术,进行说明,会另开章节进行学习。
才疏学浅的本菜鸡希望从 python 开发者避不开的 conda 和 pip 出发介绍一下关于库安装的一些事情,以及这两个 CLI 的关系。
Update:@20230214
shift+右键: 在此处打开 powershell.
PowerShell ,这里的 PowerShell 和 windows 的已经不是同一个东西了,可能要更先进一些,通过 msi
进行安装,安装完后重启 terminal 就会自动的添加配置,后续的配置在这个 new shell 中进行会更好一些
设置代理如下:
1 |
|
取消代理设置使用:
1 |
|
整理脚本编写的一些最基本语法,包括参数传递,赋值,循环等基本语句,方便后续的脚本编写和改动。
单行注释:#
,多行注释:
1 |
|
命令行传递参数的方式极其简单,$1
… $9
可分别代表输入的 9 个参数,第 10 个参数则使用 ${10}
表示,可以将其赋予变量后便于使用。
一些特殊参数:
$0
脚本本身的名称$#
输入参数的数量$*
| $@
所有参数(从第一个开始$(PWD)
| `pwd` 都能输出当前的工作路径举个脚本例子如下:
1 |
|
该文介绍基于 Windows11 系统的双系统安装和删除,安装的双系统选择 Ubuntu(开发还是比较推荐使用 WSL2 即可)
参考资料:全面解决各种问题 双系统安装 Windows+Ubuntu20.04双系统安装教程
这里推荐 ventoy 来做启动盘,ventoy 可以同时将很多系统的镜像放到一个 u 盘中,最最重要的是:干净简洁,可以参考其官方文档来制作盘,制作后将镜像文件放到指定目录即可。
win+s 搜索创建并格式化分区,找一块空闲空间较大的硬盘,右键压缩卷,设定好预留给 Linux 的空间即可(记住该大小,方便后续辨认,可以将各个盘的大小拍照记录下来,安装的时候别把 windows 覆盖了)。
该预留的未分配空间,建议至少 30G 以上,如果需要开发和机器学习啥的话可以 50G、100G 以上。
Reference
本文介绍如何配置自己的 Github 的个人资料界面,同时会介绍相关美化个人资料的一些资源网站和项目,并简单介绍其用法。最终结果如下(还有许多优化的空间):
@AikenH 2022 Node-JS-Chapter1
对 Node,NPM,JS,Yarn,NVM 的概念和作用进行一个辨析和介绍,了解各自的含义和职责,进而理解我们使用的到底是什么,环境怎么管理,怎么自定义和进行改动等。
基本Vue语法规则学习笔记,方便我们去自定义和看懂别人的网页代码。
概念补充:
vue的模版语法是基于HTML的,但是在底层机制中,会将模版编译成高度优化的JS代码,因此可以通过:
配置一台全新的 MacOs(M1)用于日常使用和编程开发,这里总结一下自己体验比较好的 APP 和开发工具。Let‘s Go
调转 F 区功能:在涉及到开发的时候,F 区很多情况下就会派上用场,因此这里简单介绍一下:
触控板功能:特别是三指拖动功能一定要开启,用来拖放窗口和文件方便太多。
访达设置:
首先在偏好设置中有以下的几个可以调整:
接着是在显示选线卡中,可以勾选:“显示路径栏”、“‘显示状态栏’”