NumpyConcatenate加速

2023-07-02Updated 2023-10-30Langs / Python2 minutes read (About 273 words)

多次循环进行 Numpy Concentrate 操作后，当原始数组变得过大的时，单步处理时间会逐渐变长，处理大量数据的时候时间成本极高。

解决思路

这里简单的讲一下问题的定位过程，通过装饰器 Check 每个函数的执行时间，重点关注执行时长逐渐变长的部分。

from time import time

def timer(func):
    def func_wrapper(*args, **kwargs):
        time_start = time()
        result = func(*args, **kwargs)
        time_end = time()
        res = time_end - time_start
        print("{} cost time: {} s".format(func.__name__, res))
        return result
    return func_wrapper

就会发现当 np.Concatenate 导致 Array 很大之后，运行就会逐渐减缓。由于运行缓慢是由于对大数组操作导致的，因此这里考虑将大数组切分成多个小数组，然后再最后进行合并。

with open(file, 'r') as rf:
	for line in rf:
		...
		new_row_array = ...
		key = ...
		if len(res_list[key][-1]) == 0 :
			res_list[key][-1] = new_row_array
		else:
			if len(res_list[key][-1]) >= MAX_LENGTH:
				res_list[key].append(new_row_array)
			else:
				res_list[key][-1] = np.concatenate([
					res_list[key][-1], new_row_array
				])
	for i in range(len(res_list)):
		res_list[i] = np.concatenate(res_list[i], axis=0)

可以看上述这段代码，通过对-1 的使用，来自动的切分 Array，最后再整体合并，这样就能避免每个数组过大的问题。

本地实验测试也成功，将原本耗时 400s 的处理过程减少到了 30s

Fi

Python, Numpy

Python00 Conda 与 Pip

2023-03-06Updated 2023-10-31Langs / Python13 minutes read (About 1956 words)

@Aikenhong 的旧笔记翻新完善 1.0

Python 的灵活和广泛应用场景来自于众多的第三方库，由于强大的可拓展性和众多的库，使得 Python 的使用简单灵活，且应用面极广。

但是不同库之间的相互依赖关系，对版本的不同要求等等因素，使得”环境配置”成为了开发者闻之变色的一词，对一个新的库和项目环境的配置尝尝会花去大量的时间，这可能也是 Docker、Venv（虚拟环境）必须存在的原因之一。

这里不对 Docker 及其相关技术，进行说明，会另开章节进行学习。

才疏学浅的本菜鸡希望从 python 开发者避不开的 conda 和 pip 出发介绍一下关于库安装的一些事情，以及这两个 CLI 的关系。

Bash Notebook 01

2023-01-25Updated 2023-10-30Langs / Bash15 minutes read (About 2242 words)

整理脚本编写的一些最基本语法，包括参数传递，赋值，循环等基本语句，方便后续的脚本编写和改动。

语句注释

单行注释：# ，多行注释：

:'
多行注释用冒号加单引号即可
'
echo 'legal'

命令行参数传递

命令行传递参数的方式极其简单，$1 … $9 可分别代表输入的 9 个参数，第 10 个参数则使用 ${10} 表示，可以将其赋予变量后便于使用。

一些特殊参数：

$0 脚本本身的名称
$# 输入参数的数量
$$$$ 进程 ID
$* | $@ 所有参数（从第一个开始
$(PWD) | `pwd` 都能输出当前的工作路径

举个脚本例子如下：

# we accept args from commandline and print it to the screen
# define
args1=$1
args2=$2

# print
echo "using $ { } to get the value of val, what we receive is : ${args1} and ${args2}"
echo "$ can also show : $args1 and $args2"

# we can make those statement in a string, which may transfer to its value
echo "using $ / {} in a string can also get the value like $args1 and $args2"
echo 'using $ / {} in a string single quotes cannot get the value like $args1 and $args2'

Langs, Bash

Nodejs、yarn、npm关系辨析

2022-10-09Updated 2023-10-30Langs / Nodejs12 minutes read (About 1866 words)

@AikenH 2022 Node-JS-Chapter1

参考：包管理工具npm、yarn以及nvm简介及简单使用

Concept 概念

对 Node，NPM，JS，Yarn，NVM 的概念和作用进行一个辨析和介绍，了解各自的含义和职责，进而理解我们使用的到底是什么，环境怎么管理，怎么自定义和进行改动等。

JS, Node

Python Unittest 单元测试的编写与执行

2022-08-12Updated 2023-10-31Langs / Python3 minutes read (About 492 words)

该文章将介绍 Python 中的单元测试之 Unittest 模块，及其在 VsCode 中的集成和使用，主要参考的链接有以下的三个：

Unittest的基本用法、Python官方文档
VsCode运行Unittest，其对应 VsCode 侧边栏中的“测试”模块，该部分就由本文来自行补充
使用Unittest模拟input的输入，便于测试基于命令行输入的代码

Python, Langs, VsCode

SQL Chapter5 mysql与事务

2022-08-05Updated 2023-10-30Langs / SQL15 minutes read (About 2324 words)

廖雪峰的SQL教程的学习笔记

mySQL

how to connect mysql? Using CMD(or MySQL Client) to carry out

# local, default port is 3306
mysql -u root -p
# remote
mysql -h <ip> -u root -p

root here is the <username>, we may using other name in specific situation.

mysql实际上时MySQL的客户端，真正的MySQL服务器程序时mysqld在后台运行。

Langs, SQL, Database

SQL Chapter4 增删改相关操作

2022-08-05Updated 2023-10-30Langs / SQL4 minutes read (About 564 words)

基本操作无非就是增删改查，查询在上一章Select已经学习完毕，而剩下的增、删、改对应的关键词分别是：

INSERT：插入新纪录
UPDATE：更新现有记录
DELETE：删除已有记录

接下来具体讨论各种用法：

插入

使用关键字INSERT进行数据和记录的插入，其基本语法如下：

1	`INSERT INTO <表名>(字段1,字段2,...) VALUES(值1，值2,...)`

例如向students表中插入一条新数据，先列出需要添加数据的字段，然后按照字段的次序添加值

1 2	`-- 添加记录 INSERT INTO students (class_id, name, gender, score) value(2,'大牛','M',80);`

自增字段（id）或者其他有默认值的字段可以省略。其中需要注意的是：

字段顺序不必和数据库表的字段顺序一致
但是值的顺序必须和字段顺序一致

同时插入多条记录的写法如下：

1
2
3

INSERT INTO students (class_id, name, gender, score) VALUES
  (1, '大宝', 'M', 87),
  (2, '二宝', 'M', 81);

Langs, SQL, Database

SQL Chapter3 查询命令

2022-08-04Updated 2023-10-30Langs / SQL12 minutes read (About 1848 words)

该章节介绍SQL中的查询命令，根据廖雪峰网站进行一步步的测试和学习即可。

其中–为sql语言中的注释符号。
关键词不区分大小写

基本查询

查询表中的所有数据主要使用关键词SELECT

1	`SELECT * FROM <表名>`

SELECT表明要执行查询
*代表“所有列”
FROM表明要从哪个表查询

当指定特定列名的时候（也就是所谓的投影查询）格式如下：

1 2	`SELECT <KEY1>,<KEY2>, FROM <表名> -- 注释`

此外，许多工具会使用SELECT 1;来测试数据库链接的有效性；SELECT 100+200也可以用来做简单的计算。

Langs, SQL, Database

SQL Chapter2 安装和基本概念

2022-08-03Updated 2023-10-30Langs / SQL14 minutes read (About 2112 words)

本章节从MySQL的安装到基础使用，MySQL本身只是一个SQL接口，它内部还包含多种数据引擎，常用的包括：

InnoDB：支持事务的数据库引擎（不知道选啥的时候选他就好）
MyISAM：早期默认，不支持事务

接口和引擎的关系好比浏览器和浏览器引擎，切换MySQL引擎不影响自己写的应用程序使用MySQL的接口，由于其开源，也衍生出了各种开源版本（包括针对各种云存储中托管数据库的版本等）

安装MySQL

Windows直接官网下载对应的版本就好了，Community Version在该超链接进行下载，其他版本就按需下载，按需付费就行。

Langs, SQL, Database

SQL Chapter1 Introduce

2022-08-02Updated 2023-10-30Langs / SQL10 minutes read (About 1489 words)

SQL相关参考资料：尊重一下菜鸟教程，该教程中的文档相对简练和入门，W3School的资料好像就是菜鸟教程的；其次，廖雪峰的SQL教程网站，也应该比较适合入门，对比后选择一个进行学习。

围绕SQL是什么、有什么用、和怎么用来学习。

利用廖雪峰的教程来进行学习，因为其具备在线运行和测试的功能。

SQL是什么

SQL：Structured Query Language（结构化查询语言）用于访问和操作数据库系统：查询、添加、更新、删除、管理、维护。不同的数据库，都支持SQL。

“SQL就是访问和处理关系数据库的计算机标准语言“，无论使用什么编程语言编写程序，当我们涉及到操作关系数据库之时，就需要使用SQL，其中，最流行的开源数据库为MySQL。

同时，现今还存在非SQL的数据库，也就是NoSQL数据库，例如：MongoDB、Cassandra、Dynamo都属于非关系数据库。

而SQL在当今仍然承担各种应用程序的核心数据存储，与NoSQL（作为SQL数据库的补充）相辅相成。

Langs, SQL, Database

PyTorch Handbook 00 （Archive）

2021-12-15Updated 2023-10-30Langs / Pytorchan hour read (About 9491 words)

Basic Part基础设定部分

@AikenH 2020 + 2021

this part is about pytorch basic unit, help me to code deep learning better.

Tensor张量计算

两个tensor的数乘

Python, Pytorch

Cherno的cpp教程笔记

2021-11-29Updated 2023-10-30Langs / Cpp2 hours read (About 21961 words)

this notebook is based on Cherno‘s Video Class in YouTube；if there is sth get confused，I can recheck the video which talk about it, or just google it.

this is not totally for newbie, so some basic information we should search it
And this is a important websize to tell us basic info about C++.

Cpp

python 与标记语言的交互

2021-11-28Updated 2023-10-30Langs / Python10 minutes read (About 1425 words)

对于各种形式的标记文档（markup）和数据集的处理进行一个整合，还有一些python中的相关模块（比比如glob，后续可能会迁移到别的文档中），主要包括：yaml，json，csv，xml，这些可拓展的标记语言.

TODO：

[ ] csv,xml：这一部分可以看一下吉仲师兄那边是怎么存和取文件的，继承一下代码减少我这一部分的工作量
[ ] 按照csv文件对数据集进行本地的文件夹切分。实际上很多数据集，像mini-imageNet这类的是需要我们下载下来之后按照csv文件对训练集和测试集进行切分的
[ ] 使用sklearn对完整的未切分数据进行切分。

Python: Glob

文件操作相关模块，用于简单的路径匹配的模块，用来查找路径中的相关文件，基本的正则匹配规则如下：

“*”: 匹配0哥或多个字符

“?” : 匹配单个字符

“[ ]”: 匹配指定范围内的字符,如[0-9]匹配所有的数字

glob.glob:

返回所有匹配的路径列表,只有一个参数pathname,定一乐文件路径的匹配规则,可以是绝对路径或者是相对路径,具体的使用可以参考如下的方式:

for xmlpath in glob.glob('media/all/DATAPART/' + "*")
# xmlpath 遍历文件夹下的所有文件和文件夹

for xmlpath in glob.glob(xmlpath + "/*/*")
# xmlpath 遍历文件夹下所有文件夹中的文件夹中的文件:按照层数自由设定

img_path = sorted(glob.glob(os.path.join(images, '*.npy')))
# 遍历文件夹下的所有npy文件,说实话感觉这个怪离谱的,晚点试一下

import glob 
print(glob.glob(r"E:/imgdir/*/*.jpg"))

Python, Langs

C++的常见数据类型和操作

2021-11-28Updated 2023-10-31Langs / Cpp20 minutes read (About 3040 words)

主要介绍一些常用数据类型的一些method，区别还有一些特殊的定义；

priority_queue 默认是大顶堆，great的话是小顶堆，less的话是大顶堆，自定义的话不知道是不是一致的

set默认top是小顶，这个大小我就不知道了，自定义的话，好像和我想得是一致的

所有的动态容器都是存放在heap上的，像是什么Vector，String，unordered_map之类的

指定精度的输出和计算

在腾讯的笔试中出现的需要指定精度和指定的计算精度的分析，在使用常数的时候一定要使用.0去修正一个方法。

Vector 动态数组

Vector中的一些常用的函数，方法，以及一些属性介绍和辨析

emplace_back & push_back（在末尾添加元素）

empalce_back直接在数组的末尾进行构造，而push_back借助于构造的临时变量再将其加入数组末尾，所以在一些操作中empalce_back对于空间时间的效率是会更高的，但是如果我们有重复构筑的数据的话，可能就需要使用push_back。

要注意实际上vector中并没有append的方法。

Cpp, Langs

（转）What the Fuck Python！一些python特性

2021-11-28Updated 2023-10-30Langs / Pythonan hour read (About 12282 words)

What the f*ck Python! 🐍

一些有趣且鲜为人知的 Python 特性.

English | 中文

Python, 是一个设计优美的解释型高级语言, 它提供了很多能让程序员感到舒适的功能特性. 但有的时候, Python 的一些输出结果对于初学者来说似乎并不是那么一目了然.

这个有趣的项目意在收集 Python 中那些难以理解和反人类直觉的例子以及鲜为人知的功能特性, 并尝试讨论这些现象背后真正的原理!

虽然下面的有些例子并不一定会让你觉得 WTFs, 但它们依然有可能会告诉你一些你所不知道的 Python 有趣特性. 我觉得这是一种学习编程语言内部原理的好办法, 而且我相信你也会从中获得乐趣!

如果您是一位经验比较丰富的 Python 程序员, 你可以尝试挑战看是否能一次就找到例子的正确答案. 你可能对其中的一些例子已经比较熟悉了, 那这也许能唤起你当年踩这些坑时的甜蜜回忆 :sweat_smile:

PS: 如果你不是第一次读了, 你可以在这里获取变动内容.

那么, 让我们开始吧…

Python, Langs

Fluent Python 01 数据模型与结构

2021-11-06Updated 2023-10-30Langs / Python18 minutes read (About 2700 words)

Chapter 1 数据模型

Se1 magic method

数据模型在这里的定义是对python框架的描述,他规范了python构建模块的接口；这些接口对应解释器中对一些特殊句法(常用句法)的激活和使用.本章节的核心就在于对这些特殊句法的理解和使用.
特殊方法带来的一些主要交互场景:

迭代
属性访问
集合类
函数和方法的调用
对象的创建和销毁
字符串的表示形式和格式化
上下文管理模块(with模块)

这些特殊方法的存在实际上，是为了让python的解释器调用，除非我们有大量的元编程，否则我们一般不调用他，通过内置的len等函数进行调用的话，他们的速度更快

下面我们通过最典型的__getitem__和__len__对其有简单的介绍, 并介绍各个魔术方法的使用场景

Se2 using it and show more

最常用也最典型的magic method 不外乎__getitem__和__len__;

len即对当前对象提供对于通用的len()方法的接口,通常用于查看对象的length or size
getitem除了提供obj[index]的索引方式的同时,
- 他也会对python内置的那些迭代方法提供支持for i in range(b)
- 对于依托于这些迭代的方法也能够得以支持from random import choice
- 切片操作

Se2.1 overwrite operator

Python, Langs

Python01 数据模型和常用数据结构

2021-10-27Updated 2023-10-31Langs / Pythonan hour read (About 6719 words)

个人的《Python Cookbook》 && 《Fluent Python》阅读笔记。

数据模型（Python结构的通用范式）

（Magic method）dunder method：Python特有的双下划线方法，这些方法能够支持Python进行特殊的调用，实现通用方法在新定义的数据结构上的使用，比如最典型的:

__len__()后可以支持len()，获得结构的长度

__getitem__()后可以支持data[index]来获取相应的元素，切片，等等数组的操作；

# 也可以支持类似如下的一些操作
# 从数据结构中随机选出一个items
from random import choice
choice(datas)
# 也可以支持迭代方法和反迭代方法
for data in datas:
    ...
for data in reversed(datas):
    ...
# 也可以支持sort函数

到这里也就说明了，只要我们在数据结构（class）中定义了相应的dunder method，该class就能支持相应的一系列操作，getitems就可以类比为列表，相应的操作都能够在python解释器下自动的赋予支持。

还有一些好用但不常用的方法：

__contain__实现的是in ，当没有实现contain的方法的时候会按照顺序在list中进行搜索
__abs__
__repr__实现的是输出的format设置，也就是print的时候的输出形式
__eq__ 实现的是 == 命令，同时in调用的是eq

下面附上一张特殊方法表：

Python, Langs

Markdown Handbook

2020-04-18Updated 2023-10-30Langs / Markdown2 minutes read (About 236 words)

参考资料：

一些关于markdown语法的参考资料，但是实际上如果用Typora的话，有很多的语法是不需要记忆的，只需要稍微了解就可以了，更需要学习的其实是Latex的公式编写。

基本语法：https://www.jianshu.com/p/191d1e21f7ed
进阶语法：https://blog.csdn.net/m0_37925202/article/details/80461714
其他语法：https://blog.csdn.net/cuishizun/article/details/80311673

目录：

Editor
一些常用操作
希腊字母表

Editor：

Obsidian、Nvim、Typora：Notes的主力编写工具
VsCode：Readme文档
Jupyter：代码笔记编写的时候

Some daily usage：

操作名称	Typora	VsCode
跳转	[button] (#name)->#	[button] (#name)-> \
复选框	- [ ]	- [ ]

Langs, Markdown

解决思路

Fi

语句注释

命令行参数传递

Concept 概念

mySQL

插入

基本查询

安装MySQL

SQL是什么

Basic Part基础设定部分

Tensor张量计算

两个tensor的数乘

Python: Glob

glob.glob:

指定精度的输出和计算

Vector 动态数组

emplace_back & push_back（在末尾添加元素）

What the f*ck Python! 🐍

Chapter 1 数据模型

Se1 magic method

Se2 using it and show more

Se2.1 overwrite operator

数据模型（Python结构的通用范式）

Editor：

Some daily usage：

Recents

Tags

Categories