摘要:[toc] 一、为什么要用全文索引 我们在用一个东西前,得知道为什么要用它,使用全文索引无非有以下原因 1. like查询太慢、json字段查询太慢(车太慢了) 2. 没时间引入ElasticSearch、Solr或者Sphinx这样的软件,或者根本就不会用(无法将五菱宏光换成兰博基尼,即使有兰博基 阅读全文
posted @ 2020-02-26 08:47 雪山飞猪 阅读 (141) 评论 (0) 编辑
摘要:[toc] 前言 Matplotlib是一个强大的可视化工具,是Python的绘图库,可与NumPy一起使用,提供了一种有效的MatLab开源替代方案,用来画图真的不要太香! 下面总结出常用的操作以及技巧,保证每个例子的代码都可以直接拿来运行。更多内容请查看 "官网" 一、如何添加标题 title 阅读全文
posted @ 2020-02-24 18:17 雪山飞猪 阅读 (155) 评论 (2) 编辑
摘要:[toc] 前言 Matplotlib的可以把很多张图画到一个显示界面,在作对比分析的时候非常有用。 对应的有plt的subplot和figure的add_subplo的方法,参数可以是一个三位数字(例如111),也可以是一个数组(例如[1,1,1]),3个数字分别代表 1. 子图总行数 2. 子图 阅读全文
posted @ 2020-02-23 23:14 雪山飞猪 阅读 (16) 评论 (0) 编辑
摘要:[toc] 一、不变的招式 虽然数据分析,数据挖掘,一说预测看起来高大上,但是其实是有套路的,预测的代码大致都长下面这个样子 套路说明: 1. 将已有的数据分成两部分,分别是训练集 (train_x,train_y)和测试集(test_x,test_y) 2. 每个集合都包含两部分数据,特征值x和结 阅读全文
posted @ 2020-02-17 17:53 雪山飞猪 阅读 (189) 评论 (0) 编辑
摘要:问题:matplotlib不能渲染中文 想设定为中文字体,网上搜索的方法几乎都是下面这样,已经把字体拷贝到了程序目录下了,然而并没有生效 解决 设置 和 下面是本人用的代码 阅读全文
posted @ 2020-02-16 17:02 雪山飞猪 阅读 (11) 评论 (0) 编辑
摘要:[toc] 前言 当我们想快速了解书籍、小说、电影剧本中的内容时,可以绘制 WordCloud 词云图,显示主要的关键词(高频词),可以非常直观地看到结果 核心代码 测试 ok,现在我们来传入一段文字,生成词云图片分析一下 运行结果如下 分析这张图片,不难看出:chenqionghe喜欢运动,有肌肉 阅读全文
posted @ 2020-02-15 17:53 雪山飞猪 阅读 (21) 评论 (0) 编辑
摘要:[toc] Selenium 是什么? Selenium是一个用于Web应用程序测试的工具,可以模拟真正的用户操作,支持多种浏览器,如Firefox,Safari,Google Chrome,Opera等。 Selenium 模拟的就是一个真实的用户的操作行为,我们完全不用担心 cookie 追踪和 阅读全文
posted @ 2020-02-15 12:49 雪山飞猪 阅读 (170) 评论 (0) 编辑
摘要:[toc] 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入链越多,入链越优质,网页的 阅读全文
posted @ 2020-02-12 23:55 雪山飞猪 阅读 (181) 评论 (0) 编辑
摘要:问题 mysql中的存的是Decimal类型,laravel取出来后却是string(换成float会解析为浮点型,但是不推荐,因为float本身就存在精度问题),如果每个查询数据库的地方都加个 明显反人类 解决:Eloquent指定$casts属性 比如有个字段叫money,数据库存的是decim 阅读全文
posted @ 2020-02-06 15:37 雪山飞猪 阅读 (23) 评论 (0) 编辑
摘要:以下默认所有的操作都先导入了numpy、pandas、matplotlib、seaborn "matplotlib官网" [toc] 一、折线图 折线图可以用来表示数据随着时间变化的趋势 Matplotlib Seaborn 二、直方图 直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间, 阅读全文
posted @ 2020-02-03 09:23 雪山飞猪 阅读 (197) 评论 (1) 编辑
摘要:[toc] 一、什么是商业智能 BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能 二、什么是数据仓库 DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数 阅读全文
posted @ 2020-02-02 16:53 雪山飞猪 阅读 (125) 评论 (0) 编辑
摘要:[toc] 一、时间序列是什么 时间序列在多个时间点观察或测量到的任何事物,很多都是固定频率出现 的,比如每15秒、每5分钟、每月。 padnas提供了一组标准的时间序列处理工具和数据算法,基本的时间序列类型是以时间戳为索引的Series。 当创建一个带有DatetimeIndex的Series时, 阅读全文
posted @ 2020-01-29 11:21 雪山飞猪 阅读 (120) 评论 (0) 编辑
摘要:[toc] 一、datetime生成 二、datetime转字符串 str 强转类型 strftime:根据传入格式 三、字符串转datetime strptime:解析已知格式的时间 dateutil.parse 可以解析几乎所有人类能够理解的日期表示形式 四、datetime时间差计算 time 阅读全文
posted @ 2020-01-27 00:02 雪山飞猪 阅读 (99) 评论 (0) 编辑
摘要:可以说merge包含了join操作,支持两个df间行方向或列方向的拼接操作,默认列拼接,取交集,而join只是简化了merge的行拼接的操作 示例 定义一个left的DataFrame 定义一个right的DataFrame 然后,我们使用merge通过索引合并这两个Dataframe,如下 然后, 阅读全文
posted @ 2020-01-23 22:07 雪山飞猪 阅读 (63) 评论 (0) 编辑
摘要:[toc] 什么是NumPy NumPy是Python科学计算的基础包,不仅是python中使用最多的第三方库,还是SciPy、Pandas等数据科学的基础库。所提供的结构比Python自身的更高级、更高效。 可以说,NumPy所提供的数据结果是Python数据分析的基础。 标准的Python用列表 阅读全文
posted @ 2020-01-21 17:49 雪山飞猪 阅读 (86) 评论 (0) 编辑
摘要:[toc] IPython是一个python的交互式shell,比python自带的shell好用得多,支持变量自动补全、自动缩进、直接运行shell命令、内置了许多很有用的功能和函数,让我们可以用更高的效率来使用python,同时也是利用Python进行科学计算和交互可视化的一个最佳的平台 一、显 阅读全文
posted @ 2020-01-21 11:29 雪山飞猪 阅读 (67) 评论 (0) 编辑
摘要:[toc] 什么是Pandas Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 Pandas纳入了大量库和一些标准的数据模型,提供了大量能使我们快速便捷地处理数据的函数和方法。 主要包含两种数据类型:Series和DataFrame Series可以理解为dict 阅读全文
posted @ 2020-01-16 11:57 雪山飞猪 阅读 (372) 评论 (0) 编辑
摘要:问题:19.90转为float64类型,再乘以100,精度丢失 废话不说多,show you the code 运行输出 19.9转成float64后,再乘以100,居然变成了1989.9999999999998 这个精度的问题要是出现在现金的问题上就厉害了! 解决 使用包的decimal类型:gi 阅读全文
posted @ 2020-01-08 17:10 雪山飞猪 阅读 (62) 评论 (0) 编辑
摘要:优先级队列的底层实现是堆(最大堆、最小堆) 一、堆的特点 1. 完全二叉树 2. 每个节点的值都必须大于等于或小于等于子树中节点的值(对应最大堆、最小堆) 3. 往堆中插入和删除一个元素的时间复杂度都是O(logn) 二、实现 最大堆和最小堆实现原理基本一样,下面实现一个最大堆 输出 三、堆排序 1 阅读全文
posted @ 2020-01-07 14:31 雪山飞猪 阅读 (38) 评论 (0) 编辑
摘要:需求 公司有一个比较坑爹的报销方案,需要根据一堆碎的发票中,凑出一个目标金额,要求误差在1块钱以内 缺点:每次人肉去对比吧,浪费大量的时间 解决 下面贴出golang实现的方案 使用示例 运行结果 耗时97毫秒,共计算出577种方案,就是这么爽! 阅读全文
posted @ 2020-01-03 17:19 雪山飞猪 阅读 (75) 评论 (0) 编辑
摘要:右键 Git Annotate 阅读全文
posted @ 2019-12-03 14:59 雪山飞猪 阅读 (41) 评论 (0) 编辑
摘要:[toc] 一、前言 1.核心技术 Web Real Time Communication:网页即时通信,可以在浏览器进行实时语音或者视频对话的API Canvas:HTML5中的新元素,可以用来来绘制图形、图标、以及其它任何视觉性图像 2.音频采集的基本概念 摄像头:用于采集图像和视频 麦克风:采 阅读全文
posted @ 2019-11-26 15:34 雪山飞猪 阅读 (635) 评论 (0) 编辑
摘要:[toc] 本文实践和引用自这篇博文:http://blog.csdn.net/daydayup_668819/article/details/90601967 一、什么是Helm Helm是K8S下的包管理器,相当于apt get、yum、brew这样的软件工具,重点概念 1. Helm。命令行 阅读全文
posted @ 2019-10-30 15:59 雪山飞猪 阅读 (634) 评论 (2) 编辑
摘要:亚里士多德发现,一个人如果表现得很有美德那他最终会成为一个有美德的人,即多做好事就会变成好人 杰克.韦尔奇:“当外在改变的速度超过内在的改变速度时,终点就在眼前” 卡尔.韦克:“我何以知道自己在想什么呢?——只有在看到我做了什么以后才能知道” 伍迪.艾伦:“成功的百分之八十在于自我表现” 这本书的核 阅读全文
posted @ 2019-10-28 11:51 雪山飞猪 阅读 (61) 评论 (0) 编辑
摘要:酒精虽然含有卡路里,但是因为大多数都会在被体内吸收和积累前就燃烧掉,所以又被称为空卡路里,也就是说,仅凭酒精不会让人发胖 酒主的主要种类 1.酿造酒 谷物和果汁等经过酒精发酵的产物,如日本酒、红酒、啤酒 2.蒸馏酒 酿造酒蒸馏后将酒精等挥发成分浓缩的产物,糖分已经被去除,烧酒、威士忌、白兰地等 尽量 阅读全文
posted @ 2019-10-28 09:41 雪山飞猪 阅读 (48) 评论 (0) 编辑
摘要:jq类似一个awk或grep一样的神器,可以方便地在命令行操作json 这里我使用海南万宁的天气接口做演示,地址:http://t.weather.sojson.com/api/weather/city/101310215 一、安装 官网:http://stedolan.github.io/jq/ 阅读全文
posted @ 2019-10-25 14:15 雪山飞猪 阅读 (320) 评论 (0) 编辑
摘要:在20世纪70年代末,一个心理学学生理查德•班德勒和一个语言学学生约翰•格林德提出了一个EAC模型,即眼睛解读线索。这个模型对不同的感官和思维方式之间进行一些有效的研究, 对于大部分的人来说,左边往往是过往的记忆,右边是来自未来的、未发生的 注意:对方的眼球运动和我们面对面观察是相反的,如果对方眼球 阅读全文
posted @ 2019-10-25 14:14 雪山飞猪 阅读 (202) 评论 (0) 编辑
摘要:[toc] 一、什么是Ingress Ingress对象,其实就是对“反向代理”的一种抽象,简单的说就是一个全局的负载均衡器,可以通过访问URL定位到后端的Service 有了Ingress这个抽象,K8S就不需要关心Ingress的细节了,实际使用时,只需要选择一个具体的Ingress Contr 阅读全文
posted @ 2019-10-23 16:50 雪山飞猪 阅读 (358) 评论 (0) 编辑
摘要:一、为什么Servcie能定位到Pod 因为Pod的IP是不固定的,所以Kubernetes需要Service,除此之外它还可以在多个Pod间负载均衡 Service的访问入口,其实是宿主机的kube proxy生成的iptables规则 ,及kube dns生成的DNS记录 Service通过la 阅读全文
posted @ 2019-10-23 10:49 雪山飞猪 阅读 (424) 评论 (0) 编辑
摘要:Border Gateway Protocol,边界网关协议,简称BGP,主要用于互联网AS(自治系统)之间的互联。 Linux内核原生支持的、专门用在大规模数据中心维护不同的“自治系统”之间路由信息的、无中心的路由协议.。 举例: AS1和AS2分别是独立的自治系统,指一个组织管辖下的所有IP网络 阅读全文
posted @ 2019-10-22 11:48 雪山飞猪 阅读 (122) 评论 (0) 编辑