2021-06-04 数据科学中常见的9种距离度量方法 数据科学中常见的9种距离度量方法 来源:机器之心 点击查看前言在数据挖掘中,我们经常需要计算样本之间的相似度,通常的做法是计算样本之间的距离。在本文中,数据科学家 Maarten Grootendorst 向我们介绍了9种距离度量方法,其中包括欧氏距离、余弦相似度等。正文许多算法,无论是监督学习还是无监督学习,都会使用距离度量。这些度量,如欧几里得距离或者余弦相似性,经常在 k-NN、 UMAP、HDBSCAN 等算法中使用。了解距离度量这个领域可能比你想的更重要,以 k-NN 为例,它常被用于监督学习中。但是,如果你的数据是高维的,欧几里德距离还能用吗?又或者如果你的数据是由地理空间信息组成的,也许半正矢距离是很好的选择。我们究竟如何选择最适合的距离度量?数据科学家 Maarten Grootendorst 向读者介绍了 9 种距离度量方法,并探讨如何以及何时以最佳的方式使用它们。此外 Maarten Grootendorst 还对它们的缺点进行了介绍,以及如何规避不足。1. 欧氏距离(Euclidean Distance)我们从最常见的欧式距离开始,欧式距离可解释为连接两个点的线段的长度。欧式距离公式非常简单... 那棵树看起来生气了 2021-06-04 机器学习,人工智能 487 阅读 0 评论 2021年06月04日 487 阅读 0 评论
2021-06-01 你仅需要看一个序列!YOLOS:重新思考Transformer的泛化性能 你仅需要看一个序列!YOLOS:重新思考Transformer的泛化性能 那棵树看起来生气了 2021-06-01 目标检测,深度学习 385 阅读 0 评论 2021年06月01日 385 阅读 0 评论
2019-05-10 BERT词向量 BERT词向量 前言BERT其中的一个重要作用是可以生成词向量,它可以解决word2vec中无法解决的一词多义问题。获取BERT词向量的时候用到了肖涵博士的bert-as-service正文命令安装安装bert-as-servicepip install bert-serving-server pip install bert-serving-client下载预训练模型https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip启动服务端bert-serving-start -model_dir chinese_L-12_H-768_A-12 -num_worker=2 那棵树看起来生气了 2019-05-10 TensorFlow 585 阅读 0 评论 2019年05月10日 585 阅读 0 评论
2019-01-11 TensorFlow Serving TensorFlow Serving 前言TensorFlow Serving 是一个用于机器学习模型 serving 的高性能开源库。它可以将训练好的机器学习模型部署到线上,使用 gRPC 作为接口接受外部调用。更加让人眼前一亮的是,它支持模型热更新与自动模型版本管理。这意味着一旦部署 TensorFlow Serving 后,你再也不需要为线上服务操心,只需要关心你的线下模型训练。TensorFlow Serving的典型的流程如下:学习者(Learner,比如TensorFlow)根据输入数据进行模型训练。等模型训练完成、验证之后,模型会被发布到TensorFlow Serving系统服务器端。客户端提交请求,由服务端返回预测结果。客户端和服务端之间的通信采用的是RPC协议。 那棵树看起来生气了 2019-01-11 TensorFlow 573 阅读 0 评论 2019年01月11日 573 阅读 0 评论
2018-11-23 TensorFlow模型量化 压缩 Int8推理 TensorFlow模型量化 压缩 Int8推理 前言在工业生产过程中,对于深度学习模型,企业比较关注的是成本和性能,怎样让我们的深度学习模型消耗最少的能量,最少的时间,获得最大的准确率(或者说获得不影响业务使用的最佳性能),工业中会用到模型量化,减少模型储存空间,减少模型计算量从而达到性能优化的目的,下面就介绍两种优化的使用方法。 那棵树看起来生气了 2018-11-23 TensorFlow 552 阅读 0 评论 2018年11月23日 552 阅读 0 评论