自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

段智华的博客

热烈祝贺王家林大咖2020年清华大学两本新书《Spark大数据商业实战三部曲》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》出版发行,欢迎关注访问!

  • 博客(7)
  • 资源 (3)
  • 论坛 (2)
  • 收藏
  • 关注

原创 cs224u GloVe词向量方法

cs224u 向量空间模型之GloVeGloVe是Jeffrey Pennington 等作者于2014年提出的一种词向量方法,该方法基于全局词汇,通过统计单词共现的信息训练词向量,将统计信息与局部上下文窗口方法结合起来。论文:Pennington et al. (2014) http://www.aclweb.org/anthology/D/D14/D14-1162.pdfGith...

2020-02-16 20:35:27 674

原创 cs224u 向量空间模型之降维(LSA)

cs224u 向量空间模型之降维(Vector-space models: dimensionality reduction)降维的目的是消掉VSM中的相关性,捕获高阶共现,从而改善整体空间。例如,gnarly和wicked是俚语的经常出现的形容词,我们希望它们有一个良好的VSM相似性。然而,gnary是加州人常用的,wicked是波斯顿人常用的,它们不太可能经常出现在同一个文本中,之前的方法...

2020-02-15 13:23:56 870

原创 Pytorch+Google BERT模型(RoBERTa+LSTM+GRU)实战

Pytorch+Google BERT模型(RoBERTa+LSTM+GRU)实战BERT(Bidirectional Encoder Representations from Transformers)模型的前置基础知识,读者可以参阅以下的文章:Pytorch使用Google BERT模型进行中文文本分类(https://blog.csdn.net/duan_zhihua/article...

2020-02-13 16:03:30 3006 5

原创 cs224u 向量空间模型之TF-IDF、子词信息及可视化

TF-IDF(term frequency–inverse document frequency):TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,其中词频 (Term Frequency,TF),逆文本频率(Inverse Document Frequency,IDF)。对于稀疏矩阵,TF-IDF通常表现最好。TF-IDF认为在许多文档中都出现的单词的重要性要小,在每个文档中...

2020-02-11 21:40:13 677

原创 cs224u 向量空间模型之Distributional neighbors、Observed/Expected、PMI

本文讲解词向量中的分布邻居、观测值/期望值、点互信息PMI等内容。Distributional neighbors(分布邻居):对于给定的单词w,neighbors函数根据单词距w的距离(默认值:vsm.cosine),对词汇表中的所有单词进行排序。通过使用这个函数,可以了解距离函数的不同之处。cs224u 向量空间模型 Vector-space models(https://du...

2020-02-09 19:55:26 475

原创 HanLP 部署及NLP+ML双生树思维导图

HanLP是面向生产环境的多语种NLP工具包,基于 TensorFlow 2.0,目标是普及学术界最前沿的技术到工业界。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》。安装部署HanLP:登录Python虚拟环境。D:\2020_vir_tensorflow1\Scripts>activate...

2020-02-08 10:22:48 837

原创 cs224u 向量空间模型 Vector-space models

向量空间模型:设计、距离、重赋权重本课程讲解矩阵设计,相似性评估,以及矩阵重新加权的方法。我们可以将单词和短语表示为实数向量。为什么要构建分布式表示?有很多潜在的原因。在本课程中,我们将强调两个方面:理解上下文中的单词:单词数据丰富的表示方法,对于语言学家们使用自然语言词典有价值,对于社会科学家理解单词使用也有价值。 其他模型的特征表示:许多模型可以从分布式表示中获益。构建的分布...

2020-02-08 10:17:45 495

tensorflow-1.15.0-cp36-cp36m-win_amd64.whl

tensorflow-1.15.0-cp36-cp36m-win_amd64.whl的安装包下载 条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。

2020-09-01

yolo_weights.rar

yolo_v3 yolo_weights yolo_weightsyolo_v3 yolo_weights yolo_weights

2020-12-14

五节课从零起步(无需数学和Python基础)编码实现AI人工智能框架电子书V1

王家林老师五节课从零起步(无需数学和Python基础)编码实现AI人工智能框架电子书V1

2018-04-28

段智华的留言板

发表于 2020-01-02 最后回复 2020-04-30

CSDN博客请版主帮忙将文档恢复(第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMon)

发表于 2016-06-11 最后回复 2017-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除