cs224u作业 :基于远程监督的关系抽取-3

cs224u作业 :基于远程监督的关系抽取-3 hw_rel_ext.ipynb

__author__ = "Bill MacCartney and Christopher Potts"
__version__ = "CS224u, Stanford, Spring 2020"

目录

原型系统

这里有许多选择,这个作业可以很容易地发展成一个项目。以下是一些建议:

  • 尝试不同的分类器模型,从sklearn及其他模型构建 。
  • 增加一个特征来表示中间词的长度。
  • 增加词袋的表示形式,包括bigrams或者trigrams(而不仅仅是unigrams)。
  • 基于实体的特征。
  • 根据两个实体提到的上下文(不是中间词)——也就是第一次提到之前或第二次提到之后的单词——来试验特征。
  • 尝试增加捕获语法信息的特征,比如Mintz等人使用的依赖路径特征,NLTK工具包包含各种可能有帮助的解析算法。
  • 词袋表示法不允许跨单词类别(如人名、地点或公司名称)进行泛化。可以使用GloVe单词嵌入。

#1. try o
段智华 CSDN认证博客专家 Spark AI 企业级AI技术
本人从事大数据人工智能开发和运维工作十余年,码龄5年,深入研究Spark源码,参与王家林大咖主编出版Spark+AI系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,《企业级AI技术内幕》新书分为盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理系统Alluxio解密篇。Spark新书第二版以数据智能为灵魂,包括内核解密篇,商业案例篇,性能调优篇和Spark+AI解密篇。从2015年开始撰写博文,累计原创1059篇,博客阅读量达155万次
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付 19.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值