经常有人问我:老大让我完成xxx,我不会,他也不会,但是很着急。这个任务怎么实现啊?这个任务需要什么技术啊?这种情况我遇到有100+次了,而且很多时候问得问题跟具体需要的技术简直是驴唇不对马嘴。所以今天整理了常见的30种NLP任务非常适合练手的Project,我觉得有俩作用:研究+练手,加深理解,做到更专业;收藏起来,以备不时之需,不敢保证涵盖工业界所有NLP业务场景,但是涵盖95+%以上是完全没问题的。
首先声明下,今天发的这些Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。
1.分词 Word Segmentation [X]
chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。
对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.
2.词预测 Word Prediction [X]
Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。
- 文本蕴涵 Textual Entailment [X]
Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。
- 语音识别 Automatic Speech Recognition [X]
buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。
- 自动摘要 Automatic Summarisation
PKULCWM/PKUSUMSUM ,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。
- 文本纠错 Text Correction [X]
atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。
7.字音转换 Grapheme to Phoneme
cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。
- 复述检测 Paraphrase Detection 和 问答 Question Answering [X]
Paraphrase-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。
- 音汉互译 Pinyin-To-Chinese [X]
Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。
- 情感分析 Sentiment Analysis
情感分析包括的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,http://sentic.net/about/。
- 手语识别 Sign Language Recognition
Home - SignAll, 该项目在手语识别做的非常成熟。
- 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。
HIT-SCIR/ltp, 包括代码、模型、数据,还有详细的文档,而且效果还很好。
- 词干 Word Stemming
snowballstem/snowball, 实现的词干效果还不错。
- 语言识别 Language Identification
saffsd/langid,语言识别比较好的开源工具。
- 机器翻译 Machine Translation
OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。
- 复述生成 Paraphrase Generation
vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。
- 关系抽取 Relationship Extraction
ankitp94/relationship-extraction,基于核方法的关系抽取。
- 句子边界消歧 Sentence Boundary Disambiguation
https://github.com/Orekhov/SentenceBreaking,很有意思。
19.事件抽取 Event Extraction
liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
- 词义消歧 Word Sense Disambiguation
alvations/pywsd,代码不多,方法简单,适合练手。
- 命名实体消歧 Named Entity Disambiguation
dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。
- 幽默检测 Humor Detection
pln-fing-udelar/pghumor
- 讽刺检测 Sarcasm Detection
AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。
- 实体链接 Entity Linking
hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。
- 指代消歧 Coreference Resolution
huggingface/neuralcoref,基于神经网络的指代消歧。
- 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion
thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。
研⼀阅读《数学之美》,《Python⾃然语⾔处理》和《⾃然语⾔处理理论与实战》,帮助我启蒙数学和⾃然语⾔处理;
研⼀研⼆学习《Python深度学习》,《动⼿学深度学习》,《Deep Learning in Pytorch》,《hands on Machine Learning with Keras and TF》帮助我快速上⼿机器学习和深度学习框架;
《笨办法学Python》,《Python编程从⼊⻔到实践》和《流畅的Python》帮助我持续提升优化Python编程能⼒;
《百⾯机器学习》,《百⾯深度学习》,《深度学习500问》帮助我在⾯试前查漏补缺。
QA问答系统
知识图谱
编译文法
兼学分布式机器学习系统
概率图模型(PRML)