Artificial Intelligence
深度学习篇
距离计算
1. 常见的距离计算方式
1.1 闵可夫斯基距离(Minkowski Distance)
1.2 曼哈顿距离(Manhattan Distance)
1.3 欧式距离/欧几里得距离(Euclidean distance)
1.4 切比雪夫距离(Chebyshev Distance)
1.5 海明距离(Hamming Distance)
1.6 KL散度
2. 常见的相似度函数
2.1 余弦相似度(Cosine Similarity)
2.2 皮尔逊相关系数 (Pearson Correlation Coefficient)
2.3 Jaccard 相似系数(Jaccard Coefficient)
注意力机制
注意力机制是什么
经典注意力机制
1. 用机器翻译任务带你看Attention机制的计算
2. 注意力机制的正式引入
注意力机制的一些变体
1. 硬性注意力机制
2. 键值对注意力机制
3. 多头注意力机制
自注意力机制
序列模型篇
循环神经网络RNN
1.
循环神经网络RNN是什么
2.
RNN的公式推导
3.
RNN的缺陷
4.
RNN的几种常见模式
4.1 序列到类别模式
4.2 同步的序列到序列模式
4.3 异步的序列到序列模式
长短时记忆网络LSTM
1.
LSTM的设计思路
2.
LSTM是怎样工作的
3.
从公式层面理解LSTM
4.
使用LSTM设计情感分析任务
4.1 情感分析是什么
4.2 使用LSTM进行文本分类建模
门控循环单元网络GRU
1.更新门
2.重置门
3. 当前记忆内容
4. 当前时间步的最终记忆
参考文献
预训练模型篇
预训练模型是什么
SpanBERT
1. SpanBERT的技术改进点
2. BERT模型中的预训练任务
2.1 Masking Language Model (MLM)
2.2 Next Word Prediction (NSP)
3. SpanBERT的预训练任务
3.1 Span Masking
3.2 Span Boundary Object (SBO)
3.3 MLM与SBO融合计算
3.4 去掉NSP任务
4. 相关资料
RoBERTa
1. Dynamic Masking
2. Full-Sentences without NSP
3. Larger Batch Size
4. Byte-Level BPE
5. More Data and More Training Steps
6. 相关资料
SKEP
1. SKEP的设计思路
2. SKEP的实现概况
3. 无监督情感知识挖掘
4. Sentiment Masking
4.1 利用知识库检测情感信息
4.2 对情感信息进行Masking
5. Sentiment Pre-training Objectives
5.1 Sentiment Word (SW) Prediction
5.2 Word polarity (WP) Prediction
5.3 Aspect-Sentiment Pair (AP) Prediction
6. 相关资料
ERNIE
1. ERINE是什么
2. Knowledge Masking Task
ERNIE3
1. ERNIE 3.0的设计思路
2. ERNIE 3.0的模型结构
2.1 ERNIE 3.0的网络结构
2.2 Universal Representation Module
2.3 Task-specific Representation Module
3. 不同类型的预训练任务
3.1 Word-aware Pre-training Task
3.2 Structure-aware Pre-training Tasks
3.3 Knowledge-aware Pre-training Tasks
4. 相关资料
ERNIE-Gram
1. ERNIE-Gram的由来
2. ERNIE和N-Gram的融入方式
2.1 Contiguously MLM
2.2 Explicitly N-gram Masked Language Modeling
2.3 Comprehensive N-gram Prediction
3. 使用生成器显式建模N-gram Relation
4. 相关资料
KBERT
1. KBERT的由来
2. KBERT的模型结构
2.1 Knowledge layer: 构造Sentence tree 融合KG知识
2.2 Embedding layer:引入soft-position保持语句本身的语序
2.3 Seeing layer: Mask掉不可见的序列部分
2.4 Mask-Transformer: 使用拉平后融入KG知识的序列进行transofmer计算
3. 相关资料
THU-ERNIE
1. THU-ERNIE的由来
2. THU-ERNIE的模型结构
3. K-Encoder融合文本信息和KG知识
4. THU-ERNIE的预训练任务
6. 参考资料
Transformer-XL
1. Transformer-XL的由来
2. Transformer-XL 建模更长序列
2.1 Segment-Level 循环机制
2.2 相对位置编码
2.3 完整的Self-Attention计算过程
3. 相关资料
XLNet
1. 从AR和AE模型到XLNet模型
2. Permutation Language Model
3. Permutation Language Model如何建模
3.1 使用经典的transformer是否能建模PLM
3.2 使用Two-Stream Self-Attention建模PLM
3.3 引入Transformer-XL的想法
3.4 关于XLNet的一些Trick
4. 相关资料
Longformer
1. Longformer的由来
2. Longformer提出的Self-Attention
2.1 Sliding Window Attention
2.2 Dilated Sliding Window
2.3 Global Attention
3. Longformer Attention的实现
4. 相关资料
ERNIE-Doc
1. ERNIE-Doc的由来
2. 经典/Recurrence Transformer的计算
3. Retrospective feed mechanism
4. Enhanced Recurrence Mechanism
5. Segment-Reordering Objective
6. 相关资料
自然语言处理篇
词向量
One-Hot编码: 一种简单的单词表示方式
Word Embedding: 一种分布式单词表示方式
Word2Vec: 一种词向量的训练方法
1. Word2Vec概述
2. Skip-gram训练词向量原理
3. Skip-gram网络结构
4. 负采样解决大规模分类问题
关于词向量的一些有趣应用
1. 相似度计算
2. 词聚类
3. 词关系推理
命名实体识别
命名实体识别是什么
一文读懂BiLSTM+CRF实现命名实体识别
1.
使用BiLSTM+CRF实现NER
2.
回归CRF建模原理本身
Lattice Lstm
1. Lattice LSTM 解决了一个什么问题
2. Lattice LSTM的原理
3. 相关资料
Artificial Intelligence
»
人工智能日记
Edit on GitHub
人工智能日记
¶
深度学习篇
距离计算
1. 常见的距离计算方式
2. 常见的相似度函数
注意力机制
注意力机制是什么
经典注意力机制
注意力机制的一些变体
自注意力机制
序列模型篇
循环神经网络RNN
1.
循环神经网络RNN是什么
2.
RNN的公式推导
3.
RNN的缺陷
4.
RNN的几种常见模式
长短时记忆网络LSTM
1.
LSTM的设计思路
2.
LSTM是怎样工作的
3.
从公式层面理解LSTM
4.
使用LSTM设计情感分析任务
门控循环单元网络GRU
1.更新门
2.重置门
3. 当前记忆内容
4. 当前时间步的最终记忆
参考文献
预训练模型篇
预训练模型是什么
SpanBERT
1. SpanBERT的技术改进点
2. BERT模型中的预训练任务
3. SpanBERT的预训练任务
4. 相关资料
RoBERTa
1. Dynamic Masking
2. Full-Sentences without NSP
3. Larger Batch Size
4. Byte-Level BPE
5. More Data and More Training Steps
6. 相关资料
SKEP
1. SKEP的设计思路
2. SKEP的实现概况
3. 无监督情感知识挖掘
4. Sentiment Masking
5. Sentiment Pre-training Objectives
6. 相关资料
ERNIE
1. ERINE是什么
2. Knowledge Masking Task
ERNIE3
1. ERNIE 3.0的设计思路
2. ERNIE 3.0的模型结构
3. 不同类型的预训练任务
4. 相关资料
ERNIE-Gram
1. ERNIE-Gram的由来
2. ERNIE和N-Gram的融入方式
3. 使用生成器显式建模N-gram Relation
4. 相关资料
KBERT
1. KBERT的由来
2. KBERT的模型结构
3. 相关资料
THU-ERNIE
1. THU-ERNIE的由来
2. THU-ERNIE的模型结构
3. K-Encoder融合文本信息和KG知识
4. THU-ERNIE的预训练任务
6. 参考资料
Transformer-XL
1. Transformer-XL的由来
2. Transformer-XL 建模更长序列
3. 相关资料
XLNet
1. 从AR和AE模型到XLNet模型
2. Permutation Language Model
3. Permutation Language Model如何建模
4. 相关资料
Longformer
1. Longformer的由来
2. Longformer提出的Self-Attention
3. Longformer Attention的实现
4. 相关资料
ERNIE-Doc
1. ERNIE-Doc的由来
2. 经典/Recurrence Transformer的计算
3. Retrospective feed mechanism
4. Enhanced Recurrence Mechanism
5. Segment-Reordering Objective
6. 相关资料
自然语言处理篇
词向量
One-Hot编码: 一种简单的单词表示方式
Word Embedding: 一种分布式单词表示方式
Word2Vec: 一种词向量的训练方法
关于词向量的一些有趣应用
命名实体识别
命名实体识别是什么
一文读懂BiLSTM+CRF实现命名实体识别
Lattice Lstm
Read the Docs
v: latest
Versions
latest
Downloads
On Read the Docs
Project Home
Builds