拉格朗日乘子法与L1和L2正则项|机器学习基础|L1正则化-L2正则化-拉格朗日乘子法
拉格朗日乘子法本节内容直接摘自约束优化方法之拉格朗日乘子法与KKT条件,这篇文章是我觉得阐述的最清晰的一篇关于KTT条件的,对着敲一遍不失为一个比较好的加深记忆的办法。拉格朗日乘子法可以用解决带有约束条件的最优化问题,约束条件又分为等式约束和不等式约束。对于等式约束,可以直接应用拉格朗 ...
阅读更多
08-机器翻译,序列到序列模型和注意力机制|cs224n学习|cs224n课程-nlp-seq2seq-机器翻译-attention
Section 1: Pre-Neural Machine Translation机器翻译(MT)是将一个句子$x$从一种语言(源语言)转换为另一种语言(目标语言)的句子$y$的任务。
1990s-2010s: Statistical Machine Translation统计 ...
阅读更多
07-消失的梯度和各式的循环神经网络|cs224n学习|cs224n课程-nlp-LSTM-GRU
Vanishing gradient intuition
RNN在不同时都使用共享参数$W$,导致$t+n$时刻的损失对$t$时刻的参数的偏导数存在$W$的指数形式,一旦$W$很小就会导致梯度消失问题。当这些梯度很小的时候,反向传播的越深入,梯度信号就会变得越来越小
Why is v ...
阅读更多
06-句子的概率?循环神经网络和语言模型|cs224n学习|cs224n课程-nlp-RNN-n-gram
Language Modeling
语言模型就是预测一个句子中下一个词的概率分布。如上图所示,假设给定一个句子前缀是the students opened their,语言模型预测这个句子片段下一个词是books、laptops、exams、minds或者其他任意一个词的概率。形式化表 ...
阅读更多
05-语言结构依赖分析|cs224n学习|cs224n课程-nlp
前言对于句法结构(syntactic structure)分析,主要有两种方式:Constituency Parsing与Dependency Parsing
Constituency ParsingConstituency Parsing主要用phrase structure gr ...
阅读更多
04-矩阵计算与反向传播|cs224n学习|cs224n课程-nlp
Gradients该部分介绍了雅可比矩阵、链式求导法则,最后推算出下图的输出得分$s$对$W$和$b$的求导结果。
根据链式求导法则 :
\frac{\partial s}{\partial b}=\frac{\partial s}{\partial h}\frac{\parti ...
阅读更多
03-基于窗口的词分类,神经网络,和PyTorch工具|cs224n学习|cs224n课程-nlp-ner
Classification setup and notation通常我们有由样本组成的训练数据集
\{x_i,y_i\}_{i=1}^N$x_i$是输入,例如单词(索引或是向量),句子,文档等,维度为$d$$y_i$是我们尝试预测的标签($C$各类别中的一个),例如 :
类 ...
阅读更多
常用图像分类模型和相关的知识点|图像分类|图像分类-卷积神经网络
SourceCode和这篇文章对应的源码存放在我的github下的Image classification仓库。
可以选择直接clone到本地:
git clone https://github.com/StanleyLsx/image_classification.git
D ...
阅读更多
02-词向量第二部分和词义|cs224n学习|cs224n课程-nlp-word2vec
Review: Main idea of word2vec
P(o|c)=\frac{exp(u_o^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}
随机的单词开始
历整个语料库中的每个单词
使用单词向量预测周围的单词
更新向量以便更好地预测
学习到词之间的相似 ...
阅读更多
01-NLP介绍和词向量|cs224n学习|cs224n课程-nlp-word2vec
Human language and word meaningHow do we represent the meaning of a word?
用一个词、词组等表示的概念
一个人想用语言、符号等来表达的想法
表达在作品、艺术等方面的思想
理解意义的最普遍的语言方式(linguis ...
阅读更多