A.Ross Elementary Analysis 泰勒公式

今天在研究泰勒公式,用的材料是A.Ross的Elementary Analysis。他证明泰勒公式的思路是这样的,首先给出泰勒级数及其余项的意义,然后证明必有$\forall x,\exists y\in(c,x)$(c是特定的某点,拿来做近似的“原点”。而x则是变量)使得$R_n(x)=\frac{f^{(n)}(y)}{n!}(x-c)^n$,就是说总存在某点离$x$不远,可以大差不差地拟合原函数,因为$R_n(x) = f(x)- \sum_{k=0}^{n-1} \frac{f^{(k)}(c)}{k!}(x-c)^n$,再据前式就是$f(x)=\sum_{k=0}^{n-1} \frac{f^{(k)}(c)}{k!}(x-c)^n + \frac{f^{(n)}(y)}{n!}(x-c)^n$。到了这一步,我们只是证明了对每个$x$,存在独特的一个点$y$能把$f(x)$写成类似泰勒级数的样子(因为只是有限项,所以只是类似而已)。每个$f^{(n)}(y)$都是独特的,就是说可能针对某些x,式子误差突然变得很大。或者针对某些阶数的$f^{(n)}(y)$,它的误差突然胜于前面任何阶数,这样一个公式是难以应用的。目前我们只是暂时找到了一种说话的方法,仍然在半途中。

我们平时说的泰勒公式就是$f(x) = \sum_{k=0}^{n-1} \frac{f^{(k)}(c)}{k!}(x-c)^n +o(x)$,在这里面我们期望的性质是展开阶数越高,出来的式子越精确,这就是说余项要越小才好,也就是$\forall x,R_n(x)\rightarrow 0$。那么,这样的情形具有什么性质呢,针对在$(a,b)$上的$f(x)$,如果它任意阶数的$f^{(n)}(x)$都小于一固定的常数$C$,我们就可以说$\forall x,R_n(x)\rightarrow 0$。因为根据上一段所述:
$$R_n(x)=\frac{f^{(n)}(y)}{n!}(x-c)^n\le\frac{C}{n!}\vert x-c\vert^n$$
而$\frac{\vert x-c\vert ^n}{n!}$是一致收敛于0,因此$R_n(x)$也如此。

幂级数的微分和积分

如果我们手上有一个幂级数$f(x)=\sum_{n=0}^\infty a_nx^n$,那么它的积分和微分形式可以分别写为:
$$
\int_0^x f(t) dt=\sum_{n=0
}^\infty \frac{a_n}{n+1}x^{n+1}
$$

$$
f'(x)=\sum_{n=1}^\infty na_nx^{n-1}
$$
讨论这个问题好像有些弱智,因为这似乎只是求导公式和微积分原理的简单应用,但是事情并不是这样的。只有在多项式里我们直接应用,写出类似的式子。但这里我们讨论的是级数,级数是关于无穷的式子。$f(x_0)=\sum_{n=0}^\infty a_nx_0^n$代表的是一个极限而不是一个式子。谈论它的微分形式或者积分形式时不能直接把针对多项式的理论搬过来。针对无穷我们要在极限理论内谈论问题。不过多项式的微分积分形式多少给予我们启发,我们觉得幂级数的微分积分应该长得跟对应多项式差不多,这多少给予我们一点暗示,有个起码的方向。

具体来说。处理它的积分形式主要思路是把无限转换成有限来说话,利用一致收敛连续函数可以将积分和求极限操作互换的性质。让积分积的是有限的多项式。处理它的微分形式时,靠的是先写出$\int_0^x na_nx^{n-1}=f(x)-a_0$,然后根据微积分基本原理断言$f(x)$的微分就是$na_nx^{n-1}$,关键在于引入了积分,微的是积分形式,而面对积分形式求导时我们有微积分基本原理,不像直接面对幂级数那样手足无措。

证明这两个等式的意义在于它们为微分积分操作背书。因为$f(x)=\sum_{n=0}^\infty a_nx^n$中$a_n$只是一连串的符号,代表着$x_n$的系数,但不表明具体的系数到底是什么。这就是说当我们面对$f'(x)=\sum_{n=1}^\infty na_nx^{n-1}$时,可以把$na_n$看成$a_{n-1}'$的系数,重新进行微分操作,积分同理。所以这两个式子并不是无关紧要的技术性定理。

概率论小结(1)

条件概率与独立性

条件概率的式子是$P(B|A)=\frac{P(AB)}{P(A)}$,陈希孺的教材中有句话说:

设有两个事件$A,B$,$A$的无条件概率$P(A)$与其在给定B发生之下的条件概率$P(A|B)$,一般是有差异的,这反映了两个事件之间存在着一些关联”。例如,若$P(A|B)>P(A)$,则B的发生使A发生的可能性增大了,即$B$促进了$A$的发生。

我没有注意到那个“例如”,以为条件概率定然大于无条件概率!而且还自己为它找了一个理由,心想条件概率的公式里分母是$P(A)$,它一定小于等于1,分母越小,分子不变则分数越大。而我认为分子是$P(A)$,这就可见条件概率定然大于无条件概率。这想法最明显的错处就是分子并不是$P(A)$而是$P(AB)$,但问题是我怎么会出这种错呢?我似乎在直觉上把条件概率这样理解:概率是在一定空间内才谈得上的,条件概率就是局限一个更小的空间去讨论概率。既然“收缩空间”这个行为表现为“除以$B$的概率”,就是说概率本身直接等于“空间”,那么分子也如样照抄$P(B)$就可以了。其实我认为“空间”这个想法仍然是对的,但是忽略了收缩空间时$A$事件的一部分也会被排除掉,为了照顾到这种排除必须把分子写作$P(AB)$。分母写成$P(A)$也不代表是在“收缩空间”,严格来说是在“订立空间”。前者就好像说要继续“缩”就继续在原基础上除就可以了,这样只会让结果越来越大,因为概率必然小于等于1,实际上要看情况是怎么“缩”的来确定怎么“订”。

条件概率的式子变一下形就是$P(AB)=P(B|A)P(A)$,光看形式我觉得这很像描述独立性的数学语言嘛!也就是说相互独立的事件$A_1,A_2,\dots$必有:
$$P(A_1A_2\dots)=P(A_1)P(A_2)\dots$$

我开始想条件概率的变形式子是不是暗示着条件概率$P(B|A)$和$P(A)$互相独立呢。但如果非要说它们互相独立,问题就是直觉上来说它们显然不互相独立,都是“条件”概率了,事件$B|A$有赖于事件$A$,怎么可能互相独立呢!这件事使我非常纠结,后来才想清楚,这可能是自己高中囫囵吞枣懂得了这几个概念的表述,然后只做题而不重视概念前因后果的后遗症。首先独立性的数学定义是有赖于条件概率的。事件$A,B$互相独立,就是说$P(B|A)=P(A)$,这才推得出$P(AB)=P(A)P(B)$,条件概率的数学表述和独立性的确实很像,但这是因为独立性的定义出自条件概率,独立性体现了条件概率,而非反过来条件概率中体现了独立性,乃至说从中看出事件$B|A$可能和$A$“互相独立”,这好比说老子像儿子,是不清楚渊源谱系的结果。从数学理论构造上说是这样,从直觉上来说也是这样。一个意识如果只见到杂多那么就不成为意识,它起码会发现“我”和一些东西有分别,却又有时空上的关联,进一步处理杂多间的关联,产生了因果,概率之类的概念。其后这混沌的意识又进一步看出自己制订的共相中有一些实在难说有因果关联,这才产生了独立性的概念。

全概率公式

设$B_1,B_2,...$为有限或无限个事件,两两互斥且在每次实验中至少发生一个(其实就是说一个必然事件由之组成的诸种不相混杂的具体事件),这段话等价于数学上的表述:
$$B_iB_j=\emptyset \quad(i\neq j)$$
$$B_1+B_2+B_3+\dotsb=\Omega(必然事件)$$
对于任何一个事件$A$来说,因为$\Omega$是必然事件,所以$P(A\Omega)=P(A)$,再因为$B_i(i=1,2,\dots)$事件互斥,故$AB_i(i=1,2,\dots)$诸事件亦互斥。所以:
$$
\begin{align}
P(A) =&P(AB_1)+P(AB_2)+\dots\\
=&P(A|B_1)P(B_1)+\\&P(A|B_2)P(B_2)+\dots
\end{align}
$$

此公式可以从两个角度看,一个是实用的角度,有时候直接求得$A$的概率在实践中是基本不可能的。但是可以找到一个必然事件,同时它又能被拆分成诸互斥事件,再从互斥事件出发一步一步地在实践中求得其概率,再加总得到我们想要的$P(A)$。从哲学的角度看,这就是把一个事件可能的所有原因都列出来,分别研究它们对结果可能性的贡献,求得一个总可能性。

贝叶斯公式

贝叶斯公式可以看成
$$
\begin{align}
P(AB) &=P(A|B)P(B)\\
&=P(B|A)P(A)
\end{align}
$$
的某种变形,上述这个公式其实就是条件概率。条件概率可以理解成一种“因果相关性”,那么$(1)$就是从B到A发生的可能性,$(2)$就是从A到B。再抽象一点就是从前往后的相关性和从后往前的相关性。这里的差异是时间的差异。

贝叶斯公式严格来说是:
$$
\begin{align}
P(B_i|A) &=\frac{P(AB_i)}{P(A)}\\
&=\frac{P(B_i)P(A|B_i)}{\sum_j P(B_j)P(A|B_j)}
\end{align}
$$
贝叶斯公式的推导过程首先是把条件概率倒了次序,其后用了一下全概率公式。产生了很神奇的结果,在结果和原因之间描绘出了一种量上的联系。原来是原因推结果现在变成了结果推原因$A$到$B_i$,知道了结果发生,它是因为某种原因产生的概率是多少呢?这通过计算该原因产生结果的概率在所有原因产生结果概率之和得出。

达布可积的两种等价表述

如果想说$[a,b]$上的有界函数$f$是达布可积的,存在两种等价表述方式:

  1. $\forall\epsilon>0$,存在$[a,b]$上的一分划$P$,对于它必有$U(f,P)-L(f,P)<\epsilon$。
  2. $\forall\epsilon>0$,存在对应的$\delta>0$,使得对于任何模长$|P|<\delta$的划分$P$,必有$U(f,P)-L(f,P)<\epsilon$。

区别所在,就是前者说“存在一个分划,对于它必有...”,而后者说“存在一个$\delta>0$,对于模长小于$\delta$的分划,必有...”。在质上,一个断言存在分划,一个断言存在实数$\delta$,不同分划都要被该实数度量;在量上,前者断言存在一个分划成立,另一个则断言满足条件的所有分划成立。此处我想给出一种直观。


为什么成立?

第一种定义

达布可积被定义为“达布上和的下确界与下达布和的上确界相等”。确界这个词只有对集合才成立,而当我们谈“达布上下和的集合”时,谈的是无穷的分划对应的达布和集合。所谓达布上下和,又可以说是分别从“有余”和“不足”两个方面来粗放地描述函数和,画画图就能看出来。再就是,你可以想象一下,在无穷的分划中间是不是恰好有那么个分划,细到刚刚好的地步,使得它,这个分划,所对应的达布上下和之差小于那给定的正实数 $\epsilon$。如果真有这么个分划,那达布上下和的确界必须要同一——如果不同一,那它们之间天然就有差距,必然有$U>L$。那么随手取的一个$\epsilon:=\frac{U-L}{2}$,都是它们永远无法逾越的界限。

我们想要拿到手的式子是:
$$U(f,P)-L(f,P) < \epsilon$$

如上文所述的分划$P$之存在,既然和上下确界同一息息相关,就可以考虑用数学的语言把它们勾连在一起。承接上式,写一个:
$$\epsilon = U(f)+\frac{\epsilon}{2}-( L(f)-\frac{\epsilon}{2})$$

这样的形式令人想到确界的等价定义,故有:

存在$P_1$,使得$U(f,P_1)<U(f)+\frac{\epsilon}{2}$;存在$P_2$,使得$L(f,P_2)>L(f)-\frac{\epsilon}{2}$。

我们愿意把它们写成类似$U-L$的样式,看看能不能得到什么新的启发:

$U(f,P_1)-L(f,P_2)$ $<$ $U(f)-L(f)+\epsilon$ $=\epsilon$

这式子看起来和我们想要拿到手的差不多了,不过$P_1$、$P_2$是两个分划。如果这两个分划能变成一个分划就好了,这一个分划要是存在,肯定是因为达布和的某些性质,同$P_1$、$P_2$。

又,达布和有一个性质:
$P\subseteq Q$,$L(f,P)\leq L(f,Q)\leq U(f,Q)\leq U(f,P)$
确实,如果你从“不足”处来考察达布和,考察得越细($P\subseteq Q$,Q是更细的划分),“不足”就越少,它越大($L(f,P)\leq L(f,Q)$),也越接近真实的函数值的和;从“有余”来考虑也是同样一个道理。

这个性质的关键在“包含”二字上,这个性质如果要利用起来,$P_1$ 、 $P_2$都得“包含”在什么东西里面。随手就能造出来的一个类似东西是$P_1\cup P_2$。令其为$P$,看看能得出什么。

$U(f,P)-L(f,P)$ $\leq$ $U(f,P_1)-L(f,P_2)$
$$U(f,P)-L(f,Q)<\epsilon$$

这就是我们要找的东西。

积分随想

等价的两种定义

以下确界示例

若有实数集$S$,$S$的下界的集合$\frak{S}$。我们称$infS$是它的下确界。当:

① $\forall M\in \frak{S}$,$infS\geqslant M$。

② $\forall\epsilon>0,\exist s\in S$,使得$infS+\epsilon>s$

这两个定义应该是一开始学数分接触的东西。今天看定积分的达布刻画的时候又碰到它了。问题是:若有一数列趋向于$a$,数列所有项成集合$S$,那么这个集合的确界同$a$有什么关系?答案是$infS\leqslant a$,$supS\geqslant a$。说实在话,其实这个答案的证明和等价定义并没有直接关系。结合数列的性质用反证就出来了。不过,它多多少少还是有点形式上的相似性。第一种定义再平常不过了:诸下界中最大者即为下确界。直观地想,就是下确界不能再往大处移了;其它下界或许能移一点点,下确界是一点也不能动——怎么表达这个“一点也不能动呢”。这个东西和“极限”有着类似的直观,那么,想采取和极限$\epsilon-\delta$语言类似的形式,来严格地刻画它,当然很自然了。
2020.3.24


达布刻画

黎曼刻画是以 模(mesh) 为枢,直接利用极限刻画可积性;达布刻画则利用上达布和、下达布和、确界等概念,犹如上下两掌合一,刻画可积性。它们总体的思路都是无限分割函数“包裹”的小矩形,区别所在就在于“高”的选择。因为事实上并没有这么些小矩形,它们全出于人心的构造。黎曼随意选取“高”;而达布以最大最小值分别为高。除此以外,二者都是靠切细矩形得到确定值。对照看看,这岂不是很奇妙吗?随意选和选极值是一样的。或许我们可以说这是确界原理中体现的“极限性”?
$$U(f,P)=\sum_{k=1}^n M(f,[x_k-x_{k-1}])(x_k-x_{k-1})$$
$$L(f,P)=\sum_{k=1}^n m(f,[x_k-x_{k-1}])(x_k-x_{k-1})$$

上者为上达布和,下者为下达布和。$M$,$m$表示的分别是函数$f$在某区间的最大、最小值。请注意,分划$P$到底是怎么分划,全看心情。所以你有无穷多的上下达布和,各划一集,因为归根结底它是数集,则必有上下确界,分别记为$U(f)$、$L(f)$。利用上下确界的定义就有$L(f)<U(f)$。

  • 这里的形式和上下极限那里的证明法有种神秘的相似?

2022.3.25

关于直和的思考

直和是什么东西?

首先,我们说$V$的两子空间$A$,$B$的和$A+B$为$\{v_a+v_b$$|v_a\in A,$$v_b\in B\}$,然后$A+B$若为直和,则对于$\forall v\in A+B$,存在唯一的$v_a\in A$,$v_b$$\in B$使得$v=v_a+v_b$,此时记为$A\oplus B$。
首先要知道任意一个和空间必然是线性空间,它还是包含$A\cup B$的最小子空间。设想有一个线性空间,想要包含$A\cup B$,不管怎么说,你起码得包含两个子空间中的所有元素吧?满足了这个条件之后,你必得满足封闭性,$A\cup B$中任何两个元素进行加和,某元素进行数乘,必须封闭。如此,你自然推出,该线性空间被包含于和空间中。再,因为和空间亦包含于该线性空间,自然有和空间最小。
和空间还有一性质,就是拆分方式唯一。抽象地说,这个性质不是和基生成的线性空间类同吗?只不过原来是有唯一的向量,现在是有唯一的属于某集合的向量。

  • 两子空间的也是一个线性空间。对照起来看,既然都能造成线性空间,这两个操作还都是二元操作。你现在手上就有两把利刃,足够把一个线性空间分筋错骨,剔出它的子空间来,对子空间之间的联系看得洞若观火。

    怎么判断直和?

    一个和空间,固然是一个线性空间,不过是不是直和还有待商榷。以下罗列姚强讲过的四种刻画:

    1. 存在唯一的向量$v_1,v_2$使得$0$=$v_1+v_2$。
    2. 存在唯一的向量$v_1,v_2$使得和空间中某个向量$r$=$v_1+v_2$。
    3. $V_1\cap V_2$=$\{0\}$
    4. $dim(V_1+V_2)$=$dim(V_1)$+$dim(V_2)$

诸刻画都有些有趣之处。像第一二条,本来直和要求所有向量拆分唯一,这里直接将其化约到了某一向量拆分唯一。我讲不出来它的秘密所在,不过任何人只要看看就明白了——这种举重若轻的魔力肯定会发挥大作用;三很显然:你拆分方式都唯一了,两集合必然没有任何部分能互相替代,唯一相同只在于所有线性空间共有的零向量了。
四由和空间的维数公式可得,这公式和容斥原理形貌相同,论证都有共通之处。不过和空间的维数公式得从基这方面来考察,来证明。

推广

和空间可以无穷加下去,以子空间为单位建立一种类似于基的“大”空间。

一个有趣的例子

设$V=P^n$,$A\in P^{n\times n}$,满足$A^2=A$。
设:
$V_1=\{x\in P^n|Ax=0\}$
$V_2=\{x\in P^n|(A-I)x=0\}$
得证$V=V_1\oplus V_2$

这个例子有意思就在于$V_1$是零空间,$V_2$是特征向量空间。就是说任何一线性变换, 要是满足幂等阵条件,对于所有向量,它要么把人家化约回零点,要么保持人家不变。

  • 此外我才发现特征向量必可成一子空间。

姚强课上给出的一个线代例子

学了线性空间,怎样用它求斐波那契数列的通项呢?

设有集合$A=\{(x_1,x_2...x_n,...)\quad$ $|n\in \mathbb{N},x_n+x_{n+1}=x_{n+2}\}$。该集合是一个建立在数域$R$上的线性空间。

任意一个分量都被它前面的两个分量唯一地决定。那么,只有最先的两个分量是完全不受约束的,这两个自由的分量互相之间也没有任何约束。所以该集合的基包含两个元素。我们希望能拿到的是通项,而最简单的有通项公式的数列是等差数列和等比数列。等差数列不能满足$x_n+x_{n+1}=x_{n+2}$的要求,我们会尝试一下等比数列。又因斐波那契数列第一项为$1$,假设有数列$1,q,q^2...$,满足$1+q=q^2$,便能得到满足$x_n+x_{n+1}=x_{n+2}$条件,所以能被集合$A$表达的等比数列。该方程也十分好解,易得$q_1=\frac{1+\sqrt{5}}{2}$,$q_2=\frac{1-\sqrt{5}}{2}$。所以可设$a_1=(1,\frac{1+\sqrt{5}}{2},...)$,$a_2=(1,\frac{1-\sqrt{5}}{2},...)$,易见二者线性无关,其为线性空间的一组基。

  • 这里的严格证明实在是不会写。留待补充,2022.3.10。

也就是说对于任意元素$x\in A$,$\exists$唯一 $m_1,m_2\in R$,使得$x=m_1a_1+m_2a_2$。
那么,对于能表达斐波那契数列的元素:
$$
x'=(1,1,\dots,x_n',\dots)
$$
亦有唯一的$m_1',m_2'\in R$,使得$x'=m_1'a_1+m_2'a_2$
计算方程组有:
$$m_1'+m_2'=1$$
$$\frac{1+\sqrt{5}}{2}m_1'+\frac{1-\sqrt{5}}{2}m_2'=1$$
解得:
$$m_1'=\frac{1}{2}+\frac{\sqrt{5}}{10}$$
$$m_2'=\frac{1}{2}-\frac{\sqrt{5}}{10}$$
对于$a_1,a_2$中任何一个,其第$n$个分量的值总是为对应的$q_1^{n-1},q_2^{n-1}$,则向量$x'$的第$n$个分量,换言之,斐波那契数列的第n项,写出来是:
$$x_n'=(\frac{1}{2}+\frac{\sqrt{5}}{10})(\frac{1+\sqrt{5}}{2})^{n-1}$$ $$+(\frac{1}{2}-\frac{\sqrt{5}}{10})(\frac{1-\sqrt{5}}{2})^{n-1}$$
这个式子很难化,不过你可以验证,它等于斐波那契的标准通项公式:
$$x_n'=\frac{1}{\sqrt{5}} \Big[ (\frac{1+\sqrt{5}}{2})^n-(\frac{1-\sqrt{5}}{2})^n \Bigr]$$

Friedberg线代笔记第二章

第二章总的目的是要建立在向量空间中的一种变换,变换前后不改变向量空间的“结构”。这话有点抽象,事实上读到这里我也不懂得它是什么意思。我们至多可以说,第一章构筑了实体,现在,实体运动起来了。

线性变换

一个映射是线性变换,首先它的定义域和陪域都必须是线性空间,其次满足以下两个性质(二者其实可以统一为$T(ax+by)=aT(x)+bT(y)$):

  1. $T(x+y) = T(x)+T(y)$,也就是所谓的叠加性。哲学点来说,定义域上每个部分对陪域上总体的贡献是可以摘出来的,不存在说两两之间互相影响这回事。
  2. $T(cx)=cT(x)$,即是所谓的均匀性。定义域上的部分如何变化对培域上整体的贡献变化有什么影响?这也是可以摘出来的。可以看成是上一条的变形。(回顾线性空间八性,注意“+”和“×”是可以随意定义的,这两者之间不一定要有R上的“+”“×”的那些性质)哲学地说,这是在特定的变换下保持某种不变性或者规律性,物理上叫做对称性。

线性的概念可以说是博大精深。试举几例:旋转、翻转、投影、矩阵乘法、求导、积分,都是线性的。若读者看到此处请细加体会线性的意义。

零空间和像

零空间即是经线性变换后映射成零元的那些元素构成的集合;像,类同于映射里的值域,就是定义域上诸元素在陪域上对应元素的集合。
教材里拿到这两个定义后干了什么?首先是说零空间和象是线性空间,然后说你能借定义域的一组基找出象域的一个张成集,进而删出象域的一组基。接着推进,构造了零空间和象这两个线性空间的维数为nullity和rank。
重头戏是:

$nullity(T)+rank(T)=dim(V)$

这个定理说出三个子空间维数间的恒等关系。或许我们可以说,这是本书主线上的节点。因为我们谈的向量空间的维数,证明这个定理时使用的“象域的一个张成集是定义域上基映射到陪域上的诸向量之集合”,恰好囊括了之前讨论的两个定理。所以,这个定理解释之前做过的一切努力。那么这个定理揭示了什么?我们知道了零空间维数加秩等于定义域维数,这好像是说定义域就等于零空间和象域两个零空间加起来。但是象域是在陪域的一个子集,怎么会跟定义域和零空间扯上关系呢?这里引出了第二个重点,定义域和陪域之间的神秘联系,所谓联系,在数学里呈现出来就是映射。

于是,第二个重点是:T为单射,等价于零空间只含零元。这个结论是和线性映射的“线性”紧密联系在一起,如果不存在线性,这个结论也不复存在。此外,想想单射的定义是什么:$\forall$$x,y\in V$,$x\neq y$$\Rightarrow T(x)\neq T(y)$。这个定理一下子把“所有”化约到了证明零空间只含唯一元素。
想到了单射,我们可能就会考虑一下满射,兼有满射和单射的不就是双射吗?一俟得到双射的结论,我们就能在两个线性空间中建立一个反映射。这种美好的愿景吸引人继续研究。幸运的是,只要两个线性空间维数相等,满射就等价于单射。这就是说得到任何一种特殊的线性映射,你都能推出该映射是双射。

  • 另外,存在唯一的一个映射,使$V$上的一组n元基映射为$W$上的n个向量。(不一定有线性无关,或者张成整个线性空间等等性质)唯一这个说法,表面了若有另一个映射起到同样作用,它们必然是同一映射。
    线性映射是双射的好处就在于 定义域上一集合线性无关等价于陪域上它的映射集线性无关。好像线性无关被传导到了陪域上去。这种传导是线性双射的普遍的规律吗?

矩阵和线性映射

矩阵的好处就在于能够把线性映射更具体地表达出来。“表达”,实际是断言矩阵和线性映射是同义的。在数学上我们得先利用上一节的知识建立一个矩阵和线性映射间的双射
当我们做线性映射的时候我们在做什么?一个向量变成了另一个向量。既然说是变,具体是向量的什么东西变化了呢。要这么说,首先得表达一个向量是什么东西。向量可以唯一的表示为一组基的数乘和,同时,同属于一个线性空间的其它向量也可以被这组基唯一的表达出来。看来是一个相当本质性的概念。在一组基下谈不同的向量,唯一不同的就是各个数乘。把数乘扣出来,单独成为一个向量,便抓住了原向量本质性的东西。

$x=\sum_{i=1}^na_iu_i$

被表示为

$$
[x]_\beta=
\begin{pmatrix}
a_1\\a_2\\.\\.\\.\\a_n
\end{pmatrix}
$$

线性映射涉及到了两个线性空间,起码两组基。把定义域中某向量用陪域中的基表达出来,这“表达”具现化出来就是矩阵。通常的写法是把每一组新基排成一列,把它们排在第几列则表明它是定义域中向量哪一元的变换。


  • 神奇的是线性映射是线性空间到线性空间的映射,而你定义一下线性映射的加法与数乘,你会发现一类线性映射本身也能够变成一个线性空间。自然你可能想一线性映射到一线性映射之间也能建立一种映射,这个映射或许又是一个线性空间。这好像金字塔一级一级搭起来,每一级和上一级间都保持类似。金字塔是法老王的坟头,数学结构的这种堆叠是什么?或者问个小一点的问题,线性映射自成线性空间,这种程度的抽象本身有什么用?
  • 有了加法和数乘,定义一下矩阵乘积也是很自然的。矩阵就是线性映射,那矩阵乘积无非就是线性映射的复合。很有意思的是线性映射复合而成的映射保持 线性

持这种观点看矩阵的乘积$AB$,很自然地会说$AB$的某一列是$B$的某一列向量乘以$A$的某一行向量而成。中心思想就是这个,不过为了构造一个包含我们习以为常的矩阵操作的理论,在廓清定义,阐明运算定理方面,还有一堆细碎的证明要干。

  • 又,本节包含一个特别有意思的矩阵引用实例——incidence matrix。$A_{ij}=1$表示$i$到$j$存在某种关系,$A_{ij}=0$表示$i$到$j$不存在某种关系。这一个矩阵起码可以表达信息传递、clique、上下级关系三种范畴。好像是incidence matrix这种抽象抓住了一些具体事件中的本质——或者说incidence matrix做出了一种抽象,做出了一种阐释,合于我们应用的需求。

可逆性与同构

Fortunately, many of the intrinsic properties of functions are shared by their
inverses. For example, in calculus we learn that the properties of being con-
tinuous or differentiable are generally retained by the inverse functions.

摘录的这一段话很有意思。首先这既然是线代课本,谈到可逆性,重点也是在矩阵,线性变换上。至于说为什么要研究反函数?映射就是两个集合之间的关系,定义域上的某元素依着某种关系,和陪域上的某元素确定下来。关系是双向的,联系着这一头和哪一头,不过冒然想从陪域某元素反推回定义域,往往会找到多个元素。当然,你可以构造一种“反函数”定义,其中每个元素对应多个元素,恰好可以描述这种现象。但数学的一个取向是确定,我们希望研究确定的东西,所以有了惯常的逆映射定义。矩阵的逆保持了矩阵的很多性质,这个现象,同反函数保持连续性和可微性一道,被统一在线性映射的逆映射常常保持原映射的性质这一命题中。
线性映射是不是可逆的?除了用定义来证,还可以借助另一定理。

Let $T: V → W$ be a linear transformation, where $V$ and $W$ are finite-
dimensional spaces of equal dimension. Then $T$ is invertible if and only
if $rank(T) = dim(V)$.

很显然,因为零空间为$\{0\}$,又因线性,线性映射是单射。$W$的维数若和$V$一样,还能建立一个双射,产生线性映射的逆,线性映射的逆也是保持线性的。此外,只要在两组基下的线性映射是可逆的等价于线性映射本身也是可逆的。线性映射可逆推出两组基下的线性映射可逆,显然。两组基下的线性映射可逆(其实就是矩阵可逆)如何推出线性映射可逆呢?关键一点,在于运用定理——必然 存在唯一一个线性映射,使得定义域上的一组基,能被映射到陪域上数量与定义域维数相同的一向量集。映射出来的是向量,而向量经过运算还是向量,你完全可以把矩阵各列的向量当成此向量集。之前干的事情是把线性映射改写成矩阵,现在,我们运用此定理把矩阵改写为线性映射。

同构

可逆的概念针对的是某个具体的映射。不过,这个具体的映射本身就给人一种暗示,好像两个线性空间之间有神秘的相似性。这所谓的相似,依前文所述则是维数相等,我们用同构来刻画这种相似性。

  • 维数为$n$和$m$的线性空间$V$、$W$,以它们为定义域和陪域的所有线性映射的集合,和所有$m\times n$规格的矩阵的集合是同构的(不过为了表述一个具体的矩阵,建立一个具体的映射,你还是得先给定两组基)。线性映射的矩阵表述是具有线性的,所以只需要证明单射和满射。
    书里给出的证明,包含一个小技巧:双射即等于陪域中每一元素都对应唯一的定义域元素。于是又从矩阵的各分量中构造出唯一的一线性映射。
  • 定义道,$n$维向量空间$V$在$\beta$下的 标准表达 是函数$\phi_\beta(x)=[x]_\beta$。$V$的标准表达函数,听起来很怪。不过这函数本身是一个双射,提供了线性空间$V$到向量空间$F^n$的一个isomorphism。这么说来线性空间$V$到向量空间$F^n$便是一个同构。

坐标变换矩阵

$$x=\frac{2}{\sqrt{5}}x'-\frac{1}{\sqrt{5}}y'$$
$$y=\frac{1}{\sqrt{5}}x'+\frac{2}{\sqrt{5}}y'$$
如此的一个变量代换,可以把等式$2x^2-4xy+5y^2=1$变成等式$(x')^2+6(y')^2=1$,很容易看出新的等式就是一个椭圆的等式。不过,在标准坐标轴下,它是斜着的。这样岂不是很麻烦,如果是人徒手在纸上作一个椭圆,我们会试着建立一个新的坐标系,把这个椭圆放在中间。可是假如你有两个椭圆,它们相对于彼此都成一定的角度。确实你也可以直接画两个坐标系,可是你逼不得已得知道两个坐标系之间是怎样互相换算的。这就是这一节要讲的。以上面的椭圆举例,若椭圆上某点在原基下为$[P]\_\beta=(x,y)^T$,在新的基下,其旋转过后则是$[P]_\beta'=(x',y')^T$。表达这种坐标轴旋转,或者说,表述不同度量下某向量的形式的,是矩阵$Q=[I_v]_{\beta'}^{\beta}$。该矩阵的第$j$行是$[x_j']_\beta$。如果看不懂这个结论的话,结合前面所定义的线性映射的矩阵表述细细想一下,这十分显然,而又十分有意思。
我们讨论的是向量,但我们也可以讨论一下线性映射。线性映射是由矩阵表达出来的,但是为了用出矩阵,你必须设定两组基。好像在具体的矩阵背后,还有一个显隐不定的线性映射飘忽着,这么想,你也许会说另一个具体的矩阵也能表达同样的线性映射,那么,它们两个矩阵之间有什么关系呢?我们先从简单的矩阵开始,此矩阵表达的线性映射,其定义域与陪域同一。

$$[T]_{\beta'}=Q^{-1}[T]_\beta Q$$

其实这就是中文线代课本里的相似矩形,$A=Q^{-1}BQ$则B与A为相似矩形。两边的矩形起着类似“翻译”的作用。

  • 本书给出了一个例子,如何求解二维空间中某点关于某线对称的对应点。中学里传统的做法是作线给出解析方程联立计算等等,每次还只能处理一个点,或者说处理完两个点后得到一条线,十分繁杂。要看出reflection其实是一种线性映射,运用坐标变换矩阵可以很容易地做出来。以对称轴为$y$轴,其过原点的法线为$x$轴,以此为基,即是$Q$,轻易得到的对称的线性变换是$[T]_{\beta'}$,在将此新基下得到的结果翻译回原基,$Q^{-1}$,它们一同表达了$[T]_{\beta'}$。
  • 接上文,如果某点关于某条不过原点的线对称似乎是不行的。因为这时似乎不存在线性。
  • 再接上文,问题不是在没有线性上。能确切表达一个不在原点上的直线的空间不是二维空间。也就是说二维空间中无法处理这个问题。能处理的东西似乎叫仿射空间?

回到本节开题所写的问题,如果我们想找$[T]_{\alpha'}^{\alpha}$,$[T]_{\beta'}^{\beta}$的关系,易得:
$$[T]_{\alpha'}^{\alpha}=[I]_\beta^\alpha[T]_{\beta'}^{\beta}[I]_{\alpha'}^{\beta'}$$

Friedberg线代笔记第一章

向量空间

向量空间,空间空间,即是有一定的范围,数学中我们用集合来表达这种概念,在这一向量构成的集合之中,诸元素若满足八条定理,该集合就是一向量空间。具体是,加法的交换律和结合律,两条;标量乘法的结合律,三条;加法中存在零元逆元,五条;标量乘法对加法互相满足分配律,七条;任何向量存在幺元,八条。
“向量”在这一语境下到底是什么,其实无关紧要。要紧的是定义加法和标量乘法,标量乘法又要求一个域。总的来说,两个集合,两种操作,八条定理,就成为一个建立在一个域上的向量空间。另外,域对定义在上面的操作有封闭性;向量空间同样有,只不过主角变成了向量——是向量在被变换,而域只是用来描述向量的标量乘法的,屈居次位。于是,向量空间似乎是域的一种扩张。

  • 向量空间的向量就是向量,只有把定义推广成线性空间时,我们才可以说元组可以成一空间,矩阵的集合可成一向量空间;函数亦可。许多东西都可以看成函数,于是还能得到多项式函数可,数列可......

向量空间既然是个集合,它也可以有子集。当子集是个向量空间时,它便被称为该向量空间的子空间。如果每次判断子空间时都要对八条定理加以一一验证,未免繁琐。快捷的方法是检查该子集是否满足三条陈述:

  • 0$\in$W.
  • 若$x\in W,y\in W$,那么$x+y\in W$。
  • 若$c\in F,x\in W$,那么$cx\in W$.

简言之,其它定理是普适性的描述,它们描述的性质,自动被向量空间中所有元素继承。然而这三条确有赖于具体元素的选择,表现出一种偶然性

两两子空间的交集同样可称为子空间,如果要细加阐释,我们可以说:因为向量空间具有的性质是,向量怎么变换都在向量空间之内。于是属于两向量空间之交集的向量,经过任意变换后,仍然保持在两向量空间中。从这个定理,我们可以想到,一旦两个向量空间可以归属到同一向量空间之下,它们的交集将会产生许多属于向量空间的有趣性质。哲学地说有点宏观与微观同构的感觉。

线性组合

线性组合是就向量而言的。一个向量是线性组合,当且仅当,它所在的向量空间一子集中,存在有限个向量的数乘的和可以用来表示这个向量。于是,我们称它为该子集中诸向量的线性组合。似乎可以泛泛地说,许多向量的信息可以抽象地化约到一个向量中。

Throughout Chapters 1 and 2 we encounter many different situations in which it is necessary to determine whether or not a vector can be expressed as a linear combination of other vectors, and if so, how. This question often reduces to the problem of solving a system of linear equations.

一个向量是不是其余可数向量的线性组合呢?这是作者强调的关键问题。也许这句话起到了提纲挈领的作用,故引用如上。

接下来演示了如何判断一个向量是不是线性组合。
$u_1=(1,2,1)$,$u_2=(-2,-4,-2)$,$u_3=(0,2,3)$,$u_4=(2,0,-3)$,$u_5=(-3,8,16)$。$(2,6,8)$是不是它们的线性组合呢?如果是,必然有域$F$中元素$a_1,a_2,a_3,a_4,a_5$,使得$(2,6,8)=a_1u_1+a_2u_2+a_3u_3+a_4u_4+$$a_5u_5。$于是,问题变成了解方程。书里探讨了一下解方程中出现的三种操作、使用这些操作意欲达到的目的、方程组无解的标志是什么。

张成空间(span)是某组向量的所有线性组合,共同组成的集合。张成空间的一个性质就是它自动变成向量空间的一个子空间。回到线性组合的定义,为什么一个向量能被称为一些向量的线性组合呢?因为一些向量数乘等于该向量。如果把两个这样的向量加在一起,实际上等于一些向量再进行一次加和,它们并不逾越成为另一些向量,仍然是一些向量的线性组合;如果这样的向量乘以标量,据分配律和结合律,再有域的性质,新的向量仍然是线性组合。另一个性质是向量空间的某一子空间一旦包含一些向量,必然包含这些向量的张成空间。子空间叠子空间,看起来向量空间具有一种神秘的自成一“域”的性质。即使只知道几个向量在一子空间中,管中窥豹,也能得知它们的张成空间也在该子空间中。


线性组合的概念与向量空间的概念经由张成空间被统一在“生成”的概念中,表达这统一的命题是:

如果$span(S)=V$,那么说向量空间$V$的一子集$S$生成$V$。

想要找到一个很小的生成$V$的$S$,这个想法再自然不过了。因为$S$越小,就可以用更少次数的加和与数乘,表达$V$中的任何向量。问题关键在于,$S$中是否有向量是其它向量的线性组合呢?如果有,只消删去这个向量$a$,新的$S^{\prime}$照样能生成$V$,因为原有的表达式上$a$的位置,一律能被余下的向量代替。那么,对具体的向量集,又该怎样操作呢?有种很直接的办法是:
$$
u_{x_1}=u_{x^2}+u_{x^3}+...+u_{x^n}
$$
只要肯一个一个试,总能找出解来的。

这实在是一种笨功夫。不过只要你把方程左边移到右边来,柳暗花明又一村,就能得到一个判断某向量是否是其它向量的线性组合的好方法。对于线性相关来说,只要系数不变成0,符号怎样完全无所谓,于是我们得到了线性相关的概念。

如果$S$中存在有限个不同向量$u_1、u_2、...、u_n$,且有标量$a_1、a_2、...、a_n$不全为$0$,使得$a_1u_1+a_2u_2+...+a_nu_n=0$,那么我们说向量空间$V$的子集$S$是线性相关的。

所以,线性相关的概念之所以诞生,和为了缩小生成集(不严谨的用法)的动机是分不开的。因此,$a_1、a_2、...、a_n$全为$0$的解被称为平凡解,还可以从这方面来理解。
最终目的是为了得到“纯净”的向量集,里面任何向量不是其余向量的线性组合,所以我们有线性无关的概念,它的定义很简单地是线性相关的否定。线性相关是一种局部存在即存在的性质,反映到定义里就是$\exists a \neq 0$;线性无关是一种全体存在才存在的性质,反映到定义里是$\forall a = 0$。又,线性无关集要添入一个向量而成为线性相关集,只可能是新向量是原有诸向量的线性组合。

  • 这最后一个性质有种用法:慢慢构造线性无关向量集,直到添入任何一个向量,集合都会变成线性无关,用该性质可断言向量集包含整个线性空间。

    一组生成整个线性空间的线性无关向量被称为该线性空间的基。究其原因,是因为每个向量在这组基下都只能被唯一地表达。看起来基的每一种变换,都和线性空间中的每一个向量存在双射关系。基在这里变成了一种刻画线性空间的语言,叫它作“始基”就很正常了。
    “生成”的概念和“基”的概念密切相关,但凡任意有限集生成线性空间,它们的某个子集必然是基。也就是说,基的影子出现在每一个生成里面。如何论证这个命题呢?显而易见,慢慢删掉集合中的向量,最后总能得到一个线性无关集。要紧的是证明删掉向量,集合仍然张成线性空间,中间是以原生成集为跳板,证明线性无关集张成原生成集,导出集合张成线性空间。

    替换定理

    线性空间$V$被一含$n$个元素的集合$G$生成。若$L$是$V$中一个线性无关集,含有$m$个元素,则必定$m\leq n$,且$G$中一子集$H$定含有$n-m$个元素使得$L\cup U$生成$V$

  • 这个定理关键的几步是构造性的,在玩弄$G$和$L$两个集合中的向量。

也就是说只要有一个生成集打底,线性空间中一切线性相关集包含的元素个数都不大于它。如果说生成集蕴含了一切信息,这随机挑选的线性无关集可能丢掉了一些信息。本定理还保证线性无关集不具备的信息必能从生成集中得到。不囿于具体的向量而能复原出整个线性空间,似乎向量的个数是线性空间的重要指标。
确实,从这个定理出发,玩弄一个小小的trick就能得到每个基元素数量相同的结论:若基的元素数不同,必有一个更大,以小者为主体运用定理就能导出矛盾。从这里产生了维数的概念。更进一步地,生成集只要元素数与维数相同,必然是一个基;含维数个数元素的线性无关集,也是一个基。

维数是线性空间子空间的本质特征

  1. 两子空间维数相等,两子空间相等。

拉格朗日插值法

$f_i(x)=\frac{(x-c_0)...(x-c_i-1)(x-c_i+1)...(x-c_n)}{(c_i-c_0)...(c_i-c_i-1)(c_i-c_i+1)...(c_i-c_n)}$
如上所示可以得到$f_1、f_2、f_3...f_n$一串函数的表达式,而且,可以证明它们线性无关。证明的关键是结合式子
$$
f_i(c_j)=
\begin{cases}
0& if&i\neq j\\
1& if&i= j
\end{cases}
$$
得到诸标量只能为0。
于是,线性无关的向量是其对应子空间的基。

顾氏积分理论笔记

划分这个概念是建立在实数域上的闭区间上的。它是一个集合,其元素必须包含两个端点,其余随意从闭区间中抽取,不过,总的元素个数需要是有限的,所以并不能抽取一个“区间”。同时作者强调可将所有划分设为一个集合,原因未知。
划分中任意相邻(在数轴上相邻)元素之距离最大者称为该划分的模。同时,若两个在同一闭区间的分划$A$、$B$,$A \subset B$,那么$B$是$A$的细化。直观来说,就是一个划分似乎是由数轴上诸多桩子构成的,在原有的桩子上多打一些,我们当然会说数轴被切割地更细了,所以取名叫细化很自然。
在一个划分中,从相邻两点所构成的闭区间中可取出一个数,由所有这种数构成的集合叫标志点组。标志点组的选定有赖于划分的确定,所以二者息息相关。不过,值得注意的是,因为是闭区间,所有可以有前一区间取出的数是右端点,下一区间取出的数是左端点,二者重合。

借用以上诸概念表述的黎曼和定义,标志点组这个概念用在了函数值那里。

给定定义在$[a,b]$上的函数$f:[a,b]\to\mathbb{R}$,给定$\mathbb{P}\in\frak{P}\_[a,b]$,且有$\xi$ 是$\mathbb{P}$的一个标志点组,我们记$R(F,\mathbb{P},\xi):=$$\sum\_{k=1}^m f(\xi_k)·(x_k-x_{k-1})$,称为$f$关于$\mathbb{P}$及其相应的$\xi$的一个黎曼和(或积分和)

接下来谈了黎曼和的一些性质。

  • 黎曼和是线性的,类似于函数有线性,毋宁说黎曼和本身就是一个函数
    • $R(f+g,\mathbb{P},\xi)=R(f,\mathbb{P},\xi)+R(g,\mathbb{P},\xi)$
    • $R(\alpha f,\mathbb{P},\xi)=\alpha R( f,\mathbb{P},\xi)$
      1. 黎曼和从函数那里“继承”了大小关系,不过要对于区间上所有实数的函数皆成立同一大小关系,才有黎曼和的大小关系。
      2. 另外,划分及其对应的标志点组一道具有一种“区间可加性”。因为划分及其对应的标志点组,其实只相当于一个代号。所以证明本身从这种想法出发,主要是在玩弄集合论语言。
      3. 一个闭区间上的黎曼和要小于这一闭区间上函数的最大值与最小值之差的绝对值。画图出来该点很显然。
      4. 不同的划分所成黎曼和的差的绝对值必然小于这一闭区间上函数的最大值与最小值之差的绝对值的两倍。该结论由三角不等式推出。
      5. 上条所谈的大小关系局限于“最大值与最小值之差”。其实还可更仅一步,只消是划分中每两相邻点之间的最大值最小值之差中,它们的最大者亦能起到上条同样的作用。不过这需要“不同划分”是同一划分的细化。