Linux 内核学习笔记：进程 2 的创建及执行（第 2 部分） —— 加载 shell 程序

2016-03-03

本文是上一博文 Linux 内核学习笔记：进程 2 的创建及执行（第 1 部分）的续篇续篇。

注：比较完整的进程加载程序案例可参考《Linux 内核设计的艺术》（第 2 版）第 6.3 节“一个用户进程从创建到退出的完整过程”。这个小节写的相当不错！

进程 1 创建进程 2

在打开标准输出、标准错误输出设备文件完毕后，进程 1 继续执行 init 函数，创建进程 2：

// init/main.c ---------------------------------
int main(void)
{
	......
	if (!fork()) {		// fork 在子进程（进程 1） 返回 0
		init();		// 在子进程（进程 1）开始执行
	}
}

void init(void)
{
	int pid,i;
	
	......
	if (!(pid=fork())) {
		close(0);
		if (open("/etc/rc",O_RDONLY,0))
			_exit(1);
		execve("/bin/sh",argv_rc,envp_rc);
		_exit(2);
	}
	if (pid>0)
		while (pid != wait(&i))
	......
}

进程 1 创建进程 2 的过程跟进程 0 创建进程 1 的过程一样，请参照之前博文 Linux 内核学习笔记：进程 1 的创建及执行（第 1 部分）。其中有一点需要注意，跟进程 1 只复制了进程 0 页表的前 160 项不同，进程 2 复制了进程 1 页表的前 1024 项：

// mm/memory.c ---------------------------------
int copy_page_tables(unsigned long from,unsigned long to,long size)
{
	......
	for( ; size-->0 ; from_dir++,to_dir++) {
		
		......
		// 针对当前处理的页表，设置需复制的页表项数（因为采用了“写时复制”技术，所以并没有实际复制页表）
		// 如果是在内核空间，则仅需复制前 160 个页表项（表示内存区域为 160*4KB=640KB）
		// 否则需要复制 1 个页表的所有 1024 个页表项
		nr = (from==0)?0xA0:1024;
		
		......
	}
	......
}

进程 1 继续执行

在进程 1，fork 函数返回进程 2 的进程号（注意不是任务号）2，开始执行以下代码：

// init/main.c ---------------------------------
void init(void)
{
	int pid,i;
	
	......
	if (pid>0)
		while (pid != wait(&i))
	......
}

// lib/wait.c ----------------------------------
_syscall3(pid_t,waitpid,pid_t,pid,int *,wait_stat,int,options)

pid_t wait(int * wait_stat)
{
	return waitpid(-1,wait_stat,0);
}

// include/sys/wait.h --------------------------
pid_t wait(int *stat_loc);
pid_t waitpid(pid_t pid, int *stat_loc, int options);

// include/unistd.h ----------------------------
#define _syscall3(type,name,atype,a,btype,b,ctype,c) \
type name(atype a,btype b,ctype c) \
{ \
long __res; \
__asm__ volatile ("int $0x80" \
	: "=a" (__res) \
	: "0" (__NR_##name),"b" ((long)(a)),"c" ((long)(b)),"d" ((long)(c))); \
if (__res>=0) \
	return (type) __res; \
errno=-__res; \
return -1; \
}

上述代码表明 wait 函数实际调用的是 waitpid 函数，而 waitpid 函数又通过系统调用总入口 _system_call 来调用具体的服务程序 sys_waitpid 函数：

// kernel/exit.c ------------------------------
int sys_waitpid(pid_t pid,unsigned long * stat_addr, int options)
{
	int flag, code;
	struct task_struct ** p;

	verify_area(stat_addr,4);
repeat:
	flag=0;
	// #define FIRST_TASK task[0]
	// #define LAST_TASK task[NR_TASKS-1]
	for(p = &LAST_TASK ; p > &FIRST_TASK ; --p) {
		if (!*p || *p == current)
			continue;
		if ((*p)->father != current->pid)	// 筛选出当前进程的子进程，此时子进程是进程 2
			continue;

		// pid = -1
		if (pid>0) {
			if ((*p)->pid != pid)
				continue;
		} else if (!pid) {
			if ((*p)->pgrp != current->pgrp)
				continue;
		} else if (pid != -1) {
			if ((*p)->pgrp != -pid)
				continue;
		}

		// 判断子进程的状态并进行处理
		switch ((*p)->state) {
			case TASK_STOPPED:
				if (!(options & WUNTRACED))
					continue;
				put_fs_long(0x7f,stat_addr);
				return (*p)->pid;
			case TASK_ZOMBIE:
				current->cutime += (*p)->utime;
				current->cstime += (*p)->stime;
				flag = (*p)->pid;
				code = (*p)->exit_code;
				release(*p);
				put_fs_long(code,stat_addr);
				return flag;
			default:
				flag=1;
				continue;
		}
	}

	if (flag) {
		if (options & WNOHANG)
			return 0;
		current->state=TASK_INTERRUPTIBLE;	// 将当前进程设置为 TASK_INTERRUPTIBLE 状态
		schedule();	// 开始任务调度。此时，只有进程 2 处于就绪态。所以会调度到进程 2 执行。
				// 进程 0 处于 TASK_INTERRUPTIBLE  状态，请参考
				// 之前博文: Linux 内核学习笔记：进程 1 的创建及执行（第 3 部分）
				// 博文链接：http://xiehongfeng100.github.io/2016/02/28/linux-kenel-0-11-topic-process-one-part3/
		if (!(current->signal &= ~(1<<(SIGCHLD-1))))
			goto repeat;
		else
			return -EINTR;
	}
	return -ECHILD;
}

现在已经调度到进程 2 执行。

进入进程 2 执行

进程 2 开始执行以下代码：

// init/main.c ---------------------------------
static char * argv_rc[] = { "/bin/sh", NULL };
static char * envp_rc[] = { "HOME=/", NULL };

void init(void)
{
	int pid,i;
	
	......
	if (!(pid=fork())) {
		close(0);	// 关闭标准输入设备文件句柄（也即文件描述符），同时将该句柄指向 file_table 项的引用计数减 1，
				// 如果该引用计数变为 0，把对应的 inode_table 项释放
		if (open("/etc/rc",O_RDONLY,0))	// 因为句柄 0 已经空出来，所以刚好可以给 /etc/rc 文件使用。这样起到用
						// rc 替换 tty0 的效果。这个语句就是要返回句柄 0，要不就退出。
			_exit(1);
		execve("/bin/sh",argv_rc,envp_rc);
		_exit(2);
	}
	......
}

// lib/close.c ---------------------------------
_syscall1(int,close,int,fd)

// include/unistd.h ----------------------------
#define _syscall1(type,name,atype,a) \
type name(atype a) \
{ \
long __res; \
__asm__ volatile ("int $0x80" \
	: "=a" (__res) \
	: "0" (__NR_##name),"b" ((long)(a))); \
if (__res >= 0) \
	return (type) __res; \
errno = -__res; \
return -1; \
}

// fs/open.c ----------------------------------
int sys_close(unsigned int fd)
{	
	struct file * filp;

	if (fd >= NR_OPEN)
		return -EINVAL;
	current->close_on_exec &= ~(1<<fd);
	if (!(filp = current->filp[fd]))
		return -EINVAL;
	current->filp[fd] = NULL;	// 置空
	if (filp->f_count == 0)
		panic("Close: file count is 0");
	if (--filp->f_count)	// 引用计数减 1
		return (0);
	iput(filp->f_inode);	// 如果引用计数变为 0，则将该句柄（文件描述符）对应的 inode_table 项释放
	return (0);
}

调用 execve

execve 函数执行流程可参考之前博文 Linux 内核学习笔记：预备知识之“加载及虚拟地址空间”“execve 系统调用”部分。其定义如下：

// init/main.c ---------------------------------
static char * argv_rc[] = { "/bin/sh", NULL };
static char * envp_rc[] = { "HOME=/", NULL };

void init(void)
{
	int pid,i;
	
	......
	if (!(pid=fork())) {
		......
		execve("/bin/sh",argv_rc,envp_rc);
		_exit(2);
	}
	......
}

// include/unistd.h ----------------------------
int execve(const char * filename, char ** argv, char ** envp);

// lib/execve.c --------------------------------
_syscall3(int,execve,const char *,file,char **,argv,char **,envp)

// include/unistd.h ----------------------------
#define _syscall3(type,name,atype,a,btype,b,ctype,c) \
type name(atype a,btype b,ctype c) \
{ \
long __res; \
__asm__ volatile ("int $0x80" \
	: "=a" (__res) \
	: "0" (__NR_##name),"b" ((long)(a)),"c" ((long)(b)),"d" ((long)(c))); \
if (__res>=0) \
	return (type) __res; \
errno=-__res; \
return -1; \
}

// kernel/system_call.s ------------------------
.align 2
_system_call:
	......
	pushl %edx		# do_execve -> filename，_syscall3 -> file
	pushl %ecx		# do_execve -> argv，_syscall3 -> argv
	pushl %ebx		# do_execve -> envp，_syscall3 -> envp
	......
	call _sys_call_table(,%eax,4)
	......

.align 2
_sys_execve:
	lea EIP(%esp),%eax	# EIP = 0x1C，表示将 EIP + esp 的值赋予 eax，作为 do_execve 函数的第一个参数 eip
	pushl %eax		# do_execve -> eip
	call _do_execve
	addl $4,%esp	# 清栈
	ret

// fs/exec.c -----------------------------------
int do_execve(unsigned long * eip,long tmp,char * filename,
	char ** argv, char ** envp)
{
	......
}

以上代码表明 execve 函数实际调用的是 do_execve 函数。

上述代码有一点不好理解的是 lea EIP(%esp),%eax 这一句。在 kernel/system_call.s 文件开头，作者就对系统调用时，内核栈的分布情况有了一个说明：

 * Stack layout in 'ret_from_system_call':
 *
 *	 0(%esp) - %eax
 *	 4(%esp) - %ebx
 *	 8(%esp) - %ecx
 *	 // 10(%esp) - call _sys_call_table(,%eax,4) 压的值
 *	 C(%esp) - %edx
 *	10(%esp) - %fs
 *	14(%esp) - %es
 *	18(%esp) - %ds
 *	1C(%esp) - %eip
 *	20(%esp) - %cs
 *	24(%esp) - %eflags
 *	28(%esp) - %oldesp
 *	2C(%esp) - %oldss
 */

SIG_CHLD	= 17

EAX		= 0x00
EBX		= 0x04
ECX		= 0x08
EDX		= 0x0C
FS		= 0x10
ES		= 0x14
DS		= 0x18
EIP		= 0x1C
CS		= 0x20
EFLAGS		= 0x24
OLDESP		= 0x28
OLDSS		= 0x2C

上述代码可用图表示如下：

所以 lea EIP(%esp),%eax 这一句就相当于让 eax 的值等于被压栈的原 eip 的首地址。而且 eax 还被作为 do_execve 函数的第一个参数 eip。所以有：

eip[0] = 原 eip
eip[1] = 0x00 << 16 + 原 cs
eip[2] = 原 eflags
eip[3] = 原 esp
eip[4] = 0x00 << 16 + 原 ss

检测 shell 文件

检测 i 节点属性

这部分代码如下：

// fs/exec.c -----------------------------------
int do_execve(unsigned long * eip,long tmp,char * filename,
	char ** argv, char ** envp)	// tmp 跟 copy_process 中的参数 long none 一样，在这里无用
{
	struct m_inode * inode;
	struct buffer_head * bh;

	/* 
	* struct exec {
  	* 	unsigned long a_magic;		/* Use macros N_MAGIC, etc for access */
  	*	unsigned a_text;		/* length of text, in bytes */
  	*	unsigned a_data;		/* length of data, in bytes */
  	*	unsigned a_bss;			/* length of uninitialized data area for file, in bytes */
  	*	unsigned a_syms;		/* length of symbol table data in file, in bytes */
  	*	unsigned a_entry;		/* start address */
  	*	unsigned a_trsize;		/* length of relocation info for text, in bytes */
  	*	unsigned a_drsize;		/* length of relocation info for data, in bytes */
	* };
	*/
	struct exec ex;
	unsigned long page[MAX_ARG_PAGES];	// 参数和环境变量的页面管理指针数组。MAX_ARG_PAGES = 32
	int i,argc,envc;
	int e_uid, e_gid;	// 有效用户 id 和有效组 id
	int retval;		// return value
	int sh_bang = 0;		// 控制是否需要执行脚本处理代码
	unsigned long p=PAGE_SIZE*MAX_ARG_PAGES-4;	// 参数和环境变量的偏移指针，初始化为指向该页面管理指针数组的最后一个长字处
							// PAGE_SIZE = 4096
	
	// eip[1] = 原 cs。其中的代码段选择子不可以是内核代码段选择子，即内核不能调用该函数。
	if ((0xffff & eip[1]) != 0x000f)
		panic("execve called from supervisor mode");
	for (i=0 ; i<MAX_ARG_PAGES ; i++)	/* clear page-table */
		page[i]=0;
	if (!(inode=namei(filename)))		/* get executables inode */	// 这里是指取 /bin/sh 的 i 节点
		return -ENOENT;
	argc = count(argv);	// 计算参数和环境变量个数。在这里，argc = 1，envc = 1
	envc = count(envp);
	
restart_interp:
	if (!S_ISREG(inode->i_mode)) {	/* must be regular file */
		retval = -EACCES;
		goto exec_error2;
	}
	i = inode->i_mode;
	e_uid = (i & S_ISUID) ? inode->i_uid : current->euid;
	e_gid = (i & S_ISGID) ? inode->i_gid : current->egid;
	if (current->euid == inode->i_uid)
		i >>= 6;
	else if (current->egid == inode->i_gid)
		i >>= 3;

	// 如果用户没有权限执行该程序，则退出该程序的加载工作
	if (!(i & 1) &&
	    !((inode->i_mode & 0111) && suser())) {	// #define suser() (current->euid == 0)
		retval = -ENOEXEC;
		goto exec_error2;
	}

	// 读取可执行文件目标文件头部信息所在的磁盘块到缓冲块
	if (!(bh = bread(inode->i_dev,inode->i_zone[0]))) {
		retval = -EACCES;
		goto exec_error2;
	}
	......

检测文件头属性

这部分代码如下：

// fs/exec.c -----------------------------------
int do_execve(unsigned long * eip,long tmp,char * filename,
	char ** argv, char ** envp)	// tmp 跟 copy_process 中的参数 long none 一样，在这里无用
{
	......
	// 读取可执行文件目标文件头部信息所在的磁盘块到缓冲块
	if (!(bh = bread(inode->i_dev,inode->i_zone[0]))) {
		retval = -EACCES;
		goto exec_error2;
	}
	ex = *((struct exec *) bh->b_data);	/* read exec-header */	// 取得可执行文件目标文件头部信息
	
	// 检测是否是脚本文件。在这里，shell 文件（/bin/sh）不是脚本文件，不执行 if 里边语句
	if ((bh->b_data[0] == '#') && (bh->b_data[1] == '!') && (!sh_bang)) {
		......
	}
	brelse(bh);

	// 通过文件头中的信息，检测 shell 文件的内容是否符合执行规定
	if (N_MAGIC(ex) != ZMAGIC || ex.a_trsize || ex.a_drsize ||
		ex.a_text+ex.a_data+ex.a_bss>0x3000000 ||
		inode->i_size < ex.a_text+ex.a_data+ex.a_syms+N_TXTOFF(ex)) {
		retval = -ENOEXEC;
		goto exec_error2;
	}

	// 如果文件头大小不等于 1024B，程序也不能执行
	if (N_TXTOFF(ex) != BLOCK_SIZE) {
		printk("%s: N_TXTOFF != BLOCK_SIZE. See a.out.h.", filename);
		retval = -ENOEXEC;
		goto exec_error2;
	}
	if (!sh_bang) {
		p = copy_strings(envc,envp,page,p,0);
		p = copy_strings(argc,argv,page,p,0);
		if (!p) {
			retval = -ENOMEM;
			goto exec_error2;
		}
	}
	......
}

为 shell 程序执行做准备

加载参数和环境变量

这部分代码如下：

// fs/exec.c -----------------------------------
int do_execve(unsigned long * eip,long tmp,char * filename,
	char ** argv, char ** envp)	// tmp 跟 copy_process 中的参数 long none 一样，在这里无用
{
	......
	unsigned long page[MAX_ARG_PAGES];	// 参数和环境变量的页面管理指针数组。MAX_ARG_PAGES = 32

	int sh_bang = 0;	// 控制是否需要执行脚本处理代码
	unsigned long p=PAGE_SIZE*MAX_ARG_PAGES-4;	// 参数和环境变量的偏移指针，初始化为指向该页面管理指针数组的最后一个长字处
							// PAGE_SIZE = 4096

	for (i=0 ; i<MAX_ARG_PAGES ; i++)	/* clear page-table */
		page[i]=0;

	argc = count(argv);	// 计算参数和环境变量个数。在这里，argc = 1，envc = 1
	envc = count(envp);

	// 如果 sh_bang 已经设置，表明是即将运行
	if (!sh_bang) {
		p = copy_strings(envc,envp,page,p,0);	// 将环境变量复制到进程空间
		p = copy_strings(argc,argv,page,p,0);	// 将参数复制到进程空间
		if (!p) {
			retval = -ENOMEM;
			goto exec_error2;
		}
	}
	......
	// change_ldt(ex.a_text,page) 返回的是进程虚拟地址空间的数据段限长 64MB
	// 进程虚拟地址空间高地址 MAX_ARG_PAGES*PAGE_SIZE - p 区域是留给参数和环境变量的页面管理指针数组使用的
	p += change_ldt(ex.a_text,page)-MAX_ARG_PAGES*PAGE_SIZE;
	// 在进程的新栈空间中创建参数和环境变量页面指针数组
	p = (unsigned long) create_tables((char *)p,argc,envc);
	......
}

static int count(char ** argv)
{
	int i=0;
	char ** tmp;

	if (tmp = argv)
		// 注意：get_fs_long 函数返回的并不是字符串内容，而是字符串的地址
		// 以 argv_rc 为例，对于其第 1 个元素 "/bin/sh"，get_fs_long 返回的是该字符串的地址
		// 但对于其第 2 个元素 NULL，get_fs_long 返回 0. 因为：当 tmp = argv_rc + 4，即 tmp 指向
		// argv_rc 的第 2 个元素.在 get_fs_long 函数内部，对 tmp 进行一级解引用后：*addr=*tmp=NULL=0
		// 所以 get_fs_long 函数返回 0。
		// 综上，对于 argv_rc，求得的 argc = 1.
		while (get_fs_long((unsigned long *) (tmp++)))
			i++;

	return i;
}

// include/asm/segment.h ------------------------
extern inline unsigned long get_fs_long(const unsigned long *addr)
{
	unsigned long _v;

	__asm__ ("movl %%fs:%1,%0":"=r" (_v):"m" (*addr)); \
	return _v;
}

其中，对于 p += change_ldt(ex.a_text,page)-MAX_ARG_PAGES*PAGE_SIZE; 这一句的理解可参照下图：
图片来源：《Linux 内核完全注释》

copy_strings 函数

copy_strings 函数定义如下：

// fs/exec.c -----------------------------------
/*
 * 'copy_string()' copies argument/envelope strings from user
 * memory to free pages in kernel mem. These are in a format ready
 * to be put directly into the top of new user memory.
 *
 * Modified by TYT, 11/24/91 to add the from_kmem argument, which specifies
 * whether the string and the string array are from user or kernel segments:
 * 
 * from_kmem     argv *        argv **
 *    0          user space    user space
 *    1          kernel space  user space
 *    2          kernel space  kernel space
 * 
 * We do this by playing games with the fs segment register.  Since it
 * it is expensive to load a segment register, we try to avoid calling
 * set_fs() unless we absolutely have to.
 */
static unsigned long copy_strings(int argc,char ** argv,unsigned long *page,
		unsigned long p, int from_kmem)
{
	char *tmp, *pag;
	int len, offset = 0;
	unsigned long old_fs, new_fs;

	if (!p)
		return 0;	/* bullet-proofing */
	new_fs = get_ds();
	old_fs = get_fs();
	if (from_kmem==2)
		set_fs(new_fs);

	/* while(argc-- > 0){} 相当于
	while(argc > 0)
	{
		argc--
		if(from_kmem == 1)
		......
	}
	所以在传入 get_fs_long(((unsigned long *)argv)+argc) 前 argc 已经自减变为 0
	*/
	while (argc-- > 0) {
		if (from_kmem == 1)
			set_fs(new_fs);

		// 注意：get_fs_long 函数返回的并不是字符串内容，而是字符串的地址
		if (!(tmp = (char *)get_fs_long(((unsigned long *)argv)+argc)))
			panic("argc is wrong");
		if (from_kmem == 1)
			set_fs(old_fs);
		len=0;		/* remember zero-padding */
		do {
			len++;
		} while (get_fs_byte(tmp++));	// 注意，当 get_fs_byte(tmp++) 返回 0 的时候，虽然循环条件已不满足，
						// tmp 依然会递增 1.这也是为什么在 while(len) 循环中，要先 --tmp。tmp 递减后，*tmp = 0.
						// 这样在复制字符（*(pag + offset) = get_fs_byte(tmp);）的时候，保证复制完毕后的
						// 字符串以 0 结束。这也是 create_tables 函数中的 "while (get_fs_byte(p++))" 循环得以
						// 停止的条件

		if (p-len < 0) {	/* this shouldn't happen - 128kB */
			set_fs(old_fs);
			return 0;
		}
		while (len) {
			--p; --tmp; --len;
			if (--offset < 0) {
				offset = p % PAGE_SIZE;
				if (from_kmem==2)
					set_fs(old_fs);
				// 如果当前偏移值 p 所在的页面指针数组项 page[p/PAGE_SIZE] = 0，表示相应页面还不存在，需要申请新的
				// 内存空闲页面，将该页面指针填入指针数组，并也使 pag 指向该新页面。若申请不到空闲页则返回 0.
				if (!(pag = (char *) page[p/PAGE_SIZE]) &&
				    !(pag = (char *) page[p/PAGE_SIZE] =
				      (unsigned long *) get_free_page())) 
					return 0;
				if (from_kmem==2)
					set_fs(new_fs);

			}
			*(pag + offset) = get_fs_byte(tmp);
		}
	}
	if (from_kmem==2)
		set_fs(old_fs);
	return p;
}

理解 copy_strings 可参考下图：　
图片来源：《Linux 内核完全注释》

create_tables 函数

create_tables 函数定义如下：

// fs/exec.c -----------------------------------
/*
 * create_tables() parses the env- and arg-strings in new user
 * memory and creates the pointer tables from them, and puts their
 * addresses on the "stack", returning the new stack pointer value.
 */
static unsigned long * create_tables(char * p,int argc,int envc)
{
	unsigned long *argv,*envp;
	unsigned long * sp;

	sp = (unsigned long *) (0xfffffffc & (unsigned long) p);		// 按 4 字节对齐
	sp -= envc+1;	// sp = sp - (envc + 1)
	envp = sp;
	sp -= argc+1;
	argv = sp;
	put_fs_long((unsigned long)envp,--sp);
	put_fs_long((unsigned long)argv,--sp);
	put_fs_long((unsigned long)argc,--sp);
	while (argc-->0) {
		put_fs_long((unsigned long) p,argv++);
		while (get_fs_byte(p++)) /* nothing */ ;	// 即使 get_fs_byte(p++) 返回 0，p 照样递增
	}
	put_fs_long(0,argv);
	while (envc-->0) {
		put_fs_long((unsigned long) p,envp++);
		while (get_fs_byte(p++)) /* nothing */ ;
	}
	put_fs_long(0,envp);
	return sp;
}

// include/asm/segment.h ------------------------
extern inline void put_fs_long(unsigned long val,unsigned long * addr)
{
__asm__ ("movl %0,%%fs:%1"::"r" (val),"m" (*addr));
}

create_tables 函数执行结果如下图所示:
图片来源：《Linux 内核完全注释》

综上，以上函数执行完后的最终效果如下图所示：
图片来源：《Linux 内核完全注释》

调整进程 2 管理结构

这部分代码如下：

// fs/exec.c -----------------------------------
int do_execve(unsigned long * eip,long tmp,char * filename,
	char ** argv, char ** envp)	// tmp 跟 copy_process 中的参数 long none 一样，在这里无用
{
	......
	if (!sh_bang) {
		p = copy_strings(envc,envp,page,p,0);
		p = copy_strings(argc,argv,page,p,0);
		......
	}
/* OK, This is the point of no return */
	if (current->executable)	// 检测进程是否已经有对应的可执行目标文件
		iput(current->executable);
	current->executable = inode;	// 此时还没有，挂接到 shell 文件的 i 节点
	for (i=0 ; i<32 ; i++)	// 将进程的信号管理结构全部清 NULL
		current->sigaction[i].sa_handler = NULL;
	for (i=0 ; i<NR_OPEN ; i++)	// close_on_exec 所标识的打开的文件，现在都要关闭
		if ((current->close_on_exec>>i)&1)
			sys_close(i);
	current->close_on_exec = 0;	// 并将 close_on_exec 所有位清 0
	
	// 解除进程（2）与父进程（1）共享的页面关系
	// 实际上，是将进程 2 所有的页表目录项、页表项清零，同时将‘页表所占的物理页’和‘页表项所指向的所有物理页’释放
	// 物理页释放操作也并不是直接将该页置为空闲，而是让其引用计数递减，递减到 0 自然该页就是空闲的了。具体可见 free_page 函数
	free_page_tables(get_base(current->ldt[1]),get_limit(0x0f));
	free_page_tables(get_base(current->ldt[2]),get_limit(0x17));

	if (last_task_used_math == current)
		last_task_used_math = NULL;
	current->used_math = 0;	// 将进程的数学协处理器的使用标志清 0

	// change_ldt(ex.a_text,page) 返回的是进程虚拟地址空间的数据段限长 64MB
	// 进程虚拟地址空间高地址 MAX_ARG_PAGES*PAGE_SIZE - p 区域是留给参数和环境变量的页面管理指针数组使用的
	p += change_ldt(ex.a_text,page)-MAX_ARG_PAGES*PAGE_SIZE;	// 重新设置进程的局部描述符表
	p = (unsigned long) create_tables((char *)p,argc,envc);
	current->brk = ex.a_bss +
		(current->end_data = ex.a_data +
		(current->end_code = ex.a_text));
	current->start_stack = p & 0xfffff000;
	current->euid = e_uid;
	current->egid = e_gid;
	i = ex.a_text+ex.a_data;
	
	// 将内存中 BSS 段的一页面数据全清 0
	while (i&0xfff)
		put_fs_byte(0,(char *) (i++));
	eip[0] = ex.a_entry;		/* eip, magic happens :-) */
	eip[3] = p;			/* stack pointer */
	return 0;
exec_error2:
	iput(inode);
exec_error1:
	for (i=0 ; i<MAX_ARG_PAGES ; i++)
		free_page(page[i]);
	return(retval);

free_page_tables 函数

free_page_tables 函数定义如下：

// mm/memory.c ---------------------------------
int free_page_tables(unsigned long from,unsigned long size)
{
	unsigned long *pg_table;
	unsigned long * dir, nr;

	if (from & 0x3fffff)
		panic("free_page_tables called with wrong alignment");
	if (!from)
		panic("Trying to free up swapper memory space");
	size = (size + 0x3fffff) >> 22;
	dir = (unsigned long *) ((from>>20) & 0xffc); /* _pg_dir = 0 */	// 页表目录项的物理地址
	for ( ; size-->0 ; dir++) {
		if (!(1 & *dir))
			continue;
		pg_table = (unsigned long *) (0xfffff000 & *dir);	// 页表物理地址
		for (nr=0 ; nr<1024 ; nr++) {
			if (1 & *pg_table)
				free_page(0xfffff000 & *pg_table);	// 递减该物理页引用计数，0xfffff000 & *pg_table： 物理页物理地址
			*pg_table = 0;	// 页表项清 0
			pg_table++;
		}
		free_page(0xfffff000 & *dir);	// 递减该页表所在物理页的引用计数。页表也在内存中实际占有一页
		*dir = 0;	// 页表目录项清 0
	}
	invalidate();
	return 0;
}

void free_page(unsigned long addr)
{
	if (addr < LOW_MEM) return;
	if (addr >= HIGH_MEMORY)
		panic("trying to free nonexistent page");
	addr -= LOW_MEM;
	addr >>= 12;
	if (mem_map[addr]--) return;	// 可见，仅仅是递减物理页的引用计数而已。只有当该引用计数为 0 的时候才表示
					// 没有任何进程使用该物理页
	mem_map[addr]=0;
	panic("trying to free free page");
}

change_ldt 函数

change_ldt 函数定义如下：

// fs/exec.c -----------------------------------
static unsigned long change_ldt(unsigned long text_size,unsigned long * page)
{
	unsigned long code_limit,data_limit,code_base,data_base;
	int i;

	code_limit = text_size+PAGE_SIZE -1;	// 在这里之所以要加 PAGE_SIZE 是因为怕 code_limit &= 0xFFFFF000 时将 code_limit 截短了
	code_limit &= 0xFFFFF000;
	data_limit = 0x4000000;	// 64MB
	code_base = get_base(current->ldt[1]);	// code_base = data_base = 任务号*64MB。每个任务的虚拟地址空间为 64MB 长
	data_base = code_base;
	set_base(current->ldt[1],code_base);
	set_limit(current->ldt[1],code_limit);
	set_base(current->ldt[2],data_base);
	set_limit(current->ldt[2],data_limit);
/* make sure fs points to the NEW data segment */
	__asm__("pushl $0x17\n\tpop %%fs"::);
	data_base += data_limit;
	for (i=MAX_ARG_PAGES-1 ; i>=0 ; i--) {
		data_base -= PAGE_SIZE;
		if (page[i])	// 如果该页面存在
			put_page(page[i],data_base);	// 将 page[i] 所指向的物理页注册到页表中，即在页表中添加一个页表项，该页表项也指向 page[i] 所指向的物理页
	}
	return data_limit;
}

// mm/memory.c ---------------------------------
unsigned long put_page(unsigned long page,unsigned long address)
{
	unsigned long tmp, *page_table;

/* NOTE !!! This uses the fact that _pg_dir=0 */

	if (page < LOW_MEM || page >= HIGH_MEMORY)
		printk("Trying to put page %p at %p\n",page,address);
	if (mem_map[(page-LOW_MEM)>>12] != 1)
		printk("mem_map disagrees with %p at %p\n",page,address);
	page_table = (unsigned long *) ((address>>20) & 0xffc);	// 页表目录项物理地址
	if ((*page_table)&1)	// 如果页表已经存在于物理内存，就获取该页的物理地址
		page_table = (unsigned long *) (0xfffff000 & *page_table);
	else {	// 没有则从内存申请物理页，用作页表
		if (!(tmp=get_free_page()))
			return 0;
		*page_table = tmp|7;	// 设置页表目录项
		page_table = (unsigned long *) tmp;
	}

	// 线性地址格式为：页表目录项 DI (10 位) - 页表 PI（10 位）- 偏移量（12 位)
	// 所以，(address>>12) & 0x3ff 是取出“页表 PI”，即页表项在页表中的序号
	page_table[(address>>12) & 0x3ff] = page | 7;	// 7 是属性
/* no need for invalidate */
	return page;
}

调整 eip 和 esp

这部分代码如下：

// fs/exec.c -----------------------------------
int do_execve(unsigned long * eip,long tmp,char * filename,
	char ** argv, char ** envp)	// tmp 跟 copy_process 中的参数 long none 一样，在这里无用
{
	......
	// 将内存中 BSS 段的一页面数据全清 0
	while (i&0xfff)
		put_fs_byte(0,(char *) (i++));

	eip[0] = ex.a_entry;	// 设置进程（2）开始执行的 eip
	eip[3] = p;		// 设置进程（2）的栈顶指针 esp
	return 0;
	......

到这里，do_execve 函数执行完毕。

执行 shell 程序

缺页中断

除了参数和环境变量的页面管理指针数组，shell 程序的线性地址空间对应的程序并未加载到物理内存，所以当 shell 程序开始执行时，在页表目录或页表不能查询到 shell 程序所在物理页面的表项，这样会引发“页异常”中断。此中断会进一步调用“缺页中断”处理程序来分配一个页面，并加载一页 shell 程序。

执行代码如下：

// mm/page.s -----------------------------------
_page_fault:
	xchgl %eax,(%esp)	# 取出错码到 eax
	pushl %ecx
	pushl %edx
	push %ds
	push %es
	push %fs
	movl $0x10,%edx		# 置内核数据段段选择子
	mov %dx,%ds
	mov %dx,%es
	mov %dx,%fs
	movl %cr2,%edx		# CR2 保存的是引起页异常的线性地址
	pushl %edx		# 作为 do_no_page 参数 address
	pushl %eax		# 作为 do_no_page 参数 error_code
	testl $1,%eax
	jne 1f
	call _do_no_page	# 调用缺页处理函数 do_no_page
	......

调用 do_no_page

do_no_page 函数定义如下：

// mm/memory.c ---------------------------------
void do_no_page(unsigned long error_code,unsigned long address)
{
	int nr[4];
	unsigned long tmp;
	unsigned long page;
	int block,i;

	address &= 0xfffff000;	// 页面地址
	tmp = address - current->start_code;
	
	// executable 是进程 i 节点结构。该值为 0，表明进程刚开始设置，需要内存；而指定的地址超出代码加数据长度，
	// 表明进程在申请新的内存空间，也需要给予
	if (!current->executable || tmp >= current->end_data) {
		// 跟 get_free_page 不一样，get_empty_page 不仅调用 get_free_page 申请一个物理页，还进一步调用
		// put_page，将物理页面映射到指定的线性地址处
		get_empty_page(address);
		return;
	}

	// 尝试共享页面
	if (share_page(tmp))
		return;

	if (!(page = get_free_page()))
		oom();
/* remember that 1 block is used for header */	// 程序头要使用一个数据块
	block = 1 + tmp/BLOCK_SIZE;	// 计算缺页所在的数据块

	// 根据 i 节点信息，取出数据块在设备上对应的逻辑块号
	for (i=0 ; i<4 ; block++,i++)
		nr[i] = bmap(current->executable,block);

	// 读一个页面的数据（4 个数据块）到指定物理地址 page 处
	bread_page(page,current->executable->i_dev,nr);

	// 在增加了一页内存后，该页内存的部分可能会超过进程的 end_data 位置。下面的循环即是对物理页面超出的部分进行处理
	i = tmp + 4096 - current->end_data;
	tmp = page + 4096;
	while (i-- > 0) {
		tmp--;
		*(char *)tmp = 0;
	}

	// 把物理页面映射到指定线性地址
	if (put_page(page,address))
		return;

	free_page(page);
	oom();
}