语言的对比 // Shell's Home

最近贝壳在学(或者准备学)三门语言，python，ruby，scheme。全部都是高级抽象语言，都是脚本语言。加上贝壳本身已经非常熟悉的几门语言，C/C++，Java，Asm，bash，贝壳这次是正宗的要"精通"七门语言了。当然，如果加上勉强会用如vb这些，十多种也不成问题。做为一个学了多种语言用了多种语言的程序员，我想写一下自己多这些语言的认识，作为后来者的参考。

首先是C，当然，是不包含C++特性的C。这门语言可以说是贝壳所见的语言中，最强大最广泛最具备生命力的语言。其他任何一种语言说到混编接口，基本就是C语言接口。C语言也可以模拟非常多的特性，COM，C++，都可以用C模拟。当然，模拟的复杂程度是另外回事情。并且可以编写其他语言的解析器/虚拟机，而这点来说其他语言很难做到。其实本质上说，C语言就是跨机器跨平台的万能汇编语言，所以才具备这些强大特性。C的核心思想是指针，其整个语言构架都是基于指针的。通过指针，我们直接操纵着内存地址的读写。当然有利必定有弊，C语言太难掌握，效率太低了。使用C写代码，就是和机器打交道。你得控制数据的读出写入，控制设备的初始化，控制内核交互。根本上说，一个强大的C程序员，并不强大在算法和创意上，而是强大在对系统的方方面面的了解上，强大在对基础原理的掌握上。

其次是C++，说实话，这语言有点高不成低不就。如果要掌握系统的方方面面，他不比C。如果要抽象要构架要快速要敏捷，他比不上所有的抽象语言。但是 C++的长处在于在系统的层级上引入了算法抽象，增强了编码效率。如果你确定需要在系统层级上编程，又不高兴从C的角度去写。C++可以极大的增加你写代码的速度。当然，他的弊端就是对底层的掌控力和抽象实现的复杂程度。C++(我指的当然是包括STL和Boost的)的长处在系统层级，所以你写代码的时候必须了解抽象的实现方式。然而抽象实现的越强大(例如boost的share_ptr)，其底层的机制就越复杂，你掌握的时间也越长。而如果不了解底层，往往会发生很多很奇怪的问题。例如smart pointer的问题，在其他语言中，这是语言系统的bug。而在C++中，则是你自己的问题。因此，想要真正玩好C++的程序员，必定首先是一个C高手，而不是拿着C++的OO特性把C++当普通OO语言的人。

再次是Asm，这种语言可以说没有什么生命力，因为他变化的太快了。一旦硬件构架改革，汇编就要调整。而且抽象层级不够高。除非你正好做操作系统底层，编译器优化和系统破解，否则最好不要考虑这种语言。这种语言的核心构架是寄存器。

然后是java，当然，还有很类似的C#。这类语言开始，语言的抽象层次提高了，因此可以提供反射(python中叫做自省)。反射是高级语言中必要的特性，然而C/C++并没有提供，原因么则必须说一下编译型和解释型语言。一般语言分为编译型和解释型，编译型的代码成型后只需要相关的库支持(其主要目的是代码复用减少复杂度和内存消耗)，而解释型的语言需要解释器。如果仅仅从方便使用角度说，解释型语言远远不如编译型(因为要单独安装解释器，当然，像 bash这类怪胎就表说了)，而且解释型的语言运行效率仅有编译型的1/10左右。然后当今语言界，编译型语言远远比不上解释型使用广泛。其根本原因有三个，一个是编译过程，一个是反射，最后一个就是内存管理。

如果读者有编译代码的例子，应当知道，除非在同等的条件下，否则编译C++代码是很麻烦的事情。而配置同等的编译条件则彻底失去了C++跨平台的意义。因此C++在不同平台下反复编译的时候，需要考虑大量的问题来达到跨平台的目的。往往这种事情麻烦到需要作者亲自指导编译的地步。如果一个软件，发布的时候声明可以跨平台，然而使用前需要作者指导用户做一堆繁复的操作。估计这个软件只会受到专业用户的欢迎吧。

所谓的语言编译，其实需要经过两步，编译和链接。编译的主要目的是将每行代码翻译成对应的汇编语言，而链接则是将符号引用转换为地址引用。举例来说，我使用了一个变量str来存放一个字符串，这个变量str就是一个符号。我需要在上文中声明(declear)这个变量，以便编译器在编译的时候代换这个符号对应的内存地址，和理解如何使用这个符号(关于上文没有声明的情况下的错误，请看"向下引用"特性)。我使用str的第四个字符的时候，str[3]就会被翻译到固定的内存地址或者基于基址的偏移，机器完全不用理会str是什么。而这点，则是反射实现的最大障碍。反射可以提供一个对象是什么，有什么的信息，并且可以动态创建对象。有了反射以后，才可以实现序列化，分布式等等高级应用。而C类语言在编译后失去了符号是什么的信息，只剩下一个名字，链接后连名字都没了。这种情况下，你怎么知道一个对象是什么呢？

Java/C#可以提供反射，因此属于解释型语言。但是他们又不属于完全的解释型，而是解释型的一个特殊分支，中间代码。中间代码型的语言，需要编译，执行的时候又需要解释器。看起来没什么好处，可是在支持反射的基础上，大概可以以C代码1/2的速度运行，比纯解释快多了。原因何在呢？我们可以看看 C++为什么不支持反射。反射是保存针对执行结构的数据并且提供交互，而C++则在编译时生成后丢弃了这些数据。因此，理论上说只要保存了这些数据就可以实现C++的反射。这就是中间代码语言所做的事情。当然，考虑到跨平台特性，编译的结果并不是汇编代码，而是类似汇编的代码(Java叫P代码，C#叫 IL)。后JVM直接执行P代码，C#则通过引擎编译IL到本地代码。因此JVM执行的时候效率基本恒定，而C#初次执行速度慢，后来则是比C++慢不了多少。

最后就是Java/C#的最强特性，动态内存管理。使用这个特性，可以使得程序员彻底的从内存分配和管理的泥潭中脱身出来。白痴的程序员写的程序可用，强大的程序员写程序的效率提高。可是成也萧何败也萧何，内存不到底不回收，又有额外的内存开销，结果导致系统的缓存命中率下降。我们平时觉得Java类语言执行慢最大原因在这里，半解释才不是根本原因。

因此这些语言的特点就是中间代码，其核心思想是对象。这类语言的最大特性就是抽象和构架，使用强大的设计模式，将大型问题拆分成多个小型问题解决。在解决问题的时候，其代码量并不比C++少多少。

再然后是python和ruby，当然，某种程度上还有bash，只不过他弱了点。这类语言的核心思想是抽象数据，例如字典，字符串等。bash是围绕着字符串处理设计的，python是围绕着集合设计的。这些语言解决问题的速度非常快，但是模块化特征和抽象特征相对弱。一般情况下，和C++相比，解决问题的速度大概是1:5，代码量则是1:3。