《二语习得理论：导论》第一章引言：理论的本质

几乎每个人都听说过爱因斯坦的相对论。人们也听说过进化论、原子理论、量子理论、板块构造学说，以及大爆炸理论。所有这些理论的共同点在于，它们都是关于科学家所称的「自然现象」的理论：我们每天观察到、或以某种方式可被观察到的事物。理论是科学的基本支柱，而科学的一切进步，从某种意义上说，都是理论发展的进步。你若去问科学家，他们会告诉你：没有理论，科学无法前进。你若去问应用科学家（例如开发药物的人，或试图解决如何从地球前往火星问题的人），他们也会告诉你：他们的大量工作都源自理论中的假设与规律。

理论也被用于社会与行为科学，例如心理学、社会学和经济学。与自然科学一样，社会科学试图解释被观察到的现象，例如为什么在某些条件下人们对一些事情的记忆比另一些更好，或为什么股市会以那样的方式运作。

在第二语言习得（SLA）研究领域，理论也逐渐占据了核心位置。有些研究者——当然并非所有人——甚至会说：SLA 作为研究领域想要取得进步，唯一的途径就是「由理论驱动」。本书旨在向读者介绍第二语言（L2）习得中一些当前或主流的理论，并为读者继续深入阅读提供背景。作为起点，我们需要先考察一般意义上的理论是什么。

什么是理论？

从最基本的层面来说，理论是一组关于自然现象的陈述（「规律」），用于解释这些现象为何会以这样的方式发生。在科学研究中，理论被用于 Kuhn（1996）所说的「解谜」工作。Kuhn 的意思是：科学家把可观察到的现象看作需要解决的谜题或问题。为什么地球绕着太阳公转却不会飞向太空？为什么人类用两足行走，而大猩猩用指关节行走？又例如，为什么有些人的眼睛是蓝色，有些是棕色，却不是红色或橙色？这些都是我们每天都会遇到的疑问，而科学家的职责就是对它们作出解释。

简而言之，理论的首要职责是对观察到的现象作出解释。但理论不应止步于此。理论还应当对在特定条件下会发生什么作出预测。我们来看三个例子：一个较为熟悉，另外两个可能没那么熟悉。19 世纪早期，科学家已经意识到空气和水中存在微生物，也知道这些生物与疾病之间可能有关联。然而，他们并不知道这些微生物如何产生；事实上，认为它们会自发生成的观念相当普遍。人们认为疾病由「污浊空气」引起。Louis Pasteur 等科学家通过严谨的实验表明：微生物虽可随空气传播，却并非由空气生成；生命来自生命。由此产生了「病菌致病理论」（germ theory of disease），提出疾病由微生物引起。该理论一旦被接受，便在公共卫生方面产生了显而易见的重要应用，例如疫苗的开发、外科手术中的卫生操作，以及牛奶的巴氏消毒。它不仅能够解释疾病的存在与传播，还能够预测——例如——那些在给因产褥热死亡的患者做完尸检后不洗手就去接生的医生，会把疾病传播给新的病人。更重要的是，同一套理论还可以用来把表面上看似无关的现象连接起来，例如疾病的传播、葡萄酒与啤酒生产中的发酵过程，以及蚕产量的下降。

现在我们来看一个心理学的例子。一个被观察到的现象是：有些人阅读并理解书面文本的速度和效果都优于他人。研究者开始探索这一问题时，形成了一个关于工作记忆个体差异的理论。该理论认为，人们在一种称为工作记忆的能力上存在差异（粗略地说，工作记忆是个体以极快速度对信息进行运算的心理加工空间）。更具体地说，该理论认为，人们在工作记忆的容量上存在差异：有些人在处理输入信息时的容量更大，但对每个人而言，容量在某种意义上都是有限的。该理论最初用来解释个体在第一语言（L1）阅读理解能力上的差异，但它也能解释一系列看似互不相关的现象，例如为什么人们能记住某些数字序列而记不住另一些，为什么他们能回忆起听过的某些词语，为什么人们对句子或序列中哪些部分记得更牢存在差异，为什么某些刺激会被忽略而另一些会被注意到，以及为什么有些学生擅长记笔记而另一些不擅长。由此可见，工作记忆理论使心理学家能够把多种行为与结果统一起来——这些行为与结果在表面上未必看起来彼此相关。甚至有人尝试将该理论应用于 SLA，以解释为什么有些人学得更快、更好。

最后我们再看一个语言学的例子。在某一种句法（句子结构）理论中，一套语法可以允许句子成分发生移位。正因如此，我们才会得到两句在意义上基本相同的句子，如下所示：

(1) Mary said what?
(2) What did Mary say?

在这一特定理论中，（2）里的 what 被认为从它作为动词 said 宾语的位置移到了句子中另一个位置。同时，该理论还认为：当某个成分发生移动时，会留下一个隐藏痕迹（trace）。因此，句法学家会把（2）写成（3）那样：

(3) $What_i$ did Mary say $t_i$ ?

在（3）中，t 表示 what 离开后留下的空位，而 i 只是表明 what 与 t 是「同指」的；也就是说，如果恰好有不止一个成分发生移动，你就能分辨每个成分留下了哪一个痕迹。

为了让图景更完整，该理论还认为：t 虽然不可见，但在心理上是真实存在的，并占据着被留下的位置。因此，没有任何成分能够移动到那个位置里，也不会发生跨越该位置的缩约。有了这些工具，句法学家就能对英语中的合语法与不合语法句子作出多种预测。例如，我们可以预测（4）是一个好句子，而（5）是坏句子，并不为英语语法所允许：

(4) Should I have done it?
(5) Should I’ve done it?

原因在于，should 从其原始位置移动了，并留下一个 t，如（6）所示：

(6) I should have done it. → Shouldi I $t_i$ have done it?

同时，句法学家还会预测 want to 缩约为 wanna 的限制。因此，（7）是可以的，因为在缩约想要发生的位置，并没有痕迹介入：

(7) $Who_i$ do you want to invite $t_i$ to dinner? → Who do you wanna invite to dinner?

不过，所有英语使用者都会同意，（8）非常糟糕：

(8) *Who do you wanna invite Susie to dinner?

你大概也能自己推出来，但（8）之所以听起来不对，是因为 who 发生了移动，并留下了一个 t，从而阻断了可能的缩约。把（7）与（8）在这里改写成（9）与（10）来比较：

(9) $Who_i$ do you want to invite $t_i$ to dinner? → Who do you wanna invite to dinner?
(10) $Who_i$ do you want to invite Susie to dinner? → *Who do you wanna invite Susie to dinner?

注意不要把 wanna 读成 want tuh；want tuh 并不是缩约形式，它只是把 to 中的元音弱化成了中性元音（schwa）。在句子（8）里，want tuh 听起来没问题，正是因为它不是缩约形式。

因此，该理论把与情态动词（should, would, will, may, might）、助动词（do, have）、系动词（be）、动词 want 以及代词（I, you, he 等）相关的缩约限制统一起来。它能够对一些我们或许从未见过、也从未听过的好句子与坏句子作出预测；其中有些预测——就像蚕和啤酒那样——表面上看并没有太多共同点。

到目前为止可以总结为：理论应当能够对被观察到的现象作出解释，也应当能够对什么是可能的、什么是不可能的作出预测。此外，多数理论——也就是好的理论——在解释和预测时，还倾向于把一系列关于世界的概括统一起来，或把一系列关于世界的观察统一起来。在我们对句法理论的简要考察中，关于句法如何运作的少数几个概括，就统一了有关缩约的多种观察，而不仅仅是关于 should 的缩约。所有缩约形式都符合这些概括。

因此，就 SLA 而言，我们希望有一套像理论应当那样发挥作用的理论。我们希望它能够解释可观察到的现象（本章稍后会转向这一点）。我们希望它能够作出预测。而且，理想情况下，我们希望它能统一作为理论组成部分的那些概括。换言之，我们希望用一个单一理论把所有被观察到的现象纳入同一把伞下。眼下这是否可能还有待确定，本书也将对此展开探讨。

什么是模型？

许多人会把理论和模型混为一谈。模型描述的是某种现象的过程或一组过程。模型也可以展示某个现象的不同组成部分如何相互作用。这里的关键词是「如何」。模型不必解释「为什么」。理论可以基于概括作出预测，而模型并不要求做到这一点。简言之，理论一定具有解释性与预测性，而模型只需具备描述性。问题在于，在现实世界——以及 SLA 作为研究学科的实践中——这种区分并不总是被维持。随着你在该领域继续阅读，你会发现研究者经常把 model 与 theory 交替使用。因此，尽管理论上区分这两个术语（如同自然科学中那样）会是个好主意，但在实践中，我们许多从事 SLA 的人并不会这样做。

什么是假设？

不同于理论，假设并不统一多种现象；它通常是关于单一现象的一个想法。有些人会把理论与假设混用，但事实上两者不同，应该区分开来。在科学研究中，我们会说：理论能够生成假设，而这些假设随后可以通过实验或观察来检验。例如，在心理学中，有关于记忆的理论。你或许还记得前面讨论过的关于工作记忆与容量的理论。该理论认为（以及许多其他观点）：工作记忆的容量是有限的。这意味着，在某一时刻，人们只能注意到有限量的信息；一旦超过，工作记忆就会过载。该理论还认为，个体的工作记忆存在差异，以及人们对自身资源的使用方式也存在差异。有些人在注意输入信息时拥有 X 数量的工作记忆容量，而另一些人则更多或更少。由此产生的一个假设是：个体之间的工作记忆差异应当会影响阅读理解——容量更大的个体应该阅读更快，或理解更多。这是一个可检验的假设。我们还要补充一点：对某一理论而言，唯一有价值的假设是可检验的假设，也就是说，可以开展某种实验，或检视某类数据，以判断该假设是否成立。另一个假设例子来自 SLA：关键期假说（Critical Period Hypothesis）。神经语言学中有一种理论主张：在早期年龄，大脑开始发生专门化；特定的大脑功能越来越与特定脑区相关联。此外，某些功能可能受到发育控制；也就是说，它们会在发育过程中的特定时间点开启或关闭。关键期假说就是基于该理论提出的一个 L2 研究假设。它认为，达到近似母语者水平的能力与初始接触年龄相关。如果语言学习在某个年龄之后才开始（关于这个年龄到底是多少、以及是否真的存在关键期，都存在相当大的争议——参见 Birdsong（1999）收录的多篇论文），学习者将永远无法达到与母语者相当的熟练度或能力。该假设的一个推论是：在此之后，语言学习能力会随年龄增长而下降。再一次，这两点都是可检验的假设。请回忆我们先前说过，我们希望理论能够作出预测。预测实际上就是假设。当我们基于理论作出预测时，实际上就是在提出一个假设。

这些关于理论、模型与假设的定义之所以重要，是因为在日常口语中，我们对「理论」一词的使用方式并不是科学意义上的用法。例如，人们可能会用轻蔑的语气说某件事「不过是一种理论」。在科学中，「不过是一种理论」毫无意义，因为所有工作都是由理论驱动的。更进一步，「理论」一词常常被政治化，用来贬损某些特定理论（例如进化论、气候变化），于是「不过是一种理论」就成了否定那些具有科学严谨性、却与某些信念相冲突之事物的方式。最后，在电影和其他非科学情境中，人们也常把「理论」用来表示「一个想法」或「一个假设」。一个试图破案的侦探可能会说：「我对凶手有一个理论」，但他的意思其实是：「我对凶手有一个想法。」我们当然无法改变日常语言对某些词的用法。我们提出日常用法的目的，是确保读者理解本书中「理论」一词的含义。科学中的理论并不只是「想法」，因此，SLA 中的理论也不应如此。

构念

所有理论都有所谓的构念。构念是理论所依赖的关键特征、概念或机制；它们必须能够在理论中被界定。在关于疾病传播的理论中，病菌（germ）是一个构念；在关于工作记忆的理论中，容量（capacity）是一个构念；在关于句法的理论中，痕迹（trace）是一个构念。

在评估任何理论时，理解该理论所依赖的构念至关重要；否则，我们很容易在并未充分理解理论根基的情况下，就把某个理论评判为好或坏。例如，如果不了解构念病菌，人们很容易否定病菌理论。但由于构念病菌易于界定、也易于识别，否认病菌传播与疾病就没那么容易了。要充分理解相对论，就必须彻底把握时间、空间等构念。再回到进化论，有些人否定这一理论的一种方式，是误解了构念自然选择（natural selection）与适应（adaptation）。有些人认为这意味着：随着生物适应环境，它所代表的物种会消失并变成新的物种。虽然这在某些情况下可能发生，但同样也可能是：适应产生了新物种，而原物种则沿着另一条路径继续发展。这也是为什么人类是人类、蜘蛛猴是蜘蛛猴。人类并没有取代猴子，甚至也不是从猴子进化而来。两者都从某种先于它们而存在的共同祖先演化而来。简言之，构念是理解一套理论及其所解释与预测内容的基础。

在 SLA 中，我们会发现大量亟待定义的构念。比如，看看第二语言习得这个术语本身。其实每个词都是一个构念，你可以问自己：「第二是什么意思？」「语言是什么意思？」以及「我们如何定义习得？」在 SLA 的理论建构中，大多数人用第二来指任何非 L1 的语言。语言是什么、在哪里学、如何学，都没有区别。这意味着，任何关于 L2 习得的理论化都应当同样适用于这样的人：在 Cairo 学习 Egyptian Arabic、并且没有接受教学；也应当同样适用于这样的人：在 United States 的大学课堂上学习 French。把第二定义得如此包容，会影响理论的适用范围。若构念第二并非如此定义，那么理论在语言学习情境上的覆盖面就会变得有限。例如，有些人用第二语言指在语言使用地学习的语言（例如移民在 United States 学英语、美国人在 Osaka 学日语），而用外语（foreign）指课堂之外并不使用该语言的情境（例如在 California 的 San Diego 学德语）。因此，如果把第二用更受限的方式来定义，SLA 中的某个理论就会被限制在第一种学习情境上。

作为构念，语言一词看似简单，却很容易让人低估其复杂性；你是否曾试着给它下定义？它是指言语吗？还是指支配言语生成的规则？还是指包含关于语言的一切信息的无意识知识系统（例如音系系统、心理词典——理论家喜欢称之为 lexicon——句法约束、构词规则、语境中的语言使用规则）？还是指别的东西？又或者指这些东西的某种组合？因此，任何 SLA 理论都需要清楚说明它对语言的理解。否则，读者可能无法完全把握该理论的主张，甚至更糟，会误读它。

总结如下，这里是迄今为止讨论的关键问题：

理论应当解释可观察到的现象。
在可能的情况下，理论应当统一对不同现象的解释。
理论用于生成可以通过经验研究检验的假设。
理论可以解释一个「事物」（例如语言），也可以解释某件事是「如何」发生的（例如语言的习得）。
理论包含构念，而构念需要在理论内部得到定义。

理论与模型为何对 SLA 有益或必要？

我们已经探讨了理论是什么，但只是在侧面触及它们为什么可能有用。当然，理论有助于我们理解所观察到的现象。再以关键期假说为例。人们常观察到：成年后才开始 L2 习得的人通常带有口音。关于大脑可塑性在自然成熟过程中丧失的理论，可能有助于解释这一现象。同一套理论还可能预测：在高中开始学习语言的学习者，比起更早就接触到大量目标语输入的学习者，更不可能在发音上接近母语者水平。这类预测具有明确且重要的实践意义；例如，它们可能暗示语言学习应当从幼年开始。

再看另一个具体例子。在 SLA 的一种理论中，产出语言（通常称为输出（output））被视为构建语言知识并将其锚定于记忆中的重要要素。相反，在另一种理论中，输出被认为对第二语言知识的发展并不重要；它的作用仅限于帮助学习者对已经获得的知识建立控制。这些理论差异会对第二语言教学产生清晰且重要的影响：在第一种情况下，输出练习会在教学的各个方面占据重要位置；在第二种情况下，它即便出现，也最多在流利度练习中更为突出。

到目前为止，我们从实践的现实视角探讨了理论的效用。理论同样有助于指导研究，而研究未必总是与教学等即时实践目的直接相关。若我们稍作退一步，回顾前面提到的理论，我们考察了以下内容：

一种解释/预测英语缩约限制的理论
一种解释/预测成年学习者外语口音的理论
一些预测输出在 L2 习得过程中作用的理论

你可能注意到，它们并不完全相同。第一项是一种关于需要习得的「是什么」的理论，也就是关于语言约束的无意识心理表征。仅仅说学习者在习得英语并不够，因为这会引出「什么是英语？它与西班牙语或中文有什么不同？」这样的疑问。显然，英语词典并不等同于语言本身，因此背下词典并不等同于习得英语。学习一本厚厚的语法书并把其中的规则都记住，也不够。举例来说，那本语法书很可能不会包含本章前面出现的 wanna/’ve 缩约限制。再比如，音系系统以及音节结构的约束呢（例如英语中没有任何音节可以以辅音丛 rw 开头，但法语中这种音节首辅音丛却是可能的）？简言之，英语和任何语言一样，都很复杂，由许多组成部分构成。你或许还记得，我们曾提到语言本身就是一个理论需要界定的构念。一旦理论定义清楚它所说的语言是什么，它就能更好地指导开展研究所需要提出的问题。

前述列表中的后两项并不真正关乎习得目标；相反，它们讨论的是影响学习结果的因素（例如关键期立场），或讨论学习如何发生——也就是学习者必须经历的过程。这些过程可能是学习者内部的（例如当学习者试图理解语言时，工作记忆中可能发生什么，以及这如何影响学习），也可能是学习者外部的（例如学习者与母语者如何参与对话，以及这如何影响学习）。关于因素或过程的理论显然不同于关于习得「是什么」的理论，但它们同样可以指导研究者开展经验研究。

最后，研究也可以反过来回馈理论家，通过评估相互竞争的理论来推动理论发展。例如，有一种学习理论（包括语言学习中的一种理论）认为，人类对事件与经历的频率十分敏感，而这种敏感性塑造了他们的学习。在该理论中，语言成分从对语言的接触与语言使用中被抽取出来。学习者语法中看似规则的东西，实际上只是反复接触输入中规律性的结果。与之竞争的另一种理论则认为，语言学习在很大程度上发生于先天知识（即人类特有且普遍的语言知识）与从输入中获得的数据（即学习者在交际语境中接触到的语言）之间的相互作用之中。在该理论中，频率或许在使某些语言方面变得更「稳固」上发挥一定作用，但它不像第一种理论那样是因果因素。这两种理论都能生成关于语言习得在特定条件下将如何发生的预测，即假设。随后，这些假设可以用观察结果与经验研究的发现来检验。

SLA 理论需要解释什么？

正如我们在本章开头提到的，理论的一个作用是解释被观察到的现象。我们在科学领域举的例子包括：观察到地球绕太阳公转却不会飞向太空，以及观察到人类用两足行走，而我们一些最近的近亲却用指关节行走。科学中的理论试图解释这些观察，也就是说，说明它们为何存在。

在 SLA 研究领域，已经整理出许多观察（例如 Long，1990），下文是对这些观察的一个浓缩清单。本章末尾列出了更详细论述这些观察的参考文献。

观察 1：接触输入是 L2 习得的必要条件。 这意味着，如果第二语言学习者没有接触到输入，就不会发生习得。输入被定义为学习者在交际事件中试图理解的语言。例如，当学习者在第二语言中听到「Open your books to page 24」时，学习者应当理解这条信息，并把书翻到第 24 页。学习者并非为理解意义而作出反应的语言（例如机械操练或死记硬背练习中使用的语言）不属于输入。尽管所有人都同意输入对 L2 习得是必要的，但并非所有人都同意它是充分的。

观察 2：相当一部分 L2 习得是附带发生的。 这概括了这样的观察：当学习者专注于交际互动（包括阅读）时，语言的各个方面会进入他们的头脑/大脑。换言之，在附带习得中，学习者注意力的主要焦点在于输入所包含的信息，而语言特征会在这一过程中被「顺带」获得。附带习得可以发生在语言的任何方面（例如词汇、句法、形态[屈折变化]、音系）。

观察 3：学习者最终知道的内容多于他们在输入中接触到的内容。 这里强调的是：学习者会获得关于 L2 的无意识知识，而这些知识不可能仅仅来自输入。例如，学习者会知道某种语言里哪些表达是不合语法的，例如我们在本章前面看到的 wanna/I’ve 缩约限制。这些限制并未被教授，也并不显现在学习者听到的语言样本中。学习者获得的另一类无意识知识涉及歧义。例如，学习者会知道句子 John told Fred that he was going to sing 既可以表示 John 将要唱歌，也可以表示 Fred 将要唱歌。那些无法直接从输入数据中推导出的无意识知识问题，在第二语言领域常被称为「刺激贫乏论（The Poverty of the Stimulus）」，在 L1 习得中也能观察到，有时也被称为「语言习得的逻辑问题（Logical Problem of Language Acquisition）」。

观察 4：学习者的输出（言语）在某一结构的习得过程中，常沿着可预测的路径前进，并经历可预测的阶段。 学习者的言语体现出所谓的「发展序列（developmental sequences）」。一个例子是英语否定式的习得。来自不同语言背景的学习者通常都会经历如下阶段：

阶段 1：no + 短语：No want that.
阶段 2：主语 + no + 短语：He no want that.
阶段 3：don’t, can’t, not 可能与 no 交替：He can’t/don’t/not want that.
阶段 4：否定附着在情态动词上：He can’t do that.
阶段 5：否定附着在助动词上：He doesn’t want that.

除发展序列之外，还有各种屈折变化和小词的「习得顺序」（acquisition orders）。例如，在英语中，-ing 的掌握早于规则过去时，规则过去时又早于不规则过去时形式，而不规则过去时形式又早于第三人称（现在时）-s。在西班牙语等语言中，我们发现学习者先习得复数标记，再习得形容词上的性别标记，同时通常以阳性单数作为默认或起始形式。

与上述相关的是，学习者可能会经历「U 形」发展。在这种情况下，学习者起初能把某件事做对，随后却会做错，然后又「重新习得」正确形式。一个经典例子来自不规则过去时：学习者一开始会用 came, went（以及类似形式），随后可能开始产出 camed, goed/wented，之后又会产出正确的 went, came 以及其他不规则形式。当把这种准确率的变化画成折线图时，会形成一个 U 形，因此得名「u-shaped」发展。

观察 5：第二语言学习的结果存在差异。 这里的意思是，并非所有学习者都能获得同等程度的第二语言无意识知识。他们在口语能力、理解能力以及语言知识与使用的其他方面也可能存在差异。即便在相同的接触条件下也会如此：在相同条件下的学习者，可能处于发展序列的不同阶段，或在习得顺序上比他人更超前。更重要的是，几乎可以确定，大多数学习者无法在第二语言上达到近似母语者的能力。事实上，这甚至可以单独作为一条观察：大多数学习者在语言知识与语言使用的一个或多个领域都表现出非母语性。

观察 6：第二语言学习在不同语言子系统之间的表现存在差异。 语言由多个以不同方式相互作用的组成部分构成。例如，音系系统（包括哪些音的组合可能/不可能，以及发音方面的限制）、词汇系统（心理词典及与词条相关的信息，例如动词「X」不能带直接宾语、或者需要介词短语、或者它只能通过添加 -tion 而不是 -ment 来名词化等）、句法（哪些句子可能/不可能）、语用（例如说话者意图的知识：是请求还是问题），以及其他。举例来说，学习者可能在句法的发展程度上明显高于其音系系统。

观察 7：频率对 L2 习得的影响是有限的。 长期以来，人们认为：某个语言特征在输入中出现的频率与它是早习得还是晚习得有关。然而，频率并不是某个特征何时被习得的绝对预测指标。在某些情况下，一个非常高频的特征反而比一个低频特征需要更久才能习得。

观察 8：学习者的 L1 对 L2 习得的影响是有限的。 关于 L1 对 L2 习得影响的证据，从当代 SLA 之初（即 20 世纪 70 年代初）就已经存在。然而，可以确定的是，L1 对过程或结果的影响并不像曾经认为的那样巨大。相反，L1 的影响似乎在某种程度上被削弱了，而且在不同学习者之间也存在差异。

观察 9：教学对 L2 习得的影响是有限的。 语言教师与学习者常常相信：教了什么、练了什么，就会学到什么。但关于课堂情境下 L2 习得的研究并不支持这一点。第一，教学有时对习得毫无影响。举例来说，并未发现教学能让学习者跳过发展序列，或改变习得顺序（见观察 4）。第二，有些研究表明教学是有害的：它可能通过导致某一阶段的停滞而减缓习得过程。另一方面，也有证据表明，最终来看，教学可能影响学习者穿过序列与习得顺序的速度，并可能影响他们在这些序列与顺序中能走到多远。因此，教学似乎确实存在有益效果，但这些效果并非直接，也并非许多人所想的那样。此外，教学并不是必要条件，尽管它在全球范围的 L2 习得中无处不在。

观察 10：输出（学习者产出）对语言习得的影响是有限的。 尽管「熟能生巧」听起来符合常识，但当谈到 L2 习得时，这句格言并不完全成立。有证据表明，让学习者产出语言会影响习得，也有证据表明并不会。因此，问题似乎在于：无论学习者产出（即用语言来口头表达或书写）在习得中扮演什么角色，这个角色都受到约束，就像前面提到的其他因素一样。

再次强调，理论的作用是解释这十个（以及其他）现象。理论不能只说它们存在，或只能预测它们；它还必须为这些现象提供更深层的解释。例如，自然顺序与阶段确实存在。但它们为什么存在？又为什么以这样的形式存在？为什么否定式的阶段会呈现出那样的样子？再例如，为什么教学的作用是有限的？语言习得的什么性质对教学施加了约束？如果针对某一结构提供了教学，为什么仍然无法跳过习得阶段？如果教学能够加速过程，那它为什么又能做到？

当你阅读本书中不同理论时，你会发现，当代 SLA 理论可能能解释接近全部、部分，或仅少数现象。更重要的是，各理论会因依赖不同的前提与不同的构念而给出不同的解释。

显性/隐性之争

在 SLA 中，显性与隐性学习及知识的作用令人关注且争议颇大。众所周知，这些概念极难定义，部分原因在于它们依赖诸如意识与觉察之类的构念，而这些构念本身长期以来就是学术争论的对象。

Hulstijn（2005）对学习中的区分作如下界定：

显性学习是在有意识意图的情况下对输入进行加工，目的是发现输入信息是否包含规律；若包含，则推导能够概括这些规律的概念与规则。隐性学习则是在没有这种意图的情况下对输入进行加工，它在无意识中发生。
（第 131 页）

Hulstijn 对显性学习的定义似乎同时包含对学习内容的觉察以及学习意图。并非所有研究者都同意这一点。DeKeyser（2003）只把前者视为显性学习的标志，并把其缺失视为隐性学习的定义特征；他将隐性学习称为「在不知道自己正在学什么的情况下学习」（第 314 页）。在其他地方，Hulstijn（2003）也给出了更细致的区分，指出显性学习涉及在学习当下的觉察，而有意学习（intentional learning）还额外包含「有意识地尝试把新信息记住」（第 360 页）。Ellis（2009a）对显性学习给出的定义包括意向性、对注意资源的要求以及对学习内容的觉察；他对隐性学习的定义则是：当上述特征全部缺失时发生的学习。

需要注意的是，这些定义以及其他定义都不涉及教学；也就是说，它们从学习者的想法与行为角度界定显性/隐性学习，而不是从环境对学习者做了什么的角度出发。因此，我们在此面对的问题不是教学的作用（这由观察 9 处理），而是当学习者接触到 L2 输入（无论是否有教学）时，其头脑/大脑中正在发生什么。因此，提醒读者不要把显性/隐性学习与显性/隐性教学混为一谈。

正如我们提到的，显性与隐性学习的相对作用（或贡献）在 SLA 中存在争论。L2 习得是否完全或主要依赖显性学习？是否完全或主要依赖隐性学习？又或者 L2 习得以某种方式同时动用显性与隐性学习；若是如此，又是如何动用，在什么条件下，以及针对语言的哪些方面？一方面，有学者质疑「在没有觉察的情况下学习」是否可能。另一方面，也有人质疑显性学习是否曾经能够为知识的自发与自动提取提供基础；还有人甚至完全否认显性学习在 L2 习得中的任何作用。

事实上，围绕学习的这些问题之中，还嵌入着显性知识与隐性知识的区分。Ellis（2009b）主张这一划分具有行为学与神经生物学的基础。就前者而言，他提出「一个早已得到充分证实的事实：某种语言的使用者可能能够准确且流利地使用某个语言特征，却并不知道该特征由什么构成；反之亦然」（第 335 页）。就后者而言，他指出：「隐性知识涉及广泛分散的神经结构……而显性知识则定位在大脑更为特定的区域」（第 335 页）。隐性与显性学习及知识是不同的概念（Schmidt，1994），但 Ellis（2009a）通过把它们与两类学习的结果表征联系起来，从而把二者连接起来。具体而言，他主张隐性学习会导致亚符号（sub-symbolic）的知识表征，而显性学习会产生符号化表征，使学习者能够用语言表述他们学到的内容。其他学者也以不同于我们刚才所见的方式，讨论显性与隐性知识的质性差异。依托语言学理论对语言的定义，这些学者并不认为显性知识与隐性知识之间存在联系（例如 Schwartz，1993；VanPatten，2016）。

无论人们如何界定这两类知识，困扰研究者的主要问题是它们之间是否存在任何接口（interface）。尽管大多数学者同意隐性知识是习得的目标，但隐性知识如何发展？显性知识能否变成隐性知识？显性知识是否以某种方式帮助隐性知识的习得？还是说它们是完全分离的系统，在大多数 L2 习得条件下彼此不发生相互作用？

由于该领域尚未在这些问题上达成共识，而且关于显性与隐性学习相对作用的证据也相互矛盾，我们无法像前面那样提出一条观察。因此，我们请本书各章的撰稿人在每一章中用一个专门小节来讨论显性与隐性学习及知识，要求他们阐述各自的理论或框架会如何看待两类学习，以及两类知识的发展。

SLA 的早期理论

在 20 世纪 80 年代末之前，L2 研究中很少出现真正的理论建构，去思考理论应该做什么以及它们如何运作。最广为人知的两种理论是行为主义和监控理论。

行为主义是一种关注行为的心理学学习理论，正如其名。对行为主义者而言，一切行动都是某种条件反应的结果：个体因为某个行动而得到某种「奖励」或「惩罚」。奖励会导致该行动或行为的持续使用，而惩罚会导致压制。因此，奖励会强化某些行为。就语言习得而言，语言被视为一组模式或行为。语言使用上的正确行为若得到奖励，就会强化该语言行为；缺少奖励（或惩罚）则会压制该语言行为。该理论被认为既适用于 L1 也适用于 L2 习得。这里不展开细节：20 世纪 50 年代末，在 Chomsky 关于语言抽象而复杂本质的观察推动下，语言学发生革命；再加上儿童 L1 习得研究的成果，提供了强有力的证据表明行为主义无法解释儿童的语言习得。（更多细节，我们建议读者参见 VanPatten、Smith 与 Benati 即将出版著作的第 1 章中对此历史的概述。）

随着行为主义逐渐失势，以及儿童 L1 习得研究大量涌现，L2 研究者开始提出与 L1 习得研究者类似的问题。20 世纪 70 年代出现了一批早期的描述性研究，它们与 L1 习得数据指向同一结论：行为主义无法解释学者们正在揭示的第二语言学习者发展过程。到 20 世纪 70 年代末，Stephen Krashen 开始形成他关于 L2 习得的想法，并在 20 世纪 80 年代初最终定型为后来被称作监控理论（Monitor Theory）的框架（例如 Krashen，1982）。监控理论的核心观点如下：

类似于儿童学习 L1，L2 学习者会基于他们所接触到的、嵌入交际的输入来建构语言系统；
学习者在接触到略微超出其当前水平的语言时，会发生发展；
习得与学习存在差异：习得是使用与儿童相同的底层过程来获得语言；学习则是显性的、带意图地把注意力放在语法与词汇上，试图将语言内化。只有习得会形成隐性系统；而学习会形成显性系统，这个显性系统只能在非常受限的情境下作为输出的监控器使用；
证据表明，习得在很大程度上不受教学努力的影响，体现为自然顺序与分阶段发展；
学习者具有情感过滤器；若其水平过高，就会阻断习得（即让输入无法「进入」）。

Krashen 的理论在许多语言教师群体中广受欢迎（至今仍然如此），但研究者很快批评它：既不能解释任何事实，也无法提出可检验的预测，还包含含糊的构念。例如，就学习者可用的有效输入而言，「略微超出当前水平」究竟是什么意思？研究者要如何将这种构念操作化，以便开展实验？另一个例子是情感过滤器：它到底是什么？同样，如何将其操作化并纳入实验？尽管对监控理论作为科学理论的这些批评可能成立，但这并不意味着 Krashen 对 L2 习得的观察必然是错的，也不意味着他的理论没有对该领域作出重要贡献。再次强调，他的观点在一些圈子里推动了课程开发。真正让该理论陷入困境的，是科学层面的要求。正如前文所述，要成为好的理论，理论需要提出可检验的假设，以及可被操作化的构念。有趣的是，正是 Krashen 发起监控理论的努力，使人们开始认真关注 L2 理论应当做什么，并成为我们今天所见诸多理论建构的催化剂（而且，他关于语言习得更一般意义上的大多数观察——即便不是全部——至今仍然有效）。

关于本书

在本书中，我们邀请了一些特定理论与模型最重要的倡导者，请他们以对 SLA 理论与研究入门学生而言易于理解的方式来描述并讨论这些理论与模型。在此过程中，各位作者会围绕一些特定主题与问题展开，以便读者更容易比较与对照不同理论：

理论及其构念
何种证据可被视为该理论的证据
常见误解
一个代表性研究
该理论如何解释 SLA 的可观察现象
显性/隐性之争

我们自身的兴趣与专长主要集中在 L2 习得的语言学与认知层面。因此，本书所采用的理论与视角——在很大程度上——反映了这种取向。当然，也有社会视角可以用于 SLA（见 Atkinson，2011；Block，2003）。这些视角常被作为据称主导 L2 研究的语言学与认知取向的「替代方案」提出，但在我们看来，它们只是观察不同的现象（例如见 Rothman & VanPatten，2013 的讨论）。如果读者希望更详细了解 L2 研究中使用的社会取向框架，我们建议查阅类似 Atkinson（2011）主编论文集这样的著作。

讨论问题

理论会以哪些方式影响我们的日常生活？试着列举并讨论来自政治、教育与社会的例子。
讨论一个已经被证伪的历史理论；再讨论一个经受住时间检验的历史理论。你是否注意到这两种理论在结构上有什么差异？哪个更简单？哪个在解释时依赖非自然的构念？
理论显然在科学事业中有用，并可能具有实践应用价值。理论在行为与社会科学中也变得有用，甚至不可或缺。SLA 在何种意义上是一项科学事业，而不是例如一项人文事业？
重新审视这份可观察现象清单。你是否熟悉其中所有现象，以及支撑它们的经验研究？你可能希望查阅「建议进一步阅读」部分列出的一些该主题基础文本（例如 Ellis、Gass、Long）。
是否有某个你特别希望得到解释的可观察现象？请选择一个，并在阅读过程中记录每一种理论如何解释这一现象。

参考文献

Atkinson, D. (Ed.). (2011). Alternative approaches to second language acquisition. New York, NY: Routledge.
Birdsong, D. (Ed.). (1999). Second language acquisition and the critical period hypothesis. Mahwah, NJ: Lawrence Erlbaum Associates.
Block, D. (2003). The social turn in second language acquisition. Edinburgh, Scotland: Edinburgh University Press.
DeKeyser, R. (2003). Implicit and explicit learning. In C. Doughty & M. Long (Eds.), The handbook of second language acquisition (pp. 313–348). Cambridge, England: Cambridge University Press.
Ellis, R. (2009a). Implicit and explicit learning, knowledge and instruction. In R. Ellis, S. Loewen, C. Elder, R. Erlam, J. Philp, & H. Reinders (Eds.), Implicit and explicit knowledge in second language learning, testing and teaching (pp. 3–25). Bristol, England: Multilingual Matters.
Ellis, R. (2009b). Retrospect and prospect. In R. Ellis, S. Loewen, C. Elder, R. Erlam, J. Philp, & H. Reinders (Eds.), Implicit and explicit knowledge in second language learning, testing and teaching (pp. 335–353). Bristol, England: Multilingual Matters.
Hulstijn, J. (2003). Incidental and intentional learning. In C. Doughty & M. Long (Eds.), The handbook of second language acquisition (pp. 349–381). Cambridge, England: Cambridge University Press.
Hulstijn, J. (2005). Theoretical and empirical issues in the study of implicit and explicit second language learning. Studies in Second Language Learning, 27, 129–140.
Krashen, S. D. (1982). Principles and practice in second language acquisition. New York, NY: Pergamon Press.
Kuhn, T. S. (1996). The structure of scientific revolutions (3rd ed.). Chicago, IL: University of Chicago Press.
Rothman, J., & VanPatten, B. (2013). On multiplicity and mutual exclusivity: The case for different theories. In M. P. García Mayo, M. J. Gutiérrez-Mangado, & M. Martínez Adrián (Eds.), Contemporary approaches to second language acquisition (pp. 243–256). Amsterdam, Netherlands: John Benjamins.
Schmidt, R. (1994). Deconstructing consciousness: In search of useful definitions for applied linguistics. AILA Review, 11, 129–158.
Schwartz, B. (1993). On explicit and negative data effecting and affecting competence and linguistic behavior. Studies in Second Language Acquisition, 15, 147–163.
VanPatten, B. (2016). Why explicit information cannot become implicit knowledge. Foreign Language Annals, 49, 650–657.

2 语言学理论、普遍语法与第二语言习得

Thoughts Memo 汉化组译制
感谢主要译者 GPT-5.2，校对 Jarrett Ye
本章作者：Bill VanPatten, Jessica Williams, Gregory D. Keating, and Stefanie Wulff

专栏：外语习得

← 返回目录