Technical White Paper
コーパス言語学に基づく適応型語彙学習システムの設計
Meta English — 方法論と学術的根拠
概要
本システムは、英語語彙の習得を科学的に最適化することを目的とした適応型学習プラットフォームである。 BNC/COCA 15,000語コーパス頻度リスト(Nation, I.S.P.)を語彙の骨格とし、 FSRS(Free Spaced Repetition Scheduler)による間隔反復アルゴリズム、 学術的に検証された語彙リスト群(NGSL, NAWL, AWL, CEFR-J)のクロスタグ付け、 および適応型語彙レベルアセスメントを統合する。
1. 語彙データベースの設計
1.1 BNC/COCAコーパス頻度リスト
本システムの語彙データベースは、Paul Nation(Victoria University of Wellington)が British National Corpus(BNC)およびCorpus of Contemporary American English(COCA)から 構築した25,000語族リストのうち上位15,000語族を基盤とする。各語族は1,000語単位の頻度帯(1K-15K)に分類され、 Bauer & Nation(1993)のLevel 6接辞基準に従って語族メンバーが定義される[1]。
本システムでは15,000語族のヘッドワードを独立した学習アイテムとして保持し、 語族メンバー(派生形・屈折形)は各アイテムの補足情報として格納する。 この設計により、語彙サイズの推定単位として「レンマ」を採用しつつ、 語族構造の情報を関連語表示に活用することが可能となる。
1.2 語彙カウント単位:レンマの採用
語彙研究において、カウント単位の選択は推定語彙サイズに大きな影響を与える。 本システムでは、Webb(2021)の「The Lemma Dilemma」[4]およびMcLean(2017)[3]の実証研究に基づき、語族(word family)ではなくレンマ(見出し語)を基本カウント単位として採用した。
この判断の根拠は以下の通りである:
- Schmitt & Zimmerman(2002)は、L2学習者106名を対象とした調査で、ある語族の基語を知っていても4品詞の派生形を全て産出できるケースは稀であり、通常2-3形の部分的知識にとどまることを示した[5]
- McLean(2017)は、日本人EFL学習者279名の調査で、4K-5Kレベルの基語を習得済みでも派生形の理解に有意差があることを報告した[3]
- Webb(2021)は、語族ベースのテキストカバー率計算がL2学習者の実際の理解度を過大推定する可能性を指摘した[4]
1.3 派生形の意味透明度分類
Cruse(1986)[7]以降、意味透明性(semantic transparency)は二値ではなく連続スケールとして扱われる。 本システムでは、Bauer & Nation(1993)の接辞レベル分類と組み合わせ、 語族メンバーを以下の3段階に分類する:
- Transparent(Level 2-3接辞):屈折形および規則的派生。ヘッドワードの知識から意味予測が可能(例:happy → unhappy, happily)
- Semi-transparent(Level 4-5接辞):発音変化を伴うが意味推測は概ね可能(例:accept → acceptance, acceptable)
- Opaque(Level 6+または例外):意味が大きく乖離し独立学習が必要(例:press → depression)
なお、BNC/COCAリスト自体が意味の大きく異なる派生を別語族として分離しているため(例:stand/understand, press/depress)、 opaque該当は実質的に極めて少ない。
1.4 多語表現の統合
単語(word)に加え、句動詞(phrasal verb)、定型表現(expression)、コロケーション(collocation)を 同一のデータモデルで管理する。これにより、単語も熟語も同一のマスタリー追跡・SRSスケジューリング・ 語彙カウントの対象となる。データソースは以下の通り:
- PHaVE List(Garnier & Schmitt, 2015)[12]:COCA最頻出150句動詞
- PHRASE List(Martinez & Schmitt, 2012)[13]:BNC最頻出308多語表現
- CEFR-J Vocabulary Profile:CEFR-J収録の複合語表現
1.5 学術リストと頻度帯の対応関係
NGSL・NAWL・AWLの3リストは学術的に選別された「コスパ最適語」であるが、 BNC/COCA頻度帯との対応は一様ではない。以下の図は、各リストの語がどの頻度帯に分布するかを示す。
注目すべき点は、学術リストに含まれる語がすべて高頻度とは限らないことである。 AWLのtransitory(11K帯)、empiricism(12K帯)、academia(15K帯)など、 一般コーパスでは低頻度だが学術文脈では不可欠な語が含まれる。 これは、NGSL/NAWL/AWLが「頻度」ではなく「テキストカバー率への貢献度」で選別されているためであり、 本システムがBNC/COCA帯域とリスト基準の両方をクロスタグ付けして管理する設計的根拠でもある。
1.6 語源的精緻化とパーティクル・コアイメージ
句動詞・定型表現の記憶定着を促進するため、各アイテムにetymNote(語源的注記)フィールドを付与する。 この設計は、語彙記憶研究における2つの知見に基づく。
① 語源的精緻化(Etymological Elaboration): Boers(2000)[25]は、 イディオムの語源的背景を提示することで記憶保持率が有意に向上することを実証した。 定型表現(PHRASE List収録308項目)に対し、構成語のラテン語・古英語・古仏語由来を分解して提示することで、 丸暗記ではなく意味的連想を通じた深い処理(Craik & Lockhart, 1972の処理水準説)を促す。
② パーティクル・コアイメージ(Particle Core Image Schema): Tyler & Evans(2003)[26]の 認知言語学的アプローチに基づき、PHaVE List収録150句動詞の各パーティクル(on, off, up, down, out, in等)に対し、 空間的コアイメージを定義する。例えば:
- on:接触・継続 — 表面にくっついている → 動作が途切れずに続く
- up:上昇・完了・増加 — 上に向かう → やり切る・増える・現れる
- out:外へ・出現・消滅 — 内から外へ出る → 明らかになる・なくなる・広がる
- off:分離・離脱 — 表面から離れる → 切断・完了・消滅
Yasuda(2010)[27]は、 このイメージスキーマ提示が新規句動詞の推測力・記憶保持の両方を向上させることを確認している。 未学習の句動詞に遭遇しても、パーティクルのコアイメージから意味を類推できるようになるという 転移効果が本手法の最大の利点である。
2. デッキ設計
2.1 3系統アーキテクチャ
学習デッキは、語彙選択の原理の異なる3系統+スキルデッキから構成される。 いずれのデッキもcross-deck mastery(デッキ横断マスタリー)を共有するため、 あるデッキで習得した語は別のデッキで新規カードとして重複出題されない。 復習スケジュールはFSRSに従い、学習元のデッキで継続される。
2.1.1 全デッキ一覧
Layer 1: Base系 — NGSL/NAWL/AWLの和集合。学術的に選別された「最小語数で最大テキストカバー率」セット。
| デッキ | 条件 | 語数 | マイルストーン |
|---|---|---|---|
| Base 1 — 最頻出1K | NGSL∪NAWL∪AWLに属し、かつBNC/COCA 1K帯 | ~1,120 | — |
| Base 2 — 頻出2K | NGSL∪NAWL∪AWLに属し、かつBNC/COCA 2K帯 | ~860 | 英検2級, TOEIC 600, IELTS 5.0 |
| Base 3 — 学術・中上級 | NGSL∪NAWL∪AWLに属し、かつBNC/COCA 3K帯以上 | ~1,520 | IELTS 5.5 |
| 句動詞・定型表現 | PHaVEリスト(150句動詞)∪ PHRASEリスト(308定型表現) | 458 | — |
Layer 2: 帯域系 — BNC/COCA頻度帯の全語。Base既習分はcross-deck masteryで引き継ぎ、重複出題なし。
| デッキ | 条件 | 語数 | マイルストーン |
|---|---|---|---|
| 1K-3K帯 | BNC/COCA 1K-3K帯の全語(Base系と重複あり。既習分はスキップ) | ~3,310 | — |
| 4K帯 | BNC/COCA 4K帯の全語 | ~1,050 | — |
| 5K帯 | BNC/COCA 5K帯の全語 | ~1,030 | 英検準1級, IELTS 6.0-6.5, TOEFL 80 |
| 6K帯 | BNC/COCA 6K帯の全語 | ~1,020 | — |
| 7K帯 | BNC/COCA 7K帯の全語 | ~1,020 | — |
| 8K帯 | BNC/COCA 8K帯の全語 | ~1,010 | IELTS 7.0, TOEFL 100, GMAT |
| 9K帯 | BNC/COCA 9K帯の全語 | ~1,010 | — |
| 10K帯 | BNC/COCA 10K帯の全語 | ~1,010 | IELTS 7.5+, 英検1級 |
| 11-15K帯 | BNC/COCA 11K-15K帯の全語 | ~5,010 | GRE, 英検1級上位 |
Layer 3: 試験特化 — 特定試験のコーパス分析から抽出された語。
| デッキ | 条件 | 語数 | マイルストーン |
|---|---|---|---|
| IELTS特選 | NYU修士論文のIELTSコーパス分析から抽出した、NGSL/NAWL/AWLに未収録かつIELTS頻出の語 | 325 | IELTS 7.0+ |
| 学術語彙 | NYU修士論文の学術コーパスから抽出した語(AWLと一部重複) | 1,990 | 修士論文, 学術英語 |
Skill decks — 語彙ではなく、試験テクニック・テンプレート・フレーズ集。FSRSで反復定着。
| デッキ | 内容 | 枚数 | マイルストーン |
|---|---|---|---|
| IELTS Writing Task 1 | グラフ描写の定型表現・数値表現・比較構文 | 80 | Writing Task 1 6.5+ |
| IELTS Writing Task 2 | エッセイ構成法・論証パターン・高得点表現 | 100 | Writing 7.0+ |
| IELTS Speaking | 句動詞パターン・フィラー・描写テクニック | 120 | Speaking 7.0+ |
2.2 Base系(コスパ最適化選別)
NGSL(Browne et al., 2013)[10]、 NAWL(同)、AWL(Coxhead, 2000)[11]の和集合に、PHaVEおよびPHRASE Listを加えた約4,000語で構成される。 これらのリストは大規模コーパス分析に基づく学術的選別を経ており、 「最小の語数で最大のテキストカバー率」を実現するコスパ最適化セットである。
BNC/COCA頻度帯に基づき3段階(1K帯 / 2K帯 / 3K帯以上)に分割し、 各デッキ870-1,530語の適切な学習単位とした。 なお、CEFR-Jレベルは各アイテムの参考情報として付与しているが、 デッキ分割の基準には使用していない。CEFR-Jは多義語の最高レベル用法で 分類する方針のため(例:likeがB1、wantがB2)、頻度帯の方がデッキ分割には適切である。
2.3 帯域系(頻度順網羅)
BNC/COCA 1K帯ごとに構成される頻度順デッキ群である。 語彙研究における「何千語水準」という指標はこの頻度帯に直接対応しており、 IELTS・TOEFL・英検等の試験語彙要件もこの帯域で定義されている。 Base系で既に習得した語はcross-deck masteryにより引き継がれるため、 重複学習は発生しない。 Nation(2006)[2]のテキストカバー率研究に基づき、以下のマイルストーンを設定する:
- 5K帯完了:テキストカバー95%(快適な読解の最低ライン)
- 8K帯完了:テキストカバー98%(推測なしの快適な読解)
- 10K帯完了:テキストカバー99%
2.4 試験特化系・特選デッキ
試験固有の高難度語彙が必要な場合に対応するデッキ群である。 GMAC(2024)[14]の研究により、GREは9,000語族(非パッセージ問題では11,000語族)、 GMATは6,000-7,000語族が必要とされる。
2.4.1 IELTS特選デッキ(325語)
BNC/COCA 8K帯までの語彙でテキストカバー98%に到達するが、 Academic Reading/Writingで頻出するトピック固有語彙は8K帯域外に多く存在する。 IELTS特選デッキでは、以下のソースを網羅的に調査し、8K帯域外の頻出語を325語厳選した。
出典・データソース:
- Phung, D. H. & Ha, H. T. (2022). Vocabulary Demands of the IELTS Listening Test. SAGE Open, 12(1)[8] — IELTS公式60セットのコーパス分析
- IELTSMaterial.com — Band 8/9 Vocabulary List, 100+ Advanced Vocabulary
- IELTS Buddy — Environment / Crime / Education / Health Topic Vocabulary
- Magoosh IELTS Vocabulary PDF — Essential Words for IELTS
- British Council — Advanced English Words for IELTS
- Barron's Essential Words for the IELTS(Vocabulary.com収録版)
- Keith Speaking Academy — 10 Advanced Words for IELTS
- AllThingsIELTS — 500 Essential Words by Topic
- SimplyIELTS — Globalisation & Culture Topic Vocabulary
- Oxygen for English — IELTS Band 7+ Core List
- LearnEnglishWeekly — IELTS Vocabulary by Topic
- IELTS-Up — Academic Wordlist
- Yocket — 300+ Essential IELTS Vocabulary Words
- IELTS Liz (ieltsliz.com) — Topic Vocabulary
対象トピック:環境・気候変動、教育・学術、犯罪・法律、健康・医療、テクノロジー・イノベーション、 社会・文化・グローバリゼーション、経済・政治、および Band 7+ 学術語彙。
2.4.2 文系修士論文頻出デッキ(1,990語)
人文・社会科学系の英語学術論文で高頻度に出現する語彙を収録したデッキである。 ニューヨーク大学(NYU)の文系学術論文コーパスから抽出された語彙リストに基づき、 1,990語を選定した。語彙の大部分(約98%)はBNC/COCA 15Kリストと重複するが、 学術論文特有の用法・コロケーションに焦点を当てた選別を行っている。
出典: NYU文系学術論文コーパス語彙リスト
2.4.3 IELTS Writingテンプレートデッキ(100枚)
IELTS Writing Task 1(グラフ・プロセス図・地図描写)およびTask 2(意見エッセイ・議論エッセイ・問題解決エッセイ)で Band 7.0+を達成するための高得点テンプレート、コロケーション、文法構造をカード化したデッキである。 語彙カードとは異なり、各カードの表面にはカテゴリ/状況(例:「Task 2: 意見エッセイの導入文」)、 裏面にはテンプレート/フレーズと日本語解説を記載する。FSRSによる間隔反復で定着を図る。
出典:
- IELTS Liz — Overview必須ルール、パラフレーズ技法、導入・結論テンプレート
- IELTS Simon — Band 9エッセイの4段落構成、シンプルかつ効果的な構成
- British Council — つなぎ言葉の適度な使用、時制ルール
- IELTS Advantage — PEEL法(Point-Example-Explain-Link)、仮定法活用
- E2Language — 計画5分の重要性、hedging技法
- IELTSMaterial — トレンド語彙、コロケーション、パラフレーズ実例
- IELTS Buddy — 因果表現、時間表現
2.4.4 IELTS Speakingフレーズデッキ(120枚)
IELTS Speaking Part 1(日常トピック)、Part 2(キューカード)、Part 3(ディスカッション)で 自然かつ高得点な応答を行うためのフレーズ、イディオム、ディスコースマーカーをカード化したデッキである。 暗記した表現をそのまま使うのではなく、自然に組み合わせて使えるよう、 各カードにはバリエーションと使用場面の解説を付記している。
出典:
- IELTS Liz — Part 1/2/3トピック別モデル回答
- Keith Speaking Academy — 上級者向けフレーズ、自然なフィラー
- IELTS Simon — スピーキングサンプル
- IELTSMaterial — スピーキング語彙・イディオム
- IELTS Advantage — スピーキング戦略
- British Council — IELTS Speaking準備ガイド
- E2Language — 流暢さ向上テクニック
- IELTS Buddy — スピーキングフレーズ集
- Splendid Speaking — 流暢さフレーズ
なお、Writing/SpeakingデッキはBNC/COCAベースの語彙デッキとは独立した学習トラックであり、 cross-deck masteryの対象外である。各デッキ固有のFSRSスケジュールで管理される。
3. BNC/COCA帯域と試験スコアの相関
3.1 IELTS試験における語彙難度の制御
IELTS試験の開発元であるCambridge Assessment Englishは、 語彙難度の制御にコーパスベースのツールを使用している。 具体的には、Cambridge English Corpus(CEC、数十億語規模)と、 それに基づくEnglish Vocabulary Profile(EVP)[22]が語彙のCEFRレベル判定に使用される。 EVPは各語義にA1〜C2のレベルを付与しており、試験問題の作成時に参照される。
ただし、Cambridge Assessment Englishは「BNC/COCAのX帯以内の語彙のみ使用する」 といった機械的な頻度閾値は公表していない。 語彙選定はコーパスツール、EVP、および専門家の判断を組み合わせた 品質保証プロセスにより行われる[23]。
実証的なテキスト分析では、IELTS Academic Readingの出題テキストは BNC/COCA最頻出4,000語族で約95%、8,000語族で98%以上のテキストカバー率に達することが確認されている[24][8]。 これは、試験作成者が意図的に極端に低頻度の語彙を避けていることを示唆する。 残りの2〜5%を構成するのが、本システムのIELTS特選デッキが対象とするトピック固有語彙である。
3.2 帯域別の試験スコア相関
BNC/COCA語彙帯域と各種英語試験のスコアとの相関は、 複数の独立した実証研究により検証されている。
| 到達帯域 | 試験目安 | 根拠 |
|---|---|---|
| ~3K | 英検2級 / TOEIC 600 / IELTS 5.0 | Chujo et al. (2020)[9] |
| ~5K | 英検準1級 / IELTS 6.0-6.5 / TOEFL 80 | Phung & Ha (2022)[8] |
| ~8K | IELTS 7.0 / TOEFL 100 / GMAT | Nation (2006)[2]; GMAC (2024)[14] |
| ~10K | IELTS 7.5+ / 英検1級 | Nation (2006)[2] |
| ~15K | GRE / 英検1級上位 | GMAC (2024)[14] |
4. 間隔反復アルゴリズム
4.1 アルゴリズム選定の根拠
間隔反復アルゴリズムは、ルールベースの第1世代(SM-2, Leitner)、 統計・認知科学モデルに基づく第2世代(HLR, Ebisu, ACT-R, MCM, MEMORIZE)、 ニューラルネットワーク・強化学習による第3世代(FSRS, GRU, RWKV, DRL-SRS)に大別される。 本システムではFSRS v6(Free Spaced Repetition Scheduler)を採用した。
選定の根拠は、Ankiの17億件超のレビューデータに基づくSRSベンチマーク (open-spaced-repetition/srs-benchmark)において、 FSRS-6がSM-2に対して99.6%の優越性(99.6%のユーザーでFSRSが優れる)を示し、 SM-17に対しても83.3%の優越性を示すことにある[15][16]。 RWKVなどの大規模ニューラルネットはFSRSを上回る性能を示すが、 サーバー側推論が必要でありモバイル実装が困難なため、 パフォーマンス・実装容易性・理論的健全性のバランスにおいてFSRSが最適と判断した。
4.2 DSR 3成分モデル
FSRSはDSR(Difficulty, Stability, Retrievability)3成分モデルに基づく。 これはWoźniak, Gorzelańczyk & Murakowski (1995)[17]が提唱した記憶の二成分モデル(安定度と想起可能性)に、 アイテム固有の難度を加えた3次元モデルである。
- Difficulty(難度, D):アイテム固有の学習困難さ。1-10のスケールで表現され、初回評定から初期化される
- Stability(安定度, S):想起可能性Rが100%から90%に低下するまでの時間(日数)。成功/失敗した復習ごとに更新される
- Retrievability(想起可能性, R):現時点での正答確率。安定度Sと経過時間tから計算される
4.3 忘却曲線:べき乗則の採用
忘却曲線の関数形については、指数関数 vs べき乗則の論争がある。 Wixted & Ebbesen (1991)は個人レベルの忘却がべき乗関数でより良く記述されることを示し、 Rubin & Wenzel (1996)は210データセットの網羅的分析でべき乗関数が最良の関数形の一つであると結論した[18]。 FSRSはこの実証的知見に基づき、べき乗則忘却曲線を採用している:
R(t, S) = (1 + factor × t / S)decay
FSRS-6では decay = −w20(デフォルト約0.1542)が個人ごとに最適化可能なパラメータとなっている。 factor = (0.91/decay − 1) / 9 により、S日経過時にR = 0.9となるよう正規化される。
4.4 安定度更新式と認知心理学的対応
成功想起後の安定度更新式は、記憶の3つの経験則を数学的に実装している:
S'r = S × (ew8 × (11−D) × S−w9 × (ew10(1−R) − 1) × … + 1)
- (11−D):高難度ほど安定度増加が小さい
- S−w9:高安定度ほど増加が困難(収穫逓減) — 学習初期に大きな改善、後期に漸減
- ew10(1−R) − 1:低想起可能性での復習ほど大きな安定度増加 — Bjorkの望ましい困難性理論[19]の直接的実装
この最後の性質は特に重要である。Bjork (1994) が提唱した望ましい困難性(desirable difficulties)は、 検索が困難な状態での想起成功が貯蔵強度をより大きく増加させるという逆説的原理であり、 間隔効果(spacing effect)とテスト効果(testing effect)の理論的基盤を成す[20]。
4.5 本システムにおける実装の詳細
本システムはts-fsrsライブラリ(v5.2.3)を介してFSRS-6を実装している。 21個のパラメータは10,000ユーザー超のAnkiデータから導出されたデフォルト値を使用し、 デフォルトパラメータのみでもSM-2に対して99.5%の優越性を示す。 以下に実装の主要設定を示す:
| 項目 | 設定値 | 備考 |
|---|---|---|
| アルゴリズム | FSRS v6 | ts-fsrs v5.2.3経由 |
| パラメータ数 | 21 (w0–w20) | デフォルト値(個人最適化なし) |
| 目標保持率 | 90% | R = 0.9で復習をスケジュール |
| 忘却曲線 | べき乗則 | decay ≈ 0.154(w20) |
| 評定スケール | 4段階 | Again / Hard / Good / Easy |
| 学習ステップ | 1分, 10分 | 新規カード初回学習時 |
| 再学習ステップ | 10分 | 失敗後の再学習 |
| 間隔ファジング | 有効 | 2.5日以上の間隔にランダム変動を付加 |
| 最大間隔 | 36,500日 | 約100年(実質無制限) |
4.6 SM-2からの改善点
従来広く使用されてきたSM-2(Woźniak, 1987)[21]と比較した本システムの構造的改善は以下の通りである:
- Ease hellの解消:SM-2では一度失敗したカードの易度係数(EF)が永続的に低下し過剰復習を招く。FSRSの難度は平均回帰メカニズムにより極端値に収束しない
- べき乗則忘却曲線:SM-2の暗黙的な指数関数的間隔成長に対し、FSRSは実証的に支持されたべき乗則を使用
- 望ましい困難性の数学的実装:低想起可能性での想起成功がより大きな記憶強化をもたらすことを式に組み込み
- 復習量の削減:同一保持率の達成に必要な復習量を20-30%削減(医学生の報告に基づく)
4.7 既知の制約と今後の展望
現在の実装には以下の制約がある:
- 個人パラメータ最適化なし:現在はデフォルトパラメータを全ユーザーに適用。十分な復習履歴が蓄積された後、個人ごとのw0–w20最適化を導入予定
- 内容非認識:FSRSは復習履歴のみで判断し、語彙の言語的特徴(同根語、意味的類似度等)を利用しない。LECTOR(2025)やKARL(Shu et al., 2024)のようなLLM統合型アプローチが今後の方向性
- 復習時間の未使用:カードに費やした時間(反応時間)はFSRS v6では利用されない
5. 適応型語彙レベルアセスメント
Meara & Milton(2003)のX_Lex法に着想を得た適応型二分探索アセスメントを実装する。 5K帯から開始し、各帯の正答率に応じて上下に探索範囲を調整する。 擬似語(pseudoword)を混入させ、推測回答のバイアスを補正する。
推定精度は100語単位(0.1K刻み)であり、各帯内での線形補間により算出される。 累積テストに対応しており、複数回の受験で推定精度が向上する。
参考文献
- [1] Bauer, L. & Nation, I. S. P. (1993). Word Families. International Journal of Lexicography, 6(4), 253-279.
- [2] Nation, I. S. P. (2006). How Large a Vocabulary Is Needed For Reading and Listening? Canadian Modern Language Review, 63(1), 59-82.
- [3] McLean, S. (2017). Evidence for the Adoption of the Flemma as an Appropriate Word Counting Unit. Applied Linguistics, 39(6), 823-845.
- [4] Webb, S. (2021). The Lemma Dilemma. Studies in Second Language Acquisition, 43(5), 941-949.
- [5] Schmitt, N. & Zimmerman, C. B. (2002). Derivative Word Forms: What Do Learners Know? TESOL Quarterly, 36(2), 145-171.
- [6] Iwaizumi, E. & Webb, S. (2022). Measuring L1 and L2 Productive Derivational Knowledge. TESOL Quarterly, 56(1), 100-129.
- [7] Cruse, D. A. (1986). Lexical Semantics. Cambridge University Press.
- [8] Phung, D. H. & Ha, H. T. (2022). Vocabulary Demands of the IELTS Listening Test. SAGE Open, 12(1).
- [9] Chujo, K. et al. (2020). Lexical Frequency Profiling of High-Stakes English Tests. JACET Journal, 64, 79-93.
- [10] Browne, C., Culligan, B. & Phillips, J. (2013). The New General Service List.
- [11] Coxhead, A. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213-238.
- [12] Garnier, M. & Schmitt, N. (2015). The PHaVE List. Language Teaching Research, 19(6), 645-666.
- [13] Martinez, R. & Schmitt, N. (2012). A Phrasal Expressions List. Applied Linguistics, 33(3), 299-320.
- [14] GMAC (2024). Vocabulary Requirement Comparison Between the Verbal Reasoning Sections of the GMAT and GRE Exams. GMAC Research Reports.
- [15] Ye, J., Su, J. & Cao, Y. (2022). A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling. KDD '22, 4381-4390.
- [16] Su, J., Ye, J., Nie, L., Cao, Y. & Chen, Y. (2023). Optimizing Spaced Repetition Schedule by Capturing the Dynamics of Memory. IEEE TKDE, 35(10), 10085-10097.
- [17] Woźniak, P. A., Gorzelańczyk, E. J. & Murakowski, J. A. (1995). Two Components of Long-term Memory. Acta Neurobiologiae Experimentalis, 55(4), 301-305.
- [18] Rubin, D. C. & Wenzel, A. E. (1996). One Hundred Years of Forgetting. Psychological Review, 103(4), 734-760.
- [19] Bjork, R. A. (1994). Memory and Metamemory Considerations in the Training of Human Beings. In Metacognition, MIT Press, 185-205.
- [20] Roediger, H. L. & Karpicke, J. D. (2006). Test-Enhanced Learning. Psychological Science, 17(3), 249-255.
- [21] Woźniak, P. A. & Gorzelańczyk, E. J. (1994). Optimization of Repetition Spacing in the Practice of Learning. Acta Neurobiologiae Experimentalis, 54(1), 59-62.
- [22] English Vocabulary Profile. Cambridge University Press & Cambridge Assessment English. englishprofile.org/wordlists/evp
- [23] Green, A. (2012). Language Functions Revisited. English Profile Studies, Cambridge University Press.
- [24] Read, J. & Nation, I.S.P. (2004). Measurement of Vocabulary Size in IELTS. IELTS Research Reports, Volume 6.
- [25] Boers, F. (2000). Metaphor Awareness and Vocabulary Retention. Applied Linguistics, 21(4), 553-571.
- [26] Tyler, A. & Evans, V. (2003). The Semantics of English Prepositions. Cambridge University Press.
- [27] Yasuda, S. (2010). Learning Phrasal Verbs through Conceptual Metaphors. TESOL Quarterly, 44(2), 250-273.