
What is the difference between machine scoring systems and chatbots?(機械採点システムとチャットボットの違いとは?)
The term Artificial Intelligence (AI) has become a buzzword used in various businesses, organizations, and media in general. Many have warned about the dangers of using such a phrase as a blanket term to describe technologies that are not truly AI, as it tends to mislead the public about what AI is and what their expectations should be (The AI Buzzword Trap, n.d.). In the same vein, there has been a trend to equate AI to chatbots like ChatGPT. This is not uncommon even among academics (Jordan, 2019). In a recent Applied Linguistics academic conference, there were a total of 40 presentations related to the search term “Artificial Intelligence” out of which about 31 were about generative AI or chatbots, like ChatGPT.
「人工知能(AI)」という言葉は、さまざまな企業や組織、メディア全般で使われる流行語になっています。多くの専門家は、真のAIではないテクノロジーを説明するためにこのフレーズを包括的な用語として使うことの危険性を警告しています。なぜなら、それがAIとは何か、そして何を期待すべきかについて、世衆に誤解を与える傾向があるからです(The AI Buzzword Trap, n.d.)。同様に、AIをChatGPTのようなチャットボットと同一視する傾向もあります。これは学者たちの間でも珍しいことではありません (Jordan, 2019)。最近開催された応用言語学の学術会議では、「人工知能」という検索語に関連する計40件の発表のうち、約31件が生成AIやChatGPTなどのチャットボットに関するものでした。
AI is much bigger than chatbots. In fact, AI encompasses a variety of technologies that enable machines to perform tasks requiring human-like intelligence. Self-driving cars are a real-world example of AI technology that is beyond chatbots. Just like when training a human to drive safely, the machine is trained to recognize traffic signs, avoid obstacles, make decisions at intersections, and overall follow the traffic regulations. With the help of (1) sensors that gather millions of data points on what is ahead, beside, or behind, (2) software that processes all these data points collected through the sensors, and (3) machine learning that recognizes patterns in the data points collected to support the machine in improving their driving, a machine is able to perform the human-like task of driving a car in real traffic.
AIはチャットボットよりもはるかに広大な概念です。実際、AIは人間に似た知能を必要とするタスクを機械が実行することを可能にする、多様なテクノロジーを包含しています。自動運転車は、チャットボットの域を超えたAIテクノロジーの実例です。人間が安全に運転できるように訓練するのと同様に、機械も交通標識を認識し、障害物を避け、交差点で判断を下し、全体的な交通規則に従うように訓練されます。(1) 前方、側方、後方の数百万のデータポイントを収集するセンサー、(2) センサーを通じて収集されたこれらすべてのデータポイントを処理するソフトウェア、(3) 収集されたデータポイントのパターンを認識して運転向上を支援する機械学習の助けを借りて、機械は実際の交通状況下で車を運転するという人間のようなタスクを遂行できるのです。
Likewise, ACTFL® and Language Testing International® (LTI) have leveraged state-of-the-art machine learning technologies to build a model that would provide scores to Spanish AAPPL PW (ACTFL Assessment of Performance toward Proficiency in Languages Presentational Writing) responses just like ACTFL certified raters would do. Like with self-driving cars, the research team at ACTFL and LTI trained the machine to perform the task of a certified human rater by (1) compiling thousands of data points of actual test responses and rater scores, (2) using software to process these data, and (3) applying machine learning techniques to find patterns to optimize the machine scoring performance.
同様に、ACTFL®とLanguage Testing International®(LTI)は、最先端の機械学習技術を活用して、ACTFL認定のレイタ―が行うのと同様に、スペイン語のAAPPL PW(ACTFL Assessment of Performance toward Proficiency in Languages Presentational Writing)の回答にスコアを付与するモデルを構築しました。自動運転車の場合と同じように、ACTFLとLTIの研究チームは、(1) 実際の試験回答と採点スコアの数千ものデータポイントを蓄積し、(2) ソフトウェアを使用してこれらのデータを処理し、(3) 機械学習手法を適用してパターンを見つけ出し、機械採点のパフォーマンスを最適化することで、認定された人間のレイタ―のタスクを実行するように機械を訓練しました。
How are ACTFL and LTI leading innovation with machine scoring for Spanish? Why?(ACTFLとLTIはいかにしてスペイン語の機械採点で革新をリードしているのか?その理由は?)
Research on automated scoring systems in languages other than English and for non-adult language learners is limited at best. If we look at the automated scoring systems in use, most, if not all of them, focus on English as the target test language and on adult test-takers (e.g., Davis & Papageorgiou, 2021; Isbell, Crowther, & Nishizawa, 2023; Gao, Gales, & Xu, 2024). To address this gap in the research and in the field in general, LTI and ACTFL collaborated on this innovative research project that aimed at building an automated scoring system targeting the Spanish language for non-adult learners for the Spanish AAPPL PW. Not only did it make a much-needed contribution to the research field, but it also provided a solution to generate consistent scores, to double-rate all tests and thus improve the QA process and rapidly detect alarming comments, among other affordances.
英語以外の言語、および成人ではない言語学習者を対象とした自動採点システムの研究は、控えめに言っても限られています。現在運用されている自動採点システムを見ると、そのほとんどがテスト対象言語として英語、そして成人受験者に焦点を当てています(例:Davis & Papageorgiou, 2021; Isbell, Crowther, & Nishizawa, 2023; Gao, Gales, & Xu, 2024)。この研究分野および業界全般におけるギャップを埋めるため、LTIとACTFLはこの革新的な研究プロジェクトで協力し、スペイン語AAPPL PWを受験する非成人の学習者を対象としたスペイン語の自動採点システムの構築を目指しました。これは研究分野に切実に求められていた貢献をしただけでなく、一貫したスコアの生成、全テストの二重採点による品質保証プロセスの向上、警戒すべきコメントの迅速な検知など、多くの利便性を提供しました。
How ethical is the Automated Machine Scoring System?(自動機械採点システムはどの程度「倫理的」か?)
In an AAPPL customer satisfaction survey that LTI launched in 2024, many respondents expressed concerns about automated scoring systems, particularly regarding the absence of human judgment, potential biases in AI models, and fairness across diverse demographics. These are all concerns that the Machine Scoring research team at ACTFL and LTI have taken seriously since day one. Reflecting this commitment, their efforts to build this automated system have been grounded in the International Language Testing Association (ILTA) code of ethics (ILTA, revised, forthcoming). As such, the machine scoring system projects have been guided by the four essential principles in the code of ethics, particularly by the Principle of Technological responsibility. This principle refers to the ethical management of language testers to handle technological innovations “with diligence and foresight to uphold the integrity and fairness of language testing” (ILTA, forthcoming, p. 8).
LTIが2024年に実施したAAPPL顧客満足度調査では、多くの回答者が自動採点システムに対して懸念を表明しました。特に、人間による判断の欠如、AIモデルにおける潜在的なバイアス、そして多様なデモグラフィック(人口統計学的属性)間での公平性についてです。これらはすべて、ACTFLとLTIの機械採点研究チームが初日から真剣に取り組んできた懸念事項です。このコミットメントを反映し、この自動システムを構築するための彼らの努力は、国際言語テスティング協会(ILTA)の倫理規定(ILTA, 改訂版, 近刊)に基づいています。そのため、機械採点システムのプロジェクトは、倫理規定における4つの基本原則、特に「技術的責任の原則」に従ってきました。この原則は、言語テスターが技術革新を扱う際の倫理的管理を指し、「言語テストの完全性と公平性を維持するために、勤勉さと先見性をもって」対処することを求めています(ILTA, 近刊, p. 8)。
More specifically, the team carefully compiled a dataset of responses representative of the full range Spanish AAPPL PW test-taker population along with ACTFL-certified rater scores to train the machine scoring system. Training the machine scoring system on this authentic and representative dataset ensures that automated scores align closely with human judgment, as well as their efforts to provide unbiased and fair scores across different demographic groups. Compiling such a representative dataset is just one aspect of the research team’s broader commitment to ethical responsibility. Additional details on our ethical practices will be shared at the upcoming East Coast Organization of Language Testers (ECOLT) Conference in September.
より具体的には、チームは、自動採点システムを訓練するために、ACTFL認定レイタ―によるスコアとともに、スペイン語AAPPL PWの受験者層の全範囲を代表する回答データセットを慎重に作成しました。実際の代表的なデータセットを用いて機械採点システムを訓練することで、自動化されたスコアが人間の判断と密接に一致することを保証し、異なるデモグラフィックグループ間でも偏りのない公平なスコアを提供できるよう努めています。このような代表的なデータセットを構築することは、研究チームの広範な倫理的責任へのコミットメントの一側面に過ぎません。私たちの倫理的実践に関する詳細は、9月に開催されるEast Coast Organization of Language Testers (ECOLT) カンファレンスで共有される予定です。
What is in store for the Machine Scoring System and other projects?(機械採点システムとその他のプロジェクトの今後は?)
With the rapid advances in language assessment technology and AI in general, the machine scoring research team continues improving our models to provide more accurate, reliable, and interpretable scores for the Spanish AAPPL PW. At the same time, we continue disseminating our work through presentations at different conferences, the next of which are ECOLT 2025 in Washington DC and AIRiAL 2025 in New York City. We have also recently published our work in an academic journal for our stakeholders to get informed in more detail about the earlier stages of our work on this project.
言語評価技術とAI全般の急速な進歩に伴い、機械採点研究チームは、スペイン語AAPPL PWに対してより正確で信頼性が高く、解釈可能なスコアを提供するためにモデルの改良を続けています。同時に、私たちはさまざまなカンファレンスでの発表を通じて成果を広めており、次はワシントンDCでのECOLT 2025とニューヨーク市でのAIRiAL 2025を予定しています。また、このプロジェクトの初期段階について、ステークホルダーの皆様に詳細を知っていただけるよう、学術誌に研究成果を発表しました。
In addition, the team continues innovating and is now working on a machine scoring system for the Spanish AAPPL ILS (Interpersonal Listening and Speaking). This project has its own challenges as it involves speech rather than text. As mentioned earlier, little research has been done on young learners in languages other than English, and this includes research on speech recognition models for this population and target language. As such, the team is working diligently to tackle this and many other challenges while still upholding the highest standards of ethics and quality.
さらに、チームは革新を続けており、現在はスペイン語AAPPL ILS(対人リスニング&スピーキング)向けの機械採点システムに取り組んでいます。このプロジェクトは、テキストではなく音声を扱うため、独自の課題があります。前述のように、英語以外の言語における年少の学習者に関する研究はほとんど行われておらず、これにはこの対象層と対象言語のための音声認識モデルの研究も含まれます。そのため、チームは最高の倫理基準と品質を維持しながら、これら多くの課題に取り組むべく熱心に活動しています。


