責任著者データの大幅な改善について
投稿日:2026年6月23日 投稿者:Kyle Demes
OpenAlexにおける責任著者(Corresponding Author)の検出・割り当て、およびそれに紐づく責任所属機関の特定方法について、体系的かつ大幅な改善を行いました。手作業で検証したゴールドスタンダードによる評価では、適合率(Precision)が0.60から0.92に向上し、再現率(Recall)はほぼ横ばい(0.91から0.88)を維持した結果、F1スコアは0.72から0.90へと上昇しました。また、責任著者情報が欠落していた約700万件の論文に対して、実際の責任著者データを新たに追加しました。トランスフォーマティブ合意の追跡、出版社との交渉、または論文の主導機関への成果帰属にOpenAlexをご活用の方には、特に重要な改善です。
責任著者が重要な理由
責任著者は通常、論文の投稿手続きを担い、論文処理費用(APC)の支払いを含む出版上の意思決定を行う人物です。図書館やコンソーシアムにとって、責任著者および責任所属機関のデータは、トランスフォーマティブ合意(Read & Publish契約)の追跡において根幹をなすものです。これらの契約における利用資格の多くは、責任著者の所属機関によって決定されます。そのため、この情報が誤っていたり欠落していたりすると、交渉の前提となる分析そのものが不正確なものになってしまいます。
本プロジェクトは、カリフォルニア大学のCalifornia Digital Library(CDL)との共同研究から生まれました。CDLは、責任著者データのカバレッジの欠落や誤りが出版分析や交渉戦略の制約になっていると指摘し、問題を回避策でしのぐのではなく、根本から解決するために私たちと協力してくださいました。ご支援と、コミュニティ全体に恩恵をもたらす課題への取り組みにご協力いただいたことに、深く感謝申し上げます。
ゴールドスタンダードの構築と改善
本プロジェクトの基盤は「測定」でした。責任著者割り当ての手作業検証済みゴールドスタンダードを構築し、現状の正確な把握と改善の検証に活用しました。
OpenAlexでは、各著者情報に is_corresponding フラグを付与し、論文に対して corresponding_author_ids および corresponding_institution_ids を公開しています。改善前の評価では、適合率0.60・再現率0.91・F1スコア0.72という結果でした。平たく言うと、真の責任著者の91%は正しく検出できていたものの、責任著者と判定した著者のうち正しかったのは60%にすぎませんでした。この数値を基準として、すべての改善効果を測定しました。
改善の主眼は、取り込んだ文書の非構造化テキストから責任著者情報を認識・抽出する精度の向上でした。責任著者の情報は通常どこかに存在していますが、構造化されたフィールドではなく、表記のばらつきがある自由記述形式で記されています。この認識・抽出能力を大幅に向上させることで、これまで責任著者が登録されていなかった数百万件の論文への付与と、誤って登録されていた多数の修正が可能になりました。
ゴールドスタンダードから明らかになった旧来の仮定の問題
ゴールドスタンダードは、旧システムに組み込まれていた前提条件の検証にも役立ちました。従来は、責任著者情報が明示されていない論文に対して、筆頭著者を責任著者と見なすフォールバック処理を行っていました。この仮定が不完全であり、特にトランスフォーマティブ合意によってAPCの支払いが責任著者と紐づくようになって以降は信頼性が低下していると認識していましたが、今回の検証でその実態が明確になりました。筆頭著者が責任著者である場合は確かに半数を超えますが、それ以外の半数近くではこのフォールバックが誤った結果をもたらしていました。
今回の改善では、筆頭著者フォールバックを完全に廃止しました。それにもかかわらず、再現率の低下はわずか(0.91→0.88)にとどまりました。通常、このような一律の仮定を廃止すれば再現率は大きく落ち込みますが、今回はテキスト認識の向上により、従来フォールバックに頼っていたほぼすべてのケースで実際の責任著者を検出できるようになったためです。一方、適合率は0.60から0.92へと大幅に向上しました。
確実な根拠がある場合はそれを使用し、ない場合は明示的にnull値を返す——この方針により、誤った推定値ではなく、より正確で信頼性の高いデータを提供できるようになりました。
改善結果
手作業検証済みゴールドスタンダードによる評価結果:
| 指標 | 改善前 | 改善後 |
|---|---|---|
| 適合率(Precision) | 0.60 | 0.92 |
| 再現率(Recall) | 0.91 | 0.88 |
| F1スコア | 0.72 | 0.90 |
- 適合率が0.60から0.92に向上。誤った責任著者の割り当てが約40%から約8%に減少し、エラー率が約80%削減されました。
- 再現率は0.91から0.88へとほぼ横ばいを維持。筆頭著者フォールバックを廃止したにもかかわらず、改善されたテキスト認識がそのカバレッジをほぼ補完しました。
- F1スコアは0.72から0.90へと向上し、両指標の改善を反映しています。
- 約700万件の論文(新規責任著者割り当て約820万件)に実際の責任著者データを追加。複数著者論文における責任著者の付与率が約21%増加しました。
- 特に大きな改善が見られたのは主要出版社(Elsevier、Springer Nature、Wiley、Oxford University Pressなど)で、回収件数の大部分を占めています。
残存する課題
現時点での限界についても率直にお伝えします。現在も対応が難しいのは、主に小規模な出版社の論文です。これらは責任著者がメールアドレス内や記録の分かりにくい箇所にのみ記載されており、一貫したパターンが存在しないため、認識が困難です。ロングテール部分の改善は継続して取り組んでいきます。誤りを発見された場合は、レコードのキュレーションにご協力ください(エラー報告:[email protected])。
皆様への影響
corresponding_author_ids または corresponding_institution_ids をご利用の方は、以前より正確かつ網羅的な結果が得られるようになります。
最近これらの分析を実施された方は、再実行をお勧めします。既存のクエリはそのまま使用でき、より正確なデータが返されます。
なお、以下の点にご留意ください。
- 実際の根拠に基づいて責任著者を割り当てるようになったため、誤った責任著者が登録されるのではなく、責任著者が「なし(null)」となる論文が生じることがあります。これは意図的な仕様です。誤った確信を持ったデータより、空白値の方が改善の余地を正確に示せるためです。ご自身の機関向けに空白を補完したい場合は、著者による論文を検索し、責任所属機関がnullのものを絞り込んでキュレーションいただけます。
- カバレッジは大手出版社で最も充実しており、小規模出版社では手薄な部分があります。ロングテール分析の際はこの点をご考慮ください。
トランスフォーマティブ合意の追跡においては、責任著者・責任所属機関の精度向上により、どの論文がどの機関に帰属するかがより明確になり、交渉を支える分析の信頼性が高まります。
ご質問や不正確と思われるケースがございましたら、ぜひご連絡ください:[email protected]
最後に、カリフォルニア大学およびCalifornia Digital Libraryの皆様には、本プロジェクトへのご支援とご協力に改めて感謝申し上げます。OpenAlexコミュニティ全体に貢献するこの取り組みへのご参加に深く感謝します。同様のコラボレーションにご関心のある機関は、ぜひご連絡ください:[email protected]

