Unpaywallの変更点について、追加情報と関連リンクをお届けします。UnpaywallのAPIとデータセットは、まったく新しいコードベースで完全に書き直されました。ほとんどのユーザーは、特に対応する必要はありません。
既存のUnpaywall Datafeedを利用しているユーザは何かをする必要がありますか?
・APIのみを使用している場合:何もする必要はありません。
・データフィードを使用している場合:新しいスナップショットをダウンロードし、既存のデータを新しいデータセットで上書きしてください。ご不便をおかけしますが、今回の変更は通常の変更ファイルでは対応できないほど多岐にわたるため、ご容赦ください。
スキーマの変更点
ごくわずかな変更が2点あります。
・oa_locations.evidenceフィールドは非推奨となりました。以前から信頼性が低く、ドキュメントでも使用を推奨していなかったため、削除しました。
・oa_locations.updatedフィールドも非推奨となりました。
これらのキーは(当面の間)残りますが、値は常に「deprecated」という文字列に設定されます。
なぜこの変更を行うのですか?
Unpaywallは約10年前に開発され、その間に多くの技術的負債が蓄積されました。その負債の負担が大きくなりすぎたため、以下のような問題が発生していました。
・バグ報告への対応が非常に困難になっていました。何かを修正すると他の2つが壊れる、という状況で、コードの構造が複雑になりすぎていました。その結果、サポート体制にも影響が出ていました。
・UnpaywallとOpenAlexの間でオープンアクセスステータスに食い違いが生じることがあり、混乱を招いていました。
・新しい機能やデータソースの追加が不可能になっていました。
今回のコードの書き直しは、これらの問題を解決することを目的としています。
データはどのように変わるのですか?
データ全体としては、大きな変更はありません。データセットから算出される指標(ゴールドオープンアクセス論文の割合やライセンス付き論文の数など)が、全体で5%未満の変更に収まるよう、多大な努力を払いました。もし変更があったとしても、それは主に精度向上に寄与するものです。しかし、1億5000万件の5%は依然として膨大な数ですので、個々のデータには多くの変更が見られるでしょう。
実のところ、Unpaywallは常に、「様々な精度のレベル」を持つメタデータに基づいて構築されています。私たちは、常に努力を重ねることで、最も正確なOAインデックスであり続けています。しかし、ダニエル・デイ=ルイスが言うように、「バグは発生します」。新しいシステムの一番の利点は、これらのバグにより迅速に対応できるようになることです。
Unpaywallの今後の展望
バグはより迅速に修正されます。これが今回のプロジェクトの最優先目標でした。これを実現するため、データの誤りを手動で修正できるWebベースのキュレーションポータルをリリースします。修正は数日中に反映されます。この詳細は今週後半にお知らせします。
データはより迅速に更新されます。これまでもデータの継続的な改善を目指してきましたが、最近はそれが滞っていました。コードベースがクリーンになることで、データ品質と新しいソースのより迅速で一貫した更新が可能になります。
最後に、今年後半にはOpenAlexの書き直しが完了し、Unpaywallのオープンアクセスステータスと常に一致するようになります。
特典
新しいシステムにより、APIの平均応答時間が90%短縮され、500msから50msになりました。
いつも通り、皆様からのフィードバックをお待ちしております。ご支援ありがとうございます!
問題を発見した場合、またはUnpaywallやキュレーションユーザーインターフェースの改善にご協力いただける場合は、[email protected]までメールでご連絡ください。皆様のご意見がUnpaywallをより良くします。
皆様の忍耐とご支援に感謝いたします。Unpaywallの新たな章を皆様と共に歩めることを楽しみにしています。
敬具
The Our Research Team