OpenAlex Member+及びOpenAlex Partnerプランをご購読の皆さんへ
OpenAlexコミュニティへのご参加ありがとうございます。Member+・Partnerプランをご利用の組織向けに、OpenAlexのローカルコピーを常に最新の状態に保つための新しい方法をご案内します。
対象プランについて
この変更はMember+・Partnerプランの組織が対象です。Memberプランの方への変更はありません。
これまでの仕組み
一般ユーザーは3ヶ月に1回の四半期スナップショット、Member+・Partnerプランの組織は月次スナップショットに加え、プレミアムAPIフィルターと日次変更ファイルを利用してデータベースの同期を保つことができました。
これらの機能は今後も継続して提供しますが、より使いやすく柔軟な更新方法を新たに提供開始します。
新機能:日次スナップショット
毎日スナップショットを公開するようになりました。各スナップショットのデータはレコードの追加日付ごとに整理されており、以下のように柔軟な運用が可能です。
- 毎日同期したい場合:日次スナップショットを取り込む
- 月1回で十分な場合:任意の日に取り込む(取り込む日を毎回自由に選択可能)
- 差分のみ取り込みたい場合:前回取り込み以降に更新されたデータだけを読み込む(全データの再インポート不要)
データの保存場所
s3://openalex-snapshots/ にJSONLおよびParquet形式で格納されています。
full/<date>/:完全なスナップショット。差分のみ取り込む場合は、前回取り込み日以降のupdated_date=パーティションを参照してください。daily/<date>/:その日に変更されたレコードのみ、エンティティごとに1ファイルlatest.json:利用可能な全日付の一覧(スクリプト処理にご活用ください)
ご注意
- プレミアムAPIフィルターや変更ファイルで同期している場合、既存の仕組みはそのまま使い続けられます。
- フルスナップショットを自動ダウンロードするスクリプトをお使いの場合、今後は毎日新しいスナップショットが生成されるため、スクリプトの設定見直しをおすすめします。
この機能はリリースしたばかりです。ご意見・ご感想はこのスレッドへの返信、または [email protected] までお気軽にお寄せください。
