• blog image0 Comments
  • /
  • last updated : 26 September, 2022

ノイズフィルタリング

Category: Blogs
326

概要

技術ドメインに関連する特許を分析することは、思ったほど簡単ではありません。技術ドメインを分析する標準的な方法は、複数の検索クエリを作成して特許データ セットを抽出し、手動で特許をフィルタリングすることです。ノイズを除去するための結果セットのフィルタリングは、正確な分析を保証するために非常に重要です。これには多くの手作業が必要であり、かなりの時間がかかります。

NLPと機械学習の進歩により、特許の手動分析のタスクを自動化できます。XLSCOUTは、以前のデータからの学習に基づいて結果セットからノイズを除去することができるアルゴリズムを開発しました。

序章

特許には、技術分野の進歩と企業の戦略に関連する豊富な情報が含まれています。これらの情報をもとに事業戦略が決定されるため、関連情報の収集・抽出は非常に重要です。この情報のソースは特許にあるため、技術に関連する正しい一連の特許を抽出することが最も重要です。

問題

技術分野に関連する関連特許を手動で読み取って抽出することは時間がかかり、多くの手作業が必要です。特許を読む研究者が異なれば、技術概念の理解も異なり、ノイズの多い出力につながります。

ソリューション:XLSCOUTノイズフィルタリングアルゴリズム

XLSCOUTでは特許研究の経験があり、それをNLPと機械学習の技術的専門知識と組み合わせて、以前のデータから学習し、新しいデータセットからノイズを除去することができるノイズフィルタリングアルゴリズムを開発しました。

このアルゴリズムを使用すると、ドメイン内の関連する特許とノイズ特許の以前の(歴史的な)データセットを使用して、技術ドメインのモデルをトレーニングできます。アルゴリズムはこのデータから学習し、準備ができたら、同じ技術分野に関連する将来のデータセットから関連する特許を予測し、データセット内のノイズを最小限に抑えるために使用できます。

テクノロジー

ノイズフィルタリングアルゴリズムの開発には、(NLPモデルとして)BERTを使用しました。標準のBERTモデルは、特許の概念とセマンティクスをモデルが理解できるように、特許データを提供することで微調整しました。

訓練されたBERTモデルは、特許テキストを機械が理解できるベクトル表現に変換するために使用されます。

アルゴリズムを開発するための 2 番目の部分は、機械学習モデルのトレーニングです。モデルは、ドメインに関連するラベル付きデータ セットを提供することによってトレーニングされます。ラベル付きデータセットは、特定のドメインに対して関連性があり、関連性がない(ノイズ)とラベル付けされた特許文献のセットに対応する。このモデルは、関連する集合の特許文献間と、関連のない集合の特許文献間の関連付けを作成します。これは、モデルが関連する特許と無関係な特許の重要な概念を学習して特定し、両者を区別するのに役立ちます。

接近

ノイズフィルタリングアルゴリズムの設定には、次の手順があります。

データ収集

技術ドメインに関連するラベル付きデータセットがキュレーションされる

データ構造化

データセットは、トレーニングデータとテストデータの2つの部分(通常は80:20の比率)に分割されます。ラベルは、出力検証のためにテスト データから削除されます。

機械学習モデルのトレーニング

ラベル付けされたデータセットは、最初にベクトル表現に変換され、次にトレーニングのために機械学習モデルに供給されます。

出力検証とフィードバック

モデルがトレーニングされると、テスト データから関連する特許を予測するために使用されます。誤った予測はフィードバックの形でモデルにフィードバックされ、再び学習し、理解を最適化します。出力が正しく、モデルがデータセットから関連するすべての特許を取得できることを確認するために、複数の反復が行われます。

考慮すべき最も重要なパラメータは、アルゴリズムの精度です。100%の精度は、すべてのノイズ特許が削除され、関連する特許のみが抽出されることを意味します。100%正確なアルゴリズムはありませんが、フィードバックメカニズムのアプローチにより、関連する特許が最終的な予測データセットから除外されないことが保証されます。

同時に、最終的なデータセットにはいくつかのノイズ特許(大幅に少ない)があります。
このアルゴリズムを複数のクライアントに対して正常にセットアップし、ノイズが85〜90%低減されることを検証しました。

使用例

正確な技術追跡
アルゴリズムは、技術領域を正確に理解するために関連する特許を抽出するのに役立ちます

正確な競合他社の追跡
競合他社の特許を抽出し、技術部門に応じて正確にセグメント化することで、ノイズを除去し、競合他社の戦略に関する正確な洞察を得ることができます。

正確なランドスケープインサイト
関連する結果を抽出し、ノイズを低減することで、ランドスケープ検索から正確な洞察を得ることにさらに役立ちます

結論

手動分析は過去のものであり、NLPと機械学習を使用して信頼できるアプリケーションを開発することは、今の時間の必要性です。自動化されたソリューションは、手動の研究チームを支援し、彼らの生活をはるかに楽にすることができます。

この分野での経験と受け取ったフィードバックにより、XLSCOUTノイズフィルタリングアルゴリズムが時間と手作業を大幅に節約することがわかりました。節約された時間は、技術の革新と改善に活用できます。

 

To know more, get in touch with us. ( Fix a meeting )