OneNote解析-ドキュメントのテキストBlobにアクセスする方法？

Question

.oneファイル拡張子のパーサーを作成しています。完成したら、Apache Tikaプロジェクトに追加します。

これが、私が作成しているAPL 2.0ライセンスのオープンソースプロジェクトです。 https://github.com/nddipiazza/onenote-parser-Java

開始点として、私はこのオープンソースC++プロジェクトからコードを移植しました： https://github.com/dropbox/onenote-parser

文書の解析に長い道のりを歩んできましたが、障害になりました。

解析結果でSection1TextArea1とSection1TextArea2を表示できません。だから私はある種の重要なデータ解析要素か何かが欠けています。

それは間違いなくOneNoteファイル自体にあります。 Hexビューアで確認できます。

仕様書には、この独自フォーマットを解析するために必要ないくつかの非常に重要な情報が欠けているように感じます。

どの主要な要素が欠けているので、実際のテキストコンテンツを取得できませんか？

Nicholas DiPiazza · Accepted Answer

私はそれを考え出した。 OneNoteのプロパティ値は次のいずれかになる可能性があることを理解する必要がありました。

いろいろと散りばめられています。

また、私は先に進んで、ルートファイルツリー全体を解析しました。それは多くの重複したテキストをもたらしますが、私は本当に気にしません。

プロジェクトはテストケースとここでの修正で更新されます： https://github.com/nddipiazza/onenote-parser-Java/tree/master/src/main/Java/org/Apache/tika/onenote

更新：

Apache tika PRを作成しました： https://github.com/Apache/tika/pull/3