How to prepare a dataset to train "Quality Scorer" classifier? #449

kdcyberdude · 2024-03-09T20:07:28Z

kdcyberdude
Mar 9, 2024

I want to know the implementation details of the "Quality Scorer" and "Document Coherence Scorer" filters.

renxiaoyi · 2024-03-11T03:29:17Z

renxiaoyi
Mar 11, 2024

Basically, "Quality Scorer" is a fasttext classifier that was trained to assign high scores to pages that are similar to "high quality" content like Wikipedia pages and books. "Document Coherence Scorer" is a scorer to assign high scores to pages where paragraphs are more "consistent", bases on their embedding cosine similarity.

1 reply

kdcyberdude Mar 11, 2024
Author

Hi @renxiaoyi, Did you guys use LLM to generate the dataset, or was it manually created? Alternatively, is there any available dataset for the classifier?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

How to prepare a dataset to train "Quality Scorer" classifier? #449

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

How to prepare a dataset to train "Quality Scorer" classifier? #449

Uh oh!

kdcyberdude Mar 9, 2024

Replies: 1 comment · 1 reply

Uh oh!

renxiaoyi Mar 11, 2024

Uh oh!

kdcyberdude Mar 11, 2024 Author

kdcyberdude
Mar 9, 2024

Replies: 1 comment 1 reply

renxiaoyi
Mar 11, 2024

kdcyberdude Mar 11, 2024
Author