BeautifulSoup et ASP.NET/C#

Quelqu’un at-il intégré BeautifulSoup à ASP.NET/C# (éventuellement en utilisant IronPython ou autrement)? Existe-t-il une alternative BeautifulSoup ou un port qui fonctionne bien avec ASP.NET/C#?

L’intention de planifier l’utilisation de la bibliothèque est d’extraire du texte lisible à partir de n’importe quelle URL aléatoire.

Merci

Html Agility Pack est un projet similaire, mais pour C # et .NET


MODIFIER:

Pour extraire tout le texte lisible:

document.DocumentNode.InnerText 

Notez que cela renverra le contenu textuel des balises .

Pour résoudre ce problème, vous pouvez supprimer toutes les balises , comme ceci:

 foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove(); 

(Crédit: SLaks )

Vous pouvez essayer ceci bien qu’il y ait actuellement quelques bugs:

http://nsoup.codeplex.com/

Je sais que c’est assez vieux, mais j’ai décidé de poster ceci pour référence future. Je suis tombé sur cette recherche d’une solution similaire.

J’ai trouvé une bibliothèque construite au-dessus du pack d’agilité HTML appelée scrapysharp

Je l’ai utilisé de manière assez similaire à BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home