Aller au contenu

Analyse automatique du contenu des pages web

AI generated translation.

An 8-bit style image of an old computer screen shows a simple web browser with icons, such as a camera and document symbols, against a backdrop of abstract geometric shapes representing data analysis. The design incorporates five distinct colors arranged in an orderly pattern.
Generated by 🤖 AI

Dans cet article de blog, nous allons explorer un exemple pratique montrant comment tirer parti de GenAIScript pour l’analyse automatique du contenu des pages web. GenAIScript utilise la bibliothèque d’automatisation des navigateurs playwright qui permet de charger, interagir et inspecter des pages web.

Le fragment suivant offre une méthode concise et efficace pour analyser le contenu d’une page web avec GenAIScript :

import { browse } from "@genaiscript/plugin-playwright";
const page = await browse("https://bing.com");
const screenshot = await page.screenshot();
defImages(screenshot, { maxWidth: 800 });
const text = parsers.HTMLtoMarkdown(await page.content());
def("PAGE_TEXT", text);
$`Analyze the content of the page and provide insights.`;

Décomposons ce que fait chaque ligne de ce script :

import { browse } from "@genaiscript/plugin-playwright";
const page = await browse("https://example.com");

Cette ligne navigue automatiquement vers l’URL spécifiée (https://example.com). La fonction browse est une fonctionnalité puissante de GenAIScript qui initialise une session de navigateur et renvoie un objet page pour d’autres interactions.

const screenshot = await page.screenshot();

Ici, le script prend une capture d’écran de la vue actuelle de la page. Cela est particulièrement utile pour l’archivage ou l’analyse visuelle.

defImages(screenshot, { maxWidth: 800 });

Après avoir capturé la capture d’écran, cette ligne enregistre l’image pour une analyse ultérieure. defImages est une fonction qui rend la capture disponible pour les fonctions analytiques ou IA suivantes dans le script.

const text = parsers.HTMLtoMarkdown(await page.content());

Cette commande extrait tout le contenu textuel de la page, ce qui peut être précieux pour des audits de contenu ou des analyses textuelles.

5. Enregistrement du texte pour une utilisation ultérieure

Section intitulée « 5. Enregistrement du texte pour une utilisation ultérieure »
def("PAGE_TEXT", text);

Le texte extrait est ensuite stocké sous l’identifiant PAGE_TEXT, permettant de le référencer dans des parties ultérieures du script ou pour la documentation.

$`Analyze the content of the page and provide insights.`;

Enfin, cette ligne représente un appel à une fonction IA ou définie par script qui analyse le contenu capturé et fournit des insights. C’est ici que se révèle la véritable puissance de l’automatisation et de l’intégration IA dans GenAIScript, permettant une analyse détaillée sans intervention manuelle.

Avec un script simple mais puissant comme celui discuté, GenAIScript facilite l’automatisation du processus d’analyse de contenu de pages web. Que vous meniez une analyse concurrentielle, que vous réalisiez des audits de contenu ou que vous archiviez simplement des pages web, GenAIScript offre une solution évolutive et efficace.