Ingredients list cutting: ignore phrases: Difference between revisions
(Created page with "The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for /wiki.openfoodfacts.org/Ingredients List Cutting|Ingredients List Cu...") |
No edit summary |
||
Line 1: | Line 1: | ||
The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for [[/ | The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for [[Ingredients List Cutting]]. | ||
<code>'bs' => [</code> | |||
<code>'u promjenljivom odnosu', # in a variable ratio</code> | |||
<code>],</code> | |||
<code>'da' => [</code> | |||
<code>'^Mælkechokoladen indeholder (?:også andre vegetabilske fedtstoffer end kakaosmør og )?mindst',</code> | |||
<code>],</code> | |||
<code>'de' => ['^in ver[äa]nderlichen Gewichtsanteilen$', '^Unter Schutzatmosph.re verpackt$',],</code> | |||
<code>'en' => [</code> | |||
<code># breaking this regexp into the comma separated combinations (because each comma makes a new ingredient):</code> | |||
<code># (allerg(en|y) advice[:!]? )?(for allergens[,]? )?(including cereals containing gluten, )?see ingredients (highlighted )?in bold</code> | |||
<code># We can't just trim it from the end of the ingredients, because trace allergens can come after it.</code> | |||
<code>'^(!|! )?allerg(en|y) advice([:!]? for allergens)?( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',</code> | |||
<code>'^for allergens( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',</code> | |||
<code>'^including cereals containing gluten( see ingredients (highlighted )?in bold)?$',</code> | |||
<code>'^see ingredients in bold$',</code> | |||
<code>'^in var(iable|ying) proportions$',</code> | |||
<code>'^dietary advice[:]?$',</code> | |||
<code>'^in milk chocolate cocoa solids',</code> | |||
<code>'^the milk chocolate contains vegetable fats in addition to cocoa butter and cocoa solids',</code> | |||
<code>'^meat content',</code> | |||
<code>'^packaged in a protective atmosphere',</code> | |||
<code>],</code> | |||
<code>'fr' => [</code> | |||
<code>'(\%|pourcentage|pourcentages) (.*)(exprim)',</code> | |||
<code>'pour( | faire | fabriquer )100'</code> | |||
<code>, # x g de XYZ ont été utilisés pour fabriquer 100 g de ABC</code> | |||
<code>'contenir|présence', # présence exceptionnelle de ... peut contenir ... noyaux etc.</code> | |||
<code>'^soit ', # soit 20g de beurre reconstitué</code> | |||
<code>'en proportions variables',</code> | |||
<code>'en proportion variable',</code> | |||
<code>'^équivalent ', # équivalent à 20% de fruits rouges</code> | |||
<code>'^malgré ', # malgré les soins apportés...</code> | |||
<code>'^il est possible', # il est possible qu'il contienne...</code> | |||
<code>'^(facultatif|facultative)'</code> | |||
<code>, # sometime indicated by producers when listing ingredients is not mandatory</code> | |||
<code>'^(éventuellement|eventuellement)$'</code> | |||
<code>, # jus de citrons concentrés et, éventuellement, gélifiant : pectine de fruits.</code> | |||
<code>'^(les )?informations ((en (gras|majuscule|italique))|soulign)'</code> | |||
<code>, # Informations en gras destinées aux personnes allergiques.</code> | |||
<code>'^(pour les )?allerg[èe]nes[:]?$', # see english above.</code> | |||
<code>'^y compris les cereales contenant du gluten$',</code> | |||
<code>'^voir (les )?ingr[ée]dients (indiqu[ée]s )?en gras$',</code> | |||
<code>'^(les allerg[èe]nes )?sont indiques en gras$',</code> | |||
<code>'^Conditionné[es]* sous atmosphère', # ... protectrice/contrôlée/modifiée/etc</code> | |||
<code>],</code> | |||
<code>'fi' => [</code> | |||
<code>'^(?:Täysjyvää|Kauraa) \d{1,3}\s*% leivän viljasta ja \d{1,3}\s*% leivän painosta$',</code> | |||
<code>'^jyviä ja siemeniä \d{1,3}\s*% leivontaan käytettyjen jauhojen määrästä$',</code> | |||
<code>'^(?:Täysjyvä(?:ruista|ä)|Kauraa) \d{1,3}\s*% viljaraaka-aineesta',</code> | |||
<code>'^Lihaa? ja lihaan verrattav(?:at|ia) valmistusaine(?:et|ita)',</code> | |||
<code>'^Maitosuklaa sisältää maidon kiinteitä aineita vähintään',</code> | |||
<code>'^Leivontaan käytetyistä viljasta \d{1,3}\s*% on ruista$',</code> | |||
<code>'^(?:Maito|Tummassa )?suklaassa(?: kaakaota)? vähintään',</code> | |||
<code>'^(?:Jauhelihapihvin )?(?:Suola|Liha|Rasva)pitoisuus',</code> | |||
<code>'^sisältää kaakaovoin lisäksi muita kasvirasvoja$',</code> | |||
<code>'^Vähintään \d{1,3}\s*% kaakaota maitosuklaassa$',</code> | |||
<code>'^(?:Täysmehu|hedelmä|ruis)(?:osuus|pitoisuus)',</code> | |||
<code>'(?:saattaa|voi) sisältää (?:ruotoja|luuta)$',</code> | |||
<code>'^Sisältää \d{1,3}\s*% (?:siemeniä|kauraa)$',</code> | |||
<code>'^Maitosuklaa sisältää kaakaota vähintään',</code> | |||
<code>'^vastaa \d{1,3}\s*% viljaraaka-aineista$',</code> | |||
<code>'^Kuorta ei ole tarkoitettu syötäväksi$',</code> | |||
<code>'^Kollageeni\/liha-proteiinisuhde alle',</code> | |||
<code>'^Valmistettu (?:myllyssä|tehtaassa)', # Valmistettu myllyssä, jossa käsitellään vehnää.</code> | |||
<code>'^Kuiva-aineiden täysjyväpitoisuus',</code> | |||
<code>'^Tuote on valmistettu linjalla'</code> | |||
<code>, # Tuote on valmistettu linjalla, jossa käsitellään myös muita viljoja.</code> | |||
<code>'^jota käytetään leivonnassa'</code> | |||
<code>, # Sisältää pienen määrän vehnää, jota käytetään leivonnassa alus- ja päällijauhona.</code> | |||
<code>'^Leivottu tuotantolinjalla'</code> | |||
<code>, # Leivottu tuotantolinjalla, jossa käsitellään myös muita viljoja.</code> | |||
<code>'^vastaa 100 g porkkanaa$',</code> | |||
<code>'^Tuotteessa mustikkaa$',</code> | |||
<code>'vaihtelevina osuuksina',</code> | |||
<code>'^lakritsin osuudesta$',</code> | |||
<code>'^Kaakaota vähintään',</code> | |||
<code>'^(?:Maito)?rasvaa',</code> | |||
<code>'^täysjyväsisältö',</code> | |||
<code>],</code> | |||
<code>'hr' => [</code> | |||
<code>'^u tragovima$', # in traces</code> | |||
<code>'označene podebljano', # marked in bold</code> | |||
<code>'savjet kod alergije', # allergy advice</code> | |||
<code>'u promjenjivim omjerima|u promjenjivim udjelima|u promijenljivom udjelu'</code> | |||
<code>, # in variable proportions</code> | |||
<code>'uključujući žitarice koje sadrže gluten', # including grains containing gluten</code> | |||
<code>'za alergene', # for allergens</code> | |||
<code>'u promjenjivim udjelima' # in variable proportions</code> | |||
<code>],</code> | |||
<code>'it' => ['^in proporzion[ei] variabil[ei]$',],</code> | |||
<code>'nb' => ['^Pakket i beskyttende atmosfære$',],</code> | |||
<code>'nl' => [</code> | |||
<code>'^allergie.informatie$', 'in wisselende verhoudingen',</code> | |||
<code>'harde fractie', 'o\.a\.',</code> | |||
<code>'en',</code> | |||
<code>],</code> | |||
<code>'pl' => [</code> | |||
<code>'^czekolada( deserowa)?: masa kakaowa min(imum)?$',</code> | |||
<code>'^masa kakaowa( w czekoladzie mlecznej)? min(imum)?$',</code> | |||
<code>'^masa mleczna min(imum)?$',</code> | |||
<code>'^(?>\d+\s+g\s+)?(?>\w+\s?)*?100\s?g(?> \w*)?$', # "pomidorów zużyto na 100 g produktu"</code> | |||
<code>'^\w*\s?z \d* g (?>\w+\s?)*?100\s?g\s(?>produktu)?$'</code> | |||
<code>, # "Sporządzono z 40 g owoców na 100 g produktu"</code> | |||
<code>'^(?>\d+\s+g\s+)?(?>\w+\s?)*?ze\s+\d+\s?g(?>\s+\w*)*$' # "produktu wyprodukowano ze 133 g mięsa wieprzowego"</code> | |||
<code>],</code> | |||
<code>'ru' => [</code> | |||
<code>'^россия$', '^состав( продукта)?$',</code> | |||
<code>'^энергетическая ценность$', '^калорийность$',</code> | |||
<code>'^углеводы$', '^не менее$',</code> | |||
<code>'^средние значения$', '^содержат$',</code> | |||
<code>'^идентичный натуральному$', '^(g|ж|ул)$'</code> | |||
<code>],</code> | |||
<code>'sl' => [</code> | |||
<code>'lahko vsebuje',</code> | |||
<code>'lahko vsebuje sledi', # may contain traces</code> | |||
<code>],</code> | |||
<code>'sv' => [</code> | |||
<code>'^Minst \d{1,3}\s*% kakao I chokladen$',</code> | |||
<code>'^Mjölkchokladen innehåller minst',</code> | |||
<code>'^Kakaohalt i chokladen$',</code> | |||
<code>'varierande proportion',</code> | |||
<code>'kan innehålla ben$',</code> | |||
<code>'^Kakao minst',</code> | |||
<code>'^fetthalt',</code> | |||
<code>],</code> |
Revision as of 11:49, 14 October 2023
The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for Ingredients List Cutting.
'bs' => [
'u promjenljivom odnosu', # in a variable ratio
],
'da' => [
'^Mælkechokoladen indeholder (?:også andre vegetabilske fedtstoffer end kakaosmør og )?mindst',
],
'de' => ['^in ver[äa]nderlichen Gewichtsanteilen$', '^Unter Schutzatmosph.re verpackt$',],
'en' => [
# breaking this regexp into the comma separated combinations (because each comma makes a new ingredient):
# (allerg(en|y) advice[:!]? )?(for allergens[,]? )?(including cereals containing gluten, )?see ingredients (highlighted )?in bold
# We can't just trim it from the end of the ingredients, because trace allergens can come after it.
'^(!|! )?allerg(en|y) advice([:!]? for allergens)?( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',
'^for allergens( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',
'^including cereals containing gluten( see ingredients (highlighted )?in bold)?$',
'^see ingredients in bold$',
'^in var(iable|ying) proportions$',
'^dietary advice[:]?$',
'^in milk chocolate cocoa solids',
'^the milk chocolate contains vegetable fats in addition to cocoa butter and cocoa solids',
'^meat content',
'^packaged in a protective atmosphere',
],
'fr' => [
'(\%|pourcentage|pourcentages) (.*)(exprim)',
'pour( | faire | fabriquer )100'
, # x g de XYZ ont été utilisés pour fabriquer 100 g de ABC
'contenir|présence', # présence exceptionnelle de ... peut contenir ... noyaux etc.
'^soit ', # soit 20g de beurre reconstitué
'en proportions variables',
'en proportion variable',
'^équivalent ', # équivalent à 20% de fruits rouges
'^malgré ', # malgré les soins apportés...
'^il est possible', # il est possible qu'il contienne...
'^(facultatif|facultative)'
, # sometime indicated by producers when listing ingredients is not mandatory
'^(éventuellement|eventuellement)$'
, # jus de citrons concentrés et, éventuellement, gélifiant : pectine de fruits.
'^(les )?informations ((en (gras|majuscule|italique))|soulign)'
, # Informations en gras destinées aux personnes allergiques.
'^(pour les )?allerg[èe]nes[:]?$', # see english above.
'^y compris les cereales contenant du gluten$',
'^voir (les )?ingr[ée]dients (indiqu[ée]s )?en gras$',
'^(les allerg[èe]nes )?sont indiques en gras$',
'^Conditionné[es]* sous atmosphère', # ... protectrice/contrôlée/modifiée/etc
],
'fi' => [
'^(?:Täysjyvää|Kauraa) \d{1,3}\s*% leivän viljasta ja \d{1,3}\s*% leivän painosta$',
'^jyviä ja siemeniä \d{1,3}\s*% leivontaan käytettyjen jauhojen määrästä$',
'^(?:Täysjyvä(?:ruista|ä)|Kauraa) \d{1,3}\s*% viljaraaka-aineesta',
'^Lihaa? ja lihaan verrattav(?:at|ia) valmistusaine(?:et|ita)',
'^Maitosuklaa sisältää maidon kiinteitä aineita vähintään',
'^Leivontaan käytetyistä viljasta \d{1,3}\s*% on ruista$',
'^(?:Maito|Tummassa )?suklaassa(?: kaakaota)? vähintään',
'^(?:Jauhelihapihvin )?(?:Suola|Liha|Rasva)pitoisuus',
'^sisältää kaakaovoin lisäksi muita kasvirasvoja$',
'^Vähintään \d{1,3}\s*% kaakaota maitosuklaassa$',
'^(?:Täysmehu|hedelmä|ruis)(?:osuus|pitoisuus)',
'(?:saattaa|voi) sisältää (?:ruotoja|luuta)$',
'^Sisältää \d{1,3}\s*% (?:siemeniä|kauraa)$',
'^Maitosuklaa sisältää kaakaota vähintään',
'^vastaa \d{1,3}\s*% viljaraaka-aineista$',
'^Kuorta ei ole tarkoitettu syötäväksi$',
'^Kollageeni\/liha-proteiinisuhde alle',
'^Valmistettu (?:myllyssä|tehtaassa)', # Valmistettu myllyssä, jossa käsitellään vehnää.
'^Kuiva-aineiden täysjyväpitoisuus',
'^Tuote on valmistettu linjalla'
, # Tuote on valmistettu linjalla, jossa käsitellään myös muita viljoja.
'^jota käytetään leivonnassa'
, # Sisältää pienen määrän vehnää, jota käytetään leivonnassa alus- ja päällijauhona.
'^Leivottu tuotantolinjalla'
, # Leivottu tuotantolinjalla, jossa käsitellään myös muita viljoja.
'^vastaa 100 g porkkanaa$',
'^Tuotteessa mustikkaa$',
'vaihtelevina osuuksina',
'^lakritsin osuudesta$',
'^Kaakaota vähintään',
'^(?:Maito)?rasvaa',
'^täysjyväsisältö',
],
'hr' => [
'^u tragovima$', # in traces
'označene podebljano', # marked in bold
'savjet kod alergije', # allergy advice
'u promjenjivim omjerima|u promjenjivim udjelima|u promijenljivom udjelu'
, # in variable proportions
'uključujući žitarice koje sadrže gluten', # including grains containing gluten
'za alergene', # for allergens
'u promjenjivim udjelima' # in variable proportions
],
'it' => ['^in proporzion[ei] variabil[ei]$',],
'nb' => ['^Pakket i beskyttende atmosfære$',],
'nl' => [
'^allergie.informatie$', 'in wisselende verhoudingen',
'harde fractie', 'o\.a\.',
'en',
],
'pl' => [
'^czekolada( deserowa)?: masa kakaowa min(imum)?$',
'^masa kakaowa( w czekoladzie mlecznej)? min(imum)?$',
'^masa mleczna min(imum)?$',
'^(?>\d+\s+g\s+)?(?>\w+\s?)*?100\s?g(?> \w*)?$', # "pomidorów zużyto na 100 g produktu"
'^\w*\s?z \d* g (?>\w+\s?)*?100\s?g\s(?>produktu)?$'
, # "Sporządzono z 40 g owoców na 100 g produktu"
'^(?>\d+\s+g\s+)?(?>\w+\s?)*?ze\s+\d+\s?g(?>\s+\w*)*$' # "produktu wyprodukowano ze 133 g mięsa wieprzowego"
],
'ru' => [
'^россия$', '^состав( продукта)?$',
'^энергетическая ценность$', '^калорийность$',
'^углеводы$', '^не менее$',
'^средние значения$', '^содержат$',
'^идентичный натуральному$', '^(g|ж|ул)$'
],
'sl' => [
'lahko vsebuje',
'lahko vsebuje sledi', # may contain traces
],
'sv' => [
'^Minst \d{1,3}\s*% kakao I chokladen$',
'^Mjölkchokladen innehåller minst',
'^Kakaohalt i chokladen$',
'varierande proportion',
'kan innehålla ben$',
'^Kakao minst',
'^fetthalt',
],